标签:多任务训练

告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成

流匹配模型的后训练对齐长期面临严重的“跷跷板效应”,单一奖励强化学习虽能在孤立任务中逼近性能极限,却直接导致非目标领域能力发生剧烈退化;而混合奖励组...

拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开

在最新的技术突破中,商汤科技的自研通用Embedding模型Piccolo2已在中文语义向量评测基准C-MTEB中名列第一,成为当前最大规模、最为全面的中文语义向量表征能...