标签：多任务训练

告别多奖励跷跷板：Flow-OPD将多教师OPD带入图像生成

流匹配模型的后训练对齐长期面临严重的“跷跷板效应”，单一奖励强化学习虽能在孤立任务中逼近性能极限，却直接导致非目标领域能力发生剧烈退化；而混合奖励组...

AIGC动态

2个月前

拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开

在最新的技术突破中，商汤科技的自研通用Embedding模型Piccolo2已在中文语义向量评测基准C-MTEB中名列第一，成为当前最大规模、最为全面的中文语义向量表征能...

AIGC动态

2年前 (2024)