
文章摘要
阿里巴巴近日开源了两款基于Qwen3基础模型的新模型——Qwen3-Embedding和Qwen3-Reranker,专为文本表征、检索与排序任务设计。这两款模型在多语言文本理解方面表现出色,支持119种语言,并在多项基准测试中取得了领先成绩。Qwen3-Embedding在8B参数规模下以70.58的高分在多语言文本表征基准测试中排名第一,超越了谷歌的Gemini-Embedding等商业API服务。Qwen3-Reranker在基本相关性检索任务中同样表现优异,8B模型在多语言、中文和英文检索任务中分别取得了69.02、77.45和69.76的高分,显著优于其他基线模型。
文本表征和排序是自然语言处理与信息检索中的核心任务,广泛应用于网络搜索、问答系统和推荐系统等领域。高质量的文本表征能够精准捕捉文本间的语义关系,而有效的排序机制则确保最相关的结果优先呈现给用户。然而,在大规模数据上训练出既具备泛化能力又能精准检索、排序的模型具有挑战性,而Qwen3系列模型在这一领域取得了显著突破。
在模型架构方面,Qwen3-Embedding和Qwen3-Reranker采用了基于Qwen3基础模型的密集版本,并提供了0.6B、4B和8B三种参数规模的配置,以满足不同场景下的性能与效率需求。Qwen3-Embedding采用了因果注意力机制,并在输入序列末尾添加了[EOS]标记,从最后一层的隐藏状态中提取文本的语义表征,增强了模型对文本语义的理解能力。Qwen3-Reranker则采用了单塔结构,将文本对(如用户查询与候选文档)作为输入,并通过大模型的对话模板将相似性评估任务转化为二分类问题,从而更精准地评估文本对之间的相关性。
在训练范式方面,这两款模型采用了创新的多阶段训练方法,包括大规模无监督预训练、高质量数据的监督微调以及模型融合策略。在无监督预训练阶段,研究人员利用Qwen3基础模型的文本生成能力,合成了大规模的弱监督训练数据,涵盖了多种任务类型、语言和领域,突破了传统方法依赖社区论坛或开源数据筛选获取弱监督文本对的局限性。在监督微调阶段,研究人员选择了高质量的小规模标注数据进行训练,进一步提升模型的性能。最后,在模型融合阶段,采用了基于球面线性插值的模型融合技术,显著提升了模型的稳定性和一致性。
此外,为了生成高质量的合成数据,研究人员采用了精心设计的提示策略。在文本检索任务中,模型通过多语言预训练语料库生成数据,并为每个文档分配特定的角色,以模拟潜在用户对该文档的查询。提示中还包含了多种维度,如查询类型关键词、事实性、总结性、判断性、查询长度、难度和语言等,确保了合成数据的高质量和多样性。这种合成数据的方法不仅提高了数据的可控性,还能够在低资源语言和领域中生成高质量的数据,进一步提升了模型的性能。
原文和模型
【原文链接】 阅读原文 [ 1460字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆