星环科技孙元浩:语料已经是大模型最大的挑战

星环科技孙元浩:语料已经是大模型最大的挑战

 

文章摘要


【关 键 词】 大模型训练数据利用AI工具链知识图谱语料开发

星环科技创始人及CEO孙元浩认为,当前大模型训练并未将人类互联网数据穷尽,各行各业企业内部的数据还未被充分利用。高质量的数据可以显著提高大模型的准确性。然而,企业内部数据多为非结构化、海量、多形式的小文件,标注和校正专业数据存在门槛,对文件系统、知识库系统、语料开发系统等提出新要求。

为应对挑战,星环科技采取了以下措施:
1. 升级大数据平台,提高文件系统支持能力和数据存储效率。
2. 增加Python接口,提高语料处理效率和灵活性。
3. 推出分布式Python引擎,提高处理海量语料的能力。
4. 优化向量数据库,提高召回准确度和分布式性能。
5. 构建知识图谱,弥补向量召回准确度不足。
6. 开发语料开发工具,自动化或半自动化处理文档类型、语音视频。
7. 提供大模型工具链,提高构建效率和管理能力。
8. 构建AI原生应用,提高企业内部信息检索和数据分析效率。
9. 支持多种模型和数据源,提高数据处理灵活性和适应性。

孙元浩认为,提升语料质量是大模型提升准确性的最大挑战。模型结构和训练方法已不是秘密,关键在于缺乏高质量语料。他提出以下提升模型准确率的方法:
1. 构建外挂知识库,让模型参考知识库内容进行写作或分析。
2. 对大模型进行微调,学习特定领域知识和语言习惯。
3. 持续训练,提高模型在特定领域的精准度和回答能力。
4. 提供语料开发工具,帮助企业整理和清洗语料。
5. 结合多种方法,进一步提高模型准确率。

星环科技的目标是将大模型训练成理科生,让其能够进行数学分析和理解自然科学各领域知识。通过AI Infra工具,企业可将多模语料转换为专业领域知识,构建知识壁垒。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1876字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...