Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

AIGC动态2年前 (2024)发布 AIera

3,598 0 0

文章摘要

【关键词】 人工智能、Claude 3、化学任务、微调模型、SMolInstruct

Claude 3是一款人工智能模型，其在通用任务上的表现已经被全球公认为最强。

然而，对于特定的专业领域，比如化学，其表现如何却是一个未知数。

化学在药物发现和材料科学等领域发挥着至关重要的作用，但现有研究显示，大多数人工智能系统在化学任务上的性能令人沮丧。

为了解决这个问题，一支来自OSU的团队构建了一个专门针对化学任务指令微调的数据集，命名为SMolInstruct。

这个数据集涵盖了14种任务，包括名称转换、属性预测、分子描述、分子生成、正向合成和逆向合成等。

它包含了340万个不同的样本和160万个不同的分子，涵盖了各种大小、结构和性质的化合物，展示了广泛的化学知识覆盖范围。

该团队在SMolInstruct数据集上对四个开源LLM（Galactica、Llama 2、Code Llama和Mistral）进行微调，创建了一系列专门用于化学任务的LLM，称为LlaSMol。

结果显示，LlaSMol在所有任务上都显著优于现有的LLM，包括GPT-4。

例如，将SMILES转换为分子式的准确率达到94.5%，而GPT-4仅为16.4%；对于逆合成任务，准确率达到32.9%，而GPT-4仅为0%，并接近最先进的任务特定模型SOTA。

Claude 3一经推出，该团队便在SMolInstruct 该基准测试上对于Claude 3 Opus同样进行了实验。

虽然与LlaSMol还是有差距，但在大多数任务中，Claude 3的表现远远超过GPT-4。

虽然在其中的一个名称转换任务S2F中，也就是一个将用于表示分子结构的文本字符串转换为分子式去计算原子数量的任务，Claude 3要比GPT-4差得多，但大多数任务的大幅领先还是展现了Claude 3在专业领域学习能力上的优越性。

在SMolInstruct原论文的结尾，作者也表达了对在化学领域，LLM能够超越任务特定模型的期许和展望。

任务特定模型毕竟是基于固定的输入，它们被优化以执行其特定任务，通常在大小和复杂性上都较小，而且在跨知识共享的任务中很难有好的表现。

而LLM有更多的参数和模型结构，可以在学习中进化，也能快速适应新的需求。

不可否认的是，经过微调的LLM更多的在专业领域上赶超任务特定模型，目前非常依赖于微调指令的完整性、全面性、准确性。

但若以发展的眼光来比较两种模型，尤其是在我们已经感受到Claude 3可怕的成长速度之后。

可以预想到，作为通用模型来设计的LLM，会在专业领域逐渐爆发。

原文和模型

【原文链接】 阅读原文 [ 1118字 | 5分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # AI大模型 # GPT-GPTs # Azure # Claude 3 # gpt-4-32k # SMolInstruct # 人工智能 # 化学任务 # 微调模型 # 新智元

文章版权归作者所有，未经允许请勿转载。

阿里数赛首次向AI开放！知乎网友：给AI捏了把汗，该防止人类替考

新智元

3,491

硅谷大佬集体共识：AI正在消灭中层管理者

AIGC开放社区

620

台积电低功耗芯片路线图

admin

4,031

OpenAI发布全新微调API ：ChatGPT支持更详细可视化微调啦！

AIGC开放社区

4,278

让OpenAI o1逆天的慢思考，360两月前就做出来了？周鸿祎CoE媲美CoT，应用太前瞻

新智元

3,775

Sora最新生成的7个创意短片，太惊艳了！

AIGC开放社区

3,837

暂无评论

暂无评论...

Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

文章摘要

原文和模型

一张图即出AI视频！谷歌全新扩散模型，让人物动起来

1320亿参数，性能超LLaMA2、Grok-1！开源大模型DBRX

相关文章

暂无评论

热门网址

热门文章

Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

文章摘要

原文和模型

一张图即出AI视频！谷歌全新扩散模型，让人物动起来

1320亿参数，性能超LLaMA2、Grok-1！开源大模型DBRX

相关文章

暂无评论

AstronClaw-安全养虾

LibTV-AI视频创作

讯飞AI大学堂

热门网址

热门文章