斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库

AIGC动态6个月前发布 almosthuman2014
1,024 0 0
斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库

 

文章摘要


【关 键 词】 人工智能模型比较抄袭争议技术质疑关注度高

在GPT-4o问世后,Llama3的地位受到挑战。然而,斯坦福团队推出的Llama3-V引发关注,这一模型以仅500美元的成本,实现了与GPT4-V、Gemini Ultra和Claude Opus相媲美的多模态性能,且模型体积小100倍。

Llama3-V在发布之初即在推特上获得大量关注,浏览量突破30万,并冲上HuggingFace Trending Top 5。但有网友指出,Llama3-V在未提及的情况下使用了MiniCPM-Llama3-V 2.5的预训练tokenizer,并且两者在模型结构和配置文件上存在高度相似性。

针对质疑,Llama3-V的作者解释称他们使用了MiniCPM-V-2的tokenizer,并参考了LLaVA-UHD架构,但网友Magic Yang通过深入分析发现这些解释存在矛盾。他指出Llama3-V实际上使用了与MiniCPM-Llama3-V 2.5相同的tokenizer和特殊符号,且在Hugging Face上直接导入了MiniCPM-Llama3-V 2.5的代码。

更令人惊讶的是,Magic Yang发现Llama3-V的作者似乎并不完全理解自己的代码,例如对感知器重采样器的描述存在误解。此外,SigLIP的Sigmoid激活功能在多模态大语言模型训练中并未使用,作者对其代码的理解存在偏差。

这些发现加重了对Llama3-V的质疑,使得这一模型的原创性和可靠性受到广泛关注。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3326字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...