标签:模型
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!
视觉自监督学习(SSL)在多模态任务中的潜力得到了验证,研究表明,通过扩展模型和数据规模,SSL能够媲美甚至超越语言监督方法(如CLIP)。这项研究由杨立昆...
Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告
Meta最新发布的基础模型Llama 4在发布36小时后,引发了广泛的负面评价,尤其是在代码能力方面表现不佳。经典的小球反弹测试中,模型未能正确模拟物理效果,小...
刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座
Llama 4 Behemoth作为教师模型,拥有2880亿个活跃参数和近2万亿个总参数,在数学、多语言处理和图像基准测试方面提供了最先进的性能。通过新的蒸馏损失函数和...
LLM「想太多」有救了!高效推理让大模型思考过程更精简
大语言模型(LLM)在复杂推理任务中表现出色,但常常出现「过度思考」的现象,导致推理过程冗长且效率低下。这种「过度思考」不仅增加了计算资源的消耗,还影...
Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek
Meta在周末发布了其最新AI模型系列Llama 4,包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。这些模型经过大量未标注的文本、图像和视频数据训练,...
刚刚,Meta发布Llama 4系列模型
Meta今日发布了Llama 4系列模型,标志着其在人工智能领域的又一重要进展。Llama 4系列是首批开放权重的原生多模态模型,支持超长上下文,并首次采用了混合专...
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
在训练细节方面,Meta采用了全新的训练技术MetaP,通过设置关键模型超参数,实现了在不同批量大小、模型宽度和深度之间的良好扩展和泛化。Llama 4系列在200种...
Meta推出Llama 4:MoE构架、原生多模态、10M上下文,没有发布推理模型
Meta 创始人兼首席执行官马克·扎克伯格宣布推出全新 Llama 4 系列模型,包括两款即时可用的模型——Llama 4 Maverick 和 Llama 4 Scout,以及一款仍在训练中的...
中文海报设计,赛道一夜颠覆
豆包AI的文生图功能近期进行了显著升级,主要体现在四个方面:标题大字准确度提升至94%,小字生成能力也有所增强;语义理解和影视质感得到优化,镜头更具叙事...
实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?
最近,针对国内外7款大模型进行了一场数学能力测试,测试题目主要来自“阿里巴巴全球数学竞赛”和“中国数学奥林匹克(CMO)”的真题,涵盖了多个数学领域,包括...