标签:模型对比

更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜

具身智能领域在过去一年呈现爆发式增长,但技术演示的繁荣掩盖了对模型真实泛化能力评估的缺失。当前行业普遍依赖预设环境中的“甜点位”或反复重试进行测试,...

DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!

近年来,大模型领域发展迅猛,主流模型数量激增,涵盖GPT、Llama、Gemma、Mistral、DeepSeek、Qwen、Kimi、GLM等多个系列,参数规模从数亿扩展至万亿级别,新...

实测美团 LongCat:快到极致,但是别说追平 DeepSeek

近期美团的 LongCat-Flash-Chat 模型频频刷屏,有说法称其已追平 DeepSeek-V3.1。AI 科技评论实测后发现,两款模型风格差异明显,也引出了模型在真实应用中速...

GPT-5费尽心机“作弊”,只为超过心魔Claude

GPT5发布后未带来震撼,OpenAI聚焦大模型落地与应用,发布会上强调其编程能力,一众AI IDE工具也迅速接入。然而,有媒体披露OpenAI在编程能力测试中“作弊”,...

P图手残党有救了,豆包·图像编辑模型3.0上线,一个对话框搞定「增删改替」

火山引擎发布的豆包・图像编辑模型 SeedEdit 3.0 标志着图像编辑技术的一次重大升级。该模型主打“全能且可控”,具备三大核心优势:更强的指令遵循能力、更优...

OpenAI会杀死Manus们吗?

OpenAI于7月18日发布ChatGPT Agent,标志着AI Agent领域进入巨头主导的新阶段。这一系统通过单一模型实现任务规划、工具调用和文档生成等复杂流程,创始人山...

手把手教你用最新的AI音乐模型,创造一首属于你自己的歌。

在最近的一次交流中,昆仑万维的朋友提到了他们即将上线的新音乐模型Mureka v7,并认为其质量可以与Suno 4.5相媲美。作为国内为数不多的AI音乐产品,Mureka v...

实测完Runway深夜上线的最新模型Gen4,我觉得可灵还是No.1。

Runway近期发布了其最新的AI视频生成模型Gen4,标志着该公司在沉寂九个月后的重大更新。Gen4的推出旨在将AI视频技术推向一个新的高度,特别是在多主体参考功...

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

OpenAI近期发布了一系列新的语音和文本处理模型,包括两个语音转文本(STT)模型和一个文本生成语音(TTS)模型。这些模型通过API提供接入方式,旨在提升语音...

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

加州大学圣迭戈分校Hao AI Lab通过开发游戏智能体评估框架,为大型语言模型的性能测试开辟了新路径。研究团队利用《超级马里奥》《2048》和《俄罗斯方块》等...
1 2