图像生成
图像,绘画
中国AI的另一面,创业公司正在集体“出局”
全球AI发展呈现出大厂与创业公司截然不同的发展路径。数据显示,在海外市场,AI产品Top50中仅有5个来自大厂,而国内Top20应用中大厂占比高达70%,字节、百度...
万字硬核解读SAM 3:不止分割一切,它开始理解世界了
Meta最新的SAM 3模型在计算机视觉领域实现了重大突破,将分割模型从简单的视觉交互工具升级为能理解语义概念的视觉-语言多模态模型。该模型通过可提示概念分...
谢赛宁团队用RAE实现从8%到84%的飞跃,宣告VAE时代结束
谢赛宁团队提出的表征自编码器(RAE)架构在图像生成领域取得重大突破,将ImageNet图像生成的FID指标提升至1.13,标志着传统变分自编码器(VAE)时代的终结。...
程序员用AI写歌还赚钱了!用AI 批量生产“爆款”,这个副业“杀疯了”?
AI音乐创作正以前所未有的速度改变着艺术生产和消费的格局。2024年多个案例显示,由AI生成的音乐作品已具备市场竞争力:原神玩家用Suno制作的歌曲获得640万播...
黑洞物理学家加盟OpenAI,GPT-5 Pro半小时重现人类数天推导
理论物理学家Alex Lupsasca加入OpenAI for Science团队,标志着人工智能与前沿科学研究的深度融合迈入新阶段。作为物理学新视野奖获得者,Lupsasca的加盟源于...
打败 Qwen2.5-VL,完全开源可复现LLaVA-OneVision-1.5 的多模态模型
LLaVA(大型语言与视觉助手)的发展历程展现了开源社区在多模态模型领域的突破性进展。从2023年4月首次提出视觉指令微调方法,到2024年8月推出功能全面的LLaV...
“AI教母”李飞飞的全新世界模型问世!一张英伟达AI芯片就能生成无限3D世界
李飞飞团队的最新研究成果RTFM(Real-Time Frame Model)标志着生成式世界模型技术取得重大突破。该模型基于大规模视频数据训练,能够通过输入1张或多张2D图...
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
火山引擎近期对豆包语音大模型进行了重大升级,推出了豆包语音合成模型2.0和豆包声音复刻模型2.0。此次升级的核心目标是让AI语音从“像人”走向“懂人”,通过深...
Adobe 新研究:不用再「喂」训练数据,VLM 靠和自己玩游戏变聪明
视觉语言模型(VLM)面临数据稀缺和人类知识天花板两大核心挑战。当前训练方法高度依赖人工标注数据和强化学习奖励设计,导致多模态标注成本高昂,且模型能力...
大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金
大型语言模型在国际天文学和天体物理学奥林匹克竞赛(IOAA)中展现出接近或超越人类金牌选手的卓越表现。最新研究以2022-2025年IOAA试题为基准,系统评估了GP...







