图像生成
图像,绘画
AI看不到的爱心,成了最棒的AI检测器。
一张看似简单的视觉错觉图引发了关于AI与人类视觉差异的深度思考。当人们能够轻易识别出图中'左右横跳'的爱心时,主流AI模型却无一例外地将其误判为静态噪点...
从 SD 到 Wan2.5-Preview,AI 视频 2025 质变启示录
AI视频技术从极客专属到全民可用的跨越,标志着生成式AI进入新阶段。2025年第四季度,OpenAI的Sora 2与阿里的Wan2.5-Preview两大模型引发全球热潮,前者通过'...
Wan2.2-Animate又火了,5分钟让抠脚大汉秒变高冷女神。
阿里开源模型Wan2.2 Animate近期因生成高精度换脸视频引发广泛关注。该技术通过结合静态人物图像与动态参考视频,能精准复刻表情和动作,甚至支持声音替换,...
中科院联合清华等发布视觉语言行动推理模型VLA-R1,让机器人先思考再行动
中科院自动化所、清华大学与GigaAI联合发布了视觉-语言-行动(VLA)模型的R1推理版本,该模型通过引入思维链机制和强化学习策略,显著提升了机器人在复杂环境...
刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力
北京智源人工智能研究院发布了其多模态系列模型的最新力作——悟界・Emu3.5,被定义为“多模态世界大模型”。这一模型通过在超过10万亿的多模态Token上进行端到端...
刚刚,最佳VLA模型GigaBrain-0开源:世界模型驱动10倍数据,真机碾压SOTA
国内首个利用世界模型生成数据实现真机泛化的端到端VLA具身基础模型GigaBrain-0正式发布。该模型由极佳视界与湖北人形机器人创新中心联合开发,标志着通用机...
美团杀入视频生成模型赛道,LongCat-Video 136亿参数媲美顶尖模型,效率提升10倍
美团LongCat团队发布了LongCat-Video基础视频生成模型,该模型拥有136亿参数,能在数分钟内生成720p、30帧每秒的高质量视频。模型在文本转视频、图像转视频和...
这类视觉芯片,走向台前
人工智能技术正在以前后端协同的方式重塑视觉芯片的发展路径。前端通过AI ISP实现画质增强,后端则依靠NPU执行高阶智能分析任务,画质与算力已成为衡量视觉芯...
一个辍学生,同时挑战ASML和台积电
过去十年,半导体生产依赖荷兰ASML公司生产的庞大光刻机,这些机器在价值250亿美元的无菌工厂内将图案蚀刻到硅晶片上,对智能手机和人工智能芯片至关重要。然...
如何为 GPU 提供充足存储:AI 训练中的存储性能与扩展性
在AI训练领域,存储系统性能对计算效率的影响常被低估,但最新MLPerf Storage v2.0测试表明,存储瓶颈会显著限制GPU利用率。该基准测试通过三类典型负载模拟...






