标签:AIGC

智谱GLM-OCR,0.9B开源即巅峰,复杂文档精准解析

智谱发布的GLM-OCR模型以仅0.9B参数实现多项突破,登顶OmniDocBench V1.5榜单,并在公式识别、表格解析等主流基准中取得SOTA表现。该模型通过多Tokens预测损...

蚂蚁开源世界模型LingBot-World:具有分钟级记忆的实时世界模拟器

蚂蚁集团旗下灵波科技开源了两项具身智能领域的突破性成果:具身智能模型和LingBot-World世界模型。前者被誉为'最强开源机器人大脑',基于两万小时真机数据训...

美团智能体SOTA模型LongCat-Flash-Thinking-2601开源

美团龙猫团队开发的LongCat-Flash-Thinking-2601模型标志着智能体推理能力的重大突破。这个总参数5600亿、激活参数270亿的混合专家模型(MoE),在代理搜索、...

免费领200元算力!高校专属调研福利速抢~

面向高校的专属算力云平台正式推出,旨在为科研创新、人才培养与学科建设提供高效稳定的计算资源支持。该平台通过整合AI大模型、Agent智能体等技术资源,重点...

自动驾驶VLA新SOTA:复旦联合团队提出WAM-Diff重塑端到端自动驾驶

复旦大学与引望智能科技联合提出的WAM-Diff框架,在NAVSIM-v1榜单上以91.0 PDMS的预测驾驶得分刷新了自动驾驶领域的性能记录。这一端到端自动驾驶系统通过掩...

加速200倍,单显卡1.8秒生成5秒高清视频!清华与Vidu解开了视频扩散模型的速度枷锁

TurboDiffusion技术通过稀疏注意力、蒸馏量化和硬件优化,将视频生成速度提升至实时水平。传统视频扩散模型因计算复杂度高而效率低下,尤其在处理时间连贯性...

本周AI项目推荐:NemoVideo、Pollo.ai、Drimo…

AI工具在短视频、漫剧、装修和游戏等领域的应用正逐渐从单纯的内容生成转向直接推动商业变现。这些工具通过整合爆款节奏、商品挂车、投放数据等功能,形成一...

独家丨腾讯OVBU成立新技术部,全面发力AI

腾讯PCG旗下的在线视频业务单元(OVBU)近期完成了一轮组织架构调整,核心变动包括新成立了一个技术部门,整合与视频业务强相关的资源,并纳入部分AIGC业务。...

多人会话视频生成新突破:香港科技大学,浙江大学用单人数据实现多人交互视频生成

AnyTalker框架通过创新的音频-人脸交叉注意力机制(AFCA)和两阶段训练策略,实现了高质量、可扩展的多人对话视频生成。该技术由香港科技大学、浙江大学等机...

主流开源大模型生态解析

开源生态已成为驱动AI领域发展的核心力量,2025年全球开源大模型形成了由Llama、GLM、Qwen和DeepSeek构成的'四强争霸'格局。Meta的Llama系列作为开源世界的奠...
1 2 3 13