标签:计算机视觉
统一视觉多模态与多任务!快手可灵与港科大团队发布视频生成模型,加速真实世界理解
统一多模态多任务的视频生成模型UnityVideo通过整合多种视觉模态,显著提升了模型对物理世界的理解能力和生成质量。该模型由港科大、港中文、清华大学和快手...
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年
NeurIPS 2025会议上,由任少卿、何恺明、Ross Girshick和孙剑合著的《Faster R-CNN》论文荣获'时间检验奖',这标志着该工作对计算机视觉领域长达十年的深远影...
没有哪个 AI 顶会,比雷峰网 GAIR 更能承载「历史与传承」
GAIR全球人工智能与机器人大会通过一系列承前启后的对话,展现了人工智能领域代际传承的独特魅力。2020年的一场圆桌讨论中,沈向洋等人分享了计算机视觉领域...
何恺明团队重磅新作:去掉VAE,无需Tokenizer,纯Transformer预测数据比预测噪声更高效
麻省理工学院何恺明团队发布了一项颠覆性研究,直指当前扩散生成模型的核心痛点。研究指出主流模型实际上并没有在做去噪工作,回归最原始的洁净数据预测才是...
分割一切并不够,还要3D重建一切,SAM 3D来了
Meta近期发布了SAM 3D和SAM 3两项重大技术更新,标志着计算机视觉领域的新突破。其中,SAM 3D包含两个子模型:SAM 3D Objects专注于物体与场景的3D重建,SAM ...
打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点
3D Gaussian Splatting (3DGS)是一种基于各向异性3D高斯体构建场景表示的新视角合成技术,能够通过带位姿的图像训练快速渲染未见视角,在渲染速度和图像质量...
3D重建的惊人进展:多所世界名校联合发布论文,告诉你AI在3D世界的研究现状
高质量的3D重建技术正经历从逐场景优化到前馈模型的革命性转变。传统方法如运动恢复结构(SfM)和神经辐射场(NeRF)需要针对每个新场景进行耗时数小时至数天...
字节用LLaVA + SAM-2抢先实现了SAM-3,用概念分割,无需位置标注
加州大学默塞德分校、字节跳动Seed团队、武汉大学和北京大学的研究人员成功将LLaVA和SAM-2两个AI模型整合,创造出名为Sa2VA的新型多模态系统。这一突破性成果...
万字硬核解读SAM 3:不止分割一切,它开始理解世界了
Meta最新的SAM 3模型在计算机视觉领域实现了重大突破,将分割模型从简单的视觉交互工具升级为能理解语义概念的视觉-语言多模态模型。该模型通过可提示概念分...
谢赛宁团队用RAE实现从8%到84%的飞跃,宣告VAE时代结束
谢赛宁团队提出的表征自编码器(RAE)架构在图像生成领域取得重大突破,将ImageNet图像生成的FID指标提升至1.13,标志着传统变分自编码器(VAE)时代的终结。...





