图像生成

图像,绘画

西湖大学王东林团队论文:机器人需要“通古今,知未来”丨CVPR 2026

该研究提出HiF-VLA——一种以运动信息为核心建模时间的视觉-语言-动作模型,旨在解决机器人在长序列任务中因缺乏时间理解能力而导致的动作重复、决策中断等核心...

浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

本文研究聚焦于多模态大模型在视觉推理中普遍存在“盲目自信”现象,即当输入图像严重退化时,模型准确率大幅下降,而置信度却几乎不变。该现象被定义为“感知钝...

画质革命还是AI整容?DLSS 5引爆全网争议,老黄亲自下场论战

DLSS 5作为英伟达在GTC上发布的最新AI图像重建与超分辨率技术,被定位为自2018年实时光线追踪以来最重大的图形突破,其核心目标是将好莱坞级影视特效(VFX)...

登顶全球权威榜单!浙大创业团队百卡打造开源实时世界模型,视频秒变可交互4D世界

在2024年全球科技界对“世界模型”的激烈角逐中,中国初创企业影溯(InSpatio)发布开源模型InSpatio-World,并在权威榜单WorldScore-Dynamic中力压主流AI巨头...

学会“吃一堑长一智”,性能飙升11%!XSKILL让AI积累经验和技能

人类从经验与技能双重维度持续进化,XSKILL据此设计双流学习机制,使AI具备类人记忆与策略复用能力。技能以Markdown文档形式存储于技能库,提供任务级工作流...

龙虾也能当导演了!LibTV解锁全自动拍片,一句话从剧本干到成片

LibTV作为LiblibAI推出的首款AI视频产品,标志着AI内容创作进入“人+Agent”双视角协同的新阶段。该平台以一块无限画布为核心,整合文本、图片、视频、音频与脚...

改造 100 多年的影视行业,需要的不止是好模型

LibTV 作为一款新型 AI 视频创作平台,核心突破在于将技术能力与影视工业流程深度整合,而非仅聚焦于单镜头生成质量。其底层集成 Lib Nano Pro、Kling 3.0 等...

人跑光了,AI视频炸了!马斯克狂发推:Grok Imagine三金封神

Grok Imagine在DesignArena平台的三项核心视频任务中斩获Elo评分第一,分别以1337分、1298分和1291分领先视频生成竞技场、图像转视频及视频编辑类别,显著超...

西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026

该研究针对图像生成中多图一致性缺失的问题,提出PaCo-RL方法,通过成对奖励建模与强化学习的结合,实现从判断一致性到生成一致图像的能力闭环。传统图像生成...

刚刚,国产视频模型登顶全球第一!给谷歌Veo上了一课,还把钱给挣了

SkyReels V4凭借在文本生成视频(含音频)任务中获得第三方机构Artificial Analysis盲评全球第一的成绩,标志着国产AI视频模型首次站上世界顶端,其表现超越...
1 3 4 5 6 7 173