标签:AI视觉
中英双语、29项第一、像素级理解:360 FG-CLIP2登顶全球最强图文跨模态模型
当前AI生成的视觉内容虽然炫酷,但在细节理解和空间关系处理上仍存在明显缺陷。例如,要求生成「穿红外套的猫站在蓝色跑车左边」或搜索「引擎盖有鸟粪的特斯...
反光、曲面、微米痕:AI如何打赢汽车质检这场硬仗?|产业链观察
在汽车制造业中,表面缺陷检测正面临前所未有的挑战。微米级的铝屑、不均匀的漆面、高反光材质上的划痕等肉眼难以察觉的缺陷,已成为制约产业升级的关键瓶颈...
豆包视觉理解模型正式发布:一元处理近 300 张高清图片,低于行业价格 85%
在12月18日的火山引擎Force大会上,字节跳动推出了豆包视觉理解模型,该模型在数学、物理、图表、代码等多个领域的推理能力得到加强,同时具有成本效益,输入...
斯坦福、丰田最新研究,单视频合成多视角模型GCD
在AI视觉领域,重建复杂动态场景是一个极具挑战性的任务。尽管OpenAI的Sora模型能够生成长达一分钟的高质量视频,但其在没有多视角视频输入的情况下,合成动...







