图像生成

图像,绘画

首个实时世界模型发布:视频媒介的「交互」时代开始了

PixVerse R1的发布标志着AI视频生成技术进入实时交互时代。这一由爱诗科技研发的世界模型首次实现1080P分辨率下的即时响应级生成,彻底改变了传统AI视频创作...

对话王小川:“语言才是中轴,多模态不是主战场”

百川智能于1月13日正式开源新一代医疗大模型Baichuan-M3,该模型在全球权威医疗AI评测HealthBench中以65.1分的综合成绩位列第一,并在复杂决策能力测试Health...

浙大彭思达团队 × 理想最新研究:直面高分辨率深度的细节缺失

高分辨率深度估计在实际应用中面临几何一致性不足的问题,现有方法通过插值放大固定分辨率预测结果的方式导致细节区域误差放大,影响自动驾驶和三维重建等下...

不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?

近年来,将AI引入传统行业的需求日益增长,尤其是在处理复杂机械图纸、设备维护手册或金融研报图表等任务时,多模态助手的开发显得尤为重要。这类助手不仅需...

顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

大模型在纯视觉任务上的表现远低于人类儿童水平。UniPat AI与红杉中国xbench团队联合发布的BabyVision评测集揭示,当前最先进的多模态大模型在基础视觉能力上...

围观AI对赌直播之后,我见证了一场人类画师对AI的突围。

故事围绕AI绘画引发的争议展开,聚焦绘圈内一场特殊的“对赌直播”现象。一位小红书用户质疑某画师使用AI创作,并列出大量证据,最终双方约定通过直播自证画技...

从「被动」到「主动」,为什么给耳机装上「眼睛」后AI范式变了?

光帆科技发布的Lightwear AI全感穿戴设备,标志着无屏、主动式AI硬件的重大突破。这套由AI耳机、智能手表和充电盒组成的系统,通过多设备协同实现了全天候的...

曾让全球大面积「断网」的网站揭秘:AI 爬虫正在疯狂「掏空」互联网

近年来,AI爬虫的崛起正在悄然改变互联网流量的分布格局。根据Cloudflare的2025年度报告,全球网络流量同比增长19%,但增长趋势呈现明显的阶段性特征。上半年...

海绵宝宝粉丝跟Sora玩起了猫鼠游戏

在Sora平台上,尽管存在严格的版权限制机制,但用户依然通过巧妙的提示词设计成功生成了以海绵宝宝为代表的受版权保护内容。创作者通过复合策略绕过审核:先...

让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局

在视频理解领域,多模态大语言模型(MLLM)面临的核心挑战在于如何突破静态图像处理的局限,实现对动态视频内容的深度推理。当前主流方法普遍存在对外部工具...
1 3 4 5 6 7 165