标签:多模态

不儿,这谁还能看出是AI演的视频啊

火山引擎最新推出的豆包视频生成模型Seedance 1.5 Pro在FORCE原动力大会上亮相,其核心突破在于实现了音画高精度同步生成。该模型通过单一Prompt即可生成包含...

火山引擎的「火」,是怎么点起来的

火山引擎作为字节跳动在AI时代的重要技术输出平台,其核心战略定位已明确为「AI云原生」,通过内外双循环验证技术价值。过去两年,云服务行业普遍转向以AI能...

Gemini 3 Flash 倒反天罡了:关键性能居然超过了 Pro!

Google 正式发布 Gemini 3 Flash,这是一款定价仅为竞争对手 1/4 至 1/5 的轻量级 AI 模型,却在多项基准测试中展现出超越同级别甚至旗舰模型的性能。 在编码...

大模型的进化方向:Words to Worlds | 对话商汤林达华

李飞飞团队的空间智能模型Cambrian-S首次被国产开源AI模型SenseNova-SI超越。该模型由商汤科技开发,在多项空间智能基准测试中取得领先成绩。商汤科技首席科...

对话张进:当 AI 不再只靠「看见」去理解世界丨GAIR 2025

声波与毫米波等无线感知技术正在成为人工智能理解物理世界的新维度。随着AI系统从实验室走向真实场景,传统依赖视觉的感知方式在动态复杂环境中逐渐显现局限...

还在手搓PPT?试完这款AI,我连夜卸载了付费模板库

办公小浣熊3.0的发布标志着AI从内容生成向任务执行的范式跃迁。这一升级版工具通过多模态智能体创作引擎,实现了PPT从草稿到交付的全流程自动化,同时支持百...

港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务

香港中文大学多媒体实验室与美团联合研究团队提出了一种名为OneThinker的统一多模态推理模型,旨在解决当前单一任务或单一模态方法面临的瓶颈问题。现实世界...

Looki 国内开售:你愿让AI把触角伸到你的生活里么?

Looki是一款兼具实验性与实用性的AI硬件产品,其设计理念打破了传统智能设备的单向服务模式。30克的机身整合了摄像头、麦克风及触摸面板,通过独特的“间隔拍...

统一视觉多模态与多任务!快手可灵与港科大团队发布视频生成模型,加速真实世界理解

统一多模态多任务的视频生成模型UnityVideo通过整合多种视觉模态,显著提升了模型对物理世界的理解能力和生成质量。该模型由港科大、港中文、清华大学和快手...

智谱重磅三箭齐发:从看懂世界到操作手机,千亿模型上云、手机智能体入袋、语音输入重构

AutoGLM是首个具备真机操作能力的AI智能体,实现了让AI像人一样操作手机完成任务的愿景。经过32个月的探索,团队构建了Phone Use能力框架,模型学会了将自然...
1 2 3 41