标签:AIGC

加速200倍,单显卡1.8秒生成5秒高清视频!清华与Vidu解开了视频扩散模型的速度枷锁

TurboDiffusion技术通过稀疏注意力、蒸馏量化和硬件优化,将视频生成速度提升至实时水平。传统视频扩散模型因计算复杂度高而效率低下,尤其在处理时间连贯性...

本周AI项目推荐:NemoVideo、Pollo.ai、Drimo…

AI工具在短视频、漫剧、装修和游戏等领域的应用正逐渐从单纯的内容生成转向直接推动商业变现。这些工具通过整合爆款节奏、商品挂车、投放数据等功能,形成一...

独家丨腾讯OVBU成立新技术部,全面发力AI

腾讯PCG旗下的在线视频业务单元(OVBU)近期完成了一轮组织架构调整,核心变动包括新成立了一个技术部门,整合与视频业务强相关的资源,并纳入部分AIGC业务。...

多人会话视频生成新突破:香港科技大学,浙江大学用单人数据实现多人交互视频生成

AnyTalker框架通过创新的音频-人脸交叉注意力机制(AFCA)和两阶段训练策略,实现了高质量、可扩展的多人对话视频生成。该技术由香港科技大学、浙江大学等机...

主流开源大模型生态解析

开源生态已成为驱动AI领域发展的核心力量,2025年全球开源大模型形成了由Llama、GLM、Qwen和DeepSeek构成的'四强争霸'格局。Meta的Llama系列作为开源世界的奠...

AI地理学家诞生:麻省理工、斯坦福用多智能体框架重塑地理空间建模,刷新SOTA

GeoEvolve框架通过多智能体协同与知识引导的进化算法,实现了地理空间模型的自动化发现与优化。该框架由代码进化器、进化代码分析器、地理空间知识检索器和地...

Zen7 Labs开源全球首个去中心化支付智能体(DePA),打造下一代AI Agent 金融基础设施

Zen7 Labs提出DePA(去中心化支付智能体)概念,旨在解决AI Agent经济中的支付瓶颈问题。传统支付存在费率高、操作复杂、生态碎片化等痛点,而加密支付则面临...

百度0.9B参数模型登顶全球第一,聊聊PaddleOCR-VL背后的技术细节

百度推出的PaddleOCR-VL模型在文档解析领域取得了突破性进展。这个仅0.9B参数的模型在权威评测OmniDocBench V1.5上以92.6分的综合成绩位列全球第一,同时在文...

打败 Qwen2.5-VL,完全开源可复现LLaVA-OneVision-1.5 的多模态模型

LLaVA(大型语言与视觉助手)的发展历程展现了开源社区在多模态模型领域的突破性进展。从2023年4月首次提出视觉指令微调方法,到2024年8月推出功能全面的LLaV...

基于闪电注意力机制,创新高效开源大模型

MiniMax公司开源了基于闪电注意力机制的专家混合模型MiniMax-M1,该模型在架构、创新模块和训练框架上均实现了显著突破。MiniMax-M1总参数为4560亿,其中459...
1 2 3 12