标签:AIGC
多人会话视频生成新突破:香港科技大学,浙江大学用单人数据实现多人交互视频生成
AnyTalker框架通过创新的音频-人脸交叉注意力机制(AFCA)和两阶段训练策略,实现了高质量、可扩展的多人对话视频生成。该技术由香港科技大学、浙江大学等机...
主流开源大模型生态解析
开源生态已成为驱动AI领域发展的核心力量,2025年全球开源大模型形成了由Llama、GLM、Qwen和DeepSeek构成的'四强争霸'格局。Meta的Llama系列作为开源世界的奠...
AI地理学家诞生:麻省理工、斯坦福用多智能体框架重塑地理空间建模,刷新SOTA
GeoEvolve框架通过多智能体协同与知识引导的进化算法,实现了地理空间模型的自动化发现与优化。该框架由代码进化器、进化代码分析器、地理空间知识检索器和地...
Zen7 Labs开源全球首个去中心化支付智能体(DePA),打造下一代AI Agent 金融基础设施
Zen7 Labs提出DePA(去中心化支付智能体)概念,旨在解决AI Agent经济中的支付瓶颈问题。传统支付存在费率高、操作复杂、生态碎片化等痛点,而加密支付则面临...
百度0.9B参数模型登顶全球第一,聊聊PaddleOCR-VL背后的技术细节
百度推出的PaddleOCR-VL模型在文档解析领域取得了突破性进展。这个仅0.9B参数的模型在权威评测OmniDocBench V1.5上以92.6分的综合成绩位列全球第一,同时在文...
打败 Qwen2.5-VL,完全开源可复现LLaVA-OneVision-1.5 的多模态模型
LLaVA(大型语言与视觉助手)的发展历程展现了开源社区在多模态模型领域的突破性进展。从2023年4月首次提出视觉指令微调方法,到2024年8月推出功能全面的LLaV...
基于闪电注意力机制,创新高效开源大模型
MiniMax公司开源了基于闪电注意力机制的专家混合模型MiniMax-M1,该模型在架构、创新模块和训练框架上均实现了显著突破。MiniMax-M1总参数为4560亿,其中459...
英伟达、港大等发布创新KV缓存,实现扩散模型无训练加速
扩散语言模型(Diffusion Language Models, dLLM)与传统的自回归模型(如GPT系列)在文本生成方式上存在显著差异。扩散模型通过逐步去除文本中的噪声来生成...
Hugging Face开源顶级模型:双模式推理+128K上下文,最强3B
全球著名大模型开放平台Hugging Face近日开源了顶级小参数模型SmolLM3,该模型仅有30亿参数,但其性能显著超越了Llama-3.2-3B和Qwen2.5-3B等同类开源模型。Sm...
香港科技大学、Manycor开源空间大模型,超3000颗星
香港科技大学与Manycore联合开源了一种名为SpatialLM的空间大模型,专注于处理3D点云数据并生成结构化的三维场景理解输出。这一模型的目标是让机器能够像人类...




