“AIGC开放社区”的搜索结果
多人会话视频生成新突破:香港科技大学,浙江大学用单人数据实现多人交互视频生成
AnyTalker框架通过创新的音频-人脸交叉注意力机制(AFCA)和两阶段训练策略,实现了高质量、可扩展的多人对话视频生成。该技术由香港科...
Transformers来到了v5时代:从工具包到真理之源,AI时代的操作系统内核的极简进化论
Transformers v5的发布标志着AI基础设施演进的重要里程碑。该版本通过模块化重构、统一量化标准和端云生态整合,将碎片化的开发流程收敛...
视觉思维链全新架构,加州大学让多模态大模型有了灵性,整体性能提升5.3%
加州大学伯克利分校团队提出了一种名为视觉思维链(CoVT)的全新架构,旨在解决多模态大模型在处理视觉信息时被迫将其翻译成文本的局限...
源神阿里!图像生成Ovis-Image再开源,7B小参数媲美GPT-4o和20B开源模型
在人工智能领域,图像生成技术正经历着快速迭代。阿里推出的Ovis-Image模型以7B参数实现了媲美20B+开源模型和GPT-4o的文本渲染能力,证...
MV导演诞生!上海巨人网络用让AI听懂音乐并掌镜拍摄MV
上海巨人网络AI实验室提出的YingVideo-MV框架通过创新的级联架构,将音乐语义分析、导演级镜头规划与时间感知视频生成相结合,显著提升...
DeepSeek-V3.2正式版发布,将开源模型的能力推向极致
DeepSeek团队正式开源了DeepSeekV3.2的两个版本:标准版和Speciale版。标准版专注于日常任务与通用智能体场景,在推理能力与输出效率之...
阶跃星辰开源GUI智能体,本地部署的GELab-Zero-4B,精通Android应用
阶跃星辰开源了首个完整的GUI智能体解决方案GELab-Zero,该方案包含4B参数量的轻量化模型和即插即用的工程套件,能够在消费级硬件上实现...
麦肯锡重磅报告:当57%的工作被自动化,我们如何与AI结成利益共同体
麦肯锡全球研究院(MGI)的最新报告揭示了AI技术对美国经济和工作模式的深远影响。研究显示,现有技术理论上可自动化美国57%的工作时长...
微软Fara-7B计算机操作模型,开启端侧智能代理新时代
微软发布了专为计算机操作设计的70亿参数智能代理Fara-7B,该模型通过纯视觉感知和合成数据训练,在端侧实现了高效能与安全性。与传统聊...
Flux 2开源即结束:阿里通义Z-Image用6B参数,实现超高性能和生图速度,荣登开源榜首
阿里通义实验室最新开源的Z-Image模型在图像生成领域实现了重大突破,以仅6B参数的轻量级设计挑战了传统大模型的性能极限。该模型采用创...






