标签:多模态

智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门

2024年9月,智源研究院发布了统一图像生成模型OmniGen,该模型在单一架构内支持多种图像生成任务,包括文本生成图像、图像编辑和主题驱动图像生成。用户仅需...

干翻 GPT-4V 的面壁 8B「小钢炮」,被Nature 收录了

清华大学与面壁智能团队在边缘设备上成功实现了多模态大模型的落地,推出了MiniCPM-V系列模型,该系列包括MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2...

不走寻常路的淘天技术节:AI狼人杀、Poster路演、博见社轮番上阵

淘天集团举办的第四届硬核少年技术节于6月30日至7月4日在北京和杭州两地同步举行,展示了其在AI技术领域的深厚积累和创新能力。与传统的技术节不同,硬核少年...

文心大模型 4.5 系列正式开源,涵盖 10 余款模型

百度于6月30日正式开源了文心大模型4.5系列,涵盖10款不同参数规模的模型,包括47B、3B激活参数的混合专家(MoE)模型和0.3B参数的稠密型模型。这些模型已在...

百度文心大模型4.5系列正式开源,同步开放API服务

百度近日宣布文心大模型4.5系列正式开源,并同步提供API服务。此次开源共推出10款模型,涵盖从47B参数的混合专家(MoE)模型到轻量级0.3B稠密型模型,覆盖文...

拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

阿里最新发布的多模态模型Qwen-VLo在图像生成和编辑领域展现了强大的能力,引发了广泛关注。该模型在原有的多模态理解和生成能力基础上进行了全面升级,具备...

音画同步,AI视频也能有完美「原声音」,可灵AI刚上线的!

可灵AI推出的Kling-Foley模型标志着生成式AI在音视频同步领域的重要突破。该模型能够通过多模态控制,自动生成与视频内容同步的高质量立体声音频,涵盖音效、...

豆包大模型“考上”清北的背后

豆包大模型1.6(Seed 1.6-Thinking)在2025年高考中取得了文科683分、理科648分的成绩,位列全球顶级通用大语言模型的前列,具备冲击清华和北大的实力。这一...

@所有开发者:Agent变现,阿里云百炼联合支付宝首创「AI打赏」!Agent Store全新发布

阿里云百炼3.0的发布标志着AI Agent技术进入商业化落地新阶段。2025年被定义为Agent元年,行业正经历从概念验证到实际工具的关键转型。此次升级的核心突破在...

2G 内存跑 Gemma 3n 完整版!全球首个 10B 内模型杀疯 LMArena:1300 分碾压记录

谷歌正式发布了Gemma 3n完整版,这是一款面向开发者的开源大模型,具备输入图像、音频和视频的能力,并支持文本输出。Gemma 3n的设计亮点在于其天生多模态和...
1 2 3 34