图像生成

图像,绘画

跟着Google出海:教你怎么落地Gemini

Founder Park 与 Google 合作推出的「从模型到行动」系列 AI 工作坊,旨在帮助开发者将顶尖 AI 模型的能力转化为实际商业价值。该系列工作坊将在深圳、上海和...

开源端到端语音大模型:直接从原始音频输入,生成语音输出

Step-Audio团队近期开源了一个端到端的语音大模型Step-Audio-AQAA,该模型能够直接理解音频输入并生成自然流畅的语音回答,而无需先将语音转换为文本。这一技...

95后,边改造业务边发AI顶会论文,是怎样的体验?

在AI时代的浪潮下,顶尖技术人才的市场价值被推升至前所未有的高度。无论是谷歌Transformer论文八子,还是从OpenAI出走的科学家,他们的选择直接影响企业技术...

文心大模型 4.5 系列正式开源,涵盖 10 余款模型

百度于6月30日正式开源了文心大模型4.5系列,涵盖10款不同参数规模的模型,包括47B、3B激活参数的混合专家(MoE)模型和0.3B参数的稠密型模型。这些模型已在...

强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

大规模预训练和微调的模式在机器学习领域取得了显著成功,但在强化学习(RL)中的应用仍面临挑战。强化学习需要对时间和意图进行推理,传统方法在处理长时间...

拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

阿里最新发布的多模态模型Qwen-VLo在图像生成和编辑领域展现了强大的能力,引发了广泛关注。该模型在原有的多模态理解和生成能力基础上进行了全面升级,具备...

香港科技大学、Manycor开源空间大模型,超3000颗星

香港科技大学与Manycore联合开源了一种名为SpatialLM的空间大模型,专注于处理3D点云数据并生成结构化的三维场景理解输出。这一模型的目标是让机器能够像人类...

豆包大模型“考上”清北的背后

豆包大模型1.6(Seed 1.6-Thinking)在2025年高考中取得了文科683分、理科648分的成绩,位列全球顶级通用大语言模型的前列,具备冲击清华和北大的实力。这一...

2G 内存跑 Gemma 3n 完整版!全球首个 10B 内模型杀疯 LMArena:1300 分碾压记录

谷歌正式发布了Gemma 3n完整版,这是一款面向开发者的开源大模型,具备输入图像、音频和视频的能力,并支持文本输出。Gemma 3n的设计亮点在于其天生多模态和...

OpenAI员工爆料:已抢先体验GPT-5!7月上线,疑似完全多模态

关于GPT-5的讨论近期在科技界引发广泛关注,多个线索表明OpenAI可能已开始内部测试这一新一代模型。Sam Altman在X平台关注神秘人物Yacine的举动,结合OpenAI...
1 2 3 133