音频生成

音频,audio

7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用

阿里发布了首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B,该模型能够处理文本、音频、图像和视频等多种模态,并实时生成文本和自然语音。Qwen2.5-Omni-7...

谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西

谷歌最新发布的AI模型Gemini 2.5 Pro被其CEO称为“谷歌有史以来最智能的AI模型”。该模型在多个基准测试中表现出色,尤其是在推理能力、科学和数学能力方面。在...

音乐界迎来自己的DeepSeek!全球首个音乐推理大模型Mureka O1上线,超越Suno

2025年,昆仑万维发布的音乐大模型Mureka V6和O1在全球音乐圈引起了广泛关注,尤其是Mureka O1作为全球首个引入CoT(Chain of Thought)推理的音乐生成模型,...

全球首款音乐推理模型Mureka O1首秀!爆改周杰伦,AI音乐进入DeepSeek时刻

昆仑万维发布了全球首款音乐推理大模型Mureka O1,标志着AI音乐进入了“会思考”的时代。该模型基于Mureka V6基座模型,并引入了CoT(Chain of Thought)技术,...

凌晨“激战”!谷歌亮相新模型,OpenAI 紧急甩出 GPT-4o 动动嘴就能 P 图,网友:又要感谢 DeepSeek 了

OpenAI 近期发布了 GPT-4o 图像生成技术,该技术被直接集成到 ChatGPT 中,标志着图像生成功能成为其原生能力。这一新功能允许用户通过自然语言指令生成图像...

刚刚,OpenAI发布新文生图模型,免费、逼真到难以分辨

OpenAI在技术直播中发布了GPT-4和Sora的重大更新,重点介绍了全新的文生图模型。该模型不仅支持文本生成图像,还具备自定义操作、连续发问、风格转换、图像PP...

蓝牙,何去何从?

蓝牙是一种广泛应用的无线连接标准,用于将耳机、扬声器、智能手表等设备与手机、笔记本电脑等设备连接。它使用高频无线电波在2.4 GHz频段进行通信,并通过自...

刚3月,已有9家AI企业融资超1亿美元

2025年3月,9家AI企业已获得超过1亿美元的融资,显示出资本市场对AI领域的持续青睐。Anthropic在E轮融资中筹集了35亿美元,估值达到615亿美元,其核心产品Cla...

OpenAI语音智能体诞生,怼脸实拍语气狂到飞起!API降到每分钟0.3美分

OpenAI最新发布的音频模型标志着语音智能体时代的正式开启。此次发布的三款模型——gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,分别专注于...

刚刚,OpenAI首发语音Agent,智能体实现重大突破

OpenAI在凌晨的技术直播中发布了三款全新的语音模型,分别是GPT-40 Transcribe、GPT-4 Mini Transcribe和GPT-40 Mini TTS。这些模型专注于语音AI Agent的开发...
1 2 3 4 5 40