标签:多模态

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

智谱公司推出的新AI技术“清影”标志着国产AI在视频生成领域的一大进步,将视频生成技术带入了有声电影时代。清影具备三大特点:电影级效果,支持4K、60帧高清...

xAI、Anthropic同日上线API:Grok免费公测,Claude Haiku价格暴涨

Anthropic公司宣布其最新的人工智能模型Claude 3.5 Haiku现已开放API访问,并在Amazon Bedrock和Google Cloud的Vertex AI上提供服务。该模型更新了截至2024年...

智谱AI COO 张帆:榨干端侧的每一分算力,做极致调优,让AI在硬件上非常能打

在硅星人AI创造者大会(ACC 2024)上,智谱AI COO张帆与硅星人创始人、CEO骆轶航就智谱AI与智能终端的合作进行了深入对话。骆轶航提到智谱AI在多模态和自然语言...

AI圈卷疯了!xAI、Anthropic同日上线API:Grok免费公测,Claude 3.5 Haiku价格暴涨

Anthropic公司宣布其最新的人工智能模型Claude 3.5 Haiku现已开放API访问,并在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供服务。该模型...

统一图像生成,无需繁杂插件!智源发布扩散模型框架OmniGen

智源研究院最近推出了一款名为OmniGen的新型扩散模型框架,该框架在图像生成领域具有多项创新特性。OmniGen能够天然支持多种图像生成任务,包括文生图、图像...

在RTE2024,窥见实时AGI的未来

AI技术的进步正在改变人机交互的方式,特别是在实时交互(RTE)领域。OpenAI的GPT-4o模型通过Realtime API为开发者提供了低延迟、自然流畅的对话能力,使得智...

小红书大模型团队的探索与实践:从 0 到 1 构建自研 RLHF 框架

在人工智能技术快速发展的背景下,多模态大语言模型(MLLM)因其在图文理解、创作、知识推理及指令遵循方面的能力,成为数字化转型的重要推动力。小红书大模...

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

智源近日推出了OmniGen,这是一种新的扩散模型架构,旨在统一图像生成的多模态模型。OmniGen以其统一性、简单性和知识迁移能力为特点,支持多种图像生成任务...

一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

智源研究院联合多所高校发布了超长视频理解大模型Video-XL,该模型利用语言模型的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,还在长视频理...

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

智谱清言近期宣布全量上线「情感语音通话」功能,为用户带来端到端的情感语音体验。该功能在响应速度、情绪感知、语音表达、多语言支持等方面实现突破,提供...
1 2 3 15