图像生成

图像,绘画

出海应用也能享受高速稳定的DeepSeek-R1?亚马逊云科技出手了

DeepSeek-R1 作为生成式 AI 技术的核心,推动了新一轮 AI 技术的爆发,其强大的自然语言处理与推理能力为开发者提供了高性能、低成本的解决方案。然而,由于...

Gemini 2.0 文生图能力爆火,自然语言就能直接改图

Google 最近发布了其文生图 AI 工具 Gemini,这一工具在设计和创意领域引发了广泛关注。Gemini 的核心功能在于其能够通过自然语言指令进行连续对话,并根据用...

20万美元商业级视频生成大模型Open-Sora 2.0来了,权重、推理代码及训练流程全开源!

潞晨科技推出的 Open-Sora 2.0 是一款开源的 SOTA 视频生成模型,标志着视频生成领域的开源革命。该模型仅用 20 万美元(224 张 GPU)成功训练出商业级 11B ...

谷歌开源Gemma-3:媲美DeepSeek,算力暴降10倍

谷歌CEO Sundar Pichai宣布开源最新多模态大模型Gemma-3,该模型主打低成本高性能,共有10亿、40亿、120亿和270亿四种参数版本。即便最大的270亿参数版本,仅...

刚刚,谷歌用更少参数打败 Qwen 2.5-32B!新模型 Gemma 3 号称“单 GPU 模型王”,团队紧急招兵买马!

谷歌近日发布了Gemma 3,这是一组轻量级的开源AI模型,旨在减少能源消耗和成本,同时提供高性能的推理能力。Gemma 3基于与Gemini 2.0相同的研究和技术构建,...

字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露

字节跳动旗下的豆包大模型团队近期在 arXiv 上发布了一篇技术报告,详细介绍了其文生图模型 Seedream 2.0 的技术细节。该模型于去年 12 月上线至豆包 APP 和...

不做“传统机器人公司”的智元发了个大模型,要让机器人看视频就能进化

智元机器人发布了通用具身基座大模型——智元启元大模型(GO-1),展示了其通过模仿人类操作完成家务任务的能力,如倒水和制作吐司早餐。GO-1的核心功能依赖于V...

Mistral AI 发布号称最强 OCR API:能解锁 90% 非结构化数据,1 美元搞定 2000 页文档

法国 AI 明星创企 Mistral AI 发布了一款名为 Mistral OCR 的光学字符识别(OCR)API,旨在帮助企业更高效地处理和理解各种文档。该 API 能够从非结构化的 PD...

二次元AI新玩具破圈走红!短短几个月100万MAU

二次元圈子近期出现了一款名为“狸谱”的AI应用,迅速在年轻群体中走红。这款应用不仅能够生成高质量的二次元图像,还提供了丰富的互动功能,满足了用户对虚拟...

MIT 最新扩散模型课程:从微分方程探索 AIGC 的边界

MIT计算机系教授Peter Holderrieth和Ezra Erives在其最新课程系列“Generative AI with Stochastic Differential Equations”中,深入探讨了生成式人工智能(AI...
1 11 12 13 14 15 122