图像生成
图像,绘画
英伟达开源通用机器人大模型—GR00T N1
全球AI领导者英伟达在“GTC 2025”开发者大会上宣布开源人形机器人通用大模型GR00T N1,该模型能够处理多模态数据,包括语言、图像和视频,适用于家务、工厂等...
Wiz:320亿美元、谷歌史上最大收购,团队两次创业成功的背后故事
谷歌宣布以320亿美元收购网络安全公司Wiz,这是谷歌有史以来最大的一笔收购。此前,谷歌曾提出230亿美元的报价,但被Wiz拒绝。此次交易还包括32亿美元的分手...
英伟达全力发展AI Agent!开源专属大模型,最强AI工厂
在2025年全球技术大会(GTC 2025)上,英伟达展示了其在人工智能(AI)领域的最新进展,尤其是AI Agent技术的发展。大会首日,英伟达宣布与甲骨文(Oracle)...
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
昆仑万维近期发布了Skywork R1V系列模型,这一多模态思维链推理模型在视觉推理和通用推理能力上达到了SOTA级别,成为国内首家开源多模态思维链推理模型的企业...
单个4090就能跑,Mistral开源多模态小模型,开发者:用来构建推理模型足够香
法国AI创企Mistral AI最近开源了一款名为Mistral Small 3.1的多模态小模型,该模型在多个基准测试中表现优异,超越了Gemma 3和GPT-4o Mini等同类模型。Mistra...
全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开
昆仑万维近日发布了全球首个开源的多模态推理大模型Skywork R1V(简称R1V),该模型拥有38B参数,性能直逼DeepSeek-R1,并在多项基准测试中取得了领先的成绩...
聊聊Gemini 2.0最近3个超级酷的新功能,Google有点被低估了。
Google近期频繁推出更新,特别是在其Gemini模型上进行了多项重大改进。首先,Gemini 2.0的个性化搜索功能引起了广泛关注。该功能通过分析用户的Google搜索记...
海外热议!百度双模型免费上线,实测可帮没看“3.15”的打工人避雷
百度在3月16日发布了文心大模型X1和文心大模型4.5,标志着其在人工智能领域的进一步突破。文心大模型X1不仅具备深度思考能力,还能自主调用多种工具,展现出...
CVPR 2025:无需物理引擎,一个模型搞定图像渲染与分解
在计算机图形和视觉领域,渲染与逆渲染是两个核心任务,分别涉及从3D模型生成2D图像和从2D图像解析3D属性。传统方法通常需要独立建模渲染器和逆渲染器,导致...
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散
扩散模型在生成图像和视频方面取得了显著进展,并在处理离散数据(如文本或生物序列)方面展现出潜力。与自回归模型相比,扩散模型具有加速生成和提高输出可...