图像生成

图像,绘画

谷歌DeepMind首发AGI终极考纲!20万全球悬赏,撕下所有大模型伪装

谷歌DeepMind发布《Measuring Progress Toward AGI: A Cognitive Framework》论文,提出一套基于认知科学的AGI评估体系,旨在解决当前AGI进展缺乏客观度量标...

第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5

DeepPresenter 是中国科学院软件研究所中文信息处理实验室推出的第二代 PPT 生成智能体系统,旨在解决当前 AI 生成幻灯片中普遍存在的内容空洞、排版混乱与不...

第一个同时为人类和Agent设计的AI视频产品,它叫,LibTV。

LibTV作为一款面向AI时代的视频创作工具,展现出同时服务人类创作者与AI Agent的独特架构。产品核心分为两大交互路径:一是为专业用户设计的无限节点画布,二...

5B参数+4060Ti,10秒出图,全流程开源可复现!补齐统一多模态生成编辑的开源版图,让高质量图像生成真正变得更轻量、更普及

DeepGen 1.0是一个参数量为5B(含3B视觉语言模型VLM与2B扩散变换器DiT)的轻量级统一多模态生成编辑模型,旨在解决当前工业级模型参数庞大、部署成本高、功能...

港大赵恒爽团队论文:让扩散模型既拿高分又不「作弊」丨CVPR 2026

GDRO是一种针对扩散模型的后训练方法,核心创新在于引入组级奖励排序机制以优化生成能力。该方法旨在解决当前生成模型中普遍存在的“奖励作弊”问题——即模型为...

一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发

GLM-5-Turbo作为全球首个面向“龙虾”(即复杂长流程任务)场景定制的大模型,核心能力聚焦于深度优化工具调用与多智能体协同机制,使其在高吞吐、长链路的极限...

五百行代码打造SOTA视觉智能体!UniPat AI最新开源

SWE-Vision是一种极简的视觉智能体框架,旨在通过让模型编写并执行Python代码来弥补其在基础视觉任务中的精度缺陷。研究发现,尽管当前多模态大模型在编程能...

OpenClaw 3.12来了:UI大翻新,模型提速,更耐造更安全

OpenClaw 近期连续发布 2026.3.11 与 2026.3.12 两个版本,聚焦实际业务场景中的稳定性与易用性提升。Control UI 经历 V2 级重构,采用模块化设计,将概览、...

3亿美元巨额融资,AI视频新独角兽爱诗科技,正在抢跑「实时世界模型」

爱诗科技作为成立不到三年的中国AI视频创业公司,近期完成3亿美元C轮融资,创下国内该赛道单笔融资纪录,累计融资近30亿元人民币,跻身独角兽行列。本轮投资方...

这年头学不会数理化,只能怪自己懒,谷歌NotebookLM上新,秒出科普视频

谷歌NotebookLM新推出的“电影级视频概览”功能,允许用户上传资料后自动生成定制化、沉浸式视频讲解,依托Gemini 3、Nano Banana Pro与Veo 3等前沿AI模型实现...
1 4 5 6 7 8 173