第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5

第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5

 

文章摘要


【关 键 词】 智能体沙箱视觉反馈深度调研开源部署可编辑PPT

DeepPresenter 是中国科学院软件研究所中文信息处理实验室推出的第二代 PPT 生成智能体系统,旨在解决当前 AI 生成幻灯片中普遍存在的内容空洞、排版混乱与不可编辑等问题。其核心突破在于构建了一个全功能的 Docker 沙箱环境(Shared Agent Environment),使智能体具备“手”与“眼”的双重能力:一方面通过集成 20 余种专业工具实现深度内容获取与验证,另一方面借助环境感知反思机制实现对排版效果的实时视觉评估与迭代优化。智能体在生成每页幻灯片后,会自动调用浏览器渲染为图像,并依据截图进行自适应修正,形成“写→看→改”的闭环流程,从而显著提升视觉质量与专业性。

在内容生成层面,DeepPresenter 支持多种外部工具协同工作,例如使用 MinerU 解析 PDF 文献、连接 arXiv 和 Google Scholar 进行学术检索(DeepResearch)、运行 Python 绘制图表等,确保信息来源可靠、数据准确、逻辑严谨;所有生成内容均以标准 .pptx 格式输出,支持自由编辑与二次创作,从根本上摆脱了传统方案“生成即固化”的局限。系统支持中英双语、多宽高比(如 4:3)及复杂指令约束,并在训练阶段通过显式定义页数、比例与语言策略等细粒度条件,强化模型对用户意图的理解能力。

技术实现上,DeepPresenter 采用创新的三阶段训练流水线:首先基于 PersonaHub、arXiv 等构建高多样性任务数据集;其次引入独立评审机制(External Validator)打破自我验证偏差,由第三方模型指出排版或逻辑缺陷以引导优化;最后从 1,152 条轨迹中精选 802 条高质量样本用于监督微调(SFT)。实测表明,在 PPTEval 评测的 128 个预留任务中,DeepPresenter-9B 得分为 4.19,接近闭源模型 GPT-5 的 4.22,且显著优于其他开源或商业方案。更重要的是,其在消费级硬件(如单张 RTX 3090 或 Mac)上即可一键部署,以约 GPT-5 几十分之一的算力成本实现了同等水平的生成质量。项目已全面开源,涵盖 GitHub、HuggingFace 及论文资源,推动 Presentation Agent 技术向开放、可控与高效方向发展。

原文和模型


【原文链接】 阅读原文 [ 1510字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3-vl-plus-2025-12-19
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...