模型性能提升近50%,成本削减83%!约翰·霍普金斯大学发布专业领域提示优化框架

AIGC动态5小时前发布 AIGCOPEN
30 0 0
模型性能提升近50%,成本削减83%!约翰·霍普金斯大学发布专业领域提示优化框架

 

文章摘要


【关 键 词】 人工智能语言模型提示优化成本削减知识图谱

约翰·霍普金斯大学提出的EGO-Prompt框架通过进化图优化技术,显著提升了小型语言模型在专业领域任务中的性能,同时大幅降低推理成本。该框架的核心创新在于将专家知识转化为可动态演化的语义因果图(SCG),并利用文本梯度实现图谱与模型推理流程的协同优化。实验数据显示,优化后的小型模型性能平均提升7.32%~12.61%,总成本可控制在原方案的20%以内。

传统方法面临知识表示与推理流程的双重局限。早期链式思考(CoT)依赖模型固有知识储备,专业领域易产生幻觉;自动提示优化技术(APO)易过度拟合个案细节;知识增强型推理(如RAG)则受限于静态图谱的刚性结构。EGO-Prompt通过重构知识载体,将SCG设计为允许包含30%错误边的初始结构,通过添加、删除、修改三种操作实现知识进化,确保优化过程不偏离专家设定的语义框架。

框架采用两阶段推理机制解耦认知负荷。指导生成阶段由模型根据输入案例提取相关因果子图,条件推理阶段则综合原始输入与定制化因果指导生成预测。消融实验表明,移除该设计会导致TrafficSafe任务的F1分数从0.333骤降至0.247。这种分离式处理使模型能专注执行单一认知任务,显著提升推理效率。

文本梯度驱动图与提示的交替优化构成技术核心。系统基于预测误差生成自然语言反馈,先固定SCG优化系统提示,再固定提示更新图谱结构。这种迭代分离策略避免了梯度冲突,实现专家知识初始化与数据驱动精化的融合。在交通碰撞预测任务中,该方法使F1分数从基线0.232提升至0.333,远超TextGrad的微弱改进(0.243)。

跨领域实证显示框架具备显著优势。在COVID-19住院预测、交通事故严重度评估、出行方式选择三个任务中,优化后的GPT-4o mini模型平均性能提升24.9%,其中TrafficSafe任务提升达43.5%。经济性表现尤为突出:处理100样本成本仅0.057美元,较同级模型降低83%,性能却媲美成本高255倍的强大模型。开源模型获益更大,Qwen3-32B和DeepSeek-V3分别获得40.3%和48.7%的性能跃升。

知识图谱展现自我修正能力。系统可自动删除数据未验证的因果边(如人口统计学影响政策响应),并新增关键连接(如医疗系统状况预测住院率)。极限测试显示,从空白SCG开始的性能(F1=0.345)优于使用33%残缺图谱(F1=0.303),这为专家知识质量不确定时的实施策略提供了重要参考。

该技术也存在应用边界,需领域问题具备文本化因果结构及充足标注数据。尽管存在API随机性、过拟合风险等工业部署挑战,EGO-Prompt仍为资源受限机构提供了领域化AI落地的可行路径,其知识动态进化理念可能重塑专业领域的人工智能应用范式。

原文和模型


【原文链接】 阅读原文 [ 4122字 | 17分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...