北大 & 作业帮团队提出 Text-to-SQL 新框架 Interactive-T2S，攻克宽表处理与低资源对齐难题

289 0 0

文章摘要

【关键词】 自然语言处理、数据库交互、大语言模型、Text-to-SQL、智能代理

研究团队提出了一种名为Interactive-T2S的创新框架，旨在解决大语言模型（LLMs）在Text-to-SQL任务中的核心挑战。该框架将LLM视为一个能够与数据库进行多轮交互的智能代理，通过“思考-行动-观察”的循环逐步分解问题、搜集信息并构建SQL查询。这一方法显著提升了处理复杂、宽表数据库时的效率和准确性。

Text-to-SQL技术的核心价值在于能够将自然语言问题自动转化为可执行的SQL查询，但其实际应用仍面临三大挑战。宽表处理效率低下、低资源场景适配性差以及交互过程缺乏可解释性，这些问题制约了该技术的大规模落地。Interactive-T2S框架通过设计四大核心工具和多轮交互逻辑，有效应对了这些挑战。

四大核心工具包括SearchColumn、SearchValue、FindShortestPath和ExecuteSQL，它们分别负责语义找列、模糊找值、表关联路径计算以及SQL执行验证。这些工具将SQL生成过程拆解为多个步骤，避免了LLM直接处理海量冗余信息，从而显著降低了推理负担。例如，SearchColumn工具能够根据自然语言问题的语义精准定位相关列，而FindShortestPath工具则通过无向图计算表间关联路径，简化了多表关联的复杂性。

多轮交互逻辑的设计确保了SQL生成过程的可解释性和少样本学习能力。框架遵循“问题拆解→信息定位→表关联→SQL执行”的统一流程，每一步都要求LLM输出思考过程和工具行动。这种设计不仅使生成逻辑可追溯，还大幅降低了对标注数据的依赖，仅需2个标注示例即可实现少样本学习。

实验结果表明，Interactive-T2S在多个数据集上均表现出色。在BIRD-Dev数据集上，其执行准确率较当前最优方法提升了2.87个百分点；在金融领域去噪数据集BIRD-FinC上，性能显著优于其他方法。此外，框架在宽表处理效率上表现尤为突出，prompt token消耗仅为对比基准的36%和22%，完美适配了宽表场景。

少样本泛化能力和多表关联场景的优势进一步验证了框架的实用性。在仅使用2个示例的情况下，Interactive-T2S在多个变体数据集上的性能与依赖更多示例的方法接近，且在跨领域场景中表现更优。消融实验显示，FindShortestPath工具在多表关联场景中发挥了关键作用，移除后性能显著下降。

Interactive-T2S在智能教育、企业数据分析和政务公开查询等领域具备广泛的应用潜力。未来，研究团队计划进一步优化工具的计算效率，并探索框架在多模态数据中的扩展能力，以推动Text-to-SQL技术在更复杂场景中的应用。