关于 RAG、AI Agent、多模态，我们的理解与探索

AI-Agent1年前 (2024)发布 ai-front

2,900 0 0

文章摘要

在QCon上海站上，王元讲师分享了关于构建企业级智能问答机器人的实战经验，探讨了私有数据接入、代理框架运用、多模态实践和语义缓存技术等LLM新技术与实践。王元认为，Agent并非独立存在，而是依赖于其他技术的融合。私域数据保证了输入源的处理，而Agent技术基于大模型，其能力提升直接影响Agent性能。然而，Agent也存在缺点，如增加系统延时，可以通过语义缓存技术处理。新技术为测试带来新挑战。

私域数据的分割、召回与评估是关键环节。数据化整为零存入数据库后，从数据库中召回，召回结果作为LLM上下文输入。分割策略和召回模块是核心，需考虑多种因素。RAG模型评估可分为传统检索指标、端到端测试和创新的RAGas方法。关键超参数需通过实验调优确定。

AI Agent是一种编程范式，赋予LLM策略性思维结构，模拟人类处理问题流程。AI Agent通过架构实现群体智能模拟与构建。Agent的评估包括冷启动阶段、应用场景需求和泛化能力。工程性能评估关注平均错误率和LLM调用次数。

多模态能力是Agent研究的热点。多模态模型尝试省去OCR步骤，但存在局限性。高效微调技术如Lora、LLAMA等取得成效，但也存在问题。新型多模态模型如Nougat通过转化为HTML或Markdown源码缓解序列化难题。

语义缓存技术显著降低调用延迟，实现优化。它与绝对匹配缓存机制融合，当绝对匹配未命中时，系统运用向量数据库进行语义层面检索。开发者可使用GPTCache开源库简化操作流程。

Agent与LLM技术带来客服机器人测试挑战。除确保业务问题解答准确性外，还需严防回复非相关问题。测试流程中需设定合规性规则，借助小型模型过滤LLM输出结果。有效识别和规避用户越界行为和幻觉现象是关键。

王元是美五百强公司高级数据科学家，拥有多项国家发明专利，曾获得多项科技奖项。QCon全球软件开发大会聚焦软件开发最新趋势和技术，内容涵盖LLM训练加速实践等。AICon全球人工智能与大模型开发与应用大会将于5月17日开幕，主题为“智能未来，探索AI无限可能”。