文章主要包括以下几大部分:
RAG 已为大家所熟知,其核心思想是借助外部可靠的知识库增强上下文知识,助力大模型实现更全面、准确的生成。GraphRAG 的处理流程与 RAG 较为一致,但在底层数据组织方式上存在差异——GraphRAG 以图结构组织数据,能有效表达领域内的关联关系。
GraphRAG 各阶段涉及的关键技术点包括:
CVTE 因业务量庞大,在早期采用了分布式图数据库 Apache HugeGraph,并构建了 HugeGraph-AI 框架,用于支持 GraphRAG 应用。该框架涵盖图谱构建、深度探索、GNN 数据准备及自然语言到图查询转化模块,提升了复杂数据分析的能力。
希沃是 CVTE 旗下的教育品牌,产品覆盖课前、课中、课后的教学全流程,积累了大量教育数据。通过 GraphRAG 技术,可以挖掘学生行为特征、分析课堂互动模式,从而提升教学质量与学习效率。
在教育领域中,知识点、概念、习题和学生构成了知识图谱的四大核心子图。知识点之间存在包含、递进、并列等关系,例如函数与一次函数为包含关系;概念作为知识点的细化部分,用于更详细的解释;习题内部具有难度层级特征;而学生作为应用主体,则与其相关的关系网络紧密相连。
显式关系通过固定规则提取构建,例如教材目录结构可用于切分章节,章节内可进一步识别知识点和概念,并建立层级关联。为了确保知识点全局一致性,在构建过程中引入“memory”模块对每个文本块的知识点和概念进行融合处理。最终可形成知识点子图,并支持深度分析,如利用图中心算法识别关键节点或通过相似性聚合知识点,从而辅助理解其内在结构。
以题目解析为例,完成图谱构建后,一方面可通过大模型抽取题目涉及知识点摘要,另一方面从题目中提取关键词并与图谱中的概念节点进行映射,召回多跳子图信息,生成结构化解析报告。该方式在简单图结构下表现良好,复杂结构下需结合优化策略。
隐式关系的挖掘主要依赖于认知诊断和知识追踪技术,旨在揭示学生知识状态及其影响因素。典型方法如LPKT(Learning and Practicing with Knowledge Tracing)模型,它由学习模块、遗忘模块和预测模块组成:
该模型可计算学生对知识点的掌握度以及其对习题准确率的预测,支撑智能推荐系统。但若仅基于相关性关系无法体现知识点之间的因果作用机制,因此需引入因果推断。
为明确知识点间的相互影响,采用因果推理技术识别干扰变量(即混淆变量),通常通过“后门准则”判断:
确定混淆变量后,使用倾向性得分匹配或双重机器学习方法消除干扰,得到知识点A对B的实际因果效应。此类方法适用于处理高维数据下的因果关系建模,从而提升个性化教学决策的能力。
构建完成图后,下一步是 retrieval 操作。基于图结构的 retrieval 常用方式是基于图遍历算法,如通过节点映射获取节点的两到三跳的子图作为上下文补充给大模型去做生成。但图遍历易出现信息过载问题,如基于 BFS 方式,随着遍历步数增加,领域呈指数级扩张,引入大量无关信息。更好的方式是添加规则,有选择地探索最相关的邻接节点。
例如,在学情报告场景中,若需了解学生 A 对章节 B 涉及知识点的掌握情况,基于此上下文可映射到学生、章节、知识点及掌握度等众多实体和关系,可基于已知的掌握度边确定遍历方向,或通过最短路径连接各实体,获取它们之间的关联关系,避免信息过载。
另一场景是了解整个班级对章节 B 涉及知识点的掌握情况,该场景不是从单个节点出发,而是针对整个班级所有学生,需进行批量图遍历聚合分析,此场景适合通过 HugeGraph 框架实现。首先通过 Text2GQL 将逻辑转化为图查询语言,涉及全图遍历时可调用分布式图计算引擎进行高效的分布式计算,得到最终结果。
由于学生知识状态随做题量动态变更,学情报告可从 HugeGraph 获取多个时间段的子图进行对比分析,更好地评估学生表现和变化情况,这也是图增强的一种方式。
整体而言,图遍历算法是 GraphRAG 应用中常用的 retrieval 方式,可高效探索图结构,但通常不考虑图节点之间的权重或检索目标的特定信息,在需要路径优化的场景中可能表现不佳,如个性化复习路径规划场景,需基于启发式搜索算法进行 retrieval 。
启发式搜索算法的优势在于利用启发式信息,提高搜索效率,减少搜索空间,避免盲目搜索,快速达到搜索目标。在个性化复习路径规划场景中,规划的是知识点路径,基于学生对知识点的掌握度和知识点之间的因果效应,搜索收益最大的复习路径,提升学生知识状态。
基于此上下文建模,决策变量是不同知识点组成的组合,目标是找到一条路径,最大化当前学习掌握度增益(直接收益)和掌握当前知识点对后续的促进增益(间接收益)。目标函数由这两部分组成,其中 L 指路径遍历长度, β 是权重参数,用于控制直接收益和间接收益的平衡。 β 越接近 0 ,对后续影响越大,适合基础较好、更看重长远影响的学生; β 接近 1 ,则需优先掌握当前知识点,适合基础薄弱的学生。求解过程中还需注意一些约束条件,如每天复习的知识点数量、知识点之间依赖的先后关系、同一个知识点出现的次数等。
启发式算法适合解决此类搜索优化问题,可通过启发式规则引导和特定经验知识高效探索解空间,找到最优解。但启发式算法泛化能力有限,后续将介绍与之互补的基于学习的 retrieval 方式。
在题目涉及知识点解析场景中,借鉴 global search 思想,通过大模型抽象出题目知识点,再与图中的 summary 做映射,但效果受大模型生成质量的影响,在复杂场景下生成题目与知识关系的效果可能不理想。因此,在图关系预测场景中,图神经网络更为合适,尤其在前面已经构建好了异构图的情况下。此时需提取习题与知识点的关联关系,如习题与知识点、习题与概念、概念与知识点、学生与做题、学生与知识点掌握度等关系,还需已知的习题到知识点的监督数据。
有了节点特征和拓扑结构后,通过多层图神经网络进行消息传递聚合,逐步融合节点自身特征和领域信息,最终生成包含图结构语义的节点向量,基于这些向量计算节点相似度,预测节点对之间不同类型边存在的概率,再根据实际值计算损失,反向传播更新参数,优化模型。这是一个完整的 GNN 过程。在教育场景中,除了预测习题节点到知识节点的链接关系外,图神经网络还可用于题目推荐、关系挖掘、标签预测等。
回到题目和知识点关联关系的场景中,在预测出关系后,可结合图遍历的方式做更多探索,如 GNN-RAG 方式。首先通过 GNN 获取若干相关度高的知识点,再通过实体识别方式从题目中提取相关概念,获取知识点到概念之间的最短路径,该路径可协助更详细分析题目涉及的所有知识点,进行更全面的知识点解析。此外,还可通过类似方式做大模型的节点或路径增强,最终通过大模型生成完整的题目解析信息。
GraphRAG 的最后一步是 Generate,直接面向业务即具体的应用场景进行输出。主要的场景包括:
在前面介绍的教育场景中有众多软硬件设备,在运行过程中无法避免地会出现一些异常问题,需要客服协助用户定位和解决。智能客服应用于与客户沟通排查故障的过程,用户首先通过智能客服提供的虚拟坐席进行沟通,若虚拟坐席无法解决问题,则切换到人工坐席深入沟通。
该场景存在几个核心问题:智能客服更像工程师角色,需通过与用户的多轮对话获取更多上下文,理解用户意图并进行故障推理,过程复杂;对话中涉及不同设备及其型号、配置、物料等信息,需动态分析在何种情况下获取何种业务数据补充上下文;另外,在实际客服场景中,用户会发送图片,为使用户更好理解操作步骤和位置,客服有时也需发送图片,因此何时发送及发送何种图片也是需要重点考虑的问题之一;由于客服场景直接面向用户,故障排查要求准确率较高,而大模型存在幻觉问题,如何平衡二者是一个关键问题。
从数据出发,此场景的图结构较为特殊,为贝叶斯网络。贝叶斯网络是一种概率图模型,通过有向无环图表示一组随机变量及变量之间的条件依赖关系。每个节点都有一张条件概率表,由变量、变量取值及其条件概率组成。
例如,对于 E 节点, C 和 D 是其父节点,第一行表示当 C 和 D 都为 T(True)时, E 为 T 或 F(False)的概率。基于这种概率分布,运用贝叶斯定律和全概率公式,就能依据已知变量的观测值,对其他变量进行概率预测。
具体来讲,应用可划分为两个部分,即构建与推理。在构建环节,数据主要来源于工程师构建的故障树,也就是故障标准排查流程 SOP,以及人工坐席与用户之间的历史多轮对话信息。构建过程首先要确定变量、变量的值以及变量之间的依赖关系。从历史对话中参照故障树的知识,对排查步骤进行抽象。例如,在出现黑屏情况时,客服会让用户先排查指示灯状态,随后依据该状态进行重启或复位等操作。我们将每一通对话视为一组观测数据,基于大量此类观测数据,采用极大似然估计的方法来确定条件概率表中的参数,即寻找一组参数,使我们观测到的数据出现的概率达到最大。
在推理阶段,可通过公式从已知变量着手,计算所有未知变量的概率。这里的已知变量可以有多个,因为用户可能会提供多个现象和状态,并且随着排查的推进,已知变量的值会不断增多。相应地,相关路径上变量的概率分布也会持续更新,最终能够定位到具体的故障点或修复方案。
在实际场景中,贝叶斯网络的节点数量可能极为庞大,因此在排查过程中需要对图结构进行剪枝处理,也就是针对已排查的知识,对已知变量上下游的未知变量进行推理。例如,若 A 与 D 并无关联,当 A 现象出现时,便无需排查 D 节点的情况。
在确定了底层图结构之后,我们来审视一下整体架构。
先看左边红框部分。最上方是我们刚才提及的基于贝叶斯的推理,通过与用户的多轮对话,逐步推理出接下来需要排查的步骤。在此之前,还有一个 Node mapping 操作,即将对话中已知的关键信息映射到贝叶斯网的节点上。此外,为增强大模型对标准排查流程的遵循能力,会召回历史相似对话以及 FAQ 的标准问答对,也就是历史上客服与用户的问答内容,以此进行知识补充。
这三个召回或推理操作均基于多轮对话信息得以实现,然而,多轮对话可能存在语义碎片化和信息冗余的问题。所以,我们需要进一步对对话信息进行改写,提取关键信息,去除冗余内容,将分散的语义整合为一个完整连贯的查询语句。基于此,再与知识库中的信息进行检索,这样召回的结果会更加准确。
在当前人工智能技术快速发展的背景下,如何有效提升大模型在特定应用场景中的智能化水平,成为研究与工程落地的重点。本文围绕大模型在教育和客服两个关键场景的应用展开探讨,并结合图结构增强检索(GraphRAG)等技术,提出优化路径。
首先,在教育场景中,学生的学习数据呈现高度关联性,知识点之间存在复杂依赖关系。基于 GraphRAG 技术,可将知识点、题目、做题记录构建成结构化知识网络,实现精准的知识点定位与个性化推荐。这种多跳推理机制,能够更高效地支持个性化学习路径规划和错误诊断。
其次,在客服场景中,用户咨询内容多样且涉及多个设备型号、故障类型。为提升问题理解与响应准确性,采用了 Tool learning 的方法,使大模型自主学习何时调用接口及调用何种接口。这一过程分为数据微调阶段、预测参数提取阶段和结果反馈生成阶段,显著增强了模型对实际业务的支持能力。
针对回复可信度控制问题,采用 RAG+微调的方式补充上下文信息,同时通过置信度检测降低模型幻觉风险。若模型输出不确定性较高,则交由人工处理,保障服务稳定性。
目前,部分系统仍采用固定流程执行检索与生成任务。未来的目标是构建更具自适应能力的 Agentic GraphRAG,以支持动态推理、多轮交互,并进一步整合工具使用能力。这不仅适用于当前教育与客服场景,也为其他行业应用提供通用框架。
随着数据不断更新,如何维护模型泛化能力成为一个挑战。此外,在多模态领域,除了图片识别外,视频、音频等模态的支持仍有待完善。
最终目标是建立一个闭环系统,从产品故障反馈出发,反向优化产品设计,从而形成完整的智能驱动价值链条。
Q:是否可以不用 GraphRAG 而采用贝叶斯网络或传统知识图谱?
A:贝叶斯网络与传统知识图谱虽能解决部分内容,但难以实现 GraphRAG 所具备的深度关系推理与自然语言生成相结合的能力。
Q:GraphRAG 是否值得继续投入研发资源?
A:GraphRAG 不仅继承了知识图谱的结构优势,也引入动态知识整合,尤其在复杂关系推理场景下具有显著优势。
Q:未来 GraphRAG 发展趋势?
A:时序图学习、可解释性检索增强、GNN 与多模态融合将是关键技术方向。
Q:GraphRAG 适用与不适用哪些任务?
A:适合多跳复杂推理、实体强关联查询;不适合简单事实类查询或高独立性数据场景。实施时需关注图结构定义、知识更新机制与评估体系。
张世鸣
视源股份(CVTE)研究员
中央研究院数据挖掘部研究员,专注大数据与图智能的技术与应用,主导多项跨行业智能系统落地。Apache HugeGraph PMC Member、HugeGraph-AI Creator。