《知识图谱：概念与技术》笔记

it2025-08-25 71

肖仰华老师的《知识图谱：概念与技术》，我认为是现在知识图谱最好的中文入门教材了，干货很多，无论身在学术或工业界都值得一看！

基础知识

知识图谱与NLP的关系，思考

1 人类是如何利用背景知识实现语言理解的？（基于图谱的语言理解）

2 人类是如何认知这个世界，进而形成知识的？（指导图谱的构造）

评价知识表示的重要因素：

1 表达能力

2 计算效率

知识图谱的知识表示方法：

1 符号化表示。面向人的理解，易于理解，可实现符号推理。

2 向量化表示。

知识图谱的变种：

传统KG在实际商业应用中可用范围小，为提升其可用范围，需对KG进行变种设计。例如，

1 事理图谱，描述事件之间的演化规律和模式。

2 意图图谱，可用于搜索意图消歧

3 事件图谱

4 概念图谱

概念图谱

节点：实体、概念

关系：实体与概念间的类属关系（isA），概念与概念间的subclass of。比如刘德华isA演员，电影演员 subclass of 演员。

这种关系，对应到语言学上是上下位关系（hypernym-Hyponym）

构建流程：

1 抽取

2 补全

3 纠正

4 更新

补全的两种策略：

1 基于协同过滤

2 基于isA的传递性。不是所有的可以传递，需要一个模型。

纠正：

分为两步，

1 检测出错误。经统计发现，图中有环，则96%以上的情况都有错误。因此错误检测，主要是靠判环。

2 纠正错误。去掉不正确的边，保留正确的，破掉环。思路：

（1）正确和不正确可以由置信度来判断，即构图过程中有多少样本支持这条边。但有大量的边，只有1的置信度，因此该方法也无法解决所有问题。

（2）规则。a 实体不会有下位词。b 一个具体的概念，应该比抽象的概念，有更少的下位词。所以对于X isA Y，它的置信度是log（1+hypo(Y)/hypo(X)），即下位词数目的比值。

更新：

哪些实体更有可能更新？

从数据源上看。热门的新闻标题、搜索热词、在线社区的热门话题当中的实体，以及这些实体关联的实体。

此外，还可以做一个实体更新频率预测模型。

传统机器学习相对于深度学习的缺点：

1 特征抽取费时费力，难以捕捉很多隐形特征

2 模型的表达能力较弱

全连接网络相对于卷积神经网络的缺陷：

1 参数太多。

2 没有使用平移不变性。

负采样（negative sampling）是从噪声对比采样（noise contrast sampling，NCE）简化而来。

领域短语挖掘

问题定义：输入领域语料，输出领域短语。

高质量短语的特点：

足够频繁

信息量大

凝聚度高

完整性高

挖掘方法：

1 规则。利用POS Tag规则挖掘名词短语。不通用且召回率不高。

2 统计。利用统计指标，可做无监督和有监督

基于统计的领域短语挖掘流程：

1 候选短语生成。N-gram枚举。

2 统计特征计算。TF-IDF、PMI、左右熵

3 质量评分。可有监督或无监督。

4 排序输出。

基于翻译的图谱构建方法，存在挑战：

1 译法存在歧义

2 不同语种倾向表达不同的知识。

因此，导致准召都面临巨大挑战。

基于知识图谱的搜索和推荐的价值

1 有助于完善对象的画像

2 能发觉用户与物品之间的语义关联

3 提供可解释性依据

4 为用户的信息探索提供认知框架

最新回复(0)