《知识图谱:概念与技术》笔记

it2025-08-25  5

肖仰华老师的《知识图谱:概念与技术》,我认为是现在知识图谱最好的中文入门教材了,干货很多,无论身在学术或工业界都值得一看!

 

基础知识

知识图谱与NLP的关系,思考

1 人类是如何利用背景知识实现语言理解的?(基于图谱的语言理解)

2 人类是如何认知这个世界,进而形成知识的?(指导图谱的构造)

 

评价知识表示的重要因素:

1 表达能力

2 计算效率

 

知识图谱的知识表示方法:

1 符号化表示。面向人的理解,易于理解,可实现符号推理。

2 向量化表示。

 

知识图谱的变种:

传统KG在实际商业应用中可用范围小,为提升其可用范围,需对KG进行变种设计。例如,

1 事理图谱,描述事件之间的演化规律和模式。

2 意图图谱,可用于搜索意图消歧

3 事件图谱

4 概念图谱

 

概念图谱

节点:实体、概念

关系:实体与概念间的类属关系(isA),概念与概念间的subclass of。比如 刘德华isA演员,电影演员 subclass of 演员。

这种关系,对应到语言学上是上下位关系(hypernym-Hyponym)

构建流程:

1 抽取

2 补全

3 纠正

4 更新

 

补全的两种策略:

1 基于协同过滤

2 基于isA的传递性。不是所有的可以传递,需要一个模型。

 

纠正:

分为两步,

1 检测出错误。经统计发现,图中有环,则96%以上的情况都有错误。因此错误检测,主要是靠判环。

2 纠正错误。去掉不正确的边,保留正确的,破掉环。思路:

(1)正确和不正确可以由置信度来判断,即构图过程中有多少样本支持这条边。但有大量的边,只有1的置信度,因此该方法也无法解决所有问题。

(2)规则。a 实体不会有下位词。b 一个具体的概念,应该比抽象的概念,有更少的下位词。所以对于X isA Y,它的置信度是log(1+hypo(Y)/hypo(X)),即下位词数目的比值。

 

更新:

哪些实体更有可能更新?

从数据源上看。热门的新闻标题、搜索热词、在线社区的热门话题当中的实体,以及这些实体关联的实体。

此外,还可以做一个实体更新频率预测模型。

 

传统机器学习相对于深度学习的缺点:

1 特征抽取费时费力,难以捕捉很多隐形特征

2 模型的表达能力较弱

 

全连接网络相对于卷积神经网络的缺陷:

1 参数太多。

2 没有使用平移不变性。

 

负采样(negative sampling)是从噪声对比采样(noise contrast sampling,NCE)简化而来。

 

领域短语挖掘

问题定义:输入领域语料,输出领域短语。

 

高质量短语的特点:

足够频繁

信息量大

凝聚度高

完整性高

 

挖掘方法:

1 规则。利用POS Tag规则挖掘名词短语。不通用且召回率不高。

2 统计。利用统计指标,可做无监督和有监督

 

基于统计的领域短语挖掘流程:

1 候选短语生成。N-gram枚举。

2 统计特征计算。TF-IDF、PMI、左右熵

3 质量评分。可有监督或无监督。

4 排序输出。

 

基于翻译的图谱构建方法,存在挑战:

1 译法存在歧义

2 不同语种倾向表达不同的知识。

因此,导致准召都面临巨大挑战。

 

基于知识图谱的搜索和推荐的价值

1 有助于完善对象的画像

2 能发觉用户与物品之间的语义关联

3 提供可解释性依据

4 为用户的信息探索提供认知框架

 

最新回复(0)