肖仰华老师的《知识图谱:概念与技术》,我认为是现在知识图谱最好的中文入门教材了,干货很多,无论身在学术或工业界都值得一看!
基础知识
知识图谱与NLP的关系,思考
1 人类是如何利用背景知识实现语言理解的?(基于图谱的语言理解)
2 人类是如何认知这个世界,进而形成知识的?(指导图谱的构造)
评价知识表示的重要因素:
1 表达能力
2 计算效率
知识图谱的知识表示方法:
1 符号化表示。面向人的理解,易于理解,可实现符号推理。
2 向量化表示。
知识图谱的变种:
传统KG在实际商业应用中可用范围小,为提升其可用范围,需对KG进行变种设计。例如,
1 事理图谱,描述事件之间的演化规律和模式。
2 意图图谱,可用于搜索意图消歧
3 事件图谱
4 概念图谱
概念图谱
节点:实体、概念
关系:实体与概念间的类属关系(isA),概念与概念间的subclass of。比如 刘德华isA演员,电影演员 subclass of 演员。
这种关系,对应到语言学上是上下位关系(hypernym-Hyponym)
构建流程:
1 抽取
2 补全
3 纠正
4 更新
补全的两种策略:
1 基于协同过滤
2 基于isA的传递性。不是所有的可以传递,需要一个模型。
纠正:
分为两步,
1 检测出错误。经统计发现,图中有环,则96%以上的情况都有错误。因此错误检测,主要是靠判环。
2 纠正错误。去掉不正确的边,保留正确的,破掉环。思路:
(1)正确和不正确可以由置信度来判断,即构图过程中有多少样本支持这条边。但有大量的边,只有1的置信度,因此该方法也无法解决所有问题。
(2)规则。a 实体不会有下位词。b 一个具体的概念,应该比抽象的概念,有更少的下位词。所以对于X isA Y,它的置信度是log(1+hypo(Y)/hypo(X)),即下位词数目的比值。
更新:
哪些实体更有可能更新?
从数据源上看。热门的新闻标题、搜索热词、在线社区的热门话题当中的实体,以及这些实体关联的实体。
此外,还可以做一个实体更新频率预测模型。
传统机器学习相对于深度学习的缺点:
1 特征抽取费时费力,难以捕捉很多隐形特征
2 模型的表达能力较弱
全连接网络相对于卷积神经网络的缺陷:
1 参数太多。
2 没有使用平移不变性。
负采样(negative sampling)是从噪声对比采样(noise contrast sampling,NCE)简化而来。
领域短语挖掘
问题定义:输入领域语料,输出领域短语。
高质量短语的特点:
足够频繁
信息量大
凝聚度高
完整性高
挖掘方法:
1 规则。利用POS Tag规则挖掘名词短语。不通用且召回率不高。
2 统计。利用统计指标,可做无监督和有监督
基于统计的领域短语挖掘流程:
1 候选短语生成。N-gram枚举。
2 统计特征计算。TF-IDF、PMI、左右熵
3 质量评分。可有监督或无监督。
4 排序输出。
基于翻译的图谱构建方法,存在挑战:
1 译法存在歧义
2 不同语种倾向表达不同的知识。
因此,导致准召都面临巨大挑战。
基于知识图谱的搜索和推荐的价值
1 有助于完善对象的画像
2 能发觉用户与物品之间的语义关联
3 提供可解释性依据
4 为用户的信息探索提供认知框架