似然度:训练数据在给定参数下的概率
最大化似然度=直接统计出现次数并归一化
应用链式法则,每个单词出现的概率基于它之前的N-1个单词(N=1,Uni-gram;N=2,Bi-gram; N=3,Tri-gram)。N-gram模型所做的马尔可夫假设忽视了语言中的长程依赖,但实用效果不错。
V:词库的大小
Q:训练出来的语言模型效果好还是坏?
外部评价法指将语言模型投入具体应用中,测试它们的表现。
缺点:运行外部应用可能比较耗时,不同应用的评价结果可能不一致
直观上,语言模型对于(未见过的)真实的句子应当给出更高的概率。
对于测试集中的所有句子:,概率为
概率对数为:
平均每个单词的概率对数为:
M为测试集中单词总数。
perplexity=
显然,困惑读越小,语言模型越好。
注意:使用不同词表的语言模型,其困惑度不可比。