Language Model(语言模型)

it2025-03-18  12

Language Model

chain rule

  

最大似然估计(MLE)

  似然度:训练数据在给定参数下的概率

  最大化似然度=直接统计出现次数并归一化

                          

N-gram模型

  应用链式法则,每个单词出现的概率基于它之前的N-1个单词(N=1,Uni-gram;N=2,Bi-gram; N=3,Tri-gram)。N-gram模型所做的马尔可夫假设忽视了语言中的长程依赖,但实用效果不错。

Add-one Smoothing(Laplace Smoothing)

                                                   

                                                    

  V:词库的大小

Add-K Smoothing(Laplace Smoothing)

                                               

 

Evaluation of Language Model

  Q:训练出来的语言模型效果好还是坏?

外部评价

  外部评价法指将语言模型投入具体应用中,测试它们的表现。

  缺点:运行外部应用可能比较耗时,不同应用的评价结果可能不一致

Perplexity(困惑度)

  直观上,语言模型对于(未见过的)真实的句子应当给出更高的概率。

  对于测试集中的所有句子:,概率为

                                             

  概率对数为:

                                         

  平均每个单词的概率对数为:

                                        

  M为测试集中单词总数。

  perplexity=

  显然,困惑读越小,语言模型越好。

  注意:使用不同词表的语言模型,其困惑度不可比。

 

 

最新回复(0)