自然语言智能研究实现人与计算机之间用语言进行有效通信。它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。它涉及到自然语言和形式化语言的分析、抽取、理解、转换和产生等多个课题。
从下到上分为了NLP数据、NLP基础能力、NLP应用技术和上层应用。 NLP数据是很多算法的原料,累了包括语言词典、实体知识词典、句法词典、情感分析等词典等。阿里NLP基础技术包含了词法分析、句法分析、文本分析、深度模型。在这之上,是NLP垂直的技术 包括问答 对话技术 反垃圾 地址解析等。这些技术的组合,就支持了很多应用。 其中搜索是NLP能力非常密集的一个应用
搜索的发起,往往是一个搜索关键词触发,比如用户搜索“ aj1北卡兰新款球鞋”
跨领域分词
我们在开放搜索开放了一系列的领域的分词模型
分词挑战
各个领域不断新增的未登录词或者叫新词,往往会大大降低分词效果;为新用户定制分词模型,从标注到训练的整个过程,成本都比较高;解决思路
结合统计特征,比如互信息、左右上等构建一个成词模型,可以基于用户数据快速构建一份领域词典;结合源领域分词模型和目标领域的词典,我们基于远程监督技术可以快速构建一个目标领域分词器;(上图为自动跨领域分词框架)
用户只需要提供给我们一些自己业务的语料数据,我们就可以自动的得到一个定制化的分词模型,这不仅大大提升了效率,同时也更快满足客户的需求。
通过这个技术,我们可以在各个领域获得比开源通用分词,更好的效果
命名实体识别
命名实体识别(NER),例如从query中提取人名 地名 时间等。
挑战与困难
NER在NLP领域研究非常多同时也面临很多的挑战,尤其在中文上由于缺乏天然分隔符,面临边界歧义、语义歧义、嵌套歧义等困难。
解决思路
下图右上角是我们在开放搜索中使用的模型架构图;在开放搜索中,很多用户都积累了大量词典实体库。为了充分利用这些词典,我们提出了一种在bert之上,有机融合知识的graphNer框架。从右下角的表格可以看出,在中文上能取得最好的效果;拼写纠错
开放搜索分为4个纠错步骤包含了挖掘、训练、评估和在线预测。
主要的模型根据统计翻译模型和神经网络翻译模型两套系统,同时在性能、展示样式和干预上有一套完备方法。
语义匹配
深度语言模型的出现给很多NLP任务带来了跨越式的提升,尤其是在语义匹配等任务上。 达摩院在bert上也提出了很多创新,提出了自研的StructBert。主要创新点在于在深度语言模型训练中,增加了字序/词序的目标函数 和更多样的句子结构预测目标函数,进行多任务学习。但是这样的通用的structbert是无法试用给开放搜索里成千上万个客户,成千上万个领域的。我们需要做领域适配。所以我们提出了语义匹配3阶段范式。 可以快速的为客户定制适合于自己业务的语义匹配模型。
(具体的流程如图)
算法模块产品化的系统架构,包含了离线计算、在线引擎以及产品控制台。 图中浅蓝色的部分是NLP在开放搜索上开放的算法相关功能,用户可以直接在控制台体验和使用。
原文链接
本文为阿里云原创内容,未经允许不得转载。