query理解--基于点击日志

it2025-10-26  8

转载: 进学习参考,如侵权可联系删除: https://zhuanlan.zhihu.com/p/61254258

背景: 点击日志在搜索,nlp任务中不可或缺的作用。机遇点击日志词权重计算 假设:长query中term权重可以由短query中term权重近似计算得到。 如要求Query:奔驰 汽车 发电 机 故障 怎么 办?中每个term的权重。如果能够分别知道子片段中哪个term比较重要,发电 机 故障、汽车 发电 机 故障、奔驰 汽车 故障、奔驰 汽车,那么query中的term权重可以由这些子片段中term的权重推导得到。问题转化成求frag中的词权重p(term|frag)和词丢弃概率pvte(term|frag)。 p(term|frag)是子片段frag中term的权重,表示term在子片段中权重越高, 那么term在query的权重就越高。 pvte(term|frag)是子片段frag中term丢弃概率, 表示term在子片段中越不重要,那么term在query中就越不重要。 p(term|frag)和pvte(term|frag)的计算方式比较类似,下面以“奔驰 汽车”为例介绍下p(term|frag)的计算方法:
最新回复(0)