04 | 画鬼容易画人难:用户画像的“能”和“不能”
做好一个推荐系统,总共分为三步:1、认识每一个用户;2、给他推荐他感兴趣的东西;3、坐等各项指标上升。
什么是用户画像
“用户画像”对应的英文有两个:Personas和User Profile。Personas属于交互设计领域的概念,我们聊聊User Profile这种用户画像。User Profile原本用于营销领域。营销人员需要对营销的客户有更精准的认识,从而能够更有针对性地对客户和市场制定营销方案。这个理念本身没有错,但是有一个问题:传统营销领域,是以市场销售人员为第一人称视角去看待客户的,也就是用户画像为营销人员服务。在这种用途下谈论的用户画像,和我们即将在推荐系统领域谈论的相差有点大;但是很遗憾,今天在媒体上看到的大多数“用户画像”案例分享,都停留在这个意思上。
用户画像应该给机器看,而不是给人看。
既然是给机器看的,那么画像是不是酷炫、是不是像、维度是不是人类可读,都不重要。一个推荐系统来到这个世界上,它只有一个使命,就是要在用户(User)和物品(Item)之间建立连接。一般方式就是,对用户和物品之间的匹配评分,也就是预测用户评分或者偏好。推荐系统在对匹配评分前,首先就要将用户和物品都向量化,这样才能进行计算。而根据推荐算法不同,向量化的方式也不同,最终对匹配评分的做法也不同。用户向量化后的结果,就是User Profile,俗称“用户画像”。所以,用户画像不是推荐系统的目的,而是在构建推荐系统的过程中产生的一个关键环节的副产品。另外,通常大型推荐系统一般都分为召回和排序两个阶段。因为全量物品通常数量非常大,无法为一个用户(User)逐一计算每一个物品(Iterm)的评分,这时候就需要一个召回阶段,其实就是预先筛选一部分物品(Item),从而降低计算量,用户画像除了用于最终匹配评分,还要用在召回。
用户画像的关键因素
建立用户画像的关键因素:第一个是维度,第二个是量化。每个维度的名称都是可理解的。用户画像的维度不一定需要人类能够理解,只要计算机能把两边对应上就可以了。维度的数量是我拍脑袋定的。假如是根据用户的阅读历史挖掘兴趣标签,那么我们无法提前知道用户有哪些标签,也就不能确定用户画像有哪些维度。有哪些维度也是我拍脑袋确定的。用户画像的维度个数可以不用确定。理论上来说维度越多,画像越精细,但带来的计算代价也是很大的,需要权衡。虽然这里以标签作为例子,但是你要注意,用户画像是向量化结果,而不是标签化。标签化只是向量化的一种,因为向量的维度不一定需要人理解。在实际生产系统上,用户画像每个维度的量化,应该交给机器,而且以目标为导向,以推荐效果好坏来反向优化出用户画像才有意义。所以用户画像的量化是和第三个关键元素“效果”息息相关的。前面已经说过,不要为了用户画像而用户画像,它只是推荐系统的一个副产品,所以要根据使用效果(排序好坏、召回覆盖等指标)来指导用户画像的量化。
用户画像构建的方法
按照对用户向量化的手段来分,用户画像构建方法分成三类:1、第一类就是查户口。直接使用原始数据作为用户画像的内容,如注册资料等人口统计学信息,或者购买历史,阅读历史等,除了数据清洗等工作,数据本身并没有做任何抽象和归纳。这就跟查户口一样,没什么技术含量,但通常对于用户冷启动等场景非常有用。2、第二类就是堆数据。方法就是堆积历史数据,做统计工作,这是最常见的用户画像数据,场景的兴趣标签,就是这一类,就是从历史行为数据中去挖掘出标签,然后在标签维度上做数据统计,用统计结果作为量化结果。这一类数据贡献了常见的酷炫用户画像。3、第三类就是黑盒子。就是用机器学习方法,学习出人类无法直观理解的稠密向量,也最不被非技术人员重视,但实际上在推荐系统中承担的作用非常大。比如使用潜语义模型构建用户阅读兴趣,或者使用矩阵分解得到的隐因子,或者使用深度学习模型学习用户的Embedding向量。这一类用户画像数据因为通常是不可解释,不能直接被人看懂。
总结
1、用户画像到底是什么?它是对用户信息的向量化表示,为什么不向量化表示不行?因为没办法交给计算机计算,而且,用户画像是给机器看的,而不是给人看的。2、用户画像的关键元素有哪些?维度、量化。用户画像是跟着使用效果走的,用户画像本身并不是目的。3、通常构建用户画像的手段有哪基类?有三类,第一类只会查户口做记录,第二类就是堆数据做统计,第三类就是黑盒子看不懂。