在樊登读书上,读到《数据思维》一书,做下记录。
互联网已经出现、物联网正在搭建,每个人甚至每个物体都在产生数据,但是很少有人能够玩转数据并利用他。
凭借数据,内行率先开启了先知视角,而有些个人和企业还在数据的金矿里迷失,找不到北。
从广告的精准投放,到预测并影响美国总统大选,数据为何如此神奇。
数据思维的核心价值:培养将业务问题转化为数据可分析问题的数据思维,数据才能为商业创造价值
业务数据化、数据业务化。业务要能产出数据,数据反哺业务。
一切能被电子化记录的都可以被称为数据,看似定义狭隘,但是在现在的时代来看,数据不局限于数字、还包括语音输入的声音,数码相机拍下的照片,手机录制的视频等,这也体现了数据产业的变迁,每个时代对于数据的存储是不一样的,不一样的数据时代观。
数据之于个人和企业的价值,一定是和业务的核心诉求相关。只有我们说清楚了数据的价值,客户才能为数据买单;企业才能在数据中找到业务的突破口,实现亏损增长。
数据的价值可以从以下三个方面去结合自身的业务考虑
收入:最典型的就是百度的付费搜索广告,通过对用户输入数据的深入分析,进行精准匹配,为广告主带去一大波流量,它所创造的收入增长就是数据的收入价值支出:例如某个电视生产厂家,他们通过采集某款电视中,用户使用传统VGA视频接口的数据,分析得到使用该接口的用户占比仅仅有百分之一,他们因此决策取消该接口的支持,直接给他们的节省了上亿元的成本,这也是数据分析带来的价值。风险控制:我们大家都知道,很多银行信用卡的办理,都有网上申请。网上申请比线下面签带来风险更高。数据分析可以帮助他们线上识别优质客户,以降低商业风险,为公司带来间接的价值。我们了解了什么是数据,数据对业务有相应的价值,那么什么才能称之为数据思维呢。数据思维的核心就是,使用一定的方法论,将业务问题定义为数据可分析问题。
了解数据思维,必须要引入一个统计学专有名词--回归分析,即确定两种或两种以上变量间,相互依赖的定量的关系的一种统计分析方法。“以道驭术,以术驱道”,在“道”的层面,回归分析是一种思维方式,在他的指导下,我们可以将业务问题定义为数据可分析问题;在“术”的层面,回归分析又是一种数据分析的工具。定义数据可分析问题:要定义数据可分析问题,需要找到两种变量1.因变量Y:因为其他变量改变而改变的变量,这是业务的核心诉求
2. 自变量X:用来解释因变量的Y的相关变量,也就是说自变量X的改变,影响了因变量Y的变化。自变量X表现了数据分析者对业务的洞见
总结一下就是:数据思维是把业务问题定义为数据分析问题,在杂乱无章的业务中,准确定位业务的核心诉求(因变量Y),并找到影响因变量Y的相关变量X,找到变量X,业务就被定义为了数据问题,业务上的问题也就能迎刃而解。
在不了解大数据分析的情况下,我们很容易神话大数据,认为大数据有很大的魔力,实际上大数据并没有那么神秘,它与许多人接触过的统计学有着千丝万缕的关系。
我们经常会混淆相关关系和因果关系,甚至有时候连相关关系都不算的事件A和B,由于他们相伴发生,我们便迷信的认为两者具有因果关系。因此鉴别相关关系和因果关系,不仅是我们了解大数据的金钥匙,也是培养科学素养,对伪科学说不,所要迈出的关键一步
为什么要有数据思维,数据可以给我们业务带来价值,我们生在数据时代,或多或少都会和数据相关,不具备数据思维,小大我们自己可能会像没有炒股知识,而去炒股一样会被征收智商税;业务上因为没有数据,也很难找到自身业务的增长点,找到业务的突破口,具体可以从以下几个方向找到原因
提高沟通效率:我们在工作中经常会遇到这样的情况:数据专家说的是技术语言,需求部门说的是业务问题(可能是数据可分析问题,也可能是数据不可分析问题),双方沟通难以顺利进行。要解决这个问题,不仅需要专业人士摆脱自己的知识诅咒,也需要业务部门客服对于数据的恐惧,公司内部应该自上而下都有必要培养数据思维。决策者需要认识到哪些事与数据相关,需求部门应该有将核心诉求讲清楚的能力。抓住商业机会:数据思维对公司业务,创业者来说也有帮助,具备数据思维,能让我们抓住商机。我们需要以下三个步骤找到答案1. 业务目前的方向,哪些数据能帮助我们,需要产出什么数据
2. 如果数据很重要,明确业务的核心诉求Y,并洞察影响了因变量的X
3. 在战略层面上,保障Y和X的高质量的供给,长时间的积累
生活中的数据思维:假如一个人既不是创业者,公司内业务也和数据无关,那么个人培养数据思维又有什么用呢?事实上生活中的大部分小事,数据思维都可以给你启发,关键看你自己怎么用。首先培养数据思维能帮你养成一种思考有的放矢的习惯,分析的目的是什么,核心诉求是什么,因变量是什么。搞清楚目的后,你就能将注意力集中在相关的自变量X上,就不会陷入放眼望去,到处都是重点的迷茫状态中去。读到这里,我们应该对数据思维有了一些兴趣,以下会列举介绍集中常见的数据分析工具,感兴趣,希望深入研究的技术同学可以深入每个分析方法、工具进行学习,试着用他们解决数据分析的问题。
在“术”的层面,回归分析就是各种各样的统计模型。主要有五种类型:线性回归、0-1回归、定序回归、计数回归、生存回归
线性回归,严格讲是普通线性回归,其主要特征是:因变量Y必须是连续性的数据,而对其影响因变量的X自变量来说,没有太多的要求。线性回归进场被用在,股票投资、客户终身价值、医疗健康等领域
0-1回归:因变量Y是0-1型的数据(只有两个可能的取值)。例如,性别只有男和女,购买决策只有买和不买,0-1回归可以用在互联网征信,个性化推荐,反垃圾、社交好友推荐等。
定序回归:因变量Y为定序数据(关乎顺序的数据)的回归分析模型。举个例子就是,豆瓣中的电影评分等级1-5颗星,常应用的场景有:电影的打分评级,电商产品的满意度评分等
计数回归:如果因变量Y是一个计数数据(非负整数),对应的回归分析模型就是计数分析。计数回归常用于:客户关系管理中的RFM模型,即一定时间内客户到访的次数
生存回归:是生存数据回归的简称,即因变量Y为生存数据(刻画一个现象或个体存续生存了多久)的回归分析模型,例如动物的寿命,产品使用年限,创业公司持续时间等。
最基础的数据可视化方法就是统计图,一张好的统计图应该满足四个标准:准确、有效、简洁、美观。常用的统计图有:柱状图、堆积柱状图、饼图、直方图、折线图、散点图、象限图、茎叶图等
机器学习有一大类优秀的数据模型分析方法,需要机器学习算法专业必修,主要涉及的方法有:朴素贝叶斯、决策树(随机森林)、神经网络(含深度学习)、K均值类等
数据式结构化的还是非结构化的,这是一个相对的,主观的概念。非结构化的数据并不代表着我们不能对它进行数据分析。举例说明:
以《倚天屠龙记》中,张无忌到底爱谁,就可以利用分数分析的方法得到答案。
首先把小说的主要人物和他们的称谓做提取确定自然段为分析单位,接下来就可以将业务问题:张无忌到底爱谁定义为数据可分析问题对文章中人物的出场频次、出场时间、亲密程度等不同角度进行分析。
总结:读任何一本书,都可以提升自己的认知,虽然不能给我我们带来太多的方法论,也不能让我们的生活立即发生改变,甚至在读书的过程中有些费力,但是偶尔走出自己的舒适区,尝试理解之前未曾触碰的问题,然后惊喜的发现,原来是这个样子的,这何尝不是一种进步呢。