首先要知道,数据挖掘都包括什么内容,对应是干什么的
数据挖掘之七种常用的方法https://blog.csdn.net/jiahaowanhao/article/details/79338025?utm_medium=distribute.pc_relevant.none-task-blog-title-2&spm=1001.2101.3001.4242数据挖掘常见分析方法https://www.cnblogs.com/puck/p/3729131.html以下为课程笔记:
原因:数据爆炸 解决办法 数据仓库(Data warehouse)和在线分析处理(OLAP) 数据挖掘
定义 数据挖掘:在大量数据中挖掘感兴趣的知识(规则、规律、模式、约束) 数据库中的知识挖掘(KDD)
知识挖掘的步骤: a) 了解应用领域——了解相关的知识和应用的目标 b) 创建目标数据集: 选择数据 c) 数据清理和预处理: (这个可能要占全过程60%的工作量) d) 数据缩减和变换 e) 选择数据挖掘的功能 f) 选择挖掘算法 g) 数据挖掘: 寻找感兴趣的模式 h) 模式评估和知识表示 i) 运用发现的知识 数据挖掘和商业智能
5. 数据 a) 结构化数据:二维表格的形式存储在关系数据库中 b) 非结构化数据:文本数据 § 视频数据 § 音频数据 § 图像数据 6. 数据来源: a) 关系数据库(ER图,Oracle,SQLServer,DB2,Mysql) b) 数据仓库 § 事务数据库 § 高级数据库系统和信息库 ü 空间数据库 ü 时间数据库和时间序列数据库 ü 流数据 ü 多媒体数据库 ü 面向对象数据库和对象-关系数据库 ü 异种数据库和遗产(legacy)数据库 ü 文本数据库和万维网 c) 各个数据库的简介(略)
1. 分类(classification) a) 是通过对【有类别】的对象的数据集进行学习,概括其主要特征,构建分类模型,根据该模型预测 对象的类别的一种数据挖掘和机器学习技术。 b) 例如,电信公司的客户可以分为两类,一类是忠诚的,一类 是流失的。根据这两类客户的个人特征方面的数据以及在公 司的消费方面的数据,利用分类技术可以构建分类模型。 c) 2. 聚类(clustering) a) 是依据物以类聚的原理,将【没有类别的】对象根据对象的特征自动聚集成不同簇的过程,使得属于同 一个簇的对象之间非常相似,属于不同簇的对象之间不相似。 § 其典型应用是客户分群,根据客户特征把客聚成不同的客户群。 3. 关联分析 a) 关联分析最早用于分析超市中顾客一次购买的物品之间的关 联性。 b) 例如,发现关联规则(association rule)“尿不湿®啤酒 (0.5%,60%)”,其含义为,0.5%的交易中会同时购买 尿不湿和啤酒,且买尿不湿的交易中有60%会同时买啤酒。 4. 数值预测 a) 数值预测用于预测连续变量的取值。 § 常用的预测方法是回归分析。 b) 例如,可以根据客户个人特征,如年龄、工作类型、受 教育程度、婚姻状况等,来预测其每月的消费额度。 5. :异常点挖掘 a) § 孤立点分析(outlier analysis) § 一些与数据一般特点不一致的孤立点。 b) 例如,信用卡客户欺诈检测。 6. 序列分析 a) § 序列分析是对序列数据库进行分析,从中挖掘出有意义模式的 技术 § 序列模式(sequential pattern)的发现属于序列分析,它是 从序列数据库中发现的一种有序模式. 7. 社会网络(social network) a) 是由个人或组织及其之间的 关系构成的网络。 b) 社会网络分析(social network analysis)是对社会网 络的结构和属性进行分析,以发现其中的局部或全局特 点,发现其中有影响力的个人或组织,发现网络的动态 变化规律等。
1. 数据分析和决策支持 – a) 市场分析和管理 Ø 目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割 - 风险分析和管理 b) 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析 - 欺骗检测和异常模式的监测 (孤立点) 2. 其他的应用 - 文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘 - 流数据挖掘 - DNA 和生物数据分析
关联规则挖掘是从交易数据库、关系数据库以及其他的数据集中发现项 或对象的频繁模式(frequent patterns)、关联( associations)的 过程。
已有:一段时间内顾客购买的所有小票清单,为了方便我们把A:炸鸡,D:可乐
假如有一条关联规则:炸鸡->可乐,——也可看为概率事件 买炸鸡的占3/5,买可乐的占4/5, ——P(A)=3/5, P(D)=4/5支持度support:同时买炸鸡可乐的占3/5, ——P(AD)=3/5置信度confidence:买炸鸡的人中买可乐的占3/3,——P(AD)/P(A)
支持度指交易包含项集X的概率其中D的模表示交易的个数
若support(X) >=最小支持度阈值minsup ,则X称为频繁项集 (frequent itemset),也可以说X是频繁的. 设minsup = 50%,那么频繁项集为:{A:3, B:3, D:4, E:3, AD:3} 其中A表示项集(itemset),3表示出现的次数,即count(A)
该项集时频繁的,其自己也是频繁的,例如{A} {A, B} {A, AD}等
如果一个项集时不频繁的,那么他的超集都是不频繁的
一个频繁项集 X 被称为闭合频繁项集(closed frequent itemset)当 且仅当不存在任一个项集Y满足XÌY 且support(Y)=support(X)。闭 合频繁项集X被称为是闭合的。 例如: - A是频繁的,但不是闭合的, 因为support(AD)=support(A),且 然而{AD}时闭合的,因为不存在一个与他具有相同支持度的超集关联规则的挖掘步骤:发现所有的频繁项集,从频繁项集中发现关联方法
- 什么品牌的啤酒和尿片有关联?
play basketball -> not eat cereal [20%, 33.3%]