您现在的位置是:首页 >其他 >2023广工数据挖掘复习重点精讲网站首页其他
2023广工数据挖掘复习重点精讲
重点
第一章
数据挖掘定义
数据挖掘任务
分类、聚类、回归、关联、离群点检测、演化、序列模式挖掘
- 分类:通过分析示例数据库中的数据为每个类别做出准确的描述和建立分析模型或挖掘出分类规则,然后用此规则对其他数据库的记录进行分类
- 聚类:试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中
- 回归:确定两种或两种以上变量间相互依赖的定量关系的一种分析方法
- 关联: 发现特征之间的相互依赖关系 通常是从给定的数据集中发现频繁出现的模式知识(又称为 关联规则)。
知识发现过程:
①数据清洗:清除数据噪声和与挖掘主题明显无关的数据
②数据集成:将来自多个数据源中的相关数据组合到一起
③数据选择:根据数据挖掘的目标选取待处理的数据
④数据转换:将数据转换为易于进行数据挖掘的数据存储形式
⑤数据挖掘:利用智能方法挖掘数据模式或规律知识
⑥模式评估:根据一定评估标准,从挖掘结果中筛选出有意义的相关知识
⑦知识表示:利用可视化和知识表达技术,向用户展示所挖掘的相关知识
数据挖掘过程【商业角度】
- 数据收集和预处理
- 知识提取
- 知识辅助决策
(1)
在数据挖掘中,与谚语“蜜蜂归窠迟,来日好天气”和“蚯蚓爬上路,雨水乱如麻”中的人类思维过程最相关的任务是序列模式挖掘。
序列模式挖掘是一种数据挖掘任务,旨在从有序数据序列中发现频繁出现的模式或规则。它适用于时间序列、文本数据、日志记录等场景,其中数据具有固定的顺序关系。
谚语中所描述的情景涉及到某种顺序和时间上的关联,即蜜蜂归巢和好天气之间的关系,以及蚯蚓爬行和雨水乱如麻之间的关系。这种思维过程涉及到对事件之间的顺序和时序关系的感知和理解。
序列模式挖掘的目标就是从序列数据中提取出这种顺序关系,发现频繁出现的模式或规则。通过分析序列数据中的模式,我们可以了解事件之间的顺序关系和可能的因果关系,类似于人类思维中观察事件的顺序和推断可能的结果。
因此,序列模式挖掘任务与谚语中的人类思维过程具有一定的相似性,可以帮助我们揭示事件之间的顺序关系,并从中推断可能的结果或趋势。
(3)分类与回归的区别
分类和回归是两种常见的有监督学习任务,它们的主要区别在于输出结果的性质。
分类任务是一种有监督学习任务,旨在将实例分到预定义的类别中。其输出是离散的类别标签。分类任务的目标是根据已知的输入特征来建立一个模型,使其能够将新的实例正确分类到预定义的类别中。分类问题的例子包括垃圾邮件分类、图像识别(将图像分为不同的物体类别)、疾病预测(将患者分为不同的疾病类别)等。
回归任务也是一种有监督学习任务,其目标是预测一个连续的数值输出。回归任务通过建立输入特征和对应的输出之间的关系来进行预测。回归问题的例子包括房价预测(根据房屋的各种特征预测价格)、销售量预测(根据市场因素预测产品的销售量)等。
区别总结如下:
- 分类任务的输出是离散的类别标签,而回归任务的输出是连续的数值。
- 分类任务的目标是将实例分到预定义的类别中,而回归任务的目标是预测数值输出。
至于分类算法属于有监督算法还是无监督算法,分类算法属于有监督算法。有监督学习是一种利用已标记的训练数据进行模型训练的方法,其中训练数据包括输入特征和对应的输出标签(类别标签)。分类算法通过使用有标签的训练数据来构建模型,以便对未标记的数据进行分类预测。
(1)数据挖掘的过程:
知识发现过程的1-7
(2)为了对银行的储蓄客户进行细分,以下是一个基本的数据挖掘方法的工作步骤:
- 数据清洗:
- 清除数据中的噪声和异常值。
- 处理缺失值,可以使用填充方法进行处理。
- 剔除与储蓄客户细分明显无关的数据。
- 数据集成:
- 从不同的数据源中收集与储蓄客户相关的数据,如个人信息、交易记录、储蓄账户信息等。
- 将这些数据集成到一个统一的数据集中。
- 数据选择:
- 根据银行储蓄客户细分的目标,选择与细分任务相关的数据。
- 例如,可以选择与客户年龄、收入、存款金额、交易频率等相关的数据。
- 数据转换:
- 对选定的数据进行转换,以便于进行数据挖掘。
- 可以进行特征工程,提取客户的关键特征,如平均存款金额、交易频率等。
- 标准化数据,使得不同特征具有相同的尺度。
- 数据挖掘:
- 使用适当的数据挖掘算法,如聚类、分类、关联规则挖掘等,来发现储蓄客户的细分模式或规律。
- 可以尝试不同的算法和参数组合,进行实验和比较。
- 模式评估:
- 根据预先设定的评估标准,对挖掘结果进行评估。
- 筛选出有意义且与银行需求相关的细分模式或规律。
- 知识表示:
- 使用可视化和知识表达技术,向银行提供所挖掘的相关知识。
- 可以通过报表、图表、可视化图像等方式向银行展示不同储蓄客户细分的特征和结果。
这些步骤提供了一个基本的框架,银行可以根据实际情况和需求进行调整和扩展,以实现对储蓄客户的细分分析。
(3)离群点和噪声点的区别:
- 定义:
- 离群点(Outliers):离群点是指与其他数据点明显不同的数据点,它们在数据集中远离其他数据点或者与大多数数据点具有明显不同的特征。
- 噪声点(Noise):噪声点是指数据中的随机、无意义或不相关的异常值,它们可能是由于数据收集过程中的错误、测量误差、数据传输问题或其他不确定因素引起的。
- 影响程度:
- 离群点:离群点对数据集的整体模式和结构具有较大的影响,可以对数据分析和挖掘结果产生较大的扰动。
- 噪声点:噪声点通常是孤立的,对整体数据集的分析和挖掘影响较小。
- 处理方式:
- 离群点:离群点可以被视为特殊情况或异常情况,可能包含有用的信息。在某些情况下,可以选择保留离群点或将其作为独立的类别进行处理。然而,在其他情况下,离群点可能会被视为异常值,并被删除或进行异常值处理。
- 噪声点:噪声点通常被认为是无效的或不相关的数据,一般会被视为干扰信号。处理噪声点的常见方法是进行数据清洗,通过修正、删除或替换噪声数据来净化数据集。
总结而言,离群点是与其他数据点明显不同的数据点,对整体模式和结构有较大影响;而噪声点是随机或无意义的异常值,对整体数据集影响较小。在数据分析和挖掘中,离群点可能包含有用信息,而噪声点通常需要进行清洗和处理。
第二章
三种均值在反映数据时的特点:
- 平均值:描述数据集中心最常用的,最有效的数值度量,但对极端值敏感
- 中位数:对于倾斜(非对称)数据,中位数是数据中心的较好度量
- 截断均值:截断均值可以避免少量极端值影响均值
截断均值:指定0和100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值。
数据预处理:
- 数据清理:
- 目的就是试图填充缺失值、去除噪声并识别离群点、纠正数据中的不一致值。
- 缺失值处理:
- 忽略元组
- 忽略属性列(很多的缺失值才使用)
- 人工填充
- 自动填充(全局常数、均值和众数、可能值(回归、推理、决策树))
- 噪声数据处理:
- 分箱(通过考察周围的值来平滑有序数据的值,均值平滑,边界平滑)
- 聚类(聚类将类似的值组织成群或簇。落在簇集合之外的值被视为异常值)
- 回归(通过回归(线性回归、非线性回归)让数据适合一个函数来平滑数据)
- 数据集成:
- 数据一致性和冗余
- 数据变换:
- 平滑
- 聚集
- 数据泛化
- 规范化
- min-max规范化(x-min÷(maqx-min))
- Z-score规范化(x-avg/标准差)
- 小数定标规范化([999,88]->[0.999,0.088])
- 属性构造
- 数据离散化
- 数据规约(数据的抽样和特征选择)
- 数据离散化(具体的年龄使用老年、中年、青年来替代)
简答题:请列举5种数据预处理方法,并简要说明。
以下是五种常见的数据预处理方法及其简要说明:
- 数据清洗(Data Cleaning):数据清洗是指处理数据中的缺失值、异常值和重复值等问题。这包括填补缺失值、删除异常值或使用插补方法进行修复,以及识别和处理重复数据。
- 特征缩放(Feature Scaling):特征缩放是将不同特征的值范围映射到相似的尺度上,以消除特征之间的量纲差异。常见的特征缩放方法包括标准化(将特征转换为均值为0,方差为1的分布)和归一化(将特征缩放到0和1之间)。
- 特征编码(Feature Encoding):特征编码是将非数值型的特征转换为数值型的表示形式,以便机器学习算法能够处理。常见的特征编码方法包括独热编码(One-Hot Encoding)、标签编码(Label Encoding)和序数编码(Ordinal Encoding)。
- 特征选择(Feature Selection):特征选择是从原始特征集中选择最具有预测能力的特征子集。这可以减少特征空间的维度,提高模型的训练效率,并减少过拟合的风险。常见的特征选择方法包括过滤式方法(如方差阈值、相关系数)和包裹式方法(如递归特征消除)。
- 数据集划分(Data Splitting):数据集划分是将原始数据集划分为训练集、验证集和测试集等子集的过程。训练集用于模型训练,验证集用于模型调参和选择最佳模型,测试集用于评估模型在未见过数据上的性能。常见的划分方法包括随机划分和交叉验证。
这些数据预处理方法在机器学习和数据分析中起着重要的作用,可以提高模型的准确性、稳定性和可解释性。具体的预处理方法的选择取决于数据的特点和应用场景。
相似度度量
线性相关系数
余弦相似度
计算距离(闵可夫斯基距离)
- 曼哈顿距离(绝对值和)
- 欧几里得距离(平方求和开根号)
- 切比雪夫距离(x的差值或者y的差值大的那一个)
第三章 分类
决策树
决策树基本概念
决策树(Decision Tree)是一种树型结构,包括:决策节点(内部节点)、分支和叶节点三个部分。
- 决策节点:代表某个测试,通常对应于待分类对象的某个属性,在该属性上的不同测试结果对应一个分支。
- 叶节点存放某个类标号值,表示一种可能的分类结果。
- 分支表示某个决策节点的不同取值。
信息熵公式
信息增益
ID3算法
- 计算原数据集的熵Entropy(S)
- 计算所有属性的信息增益,选择增益最大的作为根节点
- 对每个分支递归使用这个方法
当划分到某个类的目标属性全是一个值时,就可以终止递归
缺点:
- 只能处理分类属性数据,无法处理连续型数据
- 对测试属性每个取值相应产生一个分支,会导致还分出很多小的子集,划分过程中可能会因为子集规模过小导致统计特征不充分而停止
- 由于使用信息增益作为决策树结点属性选择的标准,导致决策树算法偏向选择具有较多分支的属性,可能会过度拟合
C4.5算法
https://www.bilibili.com/video/BV1VA411A7AQ/?p=3&spm_id_from=pageDriver
不仅考虑信息增益的大小程度,还兼顾考虑为获得信息增益所付出的“代 价”
分裂信息
信息增益率
- 计算原数据集的熵S
- 计算所有属性的信息增益和分裂信息求得信息增益率,选择增益率最大的作为分裂的结点
朴素贝叶斯分类方法
贝叶斯定理
为什么朴素?
假设样本特征彼此独立,没有相关性,而这在现实中不存在,但是用这个方法在文本分类等应用中效果良好
KNN算法
曼哈顿距离(如果属性不同距离+1)
例题2
不平衡数据分类
不平衡数据,是指在同一数据集中某些类的样本数远大于其它类的样本数,其中样本少的类为少数类(以下称为正类) ,样本多的类为多数类(以下称为负类)。
查准率(精度)
预测正确的正例占分类为正例的比例
查全率(召回率)
预测正确的正例占实际为正例的比例
F1 度量
表示精度和召回率的调和平均值 F1 = 2rp / (r + p)
一元线性回归 - 最小二乘法
第四章 聚类
K-means
划分后取均值作为中心再划分直到不变化
K-summary
计算点与簇之间的距离
计算簇与簇之间的距离
例题
第一次先计算所有点到每个簇中心的距离,将他划分到距离进的簇
这样可以得到新簇的CSI信息
然后对所有点再计算一次距离
直到不变为止
DBSCAN算法
基于密度的聚类算法
当Eps>=MinPts时,该点为核心对象
例子:
一趟聚类算法
这个聚类阈值不知道是怎么算的
如果对两个簇都同时小于,就放进距离更小的
第五章 关联
关联分析中为何要首先寻找频繁项集,在非频繁项集中可以发现规则吗
在关联分析中,首先寻找频繁项集是为了确定数据集中出现频率较高的项集。频繁项集是指在数据集中经常同时出现的一组项的集合。通过寻找频繁项集,我们可以确定哪些项集具有较高的关联性,即它们经常同时出现。
寻找频繁项集有两个主要目的:
- 简化搜索空间:在大规模的数据集中,项集的组合可能非常庞大。通过首先寻找频繁项集,我们可以缩小搜索空间,只关注那些频繁出现的项集,减少计算复杂度和时间开销。
- 建立关联规则的基础:频繁项集是生成关联规则的基础。关联规则是指项集之间的条件关系,例如"苹果"->“橙子”,表示购买了苹果的人也倾向于购买橙子。通过找到频繁项集,我们可以进一步挖掘其中的关联规则,确定哪些项集之间存在着显著的关联性。
非频繁项集一般表示出现频率较低的项集,它们的出现可能是偶然的或者不具有统计显著性。在非频繁项集中发现规则的可行性较低,因为它们的出现很少,可能没有足够的样本来支持或验证关联规则的有效性。
因此,通过首先寻找频繁项集,可以筛选出具有统计意义的项集,从而为后续的关联规则挖掘提供更可靠的基础。
支持度和置信度
- 支持度分母是总数
- 置信度分母是包含x项的总数
频繁项集与规则
Apriori算法
标准的解题步骤
FP增长树
- 扫描事务表,对所有1项集进行计数并进行降序排序
- 利用L的排序来对事务表进行更新,根据事务表画出FP增长树
- FP-tree挖掘过程
关系规则生成
利用置信度和提前处理好的频繁项集来进行生成
筛选出符合置信度要求的关联规则
关系规则评价
假设评价规则{X}->{Y}
- 支持度:![](null#card=math&code=support = P(X)/P(ALL)&id=yb7XV)普遍性
- 置信度:可靠性
- 提升度:![](null#card=math&code=Lift = frac{P(Y|X)}{P(Y)}&id=jp8xa) 提升度<1表示负相关
第六章 离群点
离群点挖掘
基于统计的离群点检测
离群点对应于低概率的数据
基于距离的方法
计算K个最近邻的平均距离,可以得到离群点分数
基于相对密度的方法
感觉N(P5,k)有点问题,应该是2个才对
离群点与噪声点的区别
- 噪声是测量变量的随机错误或误差。噪声是测量误差的随机部分,包括错误或或孤立点值。导致噪声产生的原因有多种,可能是数据收集的设备故障,也可能是数据录入过程中人的疏忽或数据传输过程中的错误等
- 离群点是在数据集中偏离大部分数据的数据。可能对应稀有事件或异常行为。离群点可能是由于测量、输入错误或系统运行错误造成的,也可能是数据内在特性所决定的,或因客体的异常行为所导致的。离群点往往具有特殊的意义和很高的实用价值,需要对其认真审视和研究。在聚类,分类,关联分析等方法中,离群点通常被当成噪声, 但在安全,风险控制领域,离群点有比较高的研究价值