您现在的位置是:首页 >技术杂谈 >【Spark】实验6 Spark机器学习库MLlib编程实践网站首页技术杂谈

【Spark】实验6 Spark机器学习库MLlib编程实践

小手の冰凉 2024-08-17 12:01:02
简介【Spark】实验6 Spark机器学习库MLlib编程实践

Spark机器学习库MLlib编程实践

一、实验目的

  • 通过实验掌握基本的MLLib编程方法;
  • 掌握用MLLib解决一些常见的数据分析问题,包括数据导入、成分分析和分类和预测等。

二、实验平台

  • 新工科智慧平台。
  • 数据集1:下载Adult数据集(http://archive.ics.uci.edu/ml/datasets/Adult),该数据集也可以从教学平台获取。
    • 数据从美国1994年人口普查数据库抽取而来,可用来预测居民收入是否超过50K$/year。
    • 该数据集类变量为年收入是否超过50k$,属性变量包含年龄、工种、学历、职业、人种等重要信息。
    • 值得一提的是,14个属性变量中有7个类别型变量。
  • 数据集2:鸢尾花数据集 150条鸢尾花数据集

三、实验内容和要求

3.1 居民收入数据分类

1.数据导入

  • 从文件中导入数据,并转化为DataFrame。

2.进行主成分分析(PCA)

  • 对6个连续型的数值型变量进行主成分分析。
  • PCA(主成分分析)是通过正交变换把一组相关变量的观测值转化成一组线性无关的变量值,即主成分的一种方法。
  • PCA通过使用主成分把特征向量投影到低维空间,实现对特征向量的降维。
  • 请通过setK()方法将主成分数量设置为3,把连续型的特征向量转化成一个3维的主成分。

3.训练分类模型并预测居民收入

  • 在主成分分析的基础上,采用逻辑回归,以及决策树模型预测居民收入是否超过50K;
  • 对Test数据集进行验证。 并对两种方法结果进行分析对比。

4.超参数调优

  • 利用CrossValidator确定最优的参数,包括最优主成分PCA的维数、分类器自身的参数等。

3.2 鸢尾花数据聚类分析

1、数据集导入
2、构建聚类模型可以采用Kmeans及GMM,并训练
3、输出聚类标签
4、查看聚类中心或混合成分参数,分析并对比聚类效果。
i.即聚类的各类别是否反应其真实所属。

【 救救孩子,不会做 π _ π 】

风语者!平时喜欢研究各种技术,目前在从事后端开发工作,热爱生活、热爱工作。