机器学习与大数据管理总结复习

有题库就不再总结零散的知识点,重点看自己不熟悉的地方

过拟合:一味追求提高对训练数据的预测能力,所选模型复杂度往往会比真实模型高。学习时选择的模型包含参数过多,以至于出现这一模型对已知数据预测的很好,但对未知数据预测的很差的现象。

K折交叉验证:随机地将已给数据切分为K个互不相交的大小相同的子集;然后利用K-1个子集的数据训练模型,利用剩下的子集进行测试模拟。将这个过程对可能的K种选择重复进行,最后选出K次测评中平均测试误差最小的模型。

分类与回归本质上都是一种映射关系的建立,本质区别就是分类时离散数据、回归时连续数据。区别:分类强调依据类别标签y对样本x空间的划分,回归强调x与回归值的拟合

集成学习

数据维度

大数据的特征

数据科学的定义

数据科学的生命周期

数据科学的生命周期、特点

数据科学项目的基本流程和特点

样本选择

批判性思维

判断逻辑谬误

数据预处理

数据采集的主要技术

缺失、冗余、噪声的数据处理

分类

LDA(线性鉴别分析):给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到这条直线上,再根据投影点来判断新样本的类别。

决策树 - ID3

朴素贝叶斯

Logistics回归

k-近邻

SVM:支持向量机是一个分类算法,它的目标就是确定一个超平面,从而将不同类别的数据分隔开以达到分类的目标。当训练数据线性可分的时候,通过硬间隔最大化,学习一个线性分类器,即线性可分的支持向量机,又称为硬间隔支持向量机;当训练数据近似线性可分时,通过软间隔最大化,学习一个线性分类器,即软间隔支持向量机;当训练数据线性不可分时,通过使用核函数技巧或者软间隔最大化学习非线性支持向量机。

集成学习

聚类

划分聚类

层次聚类

回归

一元

多元

非线性

逐步

关联规则分析

支持度、置信度

数据降维

PCA

时间序列分析

图数据挖掘

参考资料

[1] 机器学习.周志华

[2] 统计学习方法. 李航

[3] 中国科学院大学机器学习课程资料(秋). 周晓飞

[4] 中国科学院大学机器学习课程资料(秋). 沙瀛、周川


机器学习与大数据管理总结复习
http://example.com/2024/12/25/机器学习与大数据管理总结复习/
作者
Munger Yang
发布于
2024年12月25日
许可协议