机器学习与大数据管理总结复习
有题库就不再总结零散的知识点,重点看自己不熟悉的地方
过拟合:一味追求提高对训练数据的预测能力,所选模型复杂度往往会比真实模型高。学习时选择的模型包含参数过多,以至于出现这一模型对已知数据预测的很好,但对未知数据预测的很差的现象。
K折交叉验证:随机地将已给数据切分为K个互不相交的大小相同的子集;然后利用K-1个子集的数据训练模型,利用剩下的子集进行测试模拟。将这个过程对可能的K种选择重复进行,最后选出K次测评中平均测试误差最小的模型。
分类与回归本质上都是一种映射关系的建立,本质区别就是分类时离散数据、回归时连续数据。区别:分类强调依据类别标签y对样本x空间的划分,回归强调x与回归值的拟合
集成学习
数据维度
大数据的特征
数据科学的定义
数据科学的生命周期
数据科学的生命周期、特点
数据科学项目的基本流程和特点
样本选择
批判性思维
判断逻辑谬误
数据预处理
数据采集的主要技术
缺失、冗余、噪声的数据处理
分类
LDA(线性鉴别分析):给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到这条直线上,再根据投影点来判断新样本的类别。
决策树 - ID3
朴素贝叶斯
Logistics回归
k-近邻
SVM:支持向量机是一个分类算法,它的目标就是确定一个超平面,从而将不同类别的数据分隔开以达到分类的目标。当训练数据线性可分的时候,通过硬间隔最大化,学习一个线性分类器,即线性可分的支持向量机,又称为硬间隔支持向量机;当训练数据近似线性可分时,通过软间隔最大化,学习一个线性分类器,即软间隔支持向量机;当训练数据线性不可分时,通过使用核函数技巧或者软间隔最大化学习非线性支持向量机。
集成学习
聚类
划分聚类
层次聚类
回归
一元
多元
非线性
逐步
关联规则分析
支持度、置信度
数据降维
PCA
时间序列分析
图数据挖掘
参考资料
[1] 机器学习.周志华
[2] 统计学习方法. 李航
[3] 中国科学院大学机器学习课程资料(秋). 周晓飞
[4] 中国科学院大学机器学习课程资料(秋). 沙瀛、周川