机器学习与大数据管理总结复习

有题库就不再总结零散的知识点，重点看自己不熟悉的地方

过拟合：一味追求提高对训练数据的预测能力，所选模型复杂度往往会比真实模型高。学习时选择的模型包含参数过多，以至于出现这一模型对已知数据预测的很好，但对未知数据预测的很差的现象。

K折交叉验证：随机地将已给数据切分为K个互不相交的大小相同的子集；然后利用K-1个子集的数据训练模型，利用剩下的子集进行测试模拟。将这个过程对可能的K种选择重复进行，最后选出K次测评中平均测试误差最小的模型。

分类与回归本质上都是一种映射关系的建立，本质区别就是分类时离散数据、回归时连续数据。区别：分类强调依据类别标签y对样本x空间的划分，回归强调x与回归值的拟合

集成学习

数据维度

大数据的特征

数据科学的定义

数据科学的生命周期

数据科学的生命周期、特点

数据科学项目的基本流程和特点

样本选择

批判性思维

判断逻辑谬误

数据预处理

数据采集的主要技术

缺失、冗余、噪声的数据处理

分类

LDA(线性鉴别分析)：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近，异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到这条直线上，再根据投影点来判断新样本的类别。

决策树 - ID3

朴素贝叶斯

Logistics回归

k-近邻

SVM：支持向量机是一个分类算法，它的目标就是确定一个超平面，从而将不同类别的数据分隔开以达到分类的目标。当训练数据线性可分的时候，通过硬间隔最大化，学习一个线性分类器，即线性可分的支持向量机，又称为硬间隔支持向量机；当训练数据近似线性可分时，通过软间隔最大化，学习一个线性分类器，即软间隔支持向量机；当训练数据线性不可分时，通过使用核函数技巧或者软间隔最大化学习非线性支持向量机。

集成学习

聚类

划分聚类

层次聚类

回归

一元

多元

非线性

逐步

关联规则分析

支持度、置信度

数据降维

PCA

时间序列分析

图数据挖掘

参考资料

[1] 机器学习.周志华

[2] 统计学习方法. 李航

[3] 中国科学院大学机器学习课程资料(秋). 周晓飞

[4] 中国科学院大学机器学习课程资料(秋). 沙瀛、周川

人工智能与深度学习数据科学与数据开发

#期末总结

机器学习与大数据管理总结复习

http://example.com/2024/12/25/机器学习与大数据管理总结复习/

作者

Munger Yang

发布于

2024年12月25日

许可协议

2024年12月总结与展望上一篇

自然语言处理基础总结复习下一篇