第一章: 概述
机器学习核心思想是 从众多纷繁复杂的数据中, 识别并归类有价值的信息, 甚至对下一步的趋势做一定的预测。
在机器学习领域,如果有60%的准确度,就是非常惊人的。
数据挖掘十大算法
- C4.5 决策树
- k-均值, k-mean
- 支持向量机 SVM
- 最大期望算法 EM
- PageRank 算法
- AdaBoost 算法
- k-近临算法 KNN
- 朴素贝叶斯算法 NB
- 分类回归树 CART
监督学习:这类算法必须知道预测什么, 即目标变量的分类信息
- 分类: 根据不同的特征量, 对数据进行分类识别
- 回归:预测数值型数据
无监督学习:没有类别信息, 也没有目标变量
- 聚类: 将数据分成类似的对象的归类过程
- 密度估计: 寻找数据统计值的过程
选择算法, 首先需要判断是否选择监督学习还是无监督学习, 在特征上是离散还是连续, 如果离散, 选择分类更适合, 如果连续,选择回归更适合
机器学习过程
- 数据采集
- 数据输入
- 人工干预数据
- 训练算法