《Machine Learning In Action》 -- 第一章 概述

第一章: 概述

机器学习核心思想是 从众多纷繁复杂的数据中, 识别并归类有价值的信息, 甚至对下一步的趋势做一定的预测。
在机器学习领域,如果有60%的准确度,就是非常惊人的。


数据挖掘十大算法

  1. C4.5 决策树
  2. k-均值, k-mean
  3. 支持向量机 SVM
  4. 最大期望算法 EM
  5. PageRank 算法
  6. AdaBoost 算法
  7. k-近临算法 KNN
  8. 朴素贝叶斯算法 NB
  9. 分类回归树 CART


监督学习:这类算法必须知道预测什么, 即目标变量的分类信息

  • 分类: 根据不同的特征量, 对数据进行分类识别
  • 回归:预测数值型数据

无监督学习:没有类别信息, 也没有目标变量

  • 聚类: 将数据分成类似的对象的归类过程
  • 密度估计: 寻找数据统计值的过程


DINGTALK_IM_3144282691.JPG.JPG


选择算法, 首先需要判断是否选择监督学习还是无监督学习, 在特征上是离散还是连续, 如果离散, 选择分类更适合, 如果连续,选择回归更适合




机器学习过程

  1. 数据采集
  2. 数据输入
  3. 人工干预数据
  4. 训练算法