《Machine Learning In Action》 -- 第二章 k近邻算法

第二章 k近邻算法

k近邻算法: 数据集中每个数据都有一个标签, 这些不同类型标签组合起来标识了这个数据的所属分类, 当出入一个新数据时, 用新数据的每个特征和现存数据集中的特征进行比较, 选取最近似的数据的分类标签。




举例:
对一个电影进行判断是爱情片还是动作片

  1. 收集数据: 拿到一些的片子
  2. 准备数据: 对这些片子进行结构化, 提取其中 接吻次数和打斗次数, 如果接吻次数远大于打斗次数,则为爱情片
  3. 分析数据, 将新片子,提取新片子的接吻次数和打斗次数,插入到二位像限中
  4. 训练算法: k-近邻一般不需要
  5. 测试算法: 计算错误率
  6. 使用算法: 输出结果,