预测分析：R语言实现1.5　小结-白红宇

1.5　小结

在本章，我们探讨了关于预测模型的一些基本思想。我们看到有很多种方式可以对模型进行分类，并在这个过程中学习了一些重要的区分方式，例如有监督和无监督学习，回归和分类等。然后，我们列出了构建预测模型所需要的步骤，从数据收集的过程开始，一直到模型的评价和部署。关键在于，这个过程是迭代式的，往往要尝试并训练很多不同的模型才能得到最终的模型。为了比较我们创建的不同模型的性能，我们讲解了一些模型性能的基本概念，例如回归的均方差和分类的分类误差率。

我们还介绍了我们的第一个模型，即k最近邻模型，它对于分类和回归都是有用的。kNN是一个很灵活的模型，它不对基础数据作出任何明确的假设。因此，它能拟合非常复杂的判定边界（decision boundary）。它是一种惰性学习方法，因为它不会构建一个模型来描述输入特征和输出变量之间的关系，因此，它不需要一个很长的训练过程。而另一方面，对于具有很多维度的数据，它会需要很长时间才能产生预测结果，而且由于这种模型需要记住所有的训练数据才能找到目标点的最邻近样本，它往往需要很多存储空间。kNN对不同特征的重要性是不加区分的，而且它在预测中采用了距离度量，这些事实意味着，在一方面，它不具备内建的处理缺失数据的方法，而另一方面，它经常需要把特征变换到相似的比例尺度。最后，该模型可以通过选择合适的k值（即最邻近样本的数量）来进行调优，以便平衡过拟合的程度。在对预测建模过程的基本知识具备了坚实的基础之后，我们在下一章要学习线性回归。