机器学习：研究如何通过计算的手段，利用经验来改善系统自身的性能。

计算机系统中，“经验”通常以“data”形式存在，所以机器学习从数据中产生模型（model）的算法，称为学习算法。模型，即从数据中学到的结果。

通过向学习算法中输入已有的数据，算法产生模型，面对新的case时，模型就可以通过case的特性进行判断。

一组数据的集合称为数据集，其中每条记录是关于一个事件或对象的描述，称为”示例”（instance）或者”样本”（sample）。

描述中不同的性质称为属性。通过属性做成的坐标轴称为属性空间、样本空间或者输入空间。

在属性空间中，每个描述都与一个点对应，所以我们也把一个描述称作是”特征向量”。

从数据中学得模型的过程称为”学习”或者”训练”，这个过程通过执行某个学习算法完成。训练样本组成的集合称为”训练集”

训练样例的结果信息称为“样例”。如果需要预测的是离散值，例如（1、2、3、4、5），称为分类预测（classification）。特别的，离散值只有两个的情况称为二分类（binary classification），多个离散值称为多分类。如果需要预测的结果范围是一个连续值，或者是不可数结果，此时的学习任务称为回归任务（regression）。

聚类：将训练集中的西瓜分为若干组，每组称为一个”簇”；簇是自动形成的，对应一些潜在的概念划分，这些潜在的概念划分我们事先不知道，而且学习过程中使用的训练样本通常不用有标记信息（提前设定的结果）

训练样本有标记信息的学习任务称为监督学习（supervised learning），否则称为无监督学习（unsupervised learning）。分类回归是监督学习的代表，聚类（clustering）是后者的代表。

泛化（generalization）：学得模型适用于新样本的能力。

归纳偏好

由于训练样本的数据量无法代表整个样本空间，可能会存在这种情况：预测样本可以匹配到多个训练样本结果，而这些不同的训练结果有不同的输出。表现为分类中属不同类。

此时无法通过匹配的手段确定到底使用哪个训练样本结果，学习算法的”偏好”就很重要了。通过提前设置的偏好，在遇到这种情况时候，算法会自动根据偏好选择合适的预测结果。称为”归纳偏好”（inductive bias）

奥卡姆剃刀

奥卡姆剃刀是一种常用的、自然科学研究中最基本的原则，即”若有多个假设与观察一直，则选择最简单的那个”。

如无必要，勿增实体

NFL定理

所有问题同等重要的前提下，任意两个学习算法的期望性能是相同的。就是说误差率是相同的。NFL定理的重要定义是要我们认识到，脱离具体问题，空泛的谈论”什么学习算法更好没有意义”。学习算法自身的归纳偏好与问题是否匹配，往往起到决定性作用。

历史进程

机械学习

将所有样例记住，并在需要预测的时候拿出，实际上是一种检索方法，没有涉及到学习。

符号主义学习

这个阶段，代表的学习方法有决策树和基于逻辑学习。

基于连接主义

主要是神经网络学习，BP学习方法大放异彩。

基于统计的学习

SVM支持向量机的提出

DM与ML

数据挖掘（Data Mining）是从海量的数据中发掘知识，主要包括两个支撑技术：数据库管理和机器学习。

数据库领域为数据挖掘提供数据管理技术，而ML和统计学为DM提供数据分析技术。