机器学习概论

机器学习的定义

1959年,Arthur Samuel提出了一个关于机器学习的非正式定义:即在不针对具体问题编程的情况下,赋予计算机以学习能力的一个研究领域。

Machine Learning: Filed of study that gives computers the ability ot learn without being explicitly programmed.

1998年,Tom Mitchell提出了另一个关于机器学习一个更加现代和正式的定义:对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

机器学习和统计学习

统计学习(Statistical Learning),又称统计机器学习(Statistical Machine Learning),是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。
因为目前机器学习中的大多数方法来自于统计学,两者的研究领域高度重合,故一般认为统计学习近似等于机器学习。

机器学习的分类

按照训练数据集的是否有标注,机器学习可以分为:

  • 监督学习(supervised learning)
  • 非监督学习(unsupervised learning)
  • 半监督学习(Semi-Supervised Learning)
  • 强化学习(reinforcement learning)

按照输出变量是连续还是离散,机器学习可以分为:

  • 回归问题(连续)
  • 分类问题(离散)

监督学习和非监督学习是一个相对的概念,区别在于由于训练的数据集是否有标注。半监督学习是监督学习和非监督学习相结合的一种学习方法,它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。强化学习则是强调如何行动以最大化预期目标。

统计学习的要素

这部分参考《统计学习方法》中关于统计学习三要素的章节。

统计学习方法都是由模型、策略和算法构成的,可以简单地表示为:方法=模型+策略+算法

后记

首先,关于机器学习定义。以上两段引文表述了目前我对机器学习特征的认识,即:非针对性编程和经验学习。
第二,关于统计学习。由于知识水平所限,目前基本上会将机器学习和统计学习归为一个概念不加以区别。
第三,关于机器学习分类。就自己目前而言,只涉及过监督学习和非监督学习两类,强化学习尚未有涉及,理解不够深刻,可能有误。
第四,关于统计学习(机器学习)要素可直接参考对应书籍,其中关于三者的论述很详细。另外,其中关于损失函数(cost function)、经验风险最小化(empirical risk minimization, ERM)和结构风险最小化(structural risk minimization, SRM)三个概念也比较重要。

参考资料

[1] 李航 《统计学习方法》
[2] 斯坦福大学公开课—机器学习课程—01机器学习的动机与应用