本文轉載自公眾號 SIGAI,原文地址

近40年來機器學習領域產生了數以萬計的論文,並以每年上萬篇的速度增長。但真正能夠稱為經典、經受住歷史檢驗、能投入實際應用的並不多。本文整理了機器學習歷史上出現的經典論文,按照被引用次數對它們進行了排序,分為top10,被引用次數超過2萬,被引用次數超過1萬,未來有潛力的文章4部分。它們已經或者在未來具有資格被寫入機器學習、深度學習、人工智能的教科書,是一代又一代研究人員為我們留下的寶貴財富。需要說明的是,引用次數對近幾年新出現的文章是不公平的,它們還處於高速增長期,但好酒就是好酒,隨着時間的沉澱會越來越香。

引用次數最高的10篇文獻

第1名-EM算法

Arthur P Dempster, Nan M Laird, Donald B Rubin. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the royal statistical society series b-methodological, 1976.

被引用次數:55989

令筆者驚訝的是排名第一的居然不是支持向量機,集成學習,深度學習,決策樹等歷史上赫赫有名的算法,而是EM。這是EM算法的原文,引用次數高達5萬多!EM算法在很多版本的排名中都被稱為機器學習的10大算法之一。它在數學上優美,實現起來也很簡單,是求解含有隱變量的最大似然估計、最大後驗概率估計的有力工具,在高斯混合模型,隱馬爾可夫模型等問題上得到了成功的應用。在SIGAI之前的公眾號文章「理解EM算法」中對其原理進行了詳細的介紹。

第2名-logistic回歸

David W Hosmer, Stanley Lemeshow. Applied logistic regression. Technometrics. 2000.

被引用次數:55234

代表了線性模型這一山頭。這不是logistic回歸的原文,logistic回歸在這之前幾十年就已經被提出,但這篇文獻的引用次數卻達到了,雖然它不是論文而是書的形式,但其引用次數比著名的PRML還要高。這也符合我們的直觀認識,logistic回歸雖然簡單,但卻實用,在工程上,往往是越簡單的東西越有用。

第3名-隨機森林

Breiman, Leo. Random Forests. Machine Learning 45 (1), 5-32, 2001.

被引用次數:42608

代表了集成學習這一大山頭。Breiman的隨機森林,分類與回歸樹分列第3/4名。而隨機森林的排名比AdaBoost算法要高。同樣的,隨機森林也很簡單,但卻好用。在SIGAI之前的公眾號文章「隨機森林概述」中對集成學習,bagging,隨機森林進行了詳細的介紹。

第4名-分類與回歸樹

Breiman, L., Friedman, J. Olshen, R. and Stone C. Classification and Regression Trees, Wadsworth, 1984.

被引用次數:39580

這是分類與回歸樹的原文,代表了決策樹這一山頭。在各種決策樹中,分類與回歸樹(CART)應當是用的最廣的,現在還被用於充當隨機森林,AdaBoost,梯度提升算法的弱學習器。Breiman老爺子在2005年已經逝去,但他留給我們大片的樹和森林。在SIGAI之前的公眾號文章「理解決策樹」中對這一算法進行了詳細的介紹。

第5名-支持向量機開源庫libsvm

C.-C. Chang and C.-J. Lin. LIBSVM: a Library for Support Vector Machines. ACM TIST, 2:27:1-27:27, 2011.

被引用次數:38386

這篇文章介紹了libsvm開源庫。引用次數超過了支持向量機的原文,應該算是公開的最經典的支持向量機實現,其作者是台灣大學林智仁教授及其學生。相信很多做機器學習研究和產品的同學都用過它。在SIGAI之前的公眾號文章「用一張理解SVM」,「理解SVM核函數和參數的作用」中對SVM進行了詳細的介紹。

第6名-統計學習理論

An overview of statistical learning theory. VN Vapnik – IEEE transactions on neural networks

被引用次數:36117

Top10中唯一一篇理論層面的文章,出自Vapnik之手。他最有影響力的成果是支持向量機,VC維。但機器學習理論文章,整體來說引用次數相對較少,應該與做這些方向的研究者更少,文章更少有關,大部分人還是在做某些具體的算法。

第7名-主成分分析

Ian T. Jolliffe. Principal Component Analysis. Springer Verlag, New York, 1986.

被引用次數:35849

代表了降維算法這一山頭。這篇文獻不是主成分分析的原文,其原文發表於1個多世紀以前。這個排名對得起主成分分析的江湖地位,在各種科學和工程數據分析中,PCA被廣為應用。在SIGAI之前的公眾號文章「理解主成分分析(PCA)」中對PCA進行了介紹。

第8名-決策樹樹-C4.5

J. Ross Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, San Francisco, CA, 1993.

被引用次數:34703

又是決策樹。決策樹簡單實用,可解釋性強,是機器學習早期的重要成果。

第9名-深度卷積神經網絡

Alex Krizhevsky, Ilya Sutskever, Geoffrey E.Hinton. ImageNet Classification with Deep Convolutional Neural Networks. 2012.

被引用次數:34574

代表了深度學習這一山頭。深度卷積神經網絡的開山之作,將嚴樂村的卷積神經網絡發揚光大。這篇2012年才發表的文章能有如此的引用次數實屬不易,剛釀造出來的酒就是名酒,出自Hinton之手這也不奇怪。如此的被引用次數是當前炙手可熱的深度學習造就的。同樣的,沒有複雜的公式和理論,但卻出奇的好用。

第10名-支持向量機

Cortes, C. and Vapnik, V. Support vector networks. Machine Learning, 20, 273-297, 1995.

被引用次數:33540

代表了線性模型、核技巧的山頭,這是SVM正式的原文。支持向量機才排到第10位讓人有些奇怪,它可是在機器學習的江湖中風光了近20年的算法,當年言必稱SVM。

總結這top10的文獻可以看出,簡單才是美。這些文獻提出的算法沒有複雜的數學公式和晦澀難解的理論,但確實最經典的,因為有用!它們體現的是更深層次的哲學思想。其實在其他科學領域也是如此,數學領域中最經典的一些定理和公式也是非常的優美而簡潔,類似的還有物理。在top10中,Breiman和Vapnik兩次上榜。

引用次數超過2萬的文獻

除了top10之外,還有一些被引用次數超過2萬的文章 ,也堪稱經典。

Lawrence R. Rabiner. A tutorial on Hidden Markov Models and selected applications in speech recognition. Proceedings of the IEEE. 77 (2): 257–286. 1989.

被引用次數:26466

代表了概率圖模型這一山頭。終於見到了概率圖模型,過去幾十年中,引用最廣的概率圖模型當屬隱馬爾可夫模型(HMM)。這篇文章不是HMM的原文,但卻寫成了經典,對HMM的原理,在語音識別中的建模方法講解得清晰透徹。

MacQueen, J. B. Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. 1. University of California Press. pp. 281–297, 1967

被引用次數:24035

代表了聚類算法的山頭。k均值算法的開山之作,它也在各種排名中都被稱為機器學習10大經典算法,同樣是簡單而易於理解,我相信中學生都能看懂它!

J. Ross Quinlan. Induction of decision trees. Machine Learnin, 1(1): 81-106, 1986.

被引用次數:20359

介紹決策樹的文獻,不過多解釋,地位擺在這裡。Quinlan也是決策樹的一大山頭。

引用次數超過1萬的文獻

Roweis, Sam T and Saul, Lawrence K. Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500). 2000: 2323-2326.

被引用次數:12941

Tenenbaum, Joshua B and De Silva, Vin and Langford, John C. A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500). 2000: 2319-2323.

被引用次數:11927

流形學習的雙雄,兩篇代表作,開這一領域之先河。流形學習是當年非常熱門的方向。這兩篇文章都發在Science上,要知道,計算機科學的論文發Science和Nature是非常難的。在SIGAI之前的公眾號文章「流形學習概述」中對這類算法進行了介紹。

Ronald A. Fisher. The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7 Part 2: 179-188, 1936.

被引用次數:15379

線性判別分析的原文,1936年就已經發表了,那時候二戰還沒有爆發。

Burges JC. A tutorial on support vector machines for pattern recognition. Bell Laboratories, Lucent Technologies, 1997.

被引用次數:19885

介紹支持向量機在模式中應用的文章,SVM當年真是灌水的好方向!

Yoav Freund, Robert E Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. computational learning theory. 1995.

被引用次數:16431

AdaBoost算法的經典之作,與SVM並列為當年的機器學習雙雄。這是集成學習第一個有廣泛影響力的算法,在人臉檢測等問題上取得了成功。在SIGAI之前的公眾號文章「大話AdaBoost算法」,「理解AdaBoost算法」中對它進行了詳細的介紹。

Lafferty, J., McCallum, A., Pereira, F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann. pp. 282–289. 2001.

被引用次數:11978

條件隨機場的經典之作,這種方法在自然語言處理,圖像分割等問題上得到了成功的應用,如今還被與循環神經網絡整合在一起,解決自然語言處理等領域中的一些重點問題。

David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. Learning internal representations by back-propagating errors. Nature, 323(99): 533-536, 1986.

被引用次數:16610

嚴格意義上的反向傳播算法的原文,發在Nature上,重要性就不解釋了。現在的深度學習還是使用它。Hinton的名字再一次出現。在SIGAI之前的公眾號文章「反向傳播算法推導-全連接神經網絡」,「反向傳播算法推導-卷積神經網絡」中進行了詳細的講解。

Hornik, K., Stinchcombe, M., and White, H. Multilayer feedforward networks are universal approximators. Neural Networks, 2, 359-366, 1989.

被引用次數:16394

神經網絡的理論文章,著名的萬能逼近定理,從理論上證明了至少有1個隱含層的神經網絡尅逼近閉區間上任意連續函數到任意指定精度,為神經網絡和深度學習提供了強有力的理論保障。

 Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, november 1998.

被引用次數:16339

LeNet網絡的原文,被引用次數比嚴樂村同志在1989年,1990年提出卷積神經網絡的論文還多。也讓嚴樂村得到了卷積神經網絡之父的稱號。

Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, Going Deeper with Convolutions, Arxiv Link: http://arxiv.org/abs/1409.4842.

被引用次數:11268

GoogLeNet網絡的原文,做深度學習的同學都知道。發表於2015年的文章能有如此的引用次數,當然得利於深度學習的火爆。

K. Simonyan and A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. international conference on learning representations. 2015.

被引用次數:18980

VGG網絡的原文,經典的卷積網絡結構,被用在各個地方,引用次數比GoogLeNet多不少。

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition. computer vision and pattern recognition, 2015.

被引用次數:17285

殘差網絡的原文,做深度學習的同學都知道,終於用中國人名字上榜,加油!

S. Hochreiter, J. Schmidhuber. Long short-term memory. Neural  computation, 9(8): 1735-1780, 1997.

被引用次數:15448

LSTM的原文,讓循環神經網絡真正走向了實用。作者在深度學習領域做出了重要的貢獻,但卻非常低調,以至於很多人都不知道。

Martin Ester, Hanspeter Kriegel, Jorg Sander, Xu Xiaowei. A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, pp. 226–231, 1996.

被引用次數:13817

又是聚類算法,著名的DBSCAN-基於密度的聚類算法的典型代表。這算法也非常簡單,但也非常強大,沒有一個超過中學數學範圍之外的公式。在SIGAI之前的公眾號文章「聚類算法概述」中對它進行了介紹。

Dorin Comaniciu, Peter Meer. Mean shift: a robust approach toward feature space analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002.

被引用次數:12146

大名鼎鼎的mean shift算法,同樣是及其簡潔優美,但非常好用。做機器學習,機器視覺的同學肯定都知道,尤其是做視覺領域中目標跟蹤算法的。

未來可能有潛力的文獻

下面這些文章的被引用次數目前還沒有超過1萬,但它們都還很年輕,未來很有前途,因此單獨列出。需要強調的是有幾篇強化學習的文章雖然是1990年代發表的,但我們也列出來了,它們會隨着深度學習研究的進展而逐漸體現出更重要的價值。

Goodfellow Ian, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets. Advances in Neural Information Processing Systems, 2672-2680, 2014.

被引用次數:6902

生成對抗網絡的開山之作,代表了深度生成模型這一山頭。生成對抗網絡的思想簡單而優美,而且有效,出現了大量改進算法和各種應用。變分自動編碼器(VAE)是僅次於GAN的深度生成模型,但其原文的被引用次數遠不及GAN。

Richard Sutton. Learning to predict by the methods of temporal differences. Machine Learning. 3 (1): 9-44.1988.

被引用次數:5108

時序差分算法的開山之作,地位就不多解釋了。

Mnih, Volodymyr, et al. Human-level control through deep reinforcement learning. Nature. 518 (7540): 529-533, 2015.

被引用次數:4570

深度強化學習的重量級作品,出自DeepMind公司之手。第一篇文章發表於2013年,引用次數遠不及這篇,這篇可是發在Nature上,開創了DQN算法。

David Silver, et al. Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature, 2016.

被引用次數:4123

AlphaGo的原文,就不解釋了,地球人都知道。

Christopher JCH Watkins and Peter Dayan. Q-learning. Machine learning, 8(3-4):279–292, 1992.

被引用次數:8308

Q學習的原文,奠定了這一算法的基礎,也是DQN的基礎。

本文列出的算法在《機器學習與應用》(清華大學出版社出版 雷明著)一書中均有詳細的講解。