機器學習領域，史上引用次數最多的論文 Top 10

本文轉載自公眾號 SIGAI，原文地址

近40年來機器學習領域產生了數以萬計的論文，並以每年上萬篇的速度增長。但真正能夠稱為經典、經受住歷史檢驗、能投入實際應用的並不多。本文整理了機器學習歷史上出現的經典論文，按照被引用次數對它們進行了排序，分為top10，被引用次數超過2萬，被引用次數超過1萬，未來有潛力的文章4部分。它們已經或者在未來具有資格被寫入機器學習、深度學習、人工智能的教科書，是一代又一代研究人員為我們留下的寶貴財富。需要說明的是，引用次數對近幾年新出現的文章是不公平的，它們還處於高速增長期，但好酒就是好酒，隨着時間的沉澱會越來越香。

引用次數最高的10篇文獻

第1名-EM算法

Arthur P Dempster, Nan M Laird, Donald B Rubin. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the royal statistical society series b-methodological, 1976.

被引用次數：55989

令筆者驚訝的是排名第一的居然不是支持向量機，集成學習，深度學習，決策樹等歷史上赫赫有名的算法，而是EM。這是EM算法的原文，引用次數高達5萬多！EM算法在很多版本的排名中都被稱為機器學習的10大算法之一。它在數學上優美，實現起來也很簡單，是求解含有隱變量的最大似然估計、最大後驗概率估計的有力工具，在高斯混合模型，隱馬爾可夫模型等問題上得到了成功的應用。在SIGAI之前的公眾號文章「理解EM算法」中對其原理進行了詳細的介紹。

第2名-logistic回歸

David W Hosmer, Stanley Lemeshow. Applied logistic regression. Technometrics. 2000.

被引用次數：55234

代表了線性模型這一山頭。這不是logistic回歸的原文，logistic回歸在這之前幾十年就已經被提出，但這篇文獻的引用次數卻達到了，雖然它不是論文而是書的形式，但其引用次數比著名的PRML還要高。這也符合我們的直觀認識，logistic回歸雖然簡單，但卻實用，在工程上，往往是越簡單的東西越有用。

第3名-隨機森林

Breiman, Leo. Random Forests. Machine Learning 45 (1), 5-32, 2001.

被引用次數：42608

代表了集成學習這一大山頭。Breiman的隨機森林，分類與回歸樹分列第3/4名。而隨機森林的排名比AdaBoost算法要高。同樣的，隨機森林也很簡單，但卻好用。在SIGAI之前的公眾號文章「隨機森林概述」中對集成學習，bagging，隨機森林進行了詳細的介紹。

第4名-分類與回歸樹

Breiman, L., Friedman, J. Olshen, R. and Stone C. Classification and Regression Trees, Wadsworth, 1984.

被引用次數：39580

這是分類與回歸樹的原文，代表了決策樹這一山頭。在各種決策樹中，分類與回歸樹（CART）應當是用的最廣的，現在還被用於充當隨機森林，AdaBoost，梯度提升算法的弱學習器。Breiman老爺子在2005年已經逝去，但他留給我們大片的樹和森林。在SIGAI之前的公眾號文章「理解決策樹」中對這一算法進行了詳細的介紹。

第5名-支持向量機開源庫libsvm

C.-C. Chang and C.-J. Lin. LIBSVM: a Library for Support Vector Machines. ACM TIST, 2:27:1-27:27, 2011.

被引用次數：38386

這篇文章介紹了libsvm開源庫。引用次數超過了支持向量機的原文，應該算是公開的最經典的支持向量機實現，其作者是台灣大學林智仁教授及其學生。相信很多做機器學習研究和產品的同學都用過它。在SIGAI之前的公眾號文章「用一張理解SVM」，「理解SVM核函數和參數的作用」中對SVM進行了詳細的介紹。

第6名-統計學習理論

An overview of statistical learning theory. VN Vapnik – IEEE transactions on neural networks

被引用次數：36117

Top10中唯一一篇理論層面的文章，出自Vapnik之手。他最有影響力的成果是支持向量機，VC維。但機器學習理論文章，整體來說引用次數相對較少，應該與做這些方向的研究者更少，文章更少有關，大部分人還是在做某些具體的算法。

第7名-主成分分析

Ian T. Jolliffe. Principal Component Analysis. Springer Verlag, New York, 1986.

被引用次數：35849

代表了降維算法這一山頭。這篇文獻不是主成分分析的原文，其原文發表於1個多世紀以前。這個排名對得起主成分分析的江湖地位，在各種科學和工程數據分析中，PCA被廣為應用。在SIGAI之前的公眾號文章「理解主成分分析（PCA）」中對PCA進行了介紹。

第8名-決策樹樹-C4.5

J. Ross Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, San Francisco, CA, 1993.

被引用次數：34703

又是決策樹。決策樹簡單實用，可解釋性強，是機器學習早期的重要成果。

第9名-深度卷積神經網絡

Alex Krizhevsky, Ilya Sutskever, Geoffrey E.Hinton. ImageNet Classification with Deep Convolutional Neural Networks. 2012.

被引用次數：34574

代表了深度學習這一山頭。深度卷積神經網絡的開山之作，將嚴樂村的卷積神經網絡發揚光大。這篇2012年才發表的文章能有如此的引用次數實屬不易，剛釀造出來的酒就是名酒，出自Hinton之手這也不奇怪。如此的被引用次數是當前炙手可熱的深度學習造就的。同樣的，沒有複雜的公式和理論，但卻出奇的好用。

第10名-支持向量機

Cortes, C. and Vapnik, V. Support vector networks. Machine Learning, 20, 273-297, 1995.

被引用次數：33540

代表了線性模型、核技巧的山頭，這是SVM正式的原文。支持向量機才排到第10位讓人有些奇怪，它可是在機器學習的江湖中風光了近20年的算法，當年言必稱SVM。

總結這top10的文獻可以看出，簡單才是美。這些文獻提出的算法沒有複雜的數學公式和晦澀難解的理論，但確實最經典的，因為有用！它們體現的是更深層次的哲學思想。其實在其他科學領域也是如此，數學領域中最經典的一些定理和公式也是非常的優美而簡潔，類似的還有物理。在top10中，Breiman和Vapnik兩次上榜。

引用次數超過2萬的文獻

除了top10之外，還有一些被引用次數超過2萬的文章，也堪稱經典。

Lawrence R. Rabiner. A tutorial on Hidden Markov Models and selected applications in speech recognition. Proceedings of the IEEE. 77 (2): 257–286. 1989.

被引用次數：26466

代表了概率圖模型這一山頭。終於見到了概率圖模型，過去幾十年中，引用最廣的概率圖模型當屬隱馬爾可夫模型（HMM）。這篇文章不是HMM的原文，但卻寫成了經典，對HMM的原理，在語音識別中的建模方法講解得清晰透徹。

MacQueen, J. B. Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. 1. University of California Press. pp. 281–297, 1967

被引用次數：24035

代表了聚類算法的山頭。k均值算法的開山之作，它也在各種排名中都被稱為機器學習10大經典算法，同樣是簡單而易於理解，我相信中學生都能看懂它！

J. Ross Quinlan. Induction of decision trees. Machine Learnin, 1(1): 81-106, 1986.

被引用次數：20359

介紹決策樹的文獻，不過多解釋，地位擺在這裡。Quinlan也是決策樹的一大山頭。

引用次數超過1萬的文獻

Roweis, Sam T and Saul, Lawrence K. Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500). 2000: 2323-2326.

被引用次數：12941

Tenenbaum, Joshua B and De Silva, Vin and Langford, John C. A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500). 2000: 2319-2323.

被引用次數：11927

流形學習的雙雄，兩篇代表作，開這一領域之先河。流形學習是當年非常熱門的方向。這兩篇文章都發在Science上，要知道，計算機科學的論文發Science和Nature是非常難的。在SIGAI之前的公眾號文章「流形學習概述」中對這類算法進行了介紹。

Ronald A. Fisher. The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7 Part 2: 179-188, 1936.

被引用次數：15379

線性判別分析的原文，1936年就已經發表了，那時候二戰還沒有爆發。

Burges JC. A tutorial on support vector machines for pattern recognition. Bell Laboratories, Lucent Technologies, 1997.

被引用次數：19885

介紹支持向量機在模式中應用的文章，SVM當年真是灌水的好方向！

Yoav Freund, Robert E Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. computational learning theory. 1995.

被引用次數：16431

AdaBoost算法的經典之作，與SVM並列為當年的機器學習雙雄。這是集成學習第一個有廣泛影響力的算法，在人臉檢測等問題上取得了成功。在SIGAI之前的公眾號文章「大話AdaBoost算法」，「理解AdaBoost算法」中對它進行了詳細的介紹。

Lafferty, J., McCallum, A., Pereira, F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann. pp. 282–289. 2001.

被引用次數：11978

條件隨機場的經典之作，這種方法在自然語言處理，圖像分割等問題上得到了成功的應用，如今還被與循環神經網絡整合在一起，解決自然語言處理等領域中的一些重點問題。

David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. Learning internal representations by back-propagating errors. Nature, 323(99): 533-536, 1986.

被引用次數：16610

嚴格意義上的反向傳播算法的原文，發在Nature上，重要性就不解釋了。現在的深度學習還是使用它。Hinton的名字再一次出現。在SIGAI之前的公眾號文章「反向傳播算法推導-全連接神經網絡」，「反向傳播算法推導-卷積神經網絡」中進行了詳細的講解。

Hornik, K., Stinchcombe, M., and White, H. Multilayer feedforward networks are universal approximators. Neural Networks, 2, 359-366, 1989.

被引用次數：16394

神經網絡的理論文章，著名的萬能逼近定理，從理論上證明了至少有1個隱含層的神經網絡尅逼近閉區間上任意連續函數到任意指定精度，為神經網絡和深度學習提供了強有力的理論保障。

Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, november 1998.

被引用次數：16339

LeNet網絡的原文，被引用次數比嚴樂村同志在1989年，1990年提出卷積神經網絡的論文還多。也讓嚴樂村得到了卷積神經網絡之父的稱號。

Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, Going Deeper with Convolutions, Arxiv Link: http://arxiv.org/abs/1409.4842.

被引用次數：11268

GoogLeNet網絡的原文，做深度學習的同學都知道。發表於2015年的文章能有如此的引用次數，當然得利於深度學習的火爆。

K. Simonyan and A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. international conference on learning representations. 2015.

被引用次數：18980

VGG網絡的原文，經典的卷積網絡結構，被用在各個地方，引用次數比GoogLeNet多不少。

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition. computer vision and pattern recognition, 2015.

被引用次數：17285

殘差網絡的原文，做深度學習的同學都知道，終於用中國人名字上榜，加油！

S. Hochreiter, J. Schmidhuber. Long short-term memory. Neural computation, 9(8): 1735-1780, 1997.

被引用次數：15448

LSTM的原文，讓循環神經網絡真正走向了實用。作者在深度學習領域做出了重要的貢獻，但卻非常低調，以至於很多人都不知道。

Martin Ester, Hanspeter Kriegel, Jorg Sander, Xu Xiaowei. A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, pp. 226–231, 1996.

被引用次數：13817

又是聚類算法，著名的DBSCAN-基於密度的聚類算法的典型代表。這算法也非常簡單，但也非常強大，沒有一個超過中學數學範圍之外的公式。在SIGAI之前的公眾號文章「聚類算法概述」中對它進行了介紹。

Dorin Comaniciu, Peter Meer. Mean shift: a robust approach toward feature space analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002.

被引用次數：12146

大名鼎鼎的mean shift算法，同樣是及其簡潔優美，但非常好用。做機器學習，機器視覺的同學肯定都知道，尤其是做視覺領域中目標跟蹤算法的。

未來可能有潛力的文獻

下面這些文章的被引用次數目前還沒有超過1萬，但它們都還很年輕，未來很有前途，因此單獨列出。需要強調的是有幾篇強化學習的文章雖然是1990年代發表的，但我們也列出來了，它們會隨着深度學習研究的進展而逐漸體現出更重要的價值。

Goodfellow Ian, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets. Advances in Neural Information Processing Systems, 2672-2680, 2014.

被引用次數：6902

生成對抗網絡的開山之作，代表了深度生成模型這一山頭。生成對抗網絡的思想簡單而優美，而且有效，出現了大量改進算法和各種應用。變分自動編碼器（VAE）是僅次於GAN的深度生成模型，但其原文的被引用次數遠不及GAN。

Richard Sutton. Learning to predict by the methods of temporal differences. Machine Learning. 3 (1): 9-44.1988.

被引用次數：5108

時序差分算法的開山之作，地位就不多解釋了。

Mnih, Volodymyr, et al. Human-level control through deep reinforcement learning. Nature. 518 (7540): 529-533, 2015.

被引用次數：4570

深度強化學習的重量級作品，出自DeepMind公司之手。第一篇文章發表於2013年，引用次數遠不及這篇，這篇可是發在Nature上，開創了DQN算法。

David Silver, et al. Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature, 2016.

被引用次數：4123

AlphaGo的原文，就不解釋了，地球人都知道。

Christopher JCH Watkins and Peter Dayan. Q-learning. Machine learning, 8(3-4):279–292, 1992.

被引用次數：8308

Q學習的原文，奠定了這一算法的基礎，也是DQN的基礎。

本文列出的算法在《機器學習與應用》（清華大學出版社出版雷明著）一書中均有詳細的講解。

機器學習領域，史上引用次數最多的論文 Top 10

引用次數最高的10篇文獻

第1名-EM算法

第2名-logistic回歸

第3名-隨機森林

第4名-分類與回歸樹

第5名-支持向量機開源庫libsvm

第6名-統計學習理論

第7名-主成分分析

第8名-決策樹樹-C4.5

第9名-深度卷積神經網絡

第10名-支持向量機

引用次數超過2萬的文獻

引用次數超過1萬的文獻

未來可能有潛力的文獻

打不死的小強 Author

Previous

Next

Comments

Leave a comment 取消回復

關於 easyAI

關注我們的公眾號：easyai-tech

引用次數最高的10篇文獻

第1名-EM算法

第2名-logistic回歸

第3名-隨機森林

第4名-分類與回歸樹

第5名-支持向量機開源庫libsvm

第6名-統計學習理論

第7名-主成分分析

第8名-決策樹樹-C4.5

第9名-深度卷積神經網絡

第10名-支持向量機

引用次數超過2萬的文獻

引用次數超過1萬的文獻

未來可能有潛力的文獻

打不死的小強 Author

Previous

Next

Comments

Leave a comment 取消回復

關於 easyAI

熱門標籤

關注我們的公眾號：easyai-tech