知名百科  > 所屬分類  >  科技百科    百科詞條   

機器學習

機器學習(MachineLearning,ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。

機器學習機器學習

它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。 

目錄

概念定義 編輯本段

機器學習是一門多學科交叉專業,涵蓋概率論知識,統計學知識,近似理論知識和復雜算法知識,使用計算機作為工具并致力于真實實時的模擬人類學習方式,并將現有內容進行知識結構劃分來有效提高學習效率。

機器學習有下面幾種定義:

(1)機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能。

(2)機器學習是對能通過經驗自動改進的計算機算法的研究。

(3)機器學習是用數據或以往的經驗,以此優化計算機程序的性能標準。

發展歷程 編輯本段

機器學習實際上已經存在了幾十年或者也可以認為存在了幾個世紀。追溯到17世紀,貝葉斯、拉普拉斯關于最小二乘法的推導和馬爾可夫鏈,這些構成了機器學習廣泛使用的工具和基礎。1950年(艾倫.圖靈提議建立一個學習機器)到2000年初(有深度學習的實際應用以及最近的進展,比如2012年的AlexNet),機器學習有了很大的進展。

從20世紀50年代研究機器學習以來,不同時期的研究途徑和目標并不相同,可以劃分為四個階段。

第一階段是20世紀50年代中葉到60年代中葉,這個時期主要研究“有無知識的學習”。這類方法主要是研究系統的執行能力。這個時期,主要通過對機器的環境及其相應性能參數的改變來檢測系統所反饋的數據,就好比給系統一個程序,通過改變它們的自由空間作用,系統將會受到程序的影響而改變自身的組織,最后這個系統將會選擇一個最優的環境生存。在這個時期最具有代表性的研究就是Samuet的下棋程序。但這種機器學習的方法還遠遠不能滿足人類的需要。

第二階段從20世紀60年代中葉到70年代中葉,這個時期主要研究將各個領域的知識植入到系統里,在本階段的目的是通過機器模擬人類學習的過程。同時還采用了圖結構及其邏輯結構方面的知識進行系統描述,在這一研究階段,主要是用各種符號來表示機器語言,研究人員在進行實驗時意識到學習是一個長期的過程,從這種系統環境中無法學到更加深入的知識,因此研究人員將各專家學者的知識加入到系統里,經過實踐證明這種方法取得了一定的成效。在這一階段具有代表性的工作有Hayes-Roth和Winson的對結構學習系統方法。

第三階段從20世紀70年代中葉到80年代中葉,稱為復興時期。在此期間,人們從學習單個概念擴展到學習多個概念,探索不同的學習策略和學習方法,且在本階段已開始把學習系統與各種應用結合起來,并取得很大的成功。同時,專家系統在知識獲取方面的需求也極大地刺激了機器學習的研究和發展。在出現第一個專家學習系統之后,示例歸納學習系統成為研究的主流,自動知識獲取成為機器學習應用的研究目標。1980年,在美國的卡內基梅隆(CMU)召開了第一屆機器學習國際研討會,標志著機器學習研究已在全世界興起。此后,機器學習開始得到了大量的應用。1984年,Simon等20多位人工智能專家共同撰文編寫的MachineLearning文集第二卷出版,國際性雜志Machine Learning創刊,更加顯示出機器學習突飛猛進的發展趨勢。這一階段代表性的工作有Mostow的指導式學習、Lenat的數學概念發現程序、Langley的BACON程序及其改進程序。

第四階段20世紀80年代中葉,是機器學習的最新階段。這個時期的機器學習具有如下特點:

(1)機器學習已成為新的學科,它綜合應用了心理學、生物學、神經生理學、數學、自動化和計算機科學等形成了機器學習理論基礎。

(2)融合了各種學習方法,且形式多樣的集成學習系統研究正在興起。

(3)機器學習與人工智能各種基礎問題的統一性觀點正在形成。

(4)各種學習方法的應用范圍不斷擴大,部分應用研究成果已轉化為產品。

(5)與機器學習有關的學術活動空前活躍。

研究現狀 編輯本段

機器學習是人工智能及模式識別領域的共同研究熱點,其理論和方法已被廣泛應用于解決工程應用和科學領域的復雜問題。2010年的圖靈獎獲得者為哈佛大學的Leslie vlliant教授,其獲獎工作之一是建立了概率近似正確(Probably Approximate Correct,PAC)學習理論;2011年的圖靈獎獲得者為加州大學洛杉磯分校的Judea Pearll教授,其主要貢獻為建立了以概率統計為理論基礎的人工智能方法。這些研究成果都促進了機器學習的發展和繁榮。

機器學習是研究怎樣使用計算機模擬或實現人類學習活動的科學,是人工智能中最具智能特征,最前沿的研究領域之一。自20世紀80年代以來,機器學習作為實現人工智能的途徑,在人工智能界引起了廣泛的興趣,特別是近十幾年來,機器學習領域的研究工作發展很快,它已成為人工智能的重要課題之一。機器學習不僅在基于知識的系統中得到應用,而且在自然語言理解、非單調推理、機器視覺、模式識別等許多領域也得到了廣泛應用。一個系統是否具有學習能力已成為是否具有“智能”的一個標志。機器學習的研究主要分為兩類研究方向:第一類是傳統機器學習的研究,該類研究主要是研究學習機制,注重探索模擬人的學習機制;第二類是大數據環境下機器學習的研究,該類研究主要是研究如何有效利用信息,注重從巨量數據中獲取隱藏的、有效的、可理解的知識。

機器學習歷經70年的曲折發展,以深度學習為代表借鑒人腦的多分層結構、神經元的連接交互信息的逐層分析處理機制,自適應、自學習的強大并行信息處理能力,在很多方面收獲了突破性進展,其中最有代表性的是圖像識別領域。

傳統機器學習的研究現狀

機器學習機器學習

傳統機器學習的研究方向主要包括決策樹、隨機森林、人工神經網絡、貝葉斯學習等方面的研究。

決策樹是機器學習常見的一種方法。20世紀末期,機器學習研究者J.Ross Quinlan將Shannon的信息論引入到了決策樹算法中,提出了ID3算法。1984年I.Kononenko、E.Roskar和I.Bratko在ID3算法的基礎上提出了AS-SISTANTAlgorithm,這種算法允許類別的取值之間有交集。同年,A.Hart提出了Chi-Squa統計算法,該算法采用了一種基于屬性與類別關聯程度的統計量。1984年L.Breiman、C.Ttone、R.Olshen和J.Freidman提出了決策樹剪枝概念,極大地改善了決策樹的性能。1993年,Quinlan在ID3算法的基礎上提出了一種改進算法,即C4.5算法。C4.5算法克服了ID3算法屬性偏向的問題增加了對連續屬性的處理通過剪枝,在一定程度上避免了“過度適合”現象。但是該算法將連續屬性離散化時,需要遍歷該屬性的所有值,降低了效率,并且要求訓練樣本集駐留在內存,不適合處理大規模數據集。2010年Xie提出一種CART算法,該算法是描述給定預測向量X條件分布變量Y的一個靈活方法,已經在許多領域得到了應用。CART算法可以處理無序的數據,采用基尼系數作為測試屬性的選擇標準。CART算法生成的決策樹精確度較高,但是當其生成的決策樹復雜度超過一定程度后,隨著復雜度的提高,分類精確度會降低,所以該算法建立的決策樹不宜太復雜。2007年房祥飛表述了一種叫SLIQ(決策樹分類)算法,這種算法的分類精度與其他決策樹算法不相上下,但其執行的速度比其他決策樹算法快,它對訓練樣本集的樣本數量以及屬性的數量沒有限制。SLIQ算法能夠處理大規模的訓練樣本集,具有較好的伸縮性;執行速度快而且能生成較小的二叉決策樹。SLIQ算法允許多個處理器同時處理屬性表,從而實現了并行性。但是SLIQ算法依然不能擺脫主存容量的限制。2000年RajeevRaSto等提出了PUBLIC算法,該算法是對尚未完全生成的決策樹進行剪枝,因而提高了效率。近幾年模糊決策樹也得到了蓬勃發展。研究者考慮到屬性間的相關性提出了分層回歸算法、約束分層歸納算法和功能樹算法,這三種算法都是基于多分類器組合的決策樹算法,它們對屬性間可能存在的相關性進行了部分實驗和研究,但是這些研究并沒有從總體上闡述屬性間的相關性是如何影響決策樹性能。此外,還有很多其他的算法,如Zhang.J于2014年提出的一種基于粗糙集的優化算法、Wang.R在2015年提出的基于極端學習樹的算法模型等。

隨機森林(RF)作為機器學習重要算法之一,是一種利用多個樹分類器進行分類和預測的方法。近年來,隨機森林算法研究的發展十分迅速,已經在生物信息學、生態學、醫學、遺傳學、遙感地理學等多領域開展的應用性研究。

人工神經網絡(Artificial Neural Networks,ANN)是一種具有非線性適應性信息處理能力的算法,可克服傳統人工智能方法對于直覺,如模式、語音識別、非結構化信息處理方面的缺陷。早在20世紀40年代人工神經網絡已經受到關注,并隨后得到迅速發展。

貝葉斯學習是機器學習較早的研究方向,其方法最早起源于英國數學家托馬斯,貝葉斯在1763年所證明的一個關于貝葉斯定理的一個特例。經過多位統計學家的共同努力,貝葉斯統計在20世紀50年代之后逐步建立起來,成為統計學中一個重要的組成部分。

大數據環境下機器學習的研究現狀

大數據的價值體現主要集中在數據的轉向以及數據的信息處理能力等等。在產業發展的今天,大數據時代的到來,對數據的轉換,數據的處理數據的存儲等帶來了更好的技術支持,產業升級和新產業誕生形成了一種推動力量,讓大數據能夠針對可發現事物的程序進行自動規劃,實現人類用戶以計算機信息之間的協調。另外現有的許多機器學習方法是建立在內存理論基礎上的。大數據還無法裝載進計算機內存的情況下,是無法進行諸多算法的處理的,因此應提出新的機器學習算法,以適應大數據處理的需要。大數據環境下的機器學習算法,依據一定的性能標準,對學習結果的重要程度可以予以忽視。采用分布式和并行計算的方式進行分治策略的實施,可以規避掉噪音數據和冗余帶來的干擾,降低存儲耗費,同時提高學習算法的運行效率。

隨著大數據時代各行業對數據分析需求的持續增加,通過機器學習高效地獲取知識,已逐漸成為當今機器學習技術發展的主要推動力。大數據時代的機器學習更強調“學習本身是手段"機器學習成為一種支持和服務技術。如何基于機器學習對復雜多樣的數據進行深層次的分析,更高效地利用信息成為當前大數據環境下機器學習研究的主要方向。所以,機器學習越來越朝著智能數據分析的方向發展,并已成為智能數據分析技術的一個重要源泉。另外,在大數據時代,隨著數據產生速度的持續加快,數據的體量有了前所未有的增長,而需要分析的新的數據種類也在不斷涌現,如文本的理解、文本情感的分析、圖像的檢索和理解、圖形和網絡數據的分析等。使得大數據機器學習和數據挖掘等智能計算技術在大數據智能化分析處理應用中具有極其重要的作用。在2014年12月中國計算機學會(CCF)大數據專家委員會上通過數百位大數據相關領域學者和技術專家投票推選出的“2015年大數據十大熱點技術與發展趨勢”中,結合機器學習等智能計算技術的大數據分析技術被推選為大數據領域第一大研究熱點和發展趨勢。

機器分類 編輯本段

幾十年來,研究發表的機器學習的方法種類很多,根據強調側面的不同可以有多種分類方法。

基于學習策略的分類

(1)模擬人腦的機器學習

符號學習:模擬人腦的宏現心理級學習過程,以認知心理學原理為基礎,以符號數據為輸入,以符號運算為方法,用推理過程在圖或狀態空間中搜索,學習的目標為概念或規則等。符號學習的典型方法有記憶學習、示例學習、演繹學習.類比學習、解釋學習等。

神經網絡學習(或連接學習):模擬人腦的微觀生理級學習過程,以腦和神經科學原理為基礎,以人工神經網絡為函數結構模型,以數值數據為輸人,以數值運算為方法,用迭代過程在系數向量空間中搜索,學習的目標為函數。典型的連接學習有權值修正學習、拓撲結構學習。

(2)直接采用數學方法的機器學習

主要有統計機器學習。

統計機器學習是基于對數據的初步認識以及學習目的的分析,選擇合適的數學模型,擬定超參數,并輸入樣本數據,依據一定的策略,運用合適的學習算法對模型進行訓練,最后運用訓練好的模型對數據進行分析預測。

統計機器學習三個要素:

模型(model):模型在未進行訓練前,其可能的參數是多個甚至無窮的,故可能的模型也是多個甚至無窮的,這些模型構成的集合就是假設空間。

策略(strategy):即從假設空間中挑選出參數最優的模型的準則。模型的分類或預測結果與實際情況的誤差(損失函數)越小,模型就越好。那么策略就是誤差最小。

算法(algorithm):即從假設空間中挑選模型的方法(等同于求解最佳的模型參數)。機器學習的參數求解通常都會轉化為最優化問題,故學習算法通常是最優化算法,例如最速梯度下降法、牛頓法以及擬牛頓法等。

基于學習方法的分類

(1)歸納學習

符號歸納學習:典型的符號歸納學習有示例學習、決策樹學習

函數歸納學習(發現學習):典型的函數歸納學習有神經網絡學習、示例學習、發現學習、統計學習。

(2)演繹學習

(3)類比學習:典型的類比學習有案例(范例)學習。

(4)分析學習:典型的分析學習有解釋學習、宏操作學習。

基于學習方式的分類

(1)監督學習(有導師學習):輸入數據中有導師信號,以概率函數、代數函數或人工神經網絡為基函數模型,采用迭代計算方法,學習結果為函數。

(2)無監督學習(無導師學習):輸入數據中無導師信號,采用聚類方法,學習結果為類別。典型的無導師學習有發現學習、聚類、競爭學習等。

(3)強化學習(增強學習):以環境反饋(獎/懲信號)作為輸入,以統計和動態規劃技術為指導的一種學習方法。

基于數據形式的分類

(1)結構化學習:以結構化數據為輸人,以數值計算或符號推演為方法。典型的結構化學習有神經網絡學習、統計學習、決策樹學習、規則學習。

(2)非結構化學習:以非結構化數據為輸人,典型的非結構化學習有類比學習案例學習、解釋學習、文本挖掘、圖像挖掘、Web挖掘等。

基于學習目標的分類

(1)概念學習:學習的目標和結果為概念,或者說是為了獲得概念的學習。典型的概念學習主要有示例學習。

(2)規則學習:學習的目標和結果為規則,或者為了獲得規則的學習。典型規則學習主要有決策樹學習。

(3)函數學習:學習的目標和結果為函數,或者說是為了獲得函數的學習。典型函數學習主要有神經網絡學習。

(4)類別學習:學習的目標和結果為對象類,或者說是為了獲得類別的學習。典型類別學習主要有聚類分析。

(5)貝葉斯網絡學習:學習的目標和結果是貝葉斯網絡,或者說是為了獲得貝葉斯網絡的一種學習。其又可分為結構學習和多數學習。

常見算法 編輯本段

決策樹算法

決策樹及其變種是一類將輸入空間分成不同的區域,每個區域有獨立參數的算法。決策樹算法充分利用了樹形模型,根節點到一個葉子節點是一條分類的路徑規則,每個葉子節點象征一個判斷類別。先將樣本分成不同的子集,再進行分割遞推,直至每個子集得到同類型的樣本,從根節點開始測試,到子樹再到葉子節點,即可得出預測類別。此方法的特點是結構簡單、處理數據效率較高。

樸素貝葉斯算法

樸素貝葉斯算法是一種分類算法。它不是單一算法,而是一系列算法,它們都有一個共同的原則,即被分類的每個特征都與任何其他特征的值無關。樸素貝葉斯分類器認為這些“特征”中的每一個都獨立地貢獻概率,而不管特征之間的任何相關性。然而,特征并不總是獨立的,這通常被視為樸素貝葉斯算法的缺點。簡而言之,樸素貝葉斯算法允許我們使用概率給出一組特征來預測一個類。與其他常見的分類方法相比,樸素貝葉斯算法需要的訓練很少。在進行預測之前必須完成的唯一工作是找到特征的個體概率分布的參數,這通常可以快速且確定地完成。這意味著即使對于高維數據點或大量數據點,樸素貝葉斯分類器也可以表現良好。

支持向量機算法

基本思想可概括如下:首先,要利用一種變換將空間高維化,當然這種變換是非線性的,然后,在新的復雜空間取最優線性分類表面[8]。由此種方式獲得的分類函數在形式上類似于神經網絡算法。支持向量機是統計學習領域中一個代表性算法,但它與傳統方式的思維方法很不同,輸入空間、提高維度從而將問題簡短化,使問題歸結為線性可分的經典解問題。支持向量機應用于垃圾郵件識別,人臉識別等多種分類問題。

隨機森林算法

控制數據樹生成的方式有多種,根據前人的經驗,大多數時候更傾向選擇分裂屬性和剪枝,但這并不能解決所有問題,偶爾會遇到噪聲或分裂屬性過多的問題。基于這種情況,總結每次的結果可以得到袋外數據的估計誤差,將它和測試樣本的估計誤差相結合可以評估組合樹學習器的擬合及預測精度。此方法的優點有很多,可以產生高精度的分類器,并能夠處理大量的變數,也可以平衡分類資料集之間的誤差。

人工神經網絡算法

人工神經網絡與神經元組成的異常復雜的網絡此大體相似,是個體單元互相連接而成,每個單元有數值量的輸入和輸出,形式可以為實數或線性組合函數。它先要以一種學習準則去學習,然后才能進行工作。當網絡判斷錯誤時,通過學習使其減少犯同樣錯誤的可能性。此方法有很強的泛化能力和非線性映射能力,可以對信息量少的系統進行模型處理。從功能模擬角度看具有并行性,且傳遞信息速度極快。

Boosting與Bagging算法

Boosting是種通用的增強基礎算法性能的回歸分析算法。不需構造一個高精度的回歸分析,只需一個粗糙的基礎算法即可,再反復調整基礎算法就可以得到較好的組合回歸模型。它可以將弱學習算法提高為強學習算法,可以應用到其它基礎回歸算法,如線性回歸、神經網絡等,來提高精度。Bagging和前一種算法大體相似但又略有差別,主要想法是給出已知的弱學習算法和訓練集,它需要經過多輪的計算,才可以得到預測函數列,最后采用投票方式對示例進行判別。

關聯規則算法

關聯規則是用規則去描述兩個變量或多個變量之間的關系,是客觀反映數據本身性質的方法。它是機器學習的一大類任務,可分為兩個階段,先從資料集中找到高頻項目組,再去研究它們的關聯規則。其得到的分析結果即是對變量間規律的總結。

EM(期望最大化)算法

在進行機器學習的過程中需要用到極大似然估計等參數估計方法,在有潛在變量的情況下,通常選擇EM算法,不是直接對函數對象進行極大估計,而是添加一些數據進行簡化計算,再進行極大化模擬。它是對本身受限制或比較難直接處理的數據的極大似然估計算法。

深度學習

深度學習(DL,Deep Learning)是機器學習(ML,Machine Learning)領域中一個新的研究方向,它被引入機器學習使其更接近于最初的目標——人工智能(AI,Artificial Intelligence)。

深度學習是學習樣本數據的內在規律和表示層次,這些學習過程中獲得的信息對諸如文字,圖像和聲音等數據的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數據。深度學習是一個復雜的機器學習算法,在語音和圖像識別方面取得的效果,遠遠超過先前相關技術。

深度學習在搜索技術、數據挖掘、機器學習、機器翻譯、自然語言處理、多媒體學習、語音、推薦和個性化技術,以及其他相關領域都取得了很多成果。深度學習使機器模仿視聽和思考等人類的活動,解決了很多復雜的模式識別難題,使得人工智能相關技術取得了很大進步。

應用范圍 編輯本段

機器學習應用廣泛,無論是在軍事領域還是民用領域,都有機器學習算法施展的機會,主要包括以下幾個方面。

數據分析與挖掘

“數據挖掘”和"數據分析”通常被相提并論,并在許多場合被認為是可以相互替代的術語。關于數據挖掘,已有多種文字不同但含義接近的定義,例如“識別出巨量數據中有效的.新穎的、潛在有用的最終可理解的模式的非平凡過程”,無論是數據分析還是數據挖掘,都是幫助人們收集、分析數據,使之成為信息,并做出判斷,因此可以將這兩項合稱為數據分析與挖掘。

數據分析與挖掘技術是機器學習算法和數據存取技術的結合,利用機器學習提供的統計分析、知識發現等手段分析海量數據,同時利用數據存取機制實現數據的高效讀寫。機器學習在數據分析與挖掘領域中擁有無可取代的地位,2012年Hadoop進軍機器學習領域就是一個很好的例子。

模式識別

模式識別起源于工程領域,而機器學習起源于計算機科學,這兩個不同學科的結合帶來了模式識別領域的調整和發展。模式識別研究主要集中在兩個方面。

(1)研究生物體(包括人)是如何感知對象的,屬于認識科學的范疇。

(2)在給定的任務下,如何用計算機實現模式識別的理論和方法,這些是機器學習的長項,也是機器學習研究的內容之一。

模式識別的應用領域廣泛,包括計算機視覺、醫學圖像分析、光學文字識別、自然語言處理、語音識別、手寫識別、生物特征識別、文件分類、搜索引擎等,而這些領域也正是機器學習大展身手的舞臺,因此模式識別與機器學習的關系越來越密切。

在生物信息學上的應用

隨著基因組和其他測序項目的不斷發展,生物信息學研究的重點正逐步從積累數據轉移到如何解釋這些數據。在未來,生物學的新發現將極大地依賴于我們在多個維度和不同尺度下對多樣化的數據進行組合和關聯的分析能力,而不再僅僅依賴于對傳統領域的繼續關注。序列數據將與結構和功能數據基因表達數據、生化反應通路數據表現型和臨床數據等一系列數據相互集成。如此大量的數據,在生物信息的存儲、獲取、處理、瀏覽及可視化等方面,都對理論算法和軟件的發展提出了迫切的需求。另外,由于基因組數據本身的復雜性也對理論算法和軟件的發展提出了迫切的需求。而機器學習方法例如神經網絡、遺傳算法、決策樹和支持向量機等正適合于處理這種數據量大、含有噪聲并且缺乏統一理論的領域。

更廣闊的領域

國外的IT巨頭正在深入研究和應用機器學習,他們把目標定位于全面模仿人類大腦,試圖創造出擁有人類智慧的機器大腦。

2012年Google在人工智能領域發布了一個劃時代的產品一人腦模擬軟件,這個軟件具備自我學習功能。模擬腦細胞的相互交流,可以通過看YouTube視頻學習識別貓、人以及其他事物。當有數據被送達這個神經網絡的時候,不同神經元之間的關系就會發生改變。而這也使得神經網絡能夠得到對某些特定數據的反應機制,據悉這個網絡已經學到了一些東西,Google將有望在多個領域使用這一新技術,最先獲益的可能是語音識別。

具體應用

(1)虛擬助手。Siri,Alexa,Google?Now都是虛擬助手。顧名思義,當使用語音發出指令后,它們會協助查找信息。對于回答,虛擬助手會查找信息,回憶我們的相關查詢,或向其他資源(如電話應用程序)發送命令以收集信息。我們甚至可以指導助手執行某些任務,例如“設置7點的鬧鐘”等。

(2)交通預測。生活中我們經常使用GPS導航服務。當我們這樣做時,我們當前的位置和速度被保存在中央服務器上來進行流量管理。之后使用這些數據用于構建當前流量的映射。通過機器學習可以解決配備GPS的汽車數量較少的問題,在這種情況下的機器學習有助于根據估計找到擁擠的區域。

(3)過濾垃圾郵件和惡意軟件。電子郵件客戶端使用了許多垃圾郵件過濾方法。為了確保這些垃圾郵件過濾器能夠不斷更新,它們使用了機器學習技術。多層感知器和決策樹歸納等是由機器學習提供支持的一些垃圾郵件過濾技術。每天檢測到超過325000個惡意軟件,每個代碼與之前版本的90%~98%相似。由機器學習驅動的系統安全程序理解編碼模式。因此,他們可以輕松檢測到2%~10%變異的新惡意軟件,并提供針對它們的保護。

研究意義 編輯本段

學習是人類具有的一種重要智能行為,但究竟什么是學習,長期以來卻眾說紛紜。社會學家、邏輯學家和心理學家都各有其不同的看法。

比如,Langley(1996) 定義的機器學習是“機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能”。(Machine learning is a science of the artificial. The field's main objects of study are artifacts, specifically algorithms that improve their performance with experience.')

Tom Mitchell的機器學習(1997)對信息論中的一些概念有詳細的解釋,其中定義機器學習時提到,“機器學習是對能通過經驗自動改進的計算機算法的研究”。(Machine Learning is the study of computer algorithms that improve automatically through experience.)

Alpaydin(2004)同時提出自己對機器學習的定義,“機器學習是用數據或以往的經驗,以此優化計算機程序的性能標準。”(Machine learning is programming computers to optimize a performance criterion using example data or past experience.)

盡管如此,為了便于進行討論和估計學科的進展,有必要對機器學習給出定義,即使這種定義是不完全的和不充分的。顧名思義,機器學習是研究如何使用機器來模擬人類學習活動的一門學科。稍為嚴格的提法是:機器學習是一門研究機器獲取新知識和新技能,并識別現有知識的學問。這里所說的“機器”,指的就是計算機,電子計算機,中子計算機、光子計算機或神經計算機等等。

機器能否象人類一樣能具有學習能力呢?1959年美國的塞繆爾(Samuel)設計了一個下棋程序,這個程序具有學習能力,它可以在不斷的對弈中改善自己的棋藝。4年后,這個程序戰勝了設計者本人。又過了3年,這個程序戰勝了美國一個保持8年之久的常勝不敗的冠軍。這個程序向人們展示了機器學習的能力,提出了許多令人深思的社會問題與哲學問題。

機器的能力是否能超過人的,很多持否定意見的人的一個主要論據是:機器是人造的,其性能和動作完全是由設計者規定的,因此無論如何其能力也不會超過設計者本人。這種意見對不具備學習能力的機器來說的確是對的,可是對具備學習能力的機器就值得考慮了,因為這種機器的能力在應用中不斷地提高,過一段時間之后,設計者本人也不知它的能力到了何種水平。

機器學習有下面幾種定義: “機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能”。 “機器學習是對能通過經驗自動改進的計算機算法的研究”。 “機器學習是用數據或以往的經驗,以此優化計算機程序的性能標準。”一種經常引用的英文定義是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

機器學習已經有了十分廣泛的應用,例如:數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略游戲和機器人運用。

發展歷史 編輯本段

機器學習是人工智能研究較為年輕的分支,它的發展過程大體上可分為4個時期。

第一階段是在20世紀50年代中葉到60年代中葉,屬于熱烈時期。

第二階段是在20世紀60年代中葉至70年代中葉,被稱為機器學習的冷靜時期。

第三階段是從20世紀70年代中葉至80年代中葉,稱為復興時期。

機器學習的最新階段始于1986年。

機器學習進入新階段的重要表現在下列諸方面:

(1)機器學習已成為新的邊緣學科并在高校形成一門課程。它綜合應用心理學、生物學和神經生理學以及數學、自動化和計算機科學形成機器學習理論基礎。

(2)結合各種學習方法,取長補短的多種形式的集成學習系統研究正在興起。特別是連接學習符號學習的耦合可以更好地解決連續性信號處理中知識與技能的獲取與求精問題而受到重視。

(3)機器學習與人工智能各種基礎問題的統一性觀點正在形成。例如學習與問題求解結合進行、知識表達便于學習的觀點產生了通用智能系統SOAR的組塊學習。類比學習與問題求解結合的基于案例方法已成為經驗學習的重要方向。

(4)各種學習方法的應用范圍不斷擴大,一部分已形成商品。歸納學習的知識獲取工具已在診斷分類型專家系統中廣泛使用。連接學習在聲圖文識別中占優勢。分析學習已用于設計綜合型專家系統。遺傳算法與強化學習在工程控制中有較好的應用前景。與符號系統耦合的神經網絡連接學習將在企業的智能管理與智能機器人運動規劃中發揮作用。

(5)與機器學習有關的學術活動空前活躍。國際上除每年一次的機器學習研討會外,還有計算機學習理論會議以及遺傳算法會議。

主要策略 編輯本段

學習是一項復雜的智能活動,學習過程與推理過程是緊密相連的,按照學習中使用推理的多少,機器學習所采用的策略大體上可分為4種——機械學習、通過傳授學習、類比學習和通過事例學習。學習中所用的推理越多,系統的能力越強。

基本結構 編輯本段

表示學習系統的基本結構。環境向系統的學習部分提供某些信息,學習部分利用這些信息修改知識庫,以增進系統執行部分完成任務的效能,執行部分根據知識庫完成任務,同時把獲得的信息反饋給學習部分。在具體的應用中,環境,知識庫和執行部分決定了具體的工作內容,學習部分所需要解決的問題完全由上述3部分確定。下面我們分別敘述這3部分對設計學習系統的影響。

影響學習系統設計的最重要的因素是環境向系統提供的信息。或者更具體地說是信息的質量。知識庫里存放的是指導執行部分動作的一般原則,但環境向學習系統提供的信息卻是各種各樣的。如果信息的質量比較高,與一般原則的差別比較小,則學習部分比較容易處理。如果向學習系統提供的是雜亂無章的指導執行具體動作的具體信息,則學習系統需要在獲得足夠數據之后,刪除不必要的細節,進行總結推廣,形成指導動作的一般原則,放入知識庫,這樣學習部分的任務就比較繁重,設計起來也較為困難。

因為學習系統獲得的信息往往是不完全的,所以學習系統所進行的推理并不完全是可靠的,它總結出來的規則可能正確,也可能不正確。這要通過執行效果加以檢驗。正確的規則能使系統的效能提高,應予保留;不正確的規則應予修改或從數據庫中刪除。

知識庫是影響學習系統設計的第二個因素。知識的表示有多種形式,比如特征向量、一階邏輯語句、產生式規則、語義網絡和框架等等。這些表示方式各有其特點,在選擇表示方式時要兼顧以下4個方面:

(1)表達能力強。

(2)易于推理。

(3)容易修改知識庫。

(4)知識表示易于擴展。

對于知識庫最后需要說明的一個問題是學習系統不能在全然沒有任何知識的情況下憑空獲取知識,每一個學習系統都要求具有某些知識理解環境提供的信息,分析比較,做出假設,檢驗并修改這些假設。因此,更確切地說,學習系統是對現有知識的擴展和改進。

執行部分是整個學習系統的核心,因為執行部分的動作就是學習部分力求改進的動作。同執行部分有關的問題有3個:復雜性、反饋和透明性。

代碼示例 編輯本段

本程序將根據您的評價判斷執行結果"1+1=2"

實際上僅用了最簡單的if else for語句

這就是一個機器學習的例子,通過環境影響來進行學習。

通過本例我們不難看出,在人工錯誤的引導下,機器會給出錯誤的答案1+1不等于2。

所以此類學習方法,一定要在正確引導下實踐,否則會得到最壞的結果。

學習完畢后,計算機會記錄本次學習結果,存入數據庫,下次執行相應任務時,再將結果調出執行。

學習分類 編輯本段

基于學習策略的分類

學習策略是指學習過程中系統所采用的推理策略。一個學習系統總是由學習和環境兩部分組成。由環境(如書本或教師)提供信息,學習部分則實現信息轉換,用能夠理解的形式記憶下來,并從中獲取有用的信息。在學習過程中,學生(學習部分)使用的推理越少,他對教師(環境)的依賴就越大,教師的負擔也就越重。學習策略的分類標準就是根據學生實現信息轉換所需的推理多少和難易程度來分類的,依從簡單到復雜,從少到多的次序分為以下六種基本類型:

1)機械學習 (Rote learning)

學習者無需任何推理或其它的知識轉換,直接吸取環境所提供的信息。如塞繆爾的跳棋程序,紐厄爾和西蒙的LT系統。這類學習系統主要考慮的是如何索引存貯的知識并加以利用。系統的學習方法是直接通過事先編好、構造好的程序來學習,學習者不作任何工作,或者是通過直接接收既定的事實和數據進行學習,對輸入信息不作任何的推理。

2)示教學習 (Learning from instruction或Learning by being told)

學生從環境(教師或其它信息源如教科書等)獲取信息,把知識轉換成內部可使用的表示形式,并將新的知識和原有知識有機地結合為一體。所以要求學生有一定程度的推理能力,但環境仍要做大量的工作。教師以某種形式提出和組織知識,以使學生擁有的知識可以不斷地增加。這種學習方法和人類社會的學校教學方式相似,學習的任務就是建立一個系統,使它能接受教導和建議,并有效地存貯和應用學到的知識。不少專家系統在建立知識庫時使用這種方法去實現知識獲取。示教學習的一個典型應用例是FOO程序。

3)演繹學習 (Learning by deduction)

學生所用的推理形式為演繹推理。推理從公理出發,經過邏輯變換推導出結論。這種推理是"保真"變換和特化(specialization)的過程,使學生在推理過程中可以獲取有用的知識。這種學習方法包含宏操作(macro-operation)學習、知識編輯和組塊(Chunking)技術。演繹推理的逆過程是歸納推理。

4)類比學習 (Learning by analogy)

利用二個不同領域(源域、目標域)中的知識相似性,可以通過類比,從源域的知識(包括相似的特征和其它性質)推導出目標域的相應知識,從而實現學習。類比學習系統可以使一個已有的計算機應用系統轉變為適應于新的領域,來完成原先沒有設計的相類似的功能。

類比學習需要比上述三種學習方式更多的推理。它一般要求先從知識源(源域)中檢索出可用的知識,再將其轉換成新的形式,用到新的狀況(目標域)中去。類比學習在人類科學技術發展史上起著重要作用,許多科學發現就是通過類比得到的。例如著名的盧瑟福類比就是通過將原子結構(目標域)同太陽系(源域)作類比,揭示了原子結構的奧秘。

5)基于解釋的學習 (Explanation-based learning, EBL)

學生根據教師提供的目標概念、該概念的一個例子、領域理論及可操作準則,首先構造一個解釋來說明為什么該例子滿足目標概念,然后將解釋推廣為目標概念的一個滿足可操作準則的充分條件。EBL已被廣泛應用于知識庫求精和改善系統的性能。

著名的EBL系統有迪喬恩(G.DeJong)的GENESIS,米切爾(T.Mitchell)的LEXII和LEAP, 以及明頓(S.Minton)等的PRODIGY。

6)歸納學習 (Learning from induction)

歸納學習是由教師或環境提供某概念的一些實例或反例,讓學生通過歸納推理得出該概念的一般描述。這種學習的推理工作量遠多于示教學習和演繹學習,因為環境并不提供一般性概念描述(如公理)。從某種程度上說,歸納學習的推理量也比類比學習大,因為沒有一個類似的概念可以作為"源概念"加以取用。歸納學習是最基本的,發展也較為成熟的學習方法,在人工智能領域中已經得到廣泛的研究和應用。

基于所獲取知識的表示形式分類

學習系統獲取的知識可能有:行為規則、物理對象的描述、問題求解策略、各種分類及其它用于任務實現的知識類型

對于學習中獲取的知識,主要有以下一些表示形式:

1)代數表達式參數

學習的目標是調節一個固定函數形式的代數表達式參數或系數來達到一個理想的性能。

2)決策樹

用決策樹來劃分物體的類屬,樹中每一內部節點對應一個物體屬性,而每一邊對應于這些屬性的可選值,樹的葉節點則對應于物體的每個基本分類。

3)形式文法

在識別一個特定語言的學習中,通過對該語言的一系列表達式進行歸納,形成該語言的形式文法。

4)產生式規則

產生式規則表示為條件—動作對,已被極為廣泛地使用。學習系統中的學習行為主要是:生成、泛化、特化(Specialization)或合成產生式規則。

5)形式邏輯表達式

形式邏輯表達式的基本成分是命題、謂詞、變量、約束變量范圍的語句,及嵌入的邏輯表達式。

6)圖和網絡

有的系統采用圖匹配和圖轉換方案來有效地比較和索引知識。

7)框架和模式(schema)

每個框架包含一組槽,用于描述事物(概念和個體)的各個方面。

8)計算機程序和其它的過程編碼

獲取這種形式的知識,目的在于取得一種能實現特定過程的能力,而不是為了推斷該過程的內部結構。

9)神經網絡

這主要用在聯接學習中。學習所獲取的知識,最后歸納為一個神經網絡。

10)多種表示形式的組合

有時一個學習系統中獲取的知識需要綜合應用上述幾種知識表示形式。

根據表示的精細程度,可將知識表示形式分為兩大類:泛化程度高的粗粒度符號表示、??泛化程度低的精粒度亞符號(sub-symbolic)表示。像決策樹、形式文法、產生式規則、形式邏輯表達式、框架和模式等屬于符號表示類;而代數表達式參數、圖和網絡、神經網絡等則屬亞符號表示類。

按應用領域分類

最主要的應用領域有:專家系統、認知模擬、規劃和問題求解、數據挖掘、網絡信息服務、圖象識別、故障診斷、自然語言理解、機器人和博弈等領域。

從機器學習的執行部分所反映的任務類型上看,大部分的應用研究領域基本上集中于以下兩個范疇:分類和問題求解。

(1)分類任務要求系統依據已知的分類知識對輸入的未知模式(該模式的描述)作分析,以確定輸入模式的類屬。相應的學習目標就是學習用于分類的準則(如分類規則)。

(2)問題求解任務要求對于給定的目標狀態,??尋找一個將當前狀態轉換為目標狀態的動作序列;機器學習在這一領域的研究工作大部分集中于通過學習來獲取能提高問題求解效率的知識(如搜索控制知識,啟發式知識等)。

綜合分類 編輯本段

綜合考慮各種學習方法出現的歷史淵源、知識表示、推理策略、結果評估的相似性、研究人員交流的相對集中性以及應用領域等諸因素。將機器學習方法區分為以下六類:

1)經驗性歸納學習 (empirical inductive learning)

經驗性歸納學習采用一些數據密集的經驗方法(如版本空間法、ID3法,定律發現方法)對例子進行歸納學習。其例子和學習結果一般都采用屬性、謂詞、關系等符號表示。它相當于基于學習策略分類中的歸納學習,但扣除聯接學習、遺傳算法、加強學習的部分。

2)分析學習(analytic learning)

分析學習方法是從一個或少數幾個實例出發,運用領域知識進行分析。其主要特征為:

·推理策略主要是演繹,而非歸納;

·使用過去的問題求解經驗(實例)指導新的問題求解,或產生能更有效地運用領域知識的搜索控制規則。

分析學習的目標是改善系統的性能,而不是新的概念描述。分析學習包括應用解釋學習、演繹學習、多級結構組塊以及宏操作學習等技術。

3)類比學習

它相當于基于學習策略分類中的類比學習。在這一類型的學習中比較引人注目的研究是通過與過去經歷的具體事例作類比來學習,稱為基于范例的學習(case_based learning),或簡稱范例學習。

4)遺傳算法(genetic algorithm)

遺傳算法模擬生物繁殖的突變、交換和達爾文的自然選擇(在每一生態環境中適者生存)。它把問題可能的解編碼為一個向量,稱為個體,向量的每一個元素稱為基因,并利用目標函數(相應于自然選擇標準)對群體(個體的集合)中的每一個個體進行評價,根據評價值(適應度)對個體進行選擇、交換、變異等遺傳操作,從而得到新的群體。遺傳算法適用于非常復雜和困難的環境,比如,帶有大量噪聲和無關數據、事物不斷更新、問題目標不能明顯和精確地定義,以及通過很長的執行過程才能確定當前行為的價值等。同神經網絡一樣,遺傳算法的研究已經發展為人工智能的一個獨立分支,其代表人物為霍勒德(J.H.Holland)。

5)聯接學習

典型的聯接模型實現為人工神經網絡,其由稱為神經元的一些簡單計算單元以及單元間的加權聯接組成。

6)增強學習(reinforcement learning)

增強學習的特點是通過與環境的試探性(trial and error)交互來確定和優化動作的選擇,以實現所謂的序列決策任務。在這種任務中,學習機制通過選擇并執行動作,導致系統狀態的變化,并有可能得到某種強化信號(立即回報),從而實現與環境的交互。強化信號就是對系統行為的一種標量化的獎懲。系統學習的目標是尋找一個合適的動作選擇策略,即在任一給定的狀態下選擇哪種動作的方法,使產生的動作序列可獲得某種最優的結果(如累計立即回報最大)。

在綜合分類中,經驗歸納學習、遺傳算法、聯接學習和增強學習均屬于歸納學習,其中經驗歸納學習采用符號表示方式,而遺傳算法、聯接學習和加強學習則采用亞符號表示方式;分析學習屬于演繹學習。

實際上,類比策略可看成是歸納和演繹策略的綜合。因而最基本的學習策略只有歸納和演繹。

從學習內容的角度看,采用歸納策略的學習由于是對輸入進行歸納,所學習的知識顯然超過原有系統知識庫所能蘊涵的范圍,所學結果改變了系統的知識演繹閉包, 因而這種類型的學習又可稱為知識級學習;而采用演繹策略的學習盡管所學的知識能提高系統的效率,但仍能被原有系統的知識庫所蘊涵,即所學的知識未能改變系統的演繹閉包,因而這種類型的學習又被稱為符號級學習。

學習形式 編輯本段

1)監督學習(supervised learning)

監督學習,即在機械學習過程中提供對錯指示。一般是在數據組中包含最終結果(0,1)。通過算法讓機器自我減少誤差。這一類學習主要應用于分類和預測 (regression & classify)。監督學習從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求是包括輸入和輸出,也可以說是特征和目標。訓練集中的目標是由人標注的。常見的監督學習算法包括回歸分析和統計分類。

2)非監督學習(unsupervised learning)

非監督學習又稱歸納性學習(clustering)利用K方式(Kmeans),建立中心(centriole),通過循環和遞減運算(iteration&descent)來減小誤差,達到分類的目的。

研究領域 編輯本段

機器學習領域的研究工作主要圍繞以下三個方面進行:

(1)面向任務的研究

研究和分析改進一組預定任務的執行性能的學習系統。

(2)認知模型

研究人類學習過程并進行計算機模擬。

(3)理論分析

從理論上探索各種可能的學習方法和獨立于應用領域的算法

機器學習是繼專家系統之后人工智能應用的又一重要研究領域,也是人工智能和神經計算的核心研究課題之一。現有的計算機系統和人工智能系統沒有什么學習能力,至多也只有非常有限的學習能力,因而不能滿足科技和生產提出的新要求。對機器學習的討論和機器學習研究的進展,必將促使人工智能和整個科學技術的進一步發展。

相關圖書 編輯本段

基本信息

作者:

(美)Tom Mitchell

語種:

簡體中文

ISBN:

7-111-10993-7

開本:

16開

定價:

35.00元

原書名:

Machine Learning

頁數:

280

屬性分類:

教材

出版日期:

2003-01-01

所屬叢書:

計算機類叢書

譯者:

曾華軍 張銀奎 等

試用專業:

計算機

圖書分類:

計算機>人工智能>綜合

包含CD:

原出版社:

出版社:

機械工業出版社

絕版:

內容簡介 編輯本段

本書展示了機器學習中核心的算法和理論,并闡明了算法的運行過程。本書綜合了許多的研究成果,例如統計學、人工智能、哲學、信息論、生物學、認知科學、計算復雜性和控制論等,并以此來理解問題的背景、算法和其中的隱含假定。本書可作為計算機專業

本科生、研究生教材,也可作為相關領域研究人員、教師的參考書。

圖書特色 編輯本段

TOM M.Mitchell是卡內基梅隆大學的教授,講授“機器(AAA)的主席:美國《Machine Learning》雜志、國際機器學習年度會議(ICML)的創始人:多種技術雜志的撰稿人,曾發表過許多文章,出版過多本專著,是機器學習領域的著名學者。

圖書前言 編輯本段

機器學習這門學科所關注的問題是:計算機程序如何隨著經驗積累自動提高性能。機器學習已經被成功地應用于很多領域,從檢測信用卡交易欺詐的數據挖掘程序,到獲取戶閱讀興趣的信息過濾系統,再到能在高速公路上自動行駛的汽車。同時,這個學科的基理論和算法也有了重大進展。

這本教材的目標是展現機器學習中核心的算法和理論。機器學習從很多學科吸收了成果和概念,包括統計學、人工智能、哲學、信息論、生物學、認知科學、計算復雜性和控制等。筆者相信,研究機器學習的最佳途徑是從這些學科的觀點看待機器學習,并且以此來理解問題的背景、算法以及其中隱含的假定。這些在以往很難做到,因為在這一領域缺少包容廣泛的原始資料,本書的主要目的就是提供這樣的一份資料。

由于素材的多學科性,本書不要求讀者具有相應的知識背景,而是在必要時介紹其他一些學科的基本概念,如統計學、人工智能、信息論等。介紹的重點是與機器學習關系最密切甲那些概念。本書可以作為計算機科學與工程、統計學和社會科學等專業的大學生或研究生的教材,也可作為軟件研究人員或從業人員的參考資料。

指導本書寫作的兩條原則為:第一,它是在校大學生可以理解的;第二,它應該包含我希望我自己的博士生在開始他們的器學習研究前要掌握的內容。

指導本書寫作的第三條原則是:它應該體現理論和實踐間的均衡。機器學習理論致力于回答這樣的問題“學習性能是怎樣隨著給定的訓練樣例的數量而變化的?”和“對于各種同類型的學習任務:哪個學習算法最適合?”利用來自統計學、計算復雜性和貝葉斯分析的理論成果,這本書討論了這一類理論問題。同時本書也涵蓋很多實踐方面的內容:介紹了這一領域的主要算法,闡明了算法的運行過程。

其中一些算法的實現和數據可以在因特網上通過網址http://www.cs.cmu.edu/-tom/mlbook.html得到,包括用于人臉識別的神經網絡的源代碼和數據、用于信貸分析的決策樹學習的源代碼和數據及分析文本文檔的貝葉分類器的源代碼和數據。我很感謝那些幫助我創建這些在線資源的同事,他們是:Jason Rennie、Paul Hsiung、Jeff Shufelt、Matt Glickman、Scott Davies、Joseph O’Sullivan、Ken Lang\Andrew McCallum和Thorsten Joachims。

作品目錄 編輯本段

第1章引言

1.1學習問題的標準描述

1.2設計-個學習系統

1.2.1選擇訓練經驗

1.2.2選擇目標函數

1.2.3選擇目標函數的表示

1. 2.4選擇函數逼近算法

1.2.5最終設計

1.3機器學習的一些觀點和問題

1.4如何閱讀本書

1.5小結和補充讀物

習題

第2章概念學習和一般到特殊序

2.1簡介

2.2概念學習任務

2.2.1術語定義

2.2.2歸納學習假設

2.3作為搜索的概念學習

2.4FIND-S:尋找極大特殊假設

2.5變型空間和候選消除算法

2.5.1表示

2.5.2列表后消除算法

2.5.3變型空間的更簡潔表示

2.5.4候選消除學習算法

2.5.5算法的舉例

2.6關于變型空間和候選消除的說明

2.6.1候選消除算法是否會收斂到正確的假設

2.6.2下一步需要什么樣的訓練樣例

2.6.3怎樣使用不完全學習概念

2.7歸納偏置

2.7.1-個有偏的假設空間

2.7.2無偏的學習器

2.7.3無偏學習的無用性

2.8小始和補充讀物

習題

第3章決策樹學習

3.1簡介

3.2決策樹表示法

3.3決策樹學習的適用問題

3.4基本的決策樹學習算法

3.4.1哪個屬性是最佳的分類屬性

3.4.2舉例

3.5決策樹學習中的假設空間搜索

3.6決策樹學習的歸納偏置

3.6.1限定偏置和優選偏置

3.6.2為什么短的假設優先

3.7決策樹學習的常見問題

3.7.1避免過度擬合數據

3. 7.2合并連續值屬性

3.7.3屬性選擇的其他度量標準

3.7.4處理缺少屬性值的訓練樣例

3.7.5處理不同代價的屬性

3.8小結和補充讀物

習題

第4章人工神經網絡

4.1簡介

4.2神經網絡表示

4.3適合神經網絡學習的問題

4.4感知器

4.4.1感知器的表征能力

4. 4.2感知器訓練法則

4.4.3梯度下降和delta法則

4.4.4小結

4.5多層網絡和反向傳播算法

4.5.1可微閾值單元

4.5.2反向傳播算法

4.5.3反向傳播法則的推導

4.6反向傳播算法的說明

4.6.1收斂性和局部極小值

4.6.2前饋網絡的表征能力

4.6.3假設空間搜索和歸納偏置

4.6.4隱藏層表示

4.6.5泛化、過度擬合和停止判據

4.7舉例:人臉識別

4.7.1任務

4.7.2設計要素

4.7.3學習到的隱藏層表示

4.8人工神經網絡的高級課題

4.8.1其他可選的誤差函數

4.8.2其他可選的誤差最小化過程

4.8.3遞歸網絡

4.8.4動態修改網絡結構

4.9小結和補充讀物

習題

第5章評估假設

5.1動機

5.2估計假設精度

5.2.1樣本錯誤率和真實錯誤率

5.2.2離散值假設的置信區間

5.3采樣理論基礎

5.3.1錯誤率估計和二項比例估計

5.3.2二項分布

5.3.3均值和方差

5.3.4估計量、偏差和方差

5.3.5置信區間

5.3.6雙側和單側邊界

5.4推導置信區間的一般方法

5.5兩個假設錯誤率間的差異

5.6學習算法比較

5.6. 1配對t測試

5.6.2實際考慮

5.7小結和補充讀物

習題

第6章貝葉斯學習

6.1簡介

6.2貝葉斯法則

6.3貝葉斯法則和概念學習

6.3.1BRUTE-FORCE貝葉斯概念學習

6.3.2MAP假設和一致學習器

6.4極大似然和最小誤差平方假設

6.5用于預測概率的極大似然假設

6.6最小描述長度準則

6.7貝葉斯最優分類器

6.8GIBBS算法

6.9樸素貝葉斯分類器

6.10舉例:學習分類文本

6.11貝葉斯信念網

6.11.1條件獨立性

6.11.2表示

6.11.3推理

6.11.4學習貝葉斯信念網

6.11.5貝葉斯網的梯度上升訓練

6.11.6學習貝葉斯網的結構

6.12EM算法

6.12.1估計k個高斯分布的均值

6.12.2EM算法的一般表述

6.12.3k均值算法的推導

6.13小結和補充讀物

習題

第7章計算學習理論

7.1簡介

7.2可能學習近似正確假設

7.2.1問題框架

7.2.2假設的錯誤率

7.2.3PAC可學習性

7.3有限假設空間的樣本復雜度

7.3.1不可知學習和不一致假設

7.3.2布爾文字的合取是PAC可學習的

7.3.3其他概念類別的PAC可學習性

7.4無限假設空間的樣本復雜度

7.4.1打散一個實例集合

7.4.2Vapnik-Chervonenkis維度

7.4.3樣本復雜度和VC維

7.4.4神經網絡的VC維

7.5學習的出錯界限模型

7.5.1FIND-S算法的出錯界限

7.5.2HALVING算法的出錯界限

7.5.3最優出錯界限

7.5.4加權多數算法

7.6小結和補充讀物

習題

第8章基于實例的學習

8.1簡介

8.2k-近鄰算法

8.2.1距離加權最近鄰算法

8.2.2對k-近鄰算法的說明

8.2.3術語注解

8.3局部加權回歸

8.3.1局部加權線性回歸

8.3.2局部加權回歸的說明

8.4徑向基函數

8.5基于案例的推理

8.6對消極學習和積極學習的評論

8.7小結和補充讀物

習題

第9章遺傳算法

9.1動機

9.2遺傳算法

9.2.1表示假設

9.2.2遺傳算子

9.2.3適應度函數和假設選擇

9.3舉例

9.4假設空間搜索

9.5遺傳編程

9.5.1程序表示

9.5.2舉例

9.5.3遺傳編程說明

9.6進化和學習模型

9.6.1拉馬克進化

9.6.2鮑德溫效應

9.7并行遺傳算法

9.8小結和補充讀物

習題

第10章學習規則集合

10.1簡介

10.2序列覆蓋算法

10.2.1一般到特殊的柱狀搜索

10.2.2幾種變型

10.3學習規則集:小結

10.4學習一階規則

10.4.1一階Horn子句

10.4.2術語

10.5學習一階規則集:FOIL

10.5.1FOIL中的候選特化式的生成

10.5.2引導FOIL的搜索

10.5.3學習遞歸規則集

10.5.4FOIL小結

10.6作為逆演繹的歸納

10.7逆歸納

10.7.1一階歸納

10.7.2逆歸納:一階情況

10.7.3逆歸納小結

10.7.4泛化、-包容和涵蘊

10.7.5PROGOL

10.8小結和補充讀物

習題

第11章分析學習

11.1簡介

11.2用完美的領域理論學習:PROLOG-EBG

11.3對基于解釋的學習的說明

11.3.1發現新特征

11.3.2演繹學習

11.3.3基于解釋的學習的歸納偏置

11.3.4知識級的學習

11.4搜索控制知識的基于解釋的學習

11.5小結和補充讀物

習題

第12章歸納和分析學習的結合

12.1動機

12.2學習的歸納-分析途徑

12.2.1學習問題

12.2.2假設空間搜索

12.3使用先驗知識得到初始假設

12.3.1KBANN算法

12.3.2舉例

12.3.3說明

12.4使用先驗知識改變搜索目標

12.4.1TANGENTPROP算法

12.4.2舉例

12.4.3說明

12.4.4EBNN算法

12.4.5說明

12.5使用先驗知識來擴展搜索算子

12.5.1FOCL算法

12.5.2說明

12.6研究現狀

12.7小結和補充讀物

習題

第13章增強學習

13.1簡介

13.2學習任務

13.3Q學習

13.3.1Q函數

13.3.2一個學習Q的算法

13.3.3舉例

13.3.4收斂性

13.3.5實驗策略

13.3.6更新序列

13.4非確定性回報和動作

13.5時間差分學習

13.6從樣例中泛化

13.7與動態規劃的聯樂

13.8小結和補充讀物

習題

附錄符號約定

相關圖書2

基本信息

原作名:Machine Learning for Hackers

作者:(美)Drew Conway/John Myles White

譯者:陳開江/劉逸哲/孟曉楠/羅森林 審校

出版社:機械工業出版社

頁數:320

定價:69.00

ISBN:9787111417316

內容簡介 編輯本段

這本書為機器學習技術提供了一些非常棒的案例研究。它并不想成為一本關于機器學習的工具書或者理論書籍,它注重的是一個學習的過程,因而對于任何有一些編程背景和定量思維的人來說,它都是不錯的選擇。

——Max Shron OkCupid

機器學習
機器學習是計算機科學和人工智能中非常重要的一個研究領域,機器學習不但在計算機科學的眾多領域中大顯身手,而且成為一些交叉學科的重要支撐技術。本書比較全面系統地介紹了機器學習的方法和技術,不僅詳細闡述了許多經典的學習方法,還討論了一些有生命力的新理論、新方法。全書案例既有分類問題,也有回歸問題;既包含監督學習,也涵蓋無監督學習。本書討論的案例從分類講到回歸,然后討論了聚類、降維、最優化問題等。這些案例包括分類:垃圾郵件識別,排序:智能收件箱,回歸模型:預測網頁訪問量,正則化:文本回歸,最優化:密碼破解,無監督學習:構建股票市場指數,空間相似度:用投票記錄對美國參議員聚類,推薦系統:給用戶推薦R語言包,社交網絡分析:在Twitter上感興趣的人,模型比較:給你的問題找到最佳算法。各章對原理的敘述力求概念清晰、表達準確,突出理論聯系實際,富有啟發性,易于理解。在探索這些案例的過程中用到的基本工具就是R統計編程語言。R語言非常適合用于機器學習的案例研究,因為它是一種用于數據分析的高水平、功能性腳本語言。

本書主要內容:

?開發一個樸素貝葉斯分類器,僅僅根據郵件的文本信息來判斷這封郵件是否是垃圾郵件;

?使用線性回歸來預測互聯網排名前1000網站的PV;

?利用文本回歸理解圖書中詞與詞之間的關系;

?通過嘗試破譯一個簡單的密碼來學習優化技術;

?利用無監督學習構建股票市場指數,用于衡量整體市場行情的好壞;

?根據美國參議院的投票情況,從統計學的角度對美國參議員聚類;

?通過K近鄰算法構建向用戶推薦R語言包;

?利用Twitter數據來構建一個“你可能感興趣的人”的推薦系統;

?模型比較:給你的問題找到最佳算法。

作者簡介 編輯本段

Drew Conway 機器學習專家,擁有豐富的數據分析與處理工作經驗。主要利用數學、統計學和計算機技術研究國際關系、沖突和恐怖主義等。他曾作為研究員在美國情報和國防部門供職數年。他擁有紐約大學政治系博士學位,曾為多種雜志撰寫文章,是機器學習領域的著名學者。

John Myles White 機器學習專家,擁有豐富的數據分析與處理工作經驗。主要從理論和實驗的角度來研究人類如何做出決定,同時還是幾個流行的R語言程序包的主要維護者,包括ProjectTemplate和log4r。他擁有普林斯頓大學哲學系博士學位,曾為多家技術雜志撰稿,發表過許多關于機器學習的論文,并在眾多國際會議上發表演講。

譯者簡介 編輯本段

羅森林

博士,教授,博導。現任北京理工大學信息系統及安全對抗實驗中心主任、專業責任教授。國防科技工業局科學技術委員會成員;《中國醫學影像技術雜志》、《中國介入影像與治療學》編委會委員;全國大學生信息安全技術專題邀請賽專家組副組長;中國人工智能學會智能信息安全專業委員會委員等。主要研究方向為信息安全、數據挖掘、媒體計算、中文信息處理等。負責或參加完成國家自然科學基金、國家科技支撐計劃、863計劃、國家242計劃等省部級以上項目40余項。已發表學術論文90余篇,出版著作8部,出版譯著1部,獲授權專利3項。

陳開江

新浪微博搜索部研發工程師,曾獨立負責微博內容反垃圾系統、微博精選內容挖掘算法、自助客服系統(包括自動回復、主動挖掘、輿情監測)等項目,主要從事社交挖掘、推薦算法研究、機器學習、自然語言處理相關工作,研究興趣是社交網絡的個性化推薦。

劉逸哲

阿里巴巴,CBU基礎平臺部搜索與推薦團隊核心技術與query分析方向負責人,機器學習技術領域及圈子負責人。曾任中國雅虎相關性團隊、自然語言處理團隊算法工程師;AvePoint.inc開發工程師,從事企業級搜索引擎開發。研究興趣是機器學習、自然語言處理及個性化推薦等算法在大規模數據上的應用。

孟曉楠

一淘廣告技術,阿里非搜索廣告算法負責人,負責用戶行為分析、建模與細分,RTB競價算法,展示廣告CTR預估與SEM優化。曾工作于網易杭州研究院,參與過分布式全文檢索系統網易博客產品的數據挖掘算法開發。研究興趣是計算廣告技術、機器學習、大數據技術、信息檢索等。

附件列表


0

詞條內容僅供參考,如果您需要解決具體問題
(尤其在法律、醫學等領域),建議您咨詢相關領域專業人士。

如果您認為本詞條還有待完善,請 編輯

上一篇 圖像識別    下一篇 計算機視覺

標簽

同義詞

暫無同義詞
主站蜘蛛池模板: 91手机视频在线| 亚洲综合图片网| 人妻少妇久久中文字幕| 久久亚洲精品无码VA大香大香 | 色婷婷综合在线| 狠狠热精品免费观看| 欧美黄色一级在线| 多人交换伦交视频| 国产一精品一av一免费爽爽| 亚洲处破女AV日韩精品| 中文字幕无码不卡免费视频| 两个人看的www免费视频中文| 精品大臿蕉视频在线观看| 性色av一区二区三区| 国产卡一卡二卡三卡四| 亚洲欧美在线精品一区二区 | 青娱乐手机在线| 欧美性天天影院| 国产精品爽爽va在线观看无码 | 国产一区二区三区在线观看免费| 久久久久亚洲AV成人无码电影| 色多多视频免费网站下载| 成人午夜一区二区三区视频| 午夜成人精品福利网站在线观看| 久久久久亚洲精品美女| 老熟妇仑乱一区二区视頻| 日韩欧美中文在线| 国产三级精品三级在线观看| 中文字幕人成无码免费视频| 韩国电影吃奶喷奶水的电影| 日日躁夜夜躁狠狠天天| 国产成人aaa在线视频免费观看| 久久精品久噜噜噜久久| 欧美精品综合一区二区三区| 欧美黑人XXXX高潮猛交| 国产精品多人P群无码| 亚洲精品456在线播放| 巨胸狂喷奶水视频www网站免费| 日本高清免费aaaaa大片视频| 嗯~啊太紧了妖精h| 丰满少妇作爱视频免费观看|