數據、算(suan)(suan)(suan)力(li)(li)和算(suan)(suan)(suan)法(fa)是AI發(fa)展(zhan)的三大基石。數據和算(suan)(suan)(suan)力(li)(li)是AI發(fa)展(zhan)的物質(zhi)基礎,算(suan)(suan)(suan)法(fa)則是AI發(fa)展(zhan)的靈魂。算(suan)(suan)(suan)法(fa)能夠指(zhi)數級地(di)釋放(fang)數據和算(suan)(suan)(suan)力(li)(li)的價值,應(ying)用(yong)好(hao)、改進好(hao)算(suan)(suan)(suan)法(fa)成為新(xin)一輪AI技術發(fa)展(zhan)的關(guan)鍵。AI領(ling)域(yu)較為知(zhi)(zhi)名(ming)的算(suan)(suan)(suan)法(fa)包括(kuo)感知(zhi)(zhi)器、聚類(lei)算(suan)(suan)(suan)法(fa)、決策樹、支(zhi)持向量機和卷積(ji)神經(jing)網絡等。
1、感知器
美國計算機科學院羅森布拉特(F.Roseblatt)于1957年提出感知器,是神經網絡第一個里程碑算法。所謂感知器,是一種用于二分類的線性分類模型,其輸入為樣本的特征向量,計算這些輸入的線性組合,如果輸出結果大于某個閥值就輸出1,否則輸出-1。作為一個線性分類器,感知器有能力解決線性分類問題,也可用于基于模式分類的學習控制中。感知器只能解決簡單的線性分類問題,應用面很窄,但是在人工智能發(fa)展(zhan)中(zhong)起到了很大推動作用,由于是(shi)第一個神經網(wang)絡算(suan)法,吸(xi)引了大量(liang)學(xue)者對(dui)神經網(wang)絡開(kai)展(zhan)研究,同時感知(zhi)器也(ye)為(wei)后(hou)期(qi)更(geng)復雜算(suan)法如深(shen)度學(xue)習奠定基礎。
2、聚類算法
從機(ji)器學(xue)(xue)習的角度(du),聚類(lei)算法是(shi)一種“無監督學(xue)(xue)習”,訓(xun)練(lian)樣本的標記信(xin)息是(shi)未知的,根(gen)據(ju)(ju)數(shu)(shu)據(ju)(ju)的相(xiang)似性和(he)(he)距離來劃分,聚類(lei)的數(shu)(shu)目和(he)(he)結構沒有事先(xian)給(gei)定。聚類(lei)的目的是(shi)尋(xun)找數(shu)(shu)據(ju)(ju)簇中(zhong)(zhong)潛(qian)在(zai)(zai)的分組(zu)結構和(he)(he)關(guan)聯關(guan)系(xi),通過聚類(lei)使得同一個簇內的數(shu)(shu)據(ju)(ju)對(dui)象的相(xiang)似性盡可能(neng)(neng)大,同時(shi)不在(zai)(zai)同一個簇中(zhong)(zhong)的數(shu)(shu)據(ju)(ju)對(dui)象的差異性也盡可能(neng)(neng)地大。在(zai)(zai)人工(gong)智能(neng)(neng)中(zhong)(zhong),聚類(lei)分析亦被(bei)稱為“無先(xian)驗學(xue)(xue)習”,是(shi)機(ji)器學(xue)(xue)習中(zhong)(zhong)的重要算法,目前被(bei)廣泛(fan)應用于各種自然科學(xue)(xue)和(he)(he)工(gong)程領域。
目前已經提出多種聚(ju)類算(suan)(suan)法(fa),可分(fen)為:劃(hua)分(fen)方(fang)法(fa)、層次(ci)方(fang)法(fa)、基(ji)于密度的方(fang)法(fa)、基(ji)于網(wang)格的方(fang)法(fa)和基(ji)于模型(xing)的方(fang)法(fa)。其中著名的分(fen)類算(suan)(suan)法(fa)k-means算(suan)(suan)法(fa)就是基(ji)于劃(hua)分(fen)的聚(ju)類算(suan)(suan)法(fa)。
3、決策樹
決(jue)(jue)策(ce)(ce)(ce)樹是一(yi)種簡(jian)單(dan)卻使(shi)用廣泛的(de)分類(lei)器,通過(guo)訓練數(shu)(shu)建(jian)立決(jue)(jue)策(ce)(ce)(ce)樹對(dui)未(wei)知(zhi)數(shu)(shu)據進(jin)行高效分類(lei)。一(yi)棵決(jue)(jue)策(ce)(ce)(ce)樹一(yi)般包括根結點(dian)、內部結點(dian)和葉子(zi)結點(dian);葉子(zi)結點(dian)對(dui)應最(zui)終(zhong)決(jue)(jue)策(ce)(ce)(ce)結果,每一(yi)次劃(hua)分過(guo)程遍歷所有(you)劃(hua)分屬(shu)性(xing)(xing)找(zhao)到(dao)最(zui)好分割方式。決(jue)(jue)策(ce)(ce)(ce)樹的(de)目標是將數(shu)(shu)據按照(zhao)對(dui)應的(de)類(lei)屬(shu)性(xing)(xing)進(jin)行分類(lei),通過(guo)特征(zheng)屬(shu)性(xing)(xing)的(de)選(xuan)擇將不同類(lei)別數(shu)(shu)據集(ji)合貼上對(dui)應的(de)類(lei)別標簽,使(shi)分類(lei)后的(de)數(shu)(shu)據集(ji)純度(du)最(zui)高,而(er)且(qie)能夠通過(guo)選(xuan)擇合適的(de)特征(zheng)盡(jin)量使(shi)分類(lei)速度(du)最(zui)快,減少決(jue)(jue)策(ce)(ce)(ce)樹深(shen)度(du)。
4、支持向量機
支(zhi)持向量(liang)機SVM(Support Vector Machine)是(shi)由Cortes和Vapnik于(yu)1995年首先提出的(de),它(ta)是(shi)一種基于(yu)統(tong)計(ji)學(xue)習(xi)的(de)機器學(xue)習(xi)方法(fa),在小樣本分類(lei)上也能(neng)獲得良好統(tong)計(ji)規律(lv)。同時,由于(yu)在文本分類(lei)中表現出特有的(de)優勢,成為當(dang)時機器學(xue)習(xi)領(ling)域研究的(de)熱點。SVM的(de)學(xue)習(xi)方法(fa)主(zhu)要包括線性(xing)可(ke)分向量(liang)機、線性(xing)支(zhi)持向量(liang)機以(yi)及非線性(xing)支(zhi)持向量(liang)機。
SVM通過建(jian)立(li)一(yi)個最優決(jue)策(ce)超平面(mian)(mian),使得(de)該平面(mian)(mian)兩(liang)側距平面(mian)(mian)最近(jin)的(de)(de)兩(liang)類(lei)(lei)樣本之間的(de)(de)距離最大化(hua),從而(er)對(dui)分(fen)類(lei)(lei)問(wen)題提供良好的(de)(de)泛(fan)化(hua)能力。SVM采用核函(han)數(shu)技(ji)巧將(jiang)原始特(te)征(zheng)映射到更(geng)高(gao)(gao)維空(kong)間,解決(jue)原始低緯空(kong)間線性(xing)不可分(fen)的(de)(de)問(wen)題。通過將(jiang)復雜(za)的(de)(de)模式(shi)分(fen)類(lei)(lei)問(wen)題非(fei)線性(xing)投射到更(geng)高(gao)(gao)維空(kong)間變成線性(xing)可分(fen)的(de)(de),SVM算(suan)法可在特(te)征(zheng)空(kong)間建(jian)立(li)分(fen)類(lei)(lei)平面(mian)(mian),解決(jue)非(fei)線性(xing)可分(fen)的(de)(de)問(wen)題。其學習策(ce)略是間隔最大化(hua),將(jiang)分(fen)類(lei)(lei)問(wen)題轉化(hua)為一(yi)個凸二次規劃問(wen)題的(de)(de)求解。
5、卷積神經網絡
卷積神經(jing)(jing)網(wang)絡(luo)(CNN)是(shi)近(jin)年發展起(qi)來,并引起(qi)廣泛(fan)重視(shi)的(de)一(yi)(yi)種高效識別方法(fa)。CNN受生(sheng)物自然視(shi)覺認(ren)知機制啟發而來。一(yi)(yi)般地,其基(ji)本結(jie)構包括兩層,一(yi)(yi)是(shi)特(te)征(zheng)(zheng)(zheng)提(ti)(ti)取層,每(mei)個(ge)神經(jing)(jing)元(yuan)的(de)輸入(ru)與(yu)前一(yi)(yi)層的(de)局部接受域相連,并提(ti)(ti)取該局部的(de)特(te)征(zheng)(zheng)(zheng)。一(yi)(yi)旦該局部特(te)征(zheng)(zheng)(zheng)被(bei)提(ti)(ti)取后,它與(yu)其它特(te)征(zheng)(zheng)(zheng)間的(de)位臵(ge)關系也(ye)隨之(zhi)確定下來;二(er)是(shi)特(te)征(zheng)(zheng)(zheng)映(ying)(ying)射(she)(she)層,網(wang)絡(luo)的(de)每(mei)個(ge)計算層由(you)多(duo)個(ge)特(te)征(zheng)(zheng)(zheng)映(ying)(ying)射(she)(she)組(zu)成,每(mei)個(ge)特(te)征(zheng)(zheng)(zheng)映(ying)(ying)射(she)(she)是(shi)一(yi)(yi)個(ge)平面,平面上所(suo)有(you)神經(jing)(jing)元(yuan)的(de)權值相等。特(te)征(zheng)(zheng)(zheng)映(ying)(ying)射(she)(she)結(jie)構采用影響函(han)數(shu)核(he)小(xiao)的(de)sigmoid函(han)數(shu)作為卷積網(wang)絡(luo)的(de)激活函(han)數(shu),使得特(te)征(zheng)(zheng)(zheng)映(ying)(ying)射(she)(she)具有(you)位移不變(bian)性(xing)。此(ci)外,由(you)于(yu)一(yi)(yi)個(ge)映(ying)(ying)射(she)(she)面上的(de)神經(jing)(jing)元(yuan)共(gong)享權值,因而減少(shao)了網(wang)絡(luo)自由(you)參(can)數(shu)的(de)個(ge)數(shu)。卷積神經(jing)(jing)網(wang)絡(luo)中的(de)每(mei)一(yi)(yi)個(ge)卷積層都緊跟著一(yi)(yi)個(ge)用來求局部平均與(yu)二(er)次提(ti)(ti)取的(de)計算層,這種特(te)有(you)的(de)兩次特(te)征(zheng)(zheng)(zheng)提(ti)(ti)取結(jie)構減小(xiao)了特(te)征(zheng)(zheng)(zheng)分辨率。