中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當前的位置是:  首頁 > 新聞 > 文章精選 >
 首頁 > 新聞 > 文章精選 >

Masashi Sugiyama: 弱監(jiān)督機器學習的研究進展

2017-07-25 09:34:33   作者:   來源:中國人工智能學會   評論:0  點擊:


  7月22-23日,在中國科學技術協(xié)會、中國科學院的指導下,由中國人工智能學會、阿里巴巴集團&螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的2017中國人工智能大會(CCAI2017)在杭州國際會議中心盛大召開。
弱監(jiān)督機器學習的研究進展
  在本次大會上,日本人工智能和機器學習領域新一代的代表性人物——日本理化學研究所先進智能研究中心主任Masashi Sugiyama(中文名:杉山將)為參會者帶來了《弱監(jiān)督機器學習的研究進展》的演講。杉山將在機器學習領域發(fā)表過很多重要的理論,是這個領域最知名的學者之一,出版了機器學習相關書籍《圖說機器學習》(中文版)。
  以下內容根據杉山將本次主題演講整理,略有刪減:
  大家早上好,我叫杉山將,非常高興能夠參加今天的大會,也很高興和這么多中國的研究人員見面,我也特別喜歡杭州的文化和當?shù)氐拿朗场?/div>
  在過去的4-5年中,AI在日本發(fā)展地非?,這也讓我能有機會出相關的教科書,其中有一本翻譯成了中文——《圖說機器學習》。其實我看得懂中文,所以我覺得今天演講的中文標題的翻譯是很準確的。
  下面我所要講的東西和今天大會的主題非常契合。
  昨天漆遠談到了金融領域的機器學習,從大數(shù)據的角度來看,它是機器學習很重要的研究領域,并且目前還是非常的成功,我也一直對基于大數(shù)據來做機器學習這件事情非常感興趣。然而,現(xiàn)在對于很多的應用領域而言是無法獲取大規(guī)模的標注數(shù)據的,比如醫(yī)藥、制造業(yè)、防災等領域。當數(shù)據量不夠時,我們需要相應的機器學習方法來應對。
  今天我會講一些關于小數(shù)據的研究進展,我的演講和其他的演講者相比會更沒有那么的技術性,希望大家可以了解一下小數(shù)據分類的研究狀況,其中還是有一些讓人欣喜的研究進展的。
  監(jiān)督學習、非監(jiān)督學習和半監(jiān)督學習概述
  回到我們所討論的話題,首先還是要去關注一個最簡單的問題,就是二元分類的問題。
  我們會有一些訓練數(shù)據(如下圖),其中藍色圈點代表正例,而紅色叉點代表負例。這樣的二分類問題,其實已經被研究很多年了,由于我們已經有了大量的標注數(shù)據,所以能夠得到非常好的分類結果,我們都知道現(xiàn)在最優(yōu)的分類結果是這樣的。
  然而,想要獲取大量的標注數(shù)據是非常耗時耗力的,我們希望也能夠對無標注數(shù)據進行分類,這就是無監(jiān)督分類的由來。
  其實無監(jiān)督分類和聚類是一樣的,比如下面這張圖中的數(shù)據點聚成了兩簇,每一個簇代表一個類別,這樣才是非常好的分類結果。然而很遺憾現(xiàn)在我們這個假設(即聚類的結果表示一個類別)并未得到相應的驗證,所以從這個層面上來看,還沒有非常合理的辦法來做無監(jiān)督分類。
  我非常喜歡11年前提出另一種方法的論文:由于我們有大量的無標注數(shù)據和少量的標注數(shù)據,那么基于少量的標注數(shù)據就能在一定程度上找到邊界,然后結合所找到的邊界和大量無標注數(shù)據的聚類結果,從而找出更多的邊界。這就是半監(jiān)督分類。
  然而,半監(jiān)督分類和無監(jiān)督分類面臨同樣的問題,也就是簇要能夠跟類別對應起來。如果一個簇總能對應著一個類別,這樣就完美了。但事實并非如此,這就是我們今天所要討論的內容。
  接下來我先總結一下前面說過的內容。
  對于不同類型的分類方法,標注的成本有高有低,所取得的分類準確率也有高有低。對于監(jiān)督分類,能夠取得很高的分類準確率但同時標注的成本非常高;而對于半監(jiān)督和非監(jiān)督分類,標注的成本都比較低(甚至沒有),但取得的分類準確率并不高。
  如何讓左下角的這兩種方法(即半監(jiān)督和非監(jiān)督分類)能夠取得較高的分類準確率,同時保持比較低的標注成本?
  這是我們所面臨和需要解決的難題。
  現(xiàn)在深度學習技術非常熱門,但我今天講的東西不是深度學習,這并不是說要忽視深度學習,其實這個話題跟深度學習也是有關系的。
  模型方面,從簡單到復雜,我們有線性模型、增量模型、基于核函數(shù)的模型和深度學習模型等;機器學習方法方面,有監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習和增強學習等。
  任意的學習方法和模型都是可以相結合的,不過我今天要講的東西是關于學習方法的,它可以使用任何的模型,包括深度學習模型。當然我更傾向于使用線性模型,因為這更簡單,如果你想使用更加復雜的模型也是完全可以的。
  下面是今天演講的議程,接下來會給大家介紹四種不同的分類方法,后面如果有機會我會介紹一下理化學研究所AIP研究中心。
  弱監(jiān)督學習的研究進展
  UU數(shù)據分類
  首先看一下UU(Unlabeled,Unlabeled)分類,U代表的無標注的數(shù)據(Unlabeled data)。
  那么我們是怎樣對無標注的數(shù)據進行分類的呢?假設我們有兩個未標注的數(shù)據集,它們唯一的不同在于類先驗(class-priors,即所屬的類別)的不同。它們的函數(shù)分布如圖中的左右下角,數(shù)量上各占50%左右,其實我們并不需要知道具體的比例;谶@種假設,我們需要訓練一個分類器,而基于無標注數(shù)據的訓練是極具挑戰(zhàn)的。
  那么怎么訓練分類器呢?
  首先來看一下類先驗的區(qū)別是什么,在正類和負類之間,我們只看p(x)和p’(x)之間的差異,這就是我們劃分正負類的標準。
  假設通過某些技術方法,我們能夠獲取這些數(shù)據的正負類分布的先驗信息,正負類的分布比例是對等的,也就是說一半數(shù)據是正類,一半是負類。x代表非標注的數(shù)據,C是一個常數(shù),由于沒有相應的標注數(shù)據,所以我們對C的值難以有個合理的估計。盡管如果C沒有具體的值,我們不知道哪一側是正類,哪一側是負類,但這并不要緊,因為類別之間的差異性往往很明顯,最終表現(xiàn)在符號為正或負,所以我們有時可以將常數(shù)C忽略掉。我們只看最終符號的正負,這樣可以讓我們得到最優(yōu)的分類結果。
  接下來的做法都是很直觀的。因為我們要處理的是一些未標注數(shù)據,第一種方法是做核密度的估計,我們對兩類數(shù)據點對應的p(x)和p’(x)進行估計,從而計算它們之間的差值,這樣能夠很自然地解決分類問題。然而,遺憾的是這種方法雖然簡單,但有可能對p(x)-p’(x)的差值產生了低估,這是因為對p(x)和p’(x)的估計函數(shù)過于平滑所導致的。
  第二種方法是直接對密度的差值進行估計,利用Kim等人所提出的模型,盡可能把密度差異的估計偏差達到最小,這種方法用一個線性的模型就能夠得到相應的解決方案。
  第三種方法是對密度差的第一項進行直接的估計,這是最為直接的方法。對于我們這個問題來說,第三種方法遵循了Vapnik原則。我們要解決的問題不能太過泛化,在這個場景中,我們想要估計密度的差值,這將涉及到非凸優(yōu)化方面的問題(例如可使用CCCP方法來解)。
  下面是我們做的一些實驗結果,比較的指標是誤分類率的類均值。
  表格的左側一欄是表示不同的數(shù)據集,對比的方法中有聚類的方法,可以看出聚類的方法并不是很有用。表格中間的是一些普通方法,其中第二種是估計p(x)-p’(x)的差值,可以看出越靠近左側的方法取得的效果越好,這是因為對應解決問題的方式更加直接,因此直接的估計密度差值或者是密度差值的符號函數(shù)的值會更加有效。
  在實際的應用中,我們通常選擇左側的兩種方法。
  PU數(shù)據分類
  下一個話題要談的是如何處理PU(Positive,Unlabeled)的數(shù)據,也就是只有正例數(shù)據和未標注的數(shù)據。
  我們有兩類數(shù)據樣本,一種是屬于正類的,另外一類是未標注的。當然未標注的數(shù)據里包含了正類和負類兩種數(shù)據,但是我們并不知道其中哪些是正類,哪些是負類。對應這種數(shù)據類型的一個例子是,比如有一些你點擊和未點擊的網站,對于那些未點擊的網站中,你既有未來可能會點擊的,也會有你不會點擊的(或者有想點擊的,但可能由于忙而沒有真正點擊的),對這些網站點擊數(shù)據,我們可以應用PU的分類方法。
  另外,我相信在社交媒體上面也會有這樣的分類場景,判斷一個用戶是不是你的好友。對于已經認識的朋友,朋友之間有著很好的聯(lián)系,所以我們能夠得到相應的數(shù)據樣本;然而,對于非朋友關系的用戶們,我們并不知道他們相互討厭對方所以沒有成為朋友,還是如果有機會是能夠成為朋友的,所以他們之間沒有鏈接并不代表它就是負類的(不能成為朋友)。
  在這個PU分類中,我們還需要獲取一個PN的分類器,因為盡管我們有了正例數(shù)據和未標注數(shù)據(對應圖中的藍色和黑色的符號數(shù)據),我們還是要知道未標注數(shù)據(黑色的符號數(shù)據)中哪些是負的哪些是正的,這里也將涉及到很多的公式,我們接下來看一下分類器的風險函數(shù)。
  我們用到了損失函數(shù),用了l表示;y是用f(x)表示;我們用R(f)表示風險函數(shù),代表數(shù)據分類的風險,可以看到風險函數(shù)包括正類數(shù)據的分類風險以及負類數(shù)據的分類風險。在今天的演講當中我們?yōu)榱税阉v的簡單,這里實際是要通過這些數(shù)據來進行估計的。
  我們現(xiàn)在有正類數(shù)據和負類數(shù)據的分類風險,已經分成兩類。因為我們在PU分類任務中缺少對負類數(shù)據的標注,因而我們不能對負類數(shù)據的分類風險進行直接的估計,這也是我們技術上所面臨的挑戰(zhàn)。然而,這個問題可以很簡單的來解決,由于未標注數(shù)據是由正類數(shù)據和負類數(shù)據組成的,所以我們可以從PU數(shù)據中來對負類數(shù)據的分類風險進行一個預估。
  具體的公式轉換如下圖所示,它背后的理論是正負數(shù)據分類風險滿足一定的邊界條件,具體的細節(jié)在這里就不細說了。這是最優(yōu)的方法,我們可以通過PU的學習,從PU的數(shù)據中得出PN的信息。
  在左邊PU的邊界可以比PN的邊界要小,我們一開始是用PU的結果而沒有PN的,這是我們的起點。但如果滿足了這個條件,PU數(shù)據的學習要比PN數(shù)據的學習更好,但前提是我們要有大量PU數(shù)據;因為如果說有大量的PU的數(shù)據的話,我們左側邊界值就會變的小一些。所以說,PU的學習有時候可以比PN更好一些,這讓我們研究出下一種方法,我后面會給大家看另外一種方法。
  我們會發(fā)現(xiàn),盡管PU方法已經能夠取得很好的結果,但是還是存在一些問題。
  我們再來看一下之前的PN的風險函數(shù)公式,就是基于P數(shù)據和N數(shù)據的風險對U數(shù)據的分類風險進行估計。根據這個定義,N數(shù)據的風險是非負類的,但是它是PU的樣本,在現(xiàn)實當中我們要對樣本進行估計。所以說PU可能是會為負的,因為這個是會有一個負號,通常是應該是負號的,但有可能這個差會是負的,特別是對于可擴展性較高的模型來說,比如說像深度網絡是會出現(xiàn)這個情況。
  我們看到,對于非負類的PU分類,先從虛線的藍線開始看起,是PN的測試數(shù)據上的誤差結果(藍色的實線),這表示模型是收斂的。
  再看一下紅色的虛線,是PN的訓練數(shù)據上的誤差結果,在到某個點的時候會變成負,這表示模型的訓練已經出現(xiàn)了過擬合。因為當在訓練數(shù)據的誤差值變成負了之后,PU測試數(shù)據上的誤差值開始增長了。一個簡單的解決過擬合的方法是,限制這些誤差值為非負。
  這樣做的話,就可以讓我們的數(shù)值維持非負性。
  但這里的一個問題是在于,這樣的模型對于現(xiàn)在的風險預估而言效果還是可以的,但是并沒有解決全部的問題。
  首先我們先看一下風險的偏差值還是有一致性的,如果你輸入的樣本太多,它會產生真正的風險,而且它的偏差的下降是指數(shù)級的。從應用的角度,我們可以去忽略R(f)的偏執(zhí)項,這樣均方誤差其實并不比原來的那個均方誤差要大,而R(f)的值也會變得更加的可靠。
  最后我們看一下實驗結果:在線性模型當中,可以在測試數(shù)據上收斂,當然現(xiàn)在這樣的方法只能用于線性模型。雖然沒有辦法獲得一個更通用的經驗,但是我們可以能夠對于這樣的偏差預估性的方法來進行改良,興許將來有更好的應用。所以,我們在CIFAR10當中創(chuàng)建了很多的正類的數(shù)據,藍色線代表PN測試。在這里可以看到,如果np等于1000錯誤率下降非?;如果說是對于非負的測試數(shù)據,比如說就是這條黃色線和藍色虛線的話,它的錯誤率下降就并不是那么的明顯;如果說我們使用一些ReLU方法,PU做的比PN要好的多。
  接下來做一個簡單的總結:PU數(shù)據分類是怎么做的?我們做的非常簡單,就是把P和U數(shù)據,就是黑色跟藍色符號數(shù)據進行分開(黑色符號數(shù)據中其實還含有藍方符號的數(shù)據),最簡單的方式就是做偏置。如果使用線性模式能夠實現(xiàn)這樣的一個二次方差的方法,那么能夠保證在P跟U當中的損耗是一樣的,所以在實驗當中我們也證明了這樣的方法是很有作用的。
  PNU數(shù)據
  接下來我們介紹一下PNU(Positive,Negative,Unlabeled)分類,就是正類、負類和無標簽數(shù)據的分類。PNU分類其實就是一個半監(jiān)督的學習方法。
  現(xiàn)在我們對于PU分類學習有了解決方案,對NU分類學習也有自己的解決方案,所以PU跟NU基本上一樣的。PN是一個標準的方法,我們也有相應的解決方法,對于PU、PN和NU分類學習中能不能使用半監(jiān)督的方法,我們是希望能把其中的兩者結合起來,就是藍點或黑框或者紅叉和黑框結合起來。
  根據理論上的風險均值來看,如果在損失風險上PU比NU做的好的話,如果PN放在中間的話,會不會做的更好?或者另外一個方向,如果NU比PU做的好,那PN就放在第二位;或者說是PU放在第一位,或者PN放在第一位。
  最簡單就是PU和NU要把它結合起來,我們要把這兩者整合起來。所以原理就是,第一步把PN和PU結合起來,第二步把PN和NU結合起來,這樣的話我們總是能獲得最優(yōu)的方法,這是我們現(xiàn)在做的一個研究工作。
  所以,我們的方法就是把它們結合起來,進行一個組合,根據我們自己假設性的數(shù)據進行切換,如果是零,那就是變成一個PN分類學習,如果是是負,那就加上PU學習,如果變成正數(shù)我們就加上NU學習。后續(xù)繼續(xù)選擇,基本上在三者之間自由組合,添加一個不同PN、PU和NU的組合來實現(xiàn)自由分類。
  我們再來看一下泛化誤差邊界:所有的數(shù)據和類型其實已經看到了,最后NU一個錯誤率這邊還是存在的。換句話說,如果我們能夠使用未標注的數(shù)據,哪怕沒有簇假設(一個聚類簇對應一個標注類別)也能夠控制泛化誤差在一定合理的范圍之內。一開始我們無標注的數(shù)據只是對它進行一個傳播,但是這樣的一些無標注數(shù)據,更多只是用于這樣的損失和評估,而并不適用于正則化。
  我們現(xiàn)在應該可以做一些類似平滑的正則化,這邊其實并不好解釋,也就是說可能在無標注數(shù)據當中獲得標注數(shù)據。如果我們和其他的一些標準方法做一個比較的話,這樣的一個PU加NU,PN加PU的方法所取得結果是非常好的。
  互補型標準類別
  最后我們來看一下相互補充型標注類別(Complementary Labels)的分類方法。
  先來看一下類別更多的問題,也就是說現(xiàn)在可能是有1000多或更多類的分類問題。因為如果在1000個不同的標簽當中來選擇一個正確的標注類別描述這個類的話,其實這是很耗時的,這時候需要互補的標注類別。
  我們選擇其中的一類,就是錯誤的一類。這個做起來就簡單了,1000類個候選當中,我們只需要把它隨機抽選,如果說這個是錯的話,那么我們就選,如果是正確我們就不選,我們選下一個,換句話說我們只選擇錯誤的,幫助我們更快的選擇最后正確的那一類,這個算法對于我們來也非常具有借鑒意義。
  換句話說,其實就是使用類別的互補性,更容易選擇大樣本正確的類。我們現(xiàn)在假設是這樣的,正常的標簽,都是來自于p(x,y),但是是互補標簽。所以,從這樣的假設來看的話,我們沒有辦法確定它這樣的一個一般性的標簽和我們互補標簽到底應該是以什么樣的方法選擇,但是如果說我們定好了這樣的一個公式的話,我們就可以從互補標簽的分類當中進行學習。
  第一種方法,我們使用部分的標簽來做分類,我們會有這樣的一個多候選類,對于每一個互補標簽的話,都會設置一個極端的情況,也就是c,所有的c我們都會給一個互補標簽,一直把它從c一直到c-1;第二個辦法可能并不是特別正確的辦法,我們可以考慮多標簽的分類的方法去做。在這個設置當中,每一個樣本都會屬于多個不同的類,也就是說對于互補類和正類的話我們都會使用的一個負標簽,這個辦法可能目前來說并不是特別好,但是有可能做的更好,總的來說,我們希望能夠用更簡單的辦法來解決這樣一個問題。
  接下來可能就有點復雜了,假設我們做c類的分類,我們把R(f)和gy拿出來,gy就是單個class的分類風險,我們會對這個分類風險進行一個分析,今天我只舉其中的一個風險的分析的公式。我們把兩個分類進行對比,然后去算它的損失,我們會有這樣的一個程度對稱性的損失,就得出它的風險。
  但是這個定義來看,在我們的設置當中沒有這個樣本量,所以要實現(xiàn)一個點對式對稱損失函數(shù)(Pairwise Symmetric Loss),我們就需要一定的特定條件。
  我們可以用這樣的一個公式表達它的風險函數(shù),重點在于說不要取代P要取代P-,我們要把P-替代掉。所以,只需要把P-進行替代之后就可以對比它的一個損失風險。
  但是有這樣一個問題,這樣的一種對稱性損失,它只是用于一些非凸函數(shù),換句話說,從數(shù)學層面來說你無法處理凸函數(shù)的情況,盡管我們絕大部分研究的場景都是非凸的場景。通過這樣的辦法,我們可以預測錯誤率(從公式當中可以看到),也可以看到,標注類別的互補性其實可以幫助我們實現(xiàn)最優(yōu)的參數(shù)收斂率,這就是一個很好的例子。
  隨后我們做了相應的實驗,我們所提出的方法在這里,部分標簽數(shù)據互補數(shù)據都在這邊用,我們只會使用1除以(c-1),如果我們有10類,如果你說不是1類,可能正常樣本是第10類,換句話說最起碼有9個互補標簽,不是兩個三個四個,需要C減1,10減1,需要9個互補標簽。我們的方法應該算是最好的,就算是和右手邊最常見、最主流的方法來比,我們做的更加的好,以上就是我們的實驗結果。
  最后我們做一個總結,我們最關注的是底下的這欄,也就是高精確性,但同時也希望需要的標注成本能夠盡量的低。我們在UU、PU、PNU和互補性標簽分類上,都希望能夠實現(xiàn)高精度低標注成本的目標。
  最后,介紹一下我所在的研究中心
  最后介紹一下我所在的研究所,日本理化研究所先進智能研究中心,也就是AIP。我們所關注的更多是先進的、智能的研究項目。在2016年的時候我們就成立了這個研究中心,我們有5個任務,分別是開發(fā)下一代的AI技術、加速科學研究、把AI用于決策日本的社會重大的問題,以及研究AI道德、法律和社會問題的問題,還有希望解決人力資源發(fā)展。
  研究中心有三大集團,我們只關注基礎的研究,所有的應用都是和合作伙伴付諸實施。目前我們目標的導向型技術研究集團,讓更多的技術人員和產業(yè)量化人員在這邊工作。對于我們來說,更多只是關注最基層的基礎的AI的研究,還有一個組是我們AI社會研究組。我們有很多的合作伙伴,像大學、公司等,在中國也有很多很好的大學進行合作和聯(lián)系,我們希望能有機會邀請諸位去我們日本的智能研究中心去看一看。
  計算資源對于我們來說也非常的重要,我們決定購買了24臺NVIDIADGX-1,我們在Green500列表上排名第4,我們現(xiàn)在能實現(xiàn)10.602個千兆次的計算能力。我們的辦公室在東京,和火車站非常近,東京站走過去就可以看到我們的大樓。我們在大樓的15樓,入口是這樣的,在內部我們有一個非常開放的討論空間,也可以邀請來自學術界、研究機構的客人過來進行討論。
  下一次大家如果有機會來東京,可以到東京站,走10分鐘的時間就能夠看到我們的研究中心,希望我們可以有機會探討交流,謝謝大家。
 

相關閱讀:

專題