雖然從2014年開(kāi)始,就已經(jīng)出現(xiàn)MLOps的實(shí)踐案例,但這套AI協(xié)作的概念兩年前被重新定義,形成一股AI開(kāi)發(fā)新趨勢(shì)吹進(jìn)全球。
MLOps興起主要有三大原因。第一,是企業(yè)用過(guò)去的開(kāi)發(fā)方法來(lái)擴(kuò)大AI應(yīng)用規(guī)模時(shí),開(kāi)始面臨瓶頸,Line臺(tái)灣資料工程部資深經(jīng)理蔡景祥以自身經(jīng)驗(yàn)為例表示,過(guò)去只有自己一人開(kāi)發(fā)AI時(shí),能清楚了解每個(gè)程式開(kāi)發(fā)步驟的意涵,但這種開(kāi)發(fā)流程過(guò)於客制化,一旦有第二個(gè)角色要共同協(xié)作,就得相互溝通來(lái)理解每個(gè)開(kāi)發(fā)步驟,徒增許多溝通成本。
勤業(yè)眾信去年發(fā)布的技術(shù)趨勢(shì)報(bào)告也提到,企業(yè)剛開(kāi)始開(kāi)發(fā)AI時(shí),容易采取英雄主義作法,靠少數(shù)資料科學(xué)家包辦從頭到尾的開(kāi)發(fā)流程,但這些流程高度手動(dòng)、難被復(fù)制或擴(kuò)張,會(huì)增加協(xié)作過(guò)程中的溝通成本,難以提升開(kāi)發(fā)速度。藉由MLOps的實(shí)踐,才能讓過(guò)去自成一格的特制化開(kāi)發(fā)(Exceptionalism),走向快速擴(kuò)張且更有效率的專業(yè)化開(kāi)發(fā)(Professionalism)。
第二,則是AI開(kāi)發(fā)面臨部署上線的挑戰(zhàn),讓更多企業(yè)開(kāi)始采用MLOps。根據(jù)國(guó)外企管顧問(wèn)公司Vantage Partners去年調(diào)查,在美國(guó),盡管有91.5%的企業(yè)都表示正在持續(xù)投資AI,卻只有14.6%的企業(yè)已經(jīng)將AI部署到生產(chǎn)環(huán)境,換句話說(shuō),實(shí)作了AI卻難以部署上線,就是企業(yè)應(yīng)用AI的一大痛點(diǎn)。
IDC在2020年發(fā)布的全球AI采用度調(diào)查也發(fā)現(xiàn),根據(jù)受調(diào)查的2,000多位IT或相關(guān)主管回覆,仍有約有28%的專案因缺乏專家、生產(chǎn)數(shù)據(jù)與整合的開(kāi)發(fā)環(huán)境,最終以失敗收尾。IDC因此鼓吹,企業(yè)必須擁抱MLOps,才能更大規(guī)模的實(shí)現(xiàn)AI。
勤業(yè)眾信風(fēng)險(xiǎn)管理諮詢副總經(jīng)理廖子毅更以身為資料科學(xué)家的開(kāi)發(fā)經(jīng)驗(yàn)點(diǎn)出模型部署的難處。他解釋,雖然在AI開(kāi)發(fā)的實(shí)驗(yàn)階段,資料科學(xué)家可以在數(shù)周內(nèi)快速訓(xùn)練出良好準(zhǔn)確率的模型,但是,一旦要落地生產(chǎn)環(huán)境,就需要根據(jù)現(xiàn)實(shí)資料進(jìn)一步調(diào)校模型,還要將模型打包成預(yù)測(cè)服務(wù),手動(dòng)開(kāi)發(fā)的過(guò)程可能要花費(fèi)數(shù)月甚至一年以上。因此,企業(yè)得建立起持續(xù)交付、持續(xù)部署的作業(yè)流程,才能加速落地AI。
第三個(gè)促使MLOps在一年內(nèi)快速成長(zhǎng)的原因,則是受到疫情帶動(dòng)大環(huán)境快速改變,導(dǎo)致許多部署上線的模型在一夕間不敷使用,凸顯了AI維運(yùn)的挑戰(zhàn)。勤業(yè)眾信內(nèi)部觀察,疫情期間的「新常態(tài)」,導(dǎo)致許多供應(yīng)鏈需求預(yù)測(cè)模型,已經(jīng)無(wú)法再仰賴過(guò)去的數(shù)據(jù)和假設(shè),需要滾動(dòng)蒐集企業(yè)與用戶資料,必要時(shí)更需重新訓(xùn)練模型,才能維持預(yù)測(cè)服務(wù)的準(zhǔn)確率。
業(yè)界也開(kāi)始感受到MLOps市場(chǎng)升溫,一家MLOps軟體商DataRobot臺(tái)灣總經(jīng)理蔡宜真透露,近一年來(lái),企業(yè)對(duì)MLOps的詢問(wèn)度提升,除了疫情驅(qū)動(dòng)企業(yè)加速采用AI,連帶的提升對(duì)MLOps的關(guān)注,更因消費(fèi)者行為的大幅改變,導(dǎo)致模型表現(xiàn)快速偏移,來(lái)詢問(wèn)的企業(yè)正因這個(gè)契機(jī)重新檢視模型維運(yùn)的流程,開(kāi)始意識(shí)到MLOps的重要性。
更多AI廠商加入戰(zhàn)局,要瓜分2025年40億美元市場(chǎng)大餅
勤業(yè)眾信制作了一張全球MLOps版圖,整理了三大類別的MLOps廠商名單,包括全球六大AI與MLOps服務(wù)供應(yīng)商、從ML平臺(tái)跨足MLOps解決方案的供應(yīng)商、以及僅提供MLOps解決方案的業(yè)者。(圖片來(lái)源/勤業(yè)眾信)
MLOps概念興起後,市場(chǎng)上越來(lái)越多AI服務(wù)供應(yīng)商投入這個(gè)市場(chǎng),帶動(dòng)了MLOps的聲量。比如公有云大廠如微軟、Google以及AWS,本來(lái)就提供完整的AI開(kāi)發(fā)服務(wù),微軟更在2019年的Build大會(huì)上,率先宣布了Azure ML服務(wù)中的MLOps功能,Google以及AWS隨後跟進(jìn),就是讓開(kāi)發(fā)者能透過(guò)平臺(tái)工具快速建立ML工作流,更著力於AI全生命周期的管理與監(jiān)控,來(lái)加速AI產(chǎn)品化。
勤業(yè)眾信內(nèi)部制作了一張全球MLOps版圖,除了名列三家公有云業(yè)者,更將IBM、SAS與HPE,劃入AI與MLOps大型服務(wù)供應(yīng)商的行列。
MLOps版圖更顯示,在公有云推出服務(wù)之前,市面上也已經(jīng)有些ML平臺(tái)服務(wù)供應(yīng)商,提供企業(yè)從開(kāi)發(fā)到維運(yùn)端的平臺(tái)服務(wù),讓企業(yè)能快速導(dǎo)入來(lái)開(kāi)發(fā)AI應(yīng)用,比如Databricks、DataRobot、Dataiku、Iguazio、C3.ai、H2O.ai等廠商;後來(lái)MLOps興起,這些廠商更進(jìn)一步聚焦ML部署與維運(yùn)端的工具,奠基在原本的ML平臺(tái)的基礎(chǔ)上提供MLOps服務(wù)。除此之外,市場(chǎng)上也出現(xiàn)了單純提供MLOps解決方案的新創(chuàng)企業(yè),比如Dotscience、Algorithmia、Datmo等。
勤業(yè)眾信風(fēng)險(xiǎn)管理諮詢副總經(jīng)理許梅君提供一份內(nèi)部估計(jì),MLOps市場(chǎng)預(yù)計(jì)在2025年達(dá)到40億美元,復(fù)合年增長(zhǎng)率為50%,將成企業(yè)擴(kuò)大應(yīng)用AI的又一大關(guān)鍵市場(chǎng)。
除了導(dǎo)入相關(guān)工具與平臺(tái),許梅君也提醒,企業(yè)需建立一套管理機(jī)制,讓AI在合規(guī)的前提下快速落地,比如資料治理的規(guī)范、資料及專案的權(quán)限管理、資安與AI風(fēng)險(xiǎn)的管理,也需透過(guò)相關(guān)規(guī)則的建立,避免AI做出違背常理的判斷或有偏見(jiàn)的決策,且當(dāng)AI用於個(gè)人化決策的場(chǎng)景,更要建立可解釋性AI機(jī)制,以及人機(jī)協(xié)作進(jìn)行決策的原則或方法。
「導(dǎo)入工具或平臺(tái)來(lái)解決局部的問(wèn)題,能夠快速看見(jiàn)AI開(kāi)發(fā)的成效,但光是這樣不能解決企業(yè)面臨的所有問(wèn)題,還要建立起管理機(jī)制,帶動(dòng)組織或文化的改變。 」許梅君說(shuō)。
不只講究ML模型自動(dòng)化,AI維運(yùn)也是MLOps關(guān)鍵
「過(guò)去,資料科學(xué)家部署完模型後,就認(rèn)為工作已經(jīng)告一段落,沒(méi)有模型維運(yùn)的概念,」DataRobot資料科學(xué)家藍(lán)秀仁解釋,以前只講Model Management,聚焦開(kāi)發(fā)流程中的版本管理。直到近幾年,模型上線後表現(xiàn)產(chǎn)生偏移而失效,才讓更多人認(rèn)真的看待模型維運(yùn)的重要性,在MLOps中,更重視透過(guò)監(jiān)控并迭代更新模型,來(lái)維持預(yù)測(cè)服務(wù)的準(zhǔn)確率。
MLOps泛指從AI開(kāi)發(fā)到維運(yùn)各階段的協(xié)作,若聚焦在ML部署與維運(yùn)階段,涵蓋了從模型快速部署、上線、監(jiān)控到重新訓(xùn)練等機(jī)制。
這個(gè)階段不只要讓不同程式語(yǔ)言、架構(gòu)開(kāi)發(fā)的ML模型,能夠快速部署到生產(chǎn)環(huán)境,整合到系統(tǒng)或App來(lái)提供預(yù)測(cè)服務(wù)。預(yù)測(cè)服務(wù)上線後,也需透過(guò)監(jiān)控機(jī)制來(lái)檢視模型表現(xiàn),來(lái)了解部署在本地端、云端的每個(gè)ML模型,每日新進(jìn)的輸入資料是否漂移、模型的準(zhǔn)確率是否下降、預(yù)測(cè)服務(wù)是否健康,更要能長(zhǎng)期監(jiān)控模型表現(xiàn)的變化趨勢(shì),來(lái)更全面的評(píng)估是否有重新訓(xùn)練、迭代更新的需求。
藍(lán)秀仁也建議,企業(yè)應(yīng)在維運(yùn)監(jiān)控階段,納入一般常識(shí)檢查的判斷機(jī)制,像是,讓上線後的ML模型預(yù)測(cè)結(jié)果,不會(huì)違背常理或超出現(xiàn)實(shí),比如若AI預(yù)測(cè)出年齡超過(guò)120歲、日薪超過(guò)千萬(wàn),或是自駕車(chē)辨識(shí)道路的信心值不夠高,就會(huì)透過(guò)一套機(jī)制來(lái)阻止決策執(zhí)行。
另外,為了避免模型做出偏誤決策而不自知,企業(yè)也應(yīng)設(shè)計(jì)偏誤資料的監(jiān)測(cè)機(jī)制,在模型輸出不公正預(yù)測(cè)結(jié)果時(shí),找出隱含偏見(jiàn)的訓(xùn)練資料,再交由開(kāi)發(fā)人員將偏誤資料去除,重新進(jìn)行模型開(kāi)發(fā)、部署更新的流程。
如何選擇MLOps工具?
勤業(yè)眾信提供了一家AI解決方案供應(yīng)商Ambiata所制作的MLOps工具比較表,可做為企業(yè)評(píng)選MLOps商用與開(kāi)源工具之用。這個(gè)比較表將MLOps工具分為四個(gè)類別,分別是資料與Pipeline版本控管、模型實(shí)驗(yàn)版本控管、超參數(shù)調(diào)校、模型部署與監(jiān)控。勤業(yè)眾信提醒,企業(yè)得先清楚了解哪一個(gè)環(huán)節(jié)有需求,例如待解決的開(kāi)發(fā)痛點(diǎn),再來(lái)導(dǎo)入相應(yīng)功能的工具。
由於功能相近的MLOps軟體很多,企業(yè)也可以進(jìn)一步根據(jù)自身常用的程式言語(yǔ)與函式庫(kù),比如企業(yè)開(kāi)發(fā)AI時(shí),使用Python與R來(lái)開(kāi)發(fā),常用如Tensorflow、PyTorch、Keras、Scikit-learn等函式庫(kù),來(lái)選擇可支援開(kāi)發(fā)的MLOps工具導(dǎo)入。
在挑選工具時(shí),也能參考GitHub上的評(píng)分星級(jí)、貢獻(xiàn)者或員工數(shù)量,列為挑選工具的一大考量,前者可作為該工具受歡迎程度的參考,後者則可以作為該工具能否長(zhǎng)期支持AI開(kāi)發(fā)的指標(biāo)。