如何讓程序更懂新冠病毒,從而幫助病人進(jìn)行有意義的醫(yī)療對話?
加州大學(xué)圣地亞哥分校、卡內(nèi)基梅隆大學(xué)和加州大學(xué)戴維斯分校研究人員提出了利用人工智能聊天機(jī)器人來解決這個問題。目前他們的研究已經(jīng)發(fā)表在預(yù)印本網(wǎng)站上。根據(jù)他們的研究,該聊天機(jī)器人可以對患者就有關(guān)新冠病毒的問題做出回應(yīng)。
“在這項工作中,我們首次嘗試開發(fā)可以提供有關(guān)新冠病毒的醫(yī)學(xué)咨詢對話系統(tǒng)。實驗結(jié)果表明,這些經(jīng)過訓(xùn)練的模型有望就新冠病毒產(chǎn)生具有臨床意義的高質(zhì)量咨詢。”研究人員在論文中稱。
據(jù)悉,整個團(tuán)隊用英語和中文數(shù)據(jù)集訓(xùn)練了支持這些聊天機(jī)器人的算法模型。數(shù)據(jù)集內(nèi)容包含醫(yī)生與患者之間談?wù)撔鹿诓《镜膶υ,研究人員稱實驗證明這個模型對進(jìn)行有益的醫(yī)學(xué)對話很有希望。
具體來說,研究人員在CovidDialog數(shù)據(jù)集訓(xùn)練了集中對話模型,模型則來自在線醫(yī)療論壇。整個數(shù)據(jù)集包括603次英文數(shù)據(jù),1088次中文數(shù)據(jù)。每次對話均以簡短描述患者的醫(yī)療狀況開始,然后是患者與醫(yī)生之間的對話,并且視情況提供醫(yī)生給出的診斷和治療建議。
論文合作者稱,他們基于谷歌的Transformer架構(gòu)、OpenAI的GPT、BERT-GPT三方面來訓(xùn)練模型。由于在相對較小的數(shù)據(jù)集上直接訓(xùn)練模型會導(dǎo)致結(jié)果的泛化性,所以該團(tuán)隊利用了轉(zhuǎn)移學(xué)習(xí)技術(shù)。即先在大型語料庫上對模型進(jìn)行預(yù)訓(xùn)練,然后再在CovidDialog數(shù)據(jù)集上進(jìn)行微調(diào)。預(yù)訓(xùn)練的語料庫則主要來自Reddit用戶、維基百科、中文聊天機(jī)器人、新聞、書籍、故事和其他網(wǎng)絡(luò)文本。
經(jīng)過訓(xùn)練后,對三種方法下訓(xùn)練模型進(jìn)行測試,來評估機(jī)器的表現(xiàn)。評估標(biāo)準(zhǔn)包括混亂程度,用來判斷機(jī)器人響應(yīng)的質(zhì)量和是否流暢;熵和距離,用來衡量詞匯的多樣性。最后結(jié)果顯示,利用BERT-GPT框架來懸鏈的模型,能對患者的問題進(jìn)行回答,提供的答案更具相關(guān)性、信息量和人性化,并且語法和語義表達(dá)正確。
目前,研究人員已經(jīng)將數(shù)據(jù)集和代碼在網(wǎng)上進(jìn)行開源。