什么時候應(yīng)該相信人工智能助手的預測?
研究人員創(chuàng)造了一種方法來幫助工人與人工智能系統(tǒng)協(xié)作。
在一家繁忙的醫(yī)院里,一位放射科醫(yī)生正在使用人工智能系統(tǒng)根據(jù)患者的 X 射線圖像來幫助她診斷醫(yī)療狀況。使用人工智能系統(tǒng)可以幫助她更快地做出診斷,但她怎么知道什么時候可以相信人工智能的預測呢?
她沒有。相反,她可能會依靠她的專業(yè)知識、系統(tǒng)本身提供的置信度或算法如何做出預測的解釋——這可能看起來很有說服力,但仍然是錯誤的——來做出估計。
為了幫助人們更好地理解何時信任人工智能“隊友”,麻省理工學院的研究人員創(chuàng)建了一種引導技術(shù),引導人類更準確地理解機器做出正確預測和做出錯誤預測的情況。
通過向人們展示人工智能如何補充他們的能力,訓練技術(shù)可以幫助人類在與人工智能代理合作時做出更好的決策或更快地得出結(jié)論。
“我們提出了一個教學階段,我們逐漸將人類引入這種人工智能模型,這樣他們就可以自己看到它的弱點和優(yōu)勢,”數(shù)據(jù)研究所社會與工程系統(tǒng)博士項目的研究生 Hussein Mozannar 說、系統(tǒng)和社會 (IDSS),他還是計算機科學和人工智能實驗室 (CSAIL) 臨床機器學習小組和醫(yī)學工程與科學研究所的研究員。“我們通過模仿人類在實踐中與人工智能交互的方式來做到這一點,但我們會進行干預以向他們提供反饋,以幫助他們理解他們與人工智能進行的每一次交互?!?/span>
Mozannar 與領(lǐng)導 CSAIL 可視化小組的計算機科學助理教授 Arvind Satyanarayan 一起撰寫了這篇論文;麻省理工學院電氣工程和計算機科學副教授、臨床機器學習小組負責人、作者大衛(wèi)·桑塔格。該研究將于 2 月在人工智能促進協(xié)會上發(fā)表。
心智模型
這項工作的重點是人類建立的關(guān)于他人的心智模型。如果放射科醫(yī)生對某個病例不確定,她可能會詢問某個領(lǐng)域的專家同事。根據(jù)過去的經(jīng)驗和她對這位同事的了解,她有一個關(guān)于他的優(yōu)點和缺點的心智模型,她用它來評估他的建議。
Mozannar 說,人類在與 AI 代理交互時會構(gòu)建相同類型的心智模型,因此這些模型的準確性非常重要。認知科學表明,人類通過記住過去的互動和經(jīng)歷來為復雜的任務(wù)做出決定。因此,研究人員設(shè)計了一個入職流程,提供了人類和人工智能協(xié)同工作的代表性示例,作為人類未來可以借鑒的參考點。他們首先創(chuàng)建了一種算法,該算法可以識別能向人類傳授人工智能知識的示例。
Mozannar 說:“我們首先了解人類專家的偏見和優(yōu)勢,利用對他們過去不受人工智能指導的決定的觀察?!薄拔覀儗⑽覀儗θ祟惖牧私馀c我們對人工智能的了解結(jié)合起來,看看它將在哪些方面對人類有所幫助依靠人工智能。然后我們獲得了我們知道人類應(yīng)該依賴人工智能的案例以及人類不應(yīng)該依賴人工智能的類似案例?!?/span>
研究人員在基于段落的問答任務(wù)中測試了他們的引導技術(shù):用戶收到一篇書面文章和一個答案包含在文章中的問題。然后用戶必須回答問題,并可以單擊一個按鈕來“讓 AI 回答”。然而,用戶無法提前看到 AI 的答案,這要求他們依賴他們對 AI 的心智模型。他們開發(fā)的入職流程首先向用戶展示這些示例,用戶試圖在 AI 系統(tǒng)的幫助下做出預測。人類可能是對的或錯的,人工智能可能是對的或錯的,但無論哪種情況,在解決了示例之后,用戶都會看到正確的答案以及對 AI 選擇其預測的原因的解釋。為了幫助用戶從示例中進行概括,
例如,也許訓練問題會根據(jù)植物教科書中的一段錯綜復雜的段落,詢問兩種植物中的哪一種原產(chǎn)于更多的大陸。人類可以自己回答,也可以讓人工智能系統(tǒng)回答。然后,她看到了兩個后續(xù)示例,可以幫助她更好地了解 AI 的能力。也許人工智能在一個關(guān)于水果的后續(xù)問題上是錯誤的,但在一個關(guān)于地質(zhì)學的問題上是正確的。在每個示例中,系統(tǒng)用于進行預測的單詞都被突出顯示。Mozannar 解釋說,看到突出顯示的單詞有助于人類理解 AI 代理的局限性。
為了幫助用戶記住他們學到的東西,用戶然后寫下她從這個教學示例中推斷出的規(guī)則,例如“這個人工智能不擅長預測花朵”。然后,她可以在以后與代理實際合作時參考這些規(guī)則。這些規(guī)則也構(gòu)成了用戶對人工智能的心理模型的形式化。
教學的影響
研究人員用三組參與者測試了這種教學技術(shù)。一組經(jīng)歷了整個引導技術(shù),另一組沒有收到后續(xù)的比較示例,基線組沒有接受任何教學但可以提前看到 AI 的答案。
“接受教學的參與者與沒有接受教學但可以看到人工智能答案的參與者一樣好。因此,結(jié)論是他們能夠模擬人工智能的答案,就像他們看到了一樣,”Mozannar 說。
研究人員對數(shù)據(jù)進行了更深入的挖掘,以查看個體參與者編寫的規(guī)則。他們發(fā)現(xiàn),近 50% 的接受過培訓的人寫下了關(guān)于 AI 能力的準確課程。那些有準確教訓的人在 63% 的例子上是對的,而那些沒有準確教訓的人在 54% 的例子上是對的。而那些沒有接受過教學但可以看到人工智能答案的人在 57% 的問題上是正確的。
“當教學成功時,它會產(chǎn)生重大影響。這就是這里的要點。當我們能夠有效地教參與者時,他們能夠比你實際給他們答案做得更好,”他說。
但結(jié)果也表明仍有差距。只有 50% 的受過訓練的人建立了準確的人工智能心智模型,即使是那些做過的人也只有 63% 的時間是正確的。Mozannar 說,盡管他們學到了準確的教訓,但他們并不總是遵循自己的規(guī)則。
這是一個讓研究人員摸不著頭腦的問題——即使人們知道人工智能應(yīng)該是對的,為什么他們不聽自己的心智模型呢?他們希望在未來探索這個問題,并改進入職流程以減少所需時間。他們還對使用更復雜的 AI 模型進行用戶研究感興趣,尤其是在醫(yī)療保健環(huán)境中。
“當人類與其他人合作時,我們在很大程度上依賴于了解我們的合作者的優(yōu)勢和劣勢——這有助于我們知道何時(以及何時不)依靠他人尋求幫助。我很高興看到這項研究將這一原則應(yīng)用于人類和人工智能,”谷歌人 + 人工智能研究和負責任人工智能小組的研究科學家 Carrie Cai 說,她沒有參與這項研究。“讓用戶了解人工智能的優(yōu)勢和劣勢對于產(chǎn)生積極的人機聯(lián)合成果至關(guān)重要?!?nbsp;
這項研究部分得到了美國科學基金會的支持。