醫院轉錄語音的OpenAI模型有逾1%出現AI幻覺

愈來愈多醫院使用AI來轉錄（transcribe）門診紀錄，但一項研究發現，有超過1%經過OpenAI的Whisper模型錄寫的文字，包含AI幻覺（hallucination），可能對診斷或治療造成影響。

由紐約大學、康乃爾大學及華盛頓大學學者組成的研究團隊為了解廣受醫院採用的OpenAI語音轉錄模型Whisper是否存在常被討論的AI幻覺，他們以TalkBank語言障礙（特別是失語症）的錄音資料集作為分析對象。這些資料來自美國不同大學醫院，涵括英文、中文、西語、希臘文等12種語言。

研究人員比較Whisper轉錄的語音檔文字紀錄，和人類錄寫的訪談紀錄，以了解轉錄的正確性。研究團隊分別在2023年4、5月，以及同年11月各做一次研究。

研究團隊發現，在2023年春天，他們187段錄音中有312則錄寫紀錄發生幻覺，佔了總體資料集的1.4%。幻覺類型包括加入暴力、死亡、性別或年齡刻板印象等情節（19%）、13%包括不正確的人事物關聯（捏造的地點、人名、關係、或健康狀態），8%是引述錯誤來源（引述主播、YouTuber或網站連結等）。例如一名受訪者只說男孩可能拿著雨傘，但Whisper轉錄時加入了他可能拿了一把刀，或是憑空加入某人「十分野蠻」、自行加入某人「有殘障」的描述、或是捏造名字、自己附加網址等等。研究人員指出，近40%的幻覺內容是有害或值得擔憂的，像是強化歧視，或是暴力內容可能刺激受虐被害者。

研究人員發現，若說話者有較長時間的非語言停頓，像是失語症患者或是非裔美國人，Whisper轉錄出現幻覺的機會將提高。他們認為，這是發展轉錄語言模型的業者研發時需留意的偏差問題。

研究團隊在同年12月又讓Whisper對同樣的語音資料集做了轉錄，錯誤減少到12則。此外，他們又在11月做了另一次研究，隨機抽取250段錄音檔讓Whisper錄寫，這次只有1則有幻覺，Whisper虛構了名字。研究團隊認為，研究結果進步可能是因為OpenAI方面提供了升級，但是他們認為這還是有改善空間，因為牽涉醫療，再小的失誤都可能對診斷造成不良影響。

OpenAI方面回應，將持續改善模型幻覺問題。但該公司也強調政策禁止在某些重大決策情境下使用Whisper，其開源使用模型規畫也包含不建議用於高風險領域。

熱門新聞