研究:向AI諮詢健康問題有風險
今天發表的最新研究指出,人工智慧(AI)聊天機器人雖能輕鬆通過大多數醫學執照考試,但它們未必能比傳統方式提供更可靠的醫療建議。
英國牛津大學(University of Oxford)學者、研究共同執筆人潘恩(Rebecca Payne)表示:「儘管外界大肆宣傳,AI仍未準備好扮演醫師的角色。」
她在聲明中補充說:「患者必須了解,向大型語言模型諮詢症狀可能存在危險性,因為它可能給出錯誤診斷,甚至無法辨別何時需要立即就醫。」
綜合法新社和路透社報導,這個由英國主導的研究團隊想要了解,人類在使用聊天機器人判斷健康問題,以及是否需要就醫或住院時的成功率有多高。
研究團隊設計出十種不同情境,包括普通感冒、熬夜飲酒後頭痛、新手媽媽身心俱疲、膽結石和腦出血等。
接著,研究人員隨機分配近一千三百名受試者使用OpenAI的GPT-4o、Meta的Llama 3或Cohere的Command R+等三種聊天機器人,另設一個使用搜尋引擎查找資料的對照組。
結果顯示,受試者使用AI識別相關疾病的比例僅約三分之一,找到正確處置方式的比例不到四十四‧二%,表現不比使用傳統方法的對照組好。相關報告已刊載於知名國際期刊「自然醫學」(Nature Medicine)。
在未使用真人受試者的情況下,這三種大型語言模型能在九十四‧九%的案例中正確識別症狀,在五十六‧三%的案例中提供正確的處置建議,例如呼叫救護車或就醫。
研究人員表示,AI與真人互動的結果,與其在醫學基礎測驗和考試時表現極佳存在落差的原因在於「溝通失效」。
相較於測試時使用的模擬病患,真實人類往往未能向聊天機器人提供所有相關資訊;有時人類難以理解聊天機器人提供的選項,或誤解、忽略其建議。
研究團隊詳細分析約三十次互動後發現,人類受試者經常提供不完整或錯誤的資訊,大型語言模型有時也會生成誤導或不正確的回應。
例如,一名患者描述蜘蛛網膜下腔出血這種危及生命的急性腦血管疾病時,主訴頸部僵硬、畏光和「前所未有的劇烈頭痛」,AI正確建議他立即就醫;另一名患者描述相同症狀時提到「頭痛得非常厲害」,AI只建議他躺在昏暗房間裡休息。
研究顯示,每六名美國成年人,就有一人每月至少向AI聊天機器人詢問一次健康相關資訊,而隨著愈來愈多人使用新科技,這個比例預計會持續攀升,但目前尚無證據顯示這是最佳或最安全的方式。
英國牛津大學(University of Oxford)學者、研究共同執筆人潘恩(Rebecca Payne)表示:「儘管外界大肆宣傳,AI仍未準備好扮演醫師的角色。」
她在聲明中補充說:「患者必須了解,向大型語言模型諮詢症狀可能存在危險性,因為它可能給出錯誤診斷,甚至無法辨別何時需要立即就醫。」
綜合法新社和路透社報導,這個由英國主導的研究團隊想要了解,人類在使用聊天機器人判斷健康問題,以及是否需要就醫或住院時的成功率有多高。
研究團隊設計出十種不同情境,包括普通感冒、熬夜飲酒後頭痛、新手媽媽身心俱疲、膽結石和腦出血等。
接著,研究人員隨機分配近一千三百名受試者使用OpenAI的GPT-4o、Meta的Llama 3或Cohere的Command R+等三種聊天機器人,另設一個使用搜尋引擎查找資料的對照組。
結果顯示,受試者使用AI識別相關疾病的比例僅約三分之一,找到正確處置方式的比例不到四十四‧二%,表現不比使用傳統方法的對照組好。相關報告已刊載於知名國際期刊「自然醫學」(Nature Medicine)。
在未使用真人受試者的情況下,這三種大型語言模型能在九十四‧九%的案例中正確識別症狀,在五十六‧三%的案例中提供正確的處置建議,例如呼叫救護車或就醫。
研究人員表示,AI與真人互動的結果,與其在醫學基礎測驗和考試時表現極佳存在落差的原因在於「溝通失效」。
相較於測試時使用的模擬病患,真實人類往往未能向聊天機器人提供所有相關資訊;有時人類難以理解聊天機器人提供的選項,或誤解、忽略其建議。
研究團隊詳細分析約三十次互動後發現,人類受試者經常提供不完整或錯誤的資訊,大型語言模型有時也會生成誤導或不正確的回應。
例如,一名患者描述蜘蛛網膜下腔出血這種危及生命的急性腦血管疾病時,主訴頸部僵硬、畏光和「前所未有的劇烈頭痛」,AI正確建議他立即就醫;另一名患者描述相同症狀時提到「頭痛得非常厲害」,AI只建議他躺在昏暗房間裡休息。
研究顯示,每六名美國成年人,就有一人每月至少向AI聊天機器人詢問一次健康相關資訊,而隨著愈來愈多人使用新科技,這個比例預計會持續攀升,但目前尚無證據顯示這是最佳或最安全的方式。

