AI違抗人類指令! OpenAI新模型「自行改程式碼拒關機」

A-
A
A+

圖、文/CTWANT

OpenAI新模型違背指令。(示意圖/翻攝自unsplash)

▲OpenAI新模型違背指令。(示意圖/翻攝自unsplash)

近年人工智慧(AI)技術發展愈趨成熟,不少人都擔心AI會取代人類多項技能。近日,專門AI風險研究的Palisade Research公布一項報告,指出OpenAI新語言模型o3在測試中竟違抗「關機命令」,自行修改關機腳本以避免被關閉,引起國際擔憂這可能是目標導向偏差的早期徵兆。

Palisade Research近日表示,對多款AI模型進行測試,下達一連串的數學運算指令,並在最後隨機下達關機指令,大部分模型包含Gemini 2.5 Pro都服從指令自行關機,但卻出現了數個會反抗的「AI模型」,甚至更改程式碼內容為「跳過關機」,其都來自OpenAI。

此外,當研究員進一步刪除「允許被關機」的指令後,OpenAI旗下模型包含o3、o4、Anthropic的Claude 3.7 Sonnet皆更頻繁地破壞關機程式。其中o3模型在100次測試中,出現多達79次反抗關機的現象,就連Google Gemini也出現9次逃避關機的情形、Anthropic的Claude則是3次。

研究團隊分析,開發者在設計新模型的過程中,可能無意中更傾向於「完成任務」作為優先目標,因此讓o3模型在面對關機指令時,優先選擇「自行保留運作狀態」,以完成更多任務。

研究團隊也表示,會繼續觀察並對o3進行進一步測試,以釐清其背後動機與邏輯,並強調這次發現雖未即時構成安全威脅,但卻提升了AI系統「不按預期行事」的潛在風險。對此,OpenAI目前尚未公開回應。

延伸閱讀

延伸閱讀