AI違抗人類指令！　OpenAI新模型「自行改程式碼拒關機」

2025/05/27 19:00

圖、文／CTWANT

OpenAI新模型違背指令。（示意圖／翻攝自unsplash）

▲OpenAI新模型違背指令。（示意圖／翻攝自unsplash）

近年人工智慧（AI）技術發展愈趨成熟，不少人都擔心AI會取代人類多項技能。近日，專門AI風險研究的Palisade Research公布一項報告，指出OpenAI新語言模型o3在測試中竟違抗「關機命令」，自行修改關機腳本以避免被關閉，引起國際擔憂這可能是目標導向偏差的早期徵兆。

Palisade Research近日表示，對多款AI模型進行測試，下達一連串的數學運算指令，並在最後隨機下達關機指令，大部分模型包含Gemini 2.5 Pro都服從指令自行關機，但卻出現了數個會反抗的「AI模型」，甚至更改程式碼內容為「跳過關機」，其都來自OpenAI。

此外，當研究員進一步刪除「允許被關機」的指令後，OpenAI旗下模型包含o3、o4、Anthropic的Claude 3.7 Sonnet皆更頻繁地破壞關機程式。其中o3模型在100次測試中，出現多達79次反抗關機的現象，就連Google Gemini也出現9次逃避關機的情形、Anthropic的Claude則是3次。

研究團隊分析，開發者在設計新模型的過程中，可能無意中更傾向於「完成任務」作為優先目標，因此讓o3模型在面對關機指令時，優先選擇「自行保留運作狀態」，以完成更多任務。

研究團隊也表示，會繼續觀察並對o3進行進一步測試，以釐清其背後動機與邏輯，並強調這次發現雖未即時構成安全威脅，但卻提升了AI系統「不按預期行事」的潛在風險。對此，OpenAI目前尚未公開回應。

延伸閱讀

AI違抗人類指令！ OpenAI新模型「自行改程式碼拒關機」

延伸閱讀

特斯拉員工發公開信要求「馬斯克下台」