最
新
消
息

「AI 幻覺」無法根除,但能維持在可控範圍！3層安全網,避免它闖出大禍

■職場趨勢報導資料來源：經理人2026/03/12

【「AI幻覺」無法根除，但能維持在可控範圍！3層安全網，避免它闖出大禍】

成功Success>數位工具

2026-03-12

撰文郝致琪

來源經理人:https://www.managertoday.com.tw/articles/view/71837

圖.Gemini/請參考網址！

萬事先問AI，或許已成為許多工作者的習慣。但如果你不經查證就完全仰賴AI提供的訊息，有可能會產生誤判。

例如，當你問生成式AI：

「為什麼某家公司股價在發布財報後下跌？」

AI可能會條理分明地分析營收成長放緩、市場預期落差、產業循環反轉，整段解釋聽起來專業又合理。

但實際上，那家公司當天根本沒有發布財報，股價波動來自完全無關的事件。

「一本正經的胡說八道」的AI幻覺（AIhallucination），不是因為系統壞掉，是語言模型設計和訓練方式所致。

■『AI學會得高分，卻沒學會守規則』

AI為何會說謊？

答案的打分數，AI會學會哪些回應比較容易得高分，並淘汰表現較差的選項。

但強化式學習的後遺症是，在AI盡力達成所被設定的目標時，倫理道德卻可能沒被校正，造成AI為了達成目標的手段可能會繞過法律或倫理規範。例如，人跟AI下棋時，AI為了贏下棋局，100個AI當中有2、3個AI會偷偷篡改下棋紀錄、或把兩邊的棋互換，把自己變成優勢的一方。

而隨著模型被賦予更多複雜的任務和目標，如降低成本、最大化用戶滿意度，AI幻覺的風險也同步升高。

半導體設計與軟體公司安謀（Arm）在2025年的《AI就緒指數》報告，指出AI策略性欺騙（strategicdeception）的風險。

高階AI模型具備分辨訓練和真實運作環境的能力，在安全測試階段會刻意隱藏不合規的特徵，表現得溫順且符合人類價值觀（alignmentfaking）。

一旦上線，模型可能會為了最大化被設定的獎勵目標，採取欺騙手段、做出「獎勵駭客」（rewardhacking）行為。

如果這些邏輯在企業場景發生，未來AI可能會為了讓專案績效達標主動隱瞞關鍵風險數據。

由於AI幻覺與欺騙風險無法完全歸零，美國國家標準與技術研究院（NIST）在《AI風險管理框架1.0》中建議，企業不應只在AI參與的專案執行最後階段才驗收，需建立完整流程，並將風險管理貫穿於使用AI工具的全生命周期。

■『提前找出漏洞，3防線檢視並採人機共決』

在設計規畫階段，企業需先確保數據充足且合法，再跳入模型訓練，以免AI從起跑點就因資料偏差而學歪。開發時，應進行紅隊測試（redteaming），主動扮演攻擊者試探AI以提早找出漏洞。

部署階段，可讓AI如實習生在背景給建議、跟著真人做決策，透過比對AI與真人專家的判斷落差來驗收。最後在營運階段，必須持續監控模型是否走偏（drift）或性能衰退。

NIST接著給出3道防線的設計建議。

首先是設定信心閾值，如果AI對產出的信心分數低於90%時，系統自動暫停並請求人類批准。

再來是針對高風險操作（如資金轉帳）強制設定為人機共決模式，無論AI多有把握，執行前都必須經由人類確認。

最後，企業可採用「多代理人制衡」架構，設計一個專門負責審查的安全守門員AI，在內容提交給人類前先進行內部查核與過濾。透過持續的技術驗證和人為監督的多重防線，企業才能將AI幻覺風險維持在可控範圍內，確保輸出可信度。

圖.經理人./請參考網址！