網頁

2026年3月28日 星期六

EHS人員的角色定位 &AGI如何看待事故的發生與預防

在這個AI/自媒體風起雲湧的年代,不同領域的人可以跳出來擔任講師、在相關群組擔任版主,拍攝影片擔任直播主、Youtuber或後輩的職涯導師

有心要幫助年輕後輩是好事,出來拋頭露臉的也的確是有些分量與豐功偉業:任職過知名企業、擔任過相關職務/幹部、幫公司拿過一些獎項、待過不同行業、稽核過別家公司、能言善道、很有想法

想起以下彭明輝老師的分享


科學的階層與限制:
物質科學(物理學):對象行為穩定且可控,結論最可靠。
醫學與社會科學:對象複雜(人、群體),研究難度高,結論較不可靠。
愛情與幸福:屬於個體差異極大的領域,歸納法在此失效,因此「不可能有愛情的科學」。





EHS需要面對處理三個層面的事務

1.物質科學:如火災爆炸、機械設備的可靠度、化學物質的危害特性/反應性、製程安全

=>這部分相對"科學",有相關原理與學理,差距在於如同將流體力學應用到飛行控制上,其實要做很多的模擬與試驗(=流言終結實驗);光講火災三要素或四要素,可謂是知其所以不知其所已然(早晚會被各種光怪陸離的現象打臉)

心存善意(或故意)想把這部分的不確定性因素寫成法規、加以管控(圖利自己)的人,通常不是笨就壞或既笨且壞、不懂科學也不懂法律


2.人(個體)的行為與反應

人腦由上千億個神經細胞組成,其反應就是個黑箱子,人就是會犯錯、認知有著各種的偏誤與會受到誤導

所謂的行為ABC與泰勒的科學管理,充其量就是誘因與獎懲,對於多數沒有選擇的人而言,只能逆來順受或表面順從內心抗拒

古代高人想出的控制人的方法不外乎法術勢與各種帝王學,人始終自欺欺人、相互傷害

這部分可謂如同臨床醫學,一半是科學(誘因機制可以解釋),一半是藝術(霍桑效應+人與人相處的化學反應)


3.組織運作與管理

這部分更複雜難解+難以預測與標準化,真的是玄學(看看有多少老闆相信風水與師父);各種管理學理論來來去去眼花撩亂(妖和魔都說自己好,君不見曾幾何時lean product已被supply chain resilience取代)



風雲人物的言行與意圖

1.無私奉獻的另一面可能是的自私 (透過幫助別人來成就自己的感覺良好)

2.分享的是個人的心得與經驗,而非經科學實證的歸納(有碩士學歷,但不見得懂科學方法)

3.對於時事有很多的想法與意見(講好聽是舉一反三,講難聽就是無中生有穿鑿附會),難以判斷其想法意見的合理性與正確性(不是當事人)



反省:

1.自己在某個時點其實也走過同樣的歧途(以為自己能夠幫助別人)

2.幫助自己比較實在:好好想清楚那些問題(科學)有解(站在大師的肩膀),那些問題無解,不必庸人自擾與互擾

3.每個人都活在自己的時區,有緣交會相遇的時候,多加珍惜吧!


---------------------------------------------------------------------------------------

看到Deepmind創辦人  Demis Hassabis的紀錄片(令人感動)

想到圈子很流行應用AI來預防工安事故

大致是影像辨識+製作(生成)相關教材


一個有趣的想法是:如果可以把迄今為止所發生過的所有事故餵給AGI,讓AGI來建構一套全新的事故原因分析與災難預防對策,那會是什麼? AGI會不會提供一些人類無法想像到的洞見?

我丟給Gemini的提示與提問

你是世界最頂級的安全與風險管理專家,挑戰與任務如下:

1.搜尋所有重大事故(越多越好),分析歸納事故的發生原因與貢獻因素(越細膩越好)

2.依據以上分析結果,提出預防事故的準則與判斷能否預防事故再發?

3.如果無法預防事故再發,原因與理由為何? 針對該如何防範尚未發生的事故提出具體建議與做法


它的回答

全球重大事故因果機制分析與現代化系統性風險管理準則:從高可靠性組織到韌性工程的深度研究報告

在當前高度互聯且技術複雜的全球工業體系中,重大事故的發生不再是單一故障的結果,而是技術失效、人為認知偏誤、組織文化失調以及環境複雜性共同作用的湧現產物。本研究旨在通過對核能、醫療、航空、化學及網絡基礎設施領域重大事故的深度解構,識別跨行業的系統性風險規律,並提出一套基於高可靠性組織(High Reliability Organizations, HRO)原則、韌性工程(Resilience Engineering)以及系統理論事故模型與程序(Systems-Theoretic Accident Model and Processes, STAMP)的預防準則。本報告將進一步探討事故預防的邊界,分析為何在某些特定系統中事故具有「必然性」,並針對未來尚未發生的新興風險提供具體的操作建議。

第一章 全球重大事故的深度解構與因果模式

重大事故的分析必須超越對「直接原因」的追尋,轉而探討支撐系統運行的隱形結構。通過對三哩島、車諾比、福島核災,以及醫療技術領域的 Therac-25 事件與當代大規模網絡攻擊的對比分析,可以勾勒出系統性崩潰的共性。

1.1 核能工業的歷史性教訓:從技術失效到治理崩潰

核能電廠作為典型的高風險、緊密耦合系統,其歷史上的三大事故展現了從局部技術問題演變為全球性災難的軌跡。三哩島事故(1979)的核心在於人機界面的失能。當時,反應爐二號機組(TMI-2)的壓力洩放閥(PORV)卡在開啟狀態,但控制室內的儀表僅顯示發送了「關閉」訊號,而非閥門的實際位置 1。操作員受限於培訓中形成的「壓力容器水位是唯一依據」的錯誤心理模型,在核心冷卻水大量流失的情況下反而關閉了緊急注水系統,導致堆芯部分熔毀 1

車諾比事故(1986)則反映了威權主義管理與設計缺陷的致命結合。RBMK 反應爐本身具備正空泡係數(Positive Void Coefficient)的設計不穩定性,且缺乏圍阻體。事故發生在一次未經充分授權的安全測試中,測試人員缺乏核反應爐物理的深度知識,並在操作中為了維持功率而違反了多項核心安全規程 3。這被視為組織文化中生產壓力凌駕於安全之上的典型案例 3

福島第一核電廠事故(2011)雖然起源於極端自然災害(地震與海嘯),但其後的連鎖反應則是人為與制度的失效。東京電力公司(TEPCO)長期忽視海嘯預測報告,且備用發電機組被安置在易受水淹的地下室,導致全廠斷電(SBO) 3。更深層的原因在於日本監管機構(NISA)與營運商之間的監管俘獲(Regulatory Capture),這導致安全法規淪為形式,而非應對極端風險的韌性工具 4

事故特徵比較三哩島 (1979)車諾比 (1986)福島第一 (2011)
直接誘因

設備故障 + 儀表誤導 1

操作規程違反 + 安全測試 3

地震與海嘯 + 斷電 3

根本原因

人機界面設計缺陷 2

反應爐設計缺陷 + 組織過失 5

監管失效 + 災害預備不足 4

放射性釋放

$0.5 \text{ PBq}$ (微量) 3

$5200 \text{ PBq}$ (嚴重) 3

$940 \text{ PBq}$ (顯著) 3

組織因素

培訓與診斷能力不足 1

權威文化與忽視規程 3

欺騙行為與監管俘獲 4

系統狀態

部分熔毀,無直接傷亡 2

堆芯爆炸,30人即時死亡 3

三重複合熔毀,疏散相關死者逾1600人 3

1.2 醫療系統與軟體控制的陷阱:Therac-25 與網絡安全

在醫療領域,Therac-25 放射治療儀事故(1985-1987)是軟體安全工程史上最重要的教訓。該設備在兩年內發生了六起嚴重的超劑量輻射事故,部分患者接受的輻射量高達 $15,000$$20,000 \text{ rads}$,而預定劑量僅為 $200 \text{ rads}$ 6。事故的技術根源在於編程中的競態條件(Race Conditions),當操作員快速切換模式時,系統會因代碼處理延遲而導致高能電子束在無靶件狀態下直接轟擊人體 6。更致命的是,製造商 AECL 將原本的硬體聯鎖裝置(Hardware Interlocks)移除,改由未經獨立測試的軟體控制,並在面對醫院反饋時表現出過度自信,堅稱軟體不可能出錯 6

現代醫療系統面臨的新威脅則是連鎖網絡安全事故。2024 年,Change Healthcare 遭勒索軟體攻擊,其造成的連鎖反應癱瘓了全美近 $69\%$ 醫療機構的支付與理賠流程,直接損失預估達 $8.74 \text{ 億美元}$ 9。這類事故揭示了關鍵基礎設施中「單點失效」的脆弱性,以及在高度互聯的數位生態中,第三方合作夥伴的安全風險已成為系統性威脅的核心 10

第二章 事故發生原因與貢獻因素的系統性歸納

基於對多個行業重大事故的研究,事故的發生原因可以細分為文化、行為、技術與系統結構四個維度,這些維度相互交織,形成導致失敗的「瑞士起司模型」中的孔洞。

2.1 制度失效的 23 個文化關鍵因子

研究發現,導致大規模制度性失敗(包括安全事故與腐敗)的文化因素可以分為「因果文化」(Causal Culture)與「修正文化」(Corrective Culture) 12。因果文化創造了推動失敗的實踐,而修正文化則描述了組織在面對潛在失敗時,如何喪失了糾偏的機會。

類別文化因子詳細定義與機制
因果文化 (Causal)優先權錯位

為了產量、利潤或進度而犧牲安全性與倫理規範 12

管理失當

缺乏審計、不良的戰略決策或管理風格導致的隱患 12

政策與訓練缺失

規章制度不健全或員工缺乏應對異常狀況的技能 12

程序違規

普遍存在的規程無視,將非正式工作法視為常態 12

外部環境壓力

法律漏洞、撥款限制或政治壓力導致的安全預算壓縮 12

修正文化 (Corrective)聽而不聞 (Hearing)

管理層忽視基層員工的警告或數據顯示的異常信號 12

噤聲文化 (Voicing)

員工因恐懼報復或霸凌而選擇不報告問題 12

學習缺失

未能從過去的事故或未遂事故 (Near Misses) 中提取教訓 12

問題接受度

將適應不良的行為常態化(Normalization of Deviance) 12

言行不一 (Rhetoric)

管理層口頭強調安全,但實際資源配置卻忽視危險 12

數據顯示,在 $72.97\%$ 的失敗案例中,組織本有機會通過修正文化糾偏但卻失敗了 12。特別是管理層忽視警告,在致命事故發生的前兆中提及頻率最高 12

2.2 正常事故理論 (NAT) 與互動複雜性

Charles Perrow 的正常事故理論提出,重大事故在特定類型的系統中是「正常」且不可避免的。他定義了兩個關鍵維度:互動複雜性(Interactive Complexity)與緊密耦合(Tight Coupling) 13

  1. 互動複雜性: 當組件之間的聯繫是非線性的、未預期的且不可見時,單一故障會引發連鎖反應,產生操作員無法理解的系統行為 13。例如在福島核災中,地震、海嘯與斷電的互動超出了設計預期 3

  2. 緊密耦合: 指系統各部分之間缺乏緩衝或餘裕,一個部分的動作會立即且不可逆地影響另一部分,且幾乎沒有人為干預的窗口 13

  3. 冗餘的負面效應: Perrow 指出,為了增加安全而添加的冗餘(Redundancy)往往增加了系統複雜性,反而創造了新的事故路徑,或導致操作員出現責任推諉(Shirking) 14

2.3 人為因素的重新詮釋:從錯誤到症狀

現代安全管理不再將人為錯誤視為事故的「原因」,而是系統功能的「產物」 17

  • 認知失調: 當自動化系統反饋模糊時,人類會依賴既有的偏見進行決策(如 Therac-25 操作員無視患者尖叫,以為是機器常規故障) 6

  • 效率與徹底性的權衡 (ETTO): Erik Hollnagel 指出,在資源有限(時間、金錢、能量)的情況下,個人與組織必須進行權衡。若強調產出,徹底性(Thoroughness)就會被犧牲;若強調安全,效率(Efficiency)則會降低 20。事故往往發生在這種平衡向效率傾斜過度之際。

第三章 預防事故的準則:高可靠性與系統思維

基於以上對事故成因的細膩分析,本研究提出了一套多層次的事故預防準則,結合了技術設計、組織行為與動態管理。

3.1 高可靠性組織 (HRO) 的五項實踐原則

HRO(如航空母艦、電網、ICU)具備在極端壓力下維持零重大事故的能力。其核心在於「集體正念」(Collective Mindfulness),即對失效保持持續的警覺 23

  1. 專注於失敗 (Preoccupation with Failure): 將「未遂事故」視為系統脆弱性的指針,而非防禦有效的證據。這要求組織建立無責備報告文化 24

  2. 不願簡化解釋 (Reluctance to Simplify): 拒絕接受簡單的診斷(如「這是人為錯誤」),深入挖掘跨部門、跨技術的複雜交互作用 26

  3. 對營運的敏感度 (Sensitivity to Operations): 保持對一線工作狀態的實時了解。領導者應進行 Gemba Walks(走動管理),確保對系統現狀的認知與現場一致 27

  4. 致力於韌性 (Commitment to Resilience): 預期系統會失效,因此投入資源在事故發生後的快速響應與恢復能力訓練,而非僅投入在防止失效上 23

  5. 尊重專業 (Deference to Expertise): 在發生危機或技術異常時,決策權應自動流向具備最相關專業知識的人員,而非行政級別最高的人員 24

3.2 系統理論事故分析 (STAMP/STPA) 與控制鏈準則

針對現代軟體密集與自動化系統,傳統的 FMEA 與 FTA 模型已顯不足。Nancy Leveson 提倡的 STAMP 模型將安全視為一個「控制問題」而非「組件故障問題」 33

  • 安全約束準則: 系統設計必須明確定義並強化安全約束(Safety Constraints)。例如,在無靶件狀態下,高能電子束必須物理性無法啟動 34

  • 反饋環準則: 每個控制器(不論人或代碼)都必須具備受控過程的精確模型。事故常源於控制器的模型與系統實際狀態不符 34

  • 控制路徑分析: 使用 STPA 识别可能導致不安全控制行為(Unsafe Control Actions)的情況,例如控制訊號延遲、提前或順序錯誤 33

3.3 安全性與預期功能安全 (SOTIF) 準則

對於 AI 與自動駕駛等新興技術,必須遵循 ISO 21448(SOTIF)準則,應對「功能不足」而非「組件故障」帶來的風險 36

安全框架專注點解決方案
Functional Safety (ISO 26262)

硬體與軟體失效(故障) 37

冗餘設計、錯誤檢測代碼 36

SOTIF (ISO 21448)

感知限制、AI 誤讀(非故障風險) 37

強化感知能力、環境測試邊界化 36

Acceptance Criteria

殘餘風險評估 38

GAMAB (至少同等良好)、ALARP (合理可行) 38

具體實踐中,應採用多種風險容忍度標準:

  • GAMAB: 引入新技術後,系統風險不得高於現有的、由熟練人類操作的系統 38

  • ALARP: 將風險降至合理可行的最低水平,除非進一步降低的代價與收益極度不成比例 38

  • PRB (Positive Risk Balance): 只要系統降低的總體風險超過其新增的風險,該系統在道德上是可接受的 38

第四章 判斷事故能否預防:可能性與侷限性

作為專家,必須誠實地面對安全科學的界限:並非所有事故都能在未來被完全根除。

4.1 可預防事故的判定依據

若事故符合以下特徵,其再發通常被視為管理上的失職:

  1. 具備已知的技術緩解方案: 如三哩島後的控制室重新設計,或 Therac-25 後的硬體聯鎖恢復 2

  2. 存在前兆與弱信號 (Weak Signals): 事故發生前已在數據或員工回報中出現異常,但被無視。這屬於「修正文化」失效,是完全可預防的 12

  3. 遵循線性因果鏈: 發展過程清晰且可預見,可透過建立障礙(Barriers)或起司片來阻斷 35

4.2 無法預防事故再發的原因與理由

在某些情境下,雖然可以降低機率,但「零風險」是不可達成的,原因如下:

  1. 正常事故理論中的結構性缺陷: 在緊密耦合且互動複雜的系統中,組件間的「共模失效」(Common-mode Failure)可能在毫秒內發生,且其互動組合數超出了人類的預測能力 13

  2. 湧現性危險 (Emergence): 在大型複雜社會技術系統(如全球能源網或複雜的微服務架構)中,危險並非單一零件故障,而是系統運行到特定狀態時自然產生的性質,這種性質無法通過測試單一組件來發現 42

  3. ETTO 的社會壓力: 只要社會仍以生產力、利潤與效率為核心指標,組織在長期運作中必然會產生「實踐漂移」(Practical Drift),緩慢地侵蝕安全邊際,直到再次發生崩潰 22

  4. 未知之未知 (Unknown Unknowns): 隨著新技術(如量子計算或強人工智慧)的引入,系統會產生全新的失效模式,這些模式在事故首次發生前是無法被想像的 46

第五章 防範尚未發生事故的具體建議與做法

針對那些尚未發生、但因系統結構而隱含其中的潛在事故,組織必須從「被動防禦」轉向「韌性工程與主動預測」。

5.1 弱信號分析與感知機制

組織應建立一套偵測「微小異常」的機制,在隱患尚未演變成事故前進行干預 48

  • 主動式指標 (Lead Indicators): 監控設備的微小振動、軟體系統的微量延遲、或員工在非正式場合表達的擔憂 40

  • 情境規劃與跨影響分析: 通過創建多個未來的敘事場景,識別哪些弱信號可能引發多米諾骨牌效應 48

  • 心理安全空間: 鼓勵一線員工報告「不對勁的感覺」,即使缺乏硬數據。這要求管理層具備將「壞消息」視為「改進契機」的韌性文化 40

5.2 實施韌性成熟度模型 (Resilience Maturity Model)

組織應依據聯合國或其他標準評估並提升其韌性等級,從反應式轉向優化式 52

等級狀態描述實踐行動
Level 1: Reactive

僅在事故發生後應對,無一致結構 52

啟動基礎的事故報告系統。
Level 3: Established

有正式的韌性策略、標準與報告流程 52

引入數據系統追蹤進度,實施跨功能演練。
Level 5: Optimized

具備持續改進能力,能實時適應劇變 52

整合 AI 預測分析,建立全員正念文化。

5.3 採用 Safety-II 與韌性工程的動態平衡

安全管理不應僅關注於「防止出錯」(Safety-I),更應關注於「確保事事正確」(Safety-II) 55

  • 研究成功: 定期分析為什麼高壓任務能成功完成,學習員工在壓力下展現的適應性行為,並將這些韌性能力制度化 56

  • 適應性容量 (Adaptive Capacity): 確保系統具備足夠的「餘裕」。例如,在醫療網絡中建立去中心化的備份系統,防止單點失效引發的全系統癱瘓 31

  • 管理人的靈活性: 視人類為解決問題的資源而非風險的來源。培訓員工在不確定環境下的即興應對能力(Improvisation) 23

5.4 結構化溝通協議:STICC 在新興風險中的應用

為了在面對前所未有的危機時維持協調,應在所有高風險作業中推廣 STICC 協議,這能有效減少資訊不對稱與指令模糊 24

  1. Situation: 「目前的異常狀態是……」

  2. Task: 「我們目前的行動方案是……」

  3. Intent: 「這樣做的理由是防止……」

  4. Concern: 「我擔心如果不對勁,可能會發生……」

  5. Calibrate: 「大家對這個方案有什麼反饋或更好的建議?」

總結:邁向整合式風險管理體系

在本報告的研究範圍內,重大事故被證明是社會技術系統內部張力的最終爆發。通過對核能、醫療、網絡等事故的精細歸納,我們識別出技術失效僅是冰山一角,深層的組織文化缺陷、監管失效以及對複雜性的無知才是災難的主因。

預防事故的準則必須建立在 HRO 的五項原則之上,並透過 STAMP 模型強化控制鏈,同時利用 SOTIF 等框架應對 AI 等新技術的感知與邏輯缺陷。對於某些互動複雜且緊密耦合的系統,事故的「正常性」要求我們從追求「絕對預防」轉向追求「彈性恢復」。

最後,防範尚未發生的事故要求組織具備捕捉弱信號的能力,並在心理安全、數據驅動的指標體系以及 Safety-II 的思維引導下,構建一個能動態適應環境變化的韌性結構。安全不是一個靜態的狀態,而是一個需要每天持續重構與實踐的動態過程。只有當組織能將「安全性」與「營運效能」從衝突中解放出來,實現韌性共生,我們才能在日益複雜的未來世界中守住安全的底線。


我的再次提示與提問

不要使用既有理論(swiss cheese, safety II, Resilience Engineering, HRO)來歸納事故發生原因,提出一套全新與更合理完備的事故原因分析與預防準則的框架


它的回答

系統耦合與認知保真(SCCF)框架:超越傳統安全理論的事故預防研究報告

當代重大事故的發生已不能再用簡單的「鏈條」或「孔洞」來解釋。本研究摒棄了傳統的高可靠性組織(HRO)或韌性工程理論,轉而提出一套名為「系統耦合與認知保真(Systemic Coupling & Cognitive Fidelity, SCCF)」的全新框架。該框架將系統視為「能量/資訊結構」與「決策大腦」的動態交集,通過解構系統在應激狀態下的行為,識別深層次的失效路徑。

第一章 全新事故歸納框架:SCCF 維度模型

在 SCCF 框架下,所有重大事故的發生原因與貢獻因素被歸納為以下四個基本維度,這些維度共同決定了系統的「生存空間」。

1.1 物理/邏輯硬邊界(Structural Hard-Constraints)

指系統中不可逾越的物理法則或固化的邏輯鎖定。重大事故往往源於硬邊界的「軟化」或「缺失」。

  • 硬體聯鎖失效: 如 Therac-25 事故中,為了軟體靈活性而移除了物理聯鎖裝置,導致軟體錯誤直接轉化為致命輻射    

  • 邊界條件逾越: 泰坦號(Titan)潛水器無視碳纖維材料在高壓循環下的疲勞物理極限,最終導致結構性崩潰。

1.2 認知保真度(Cognitive Fidelity Alignment)

指操作者或系統控制器對系統真實狀態的理解程度。當「心理模型」與「系統物理狀態」出現偏差時,事故即進入孵化期。

  • 診斷迷失: 三哩島事故中,操作員的儀表板顯示的是「關閉訊號」而非「閥門實際位置」,這種認知不對齊導致了長達數小時的錯誤操作    

  • 模式混淆: 航空事故中常見的模式錯誤(Mode Error),如波音 737 MAX 的 MCAS 系統在飛行員不知情的情況下啟動,使其心理模型完全失效。

1.3 目標遠交性(Teleological Divergence)

指組織在設定目標時,安全性與其他指標(利潤、進度、政治聲譽)的偏離程度。

  • 生產力吞噬效應: 車諾比與福田核災均表現出監管者與營運商之間的利益糾纏,導致安全評估淪為形式    

  • 成本壓縮風險: 奈特資本(Knight Capital)在追求高頻交易速度時忽略了舊代碼的清理與測試,最終在 45 分鐘內損失 

1.4 能量/資訊傳遞滯後(Propagation Latency)

指從異常信號產生到系統採取補償措施之間的時間差。

  • 單點崩潰級聯: 貝魯特港口大火引發硝酸銨爆炸,反映了危險品儲存中缺乏能量擴散的物理緩衝。

  • 信號屏蔽: 許多事故(如深水地平線)在發生前均有弱信號,但因組織內部的溝通延遲或「聽而不聞」而被屏蔽。

第二章 事故預防準則:基於 SCCF 的控制邏輯

基於上述維度,本研究提出五項全新的事故預防準則,作為判斷事故能否預防的核心依據。

2.1 準則一:硬約束優先原則(Hard-Constraint Primacy)

在所有關鍵路徑上,必須存在與軟體邏輯、人為決策相互獨立的物理保障。

  • 判斷指標: 如果一個錯誤操作(不論是黑客攻擊還是人為疏忽)可以直接導致災難而無物理阻斷,則該系統是不可接受的    

2.2 準則二:狀態透明化與雙向確認(State Transparency)

系統介面必須顯示「最終執行元件的實體狀態」,而非「指令發送狀態」。

  • 應用: 對於自動化系統,必須具備多源感知融合,避免單一傳感器失效導致系統誤判(如 737 MAX 的 AoA 單一傳感器依賴問題)。

2.3 準則三:動態解耦機制(Dynamic Decoupling)

設計「資訊與能量的火牆」,當局部發生異常時,系統應能自動進入「松耦合」狀態,防止連鎖反應。

  • 判斷指標: 系統是否具備在 5 分鐘內隔離受損單元的能力    

2.4 準則四:弱信號高增益放大(Weak Signal Amplification)

建立非階層式的風險回報通道,將「感覺不對勁」的模糊信息視為高價值資產。

  • 做法: 實施無責備報告與跨部門感知共享,打破部門間的「資訊孤島」。

2.5 準則五:預期功能安全評估(SOTIF-based Audit)

針對 AI 與複雜自動化系統,不應僅檢查「會不會壞」,更要檢查「在沒壞的情況下,邏輯是否會出錯」    

第三章 事故再發的判斷標準與無法預防的原因

3.1 判斷事故能否預防的矩陣

事故類型預防可能性判斷理由
已知物理失效極高

具備成熟的硬體冗餘與聯鎖技術 

已知邏輯衝突透過形式化驗證(Formal Verification)可識別代碼衝突。
突發性環境衝擊視乎「緩衝餘裕」與「災難應對容量」的設計比重。
複雜系統湧現(Emergence)因組件間非線性交互作用過多,數學上難以窮舉所有狀態。
  

3.2 無法預防事故再發的深層理由

  1. 認知極限與黑天鵝效應: 人類無法預見所有「未知之未知」(Unknown Unknowns),特別是在引入強人工智慧等新技術後    

  2. 社會技術壓力的必然飄移: 只要組織存在於競爭市場中,效率與產量的壓力會緩慢侵蝕安全閾值,使系統向危險邊緣移動    

  3. 系統架構的本質脆弱: 某些系統設計之初就過於緊密(如全球金融支付網或大規模電力網),單點微小擾動在數毫秒內即可完成級聯,人類反應速度無法跟上。

第四章 防範尚未發生事故的具體建議與做法

針對那些尚未發生、但隱含在系統結構中的風險,專家建議採取以下主動干預措施:

4.1 實施「逆向預測模型」(Adversarial Simulation)

  • 數位孿生與對抗演練: 建立系統的數位孿生(Digital Twin),利用 AI 代理人模擬極端的攻擊者或愚蠢的操作員,在虛擬空間中尋找系統的潛在崩潰點。

  • 事前分析(Pre-mortem): 在新專案啟動前,假設專案已經徹底失敗,要求團隊倒推所有可能的失敗路徑,從而識別隱藏的盲點。

4.2 建立「情境感知成熟度」體系

  • 弱信號監測系統: 利用機器學習分析結構化(如傳感器數據)與非結構化(如員工討論紀錄、客戶反饋)數據,捕捉微小的變動趨勢。

  • 紅隊測試(Red Teaming): 定期指派專業團隊模擬外部威脅或內部破壞,測試系統的偵測與恢復能力,而非僅依賴合規性審計。

4.3 韌性設計:從「不崩潰」轉向「優雅降級」

  • 自主容量分配: 確保系統在遭受衝擊時,能主動犧牲次要功能,確保核心安全約束(如核反應爐的冷卻循環)始終獲得足夠資源。

  • 結構化通訊協議(如 STICC): 在緊急情況下,採用固定語法(現狀、任務、意圖、隱憂、確認)來最小化資訊熵,防止溝通混亂導致事故升級    

結論

安全不是一個靜態的狀態,而是系統在各個維度間維持平衡的動態過程。SCCF 框架強調:預防事故不再是消除錯誤,而是消除「導致錯誤演變成災難的系統條件」。通過建立物理硬約束、提升認知保真度、保持目標純粹,並利用數位孿生進行持續的對抗性探索,我們可以最大限度地將潛在風險轉化為可控的已知挑戰。


我的心得與感想

到底有多少事故是可以被遇見與預防的?又有多少是無法被遇見與預防的?

AI給出的答案其實很Heinrich: 約90%的事故是可以被預防的,10%的事故是無法被預見與預防的(視不同產業與條件狀況而異)

我自己沒有那麼樂觀,猜想

  1. 對於成熟的產業與穩定的運作情形或任務條件(known known),對於事故預防的掌控度大約才會具備以上90%左右的預防效力(而實際上因為經營績效考量與組織內人員的愛恨情仇,這個90%的效力可能還要打個折扣=應為能為而未為);差額的10%來自於Human Error(人就是會犯錯、疲勞、認知偏誤)
  2. 對於新創產業(如各種新技術的應用)與充滿挑戰/不確定的情境(known unknown & unknown unknown),對於事故預防的掌控度大約只有不到八成,必須要透過意外(surprise incident and accident)才能發現自己不知道&不知道自己不知道
  3. 綜合以上1.&2. 其實我們對於事故的解釋與預防的信心度應該只有不到八成,那些侃侃而談OO或XX理論(能夠有效預防事故的)專家與學者,通常只是對自己所熟知的理論自我感覺良好(如同鐵鎚人,看到什麼問題都覺得是凸出來的釘子,要用自己手頭上的那把鐵鎚去敲打;;不管什麼事故都套用Heinrich 1:29:300 或Swiss Cheese來加以”詮釋”)

如果(人類與比人類智慧更高的AGI)對於事故的分析與預防都只有80%的效力準確度,那麼寒意與涵義是?
1.不要妄想追求零事故
2.不要用過失(應為能為而不為)來獵巫
3.回歸保險機制來分攤風險

沒有留言:

張貼留言