Nancy Leveson
https://en.wikipedia.org/wiki/Nancy_Leveson
加州大學洛杉磯分校獲得電腦科學、數學和管理學位,於1980年獲得博士學位
麻省理工學院航空航太學教授
美國國家工程院(NAE)院士
相關網址
http://psas.scripts.mit.edu/home/
My 36 Years in System Safety: Looking Backward, Looking Forward
Nancy Leveson
她是軟體工程師,職涯始於設計魚雷的尋標與控制段
觀念與想法
1.可靠度≠安全 (有許多高可靠度的原件/單元組合起來還是會失效與出錯)
2.事故意外不見得有人為疏失或單元故障造成(人機介面軟硬體系統組成複雜系統,湧現(emergent)故障出錯是複雜系統的特性)
3.相關危害分析與風險管理經常徒勞無功Not Cost-Effective
- 安全通常是事後打補釘而在設計階段就納入考量、傳統的系統安全理論試圖證明系統不安全(尋找危險路徑),而不是證明系統安全
- 通常關注的人為疏失或單元故障,而非管理機制或系統整體
- 風險評估方法的局限:對於非隨機事件(人為疏失不是隨機、軟體程序出錯是設計錯誤而非隨機故障)用機率分析推估風險
- 傳統危害分析與風險管理≒Identify chains of directly related physical or logical (functional) component failures that can lead to a loss (線性因果簡單推理)
- 難以從事故經驗中學習與成長:責怪與簡化事故原因、流於治標不治本
4.複雜性(複雜系統)是安全管理的挑戰:沒有辦法用拆解成單元(Analytic Reduction)或統計方法來處理或分析(整個系統遵守熱力學第二定律,會隨著時間退化drift into failure、單元與成員間的互度是dependant 而非independent,湧現突發的事件,對於統計而言就是異常離群點outlier )
5.如何處理與管理複雜系統的安全問題?
Control loop
成果就是STAMP
STAMP 將安全視為一個動態的控制問題,而非單純的故障預防問題。它強調透過強制執行系統行為和互動上的「約束」來實現安全。事故的發生被視為控制系統未能充分管理組件行為和互動的結果,導致安全約束被違反。
STAMP 的核心概念包括:
- 層級控制結構:系統被模型化為一個層級結構,從最高層級的管理和監管機構,到最底層的物理過程。這包括組織結構、安全文化等社會技術層面。
- 控制迴路和過程模型:系統被視為透過資訊和控制回饋迴路保持動態平衡的相互關聯組件。控制器(包括人類和自動化系統)使用其內部的「過程模型」來決定控制行為。事故經常發生在控制器對過程狀態的理解與實際情況不一致時。
- 「何事-為何」分析:STAMP 的目標是了解事故「為何」發生以及「何事」導致事故,而非追究「誰」的責任。
STAMP 是一個因果模型,而非分析方法。基於 STAMP 開發了多種實用工具:
- STPA (System-Theoretic Process Analysis):這是一種主動性的危害分析技術。它支援安全導向的設計過程,在開發早期階段識別危害和因果情境。STPA 可與系統工程過程整合。
- CAST (Causal Analysis based on Systems Theory):這是一種追溯性方法,用於事故和事件分析。它有助於理解整個事故過程並識別系統性因素,目標是找出「為何」發生事故以及「何事」導致事故,而非追究「誰」的責任。
從STAMP把安全視為一個動態的控制問題的角度來看,重點不是不安全的行為或不充份的設計規劃/建造/營運維保,而是控制與監督以上不安全狀態的控制機制為何沒有出現或發揮作用
STPA 的核心,旨在解釋不安全控制行為的根本原因以及導致危害的因素。 此步驟主要考慮兩種情境:
一、UCA 為何會發生?(Why would Unsafe Control Actions occur?):
- 控制器故障或退化:控制器硬體故障或隨時間退化導致 UCA。
- 控制演算法不充分:控制演算法本身存在缺陷、實施錯誤,或隨時間變化變得不適用。
- 過程模型不一致:控制器(無論是人還是自動化系統)對受控過程的內部模型與實際狀態不符。這可能由於缺乏回饋、回饋不準確或處理不當導致。
- 控制輸入或外部資訊錯誤/缺失:控制器接收到的資訊有誤或不完整。
二、控制動作為何未正確執行或未執行?(Why would control actions be improperly executed or not executed, leading to hazards?):
- 控制路徑問題:控制動作從控制器傳輸到受控過程的路徑中出現問題(如致動器故障、傳輸問題、延遲或網路攻擊)。
- 影響受控過程的其他因素:控制動作本身可能正確傳達,但其他因素導致受控過程無法安全響應(如水壓不足、環境條件影響、或受到對手的操縱)。
CAST 分析的目標是超越事件與歸咎,轉而理解事故背後更深層次的系統性原因。分析結果會被記錄下來,通常包括:
- 各組件的安全職責 (Safety Responsibilities)。
- 發生的不安全控制行為 (Unsafe Control Actions)。
- 行為發生的情境原因 (Contextual Reasons for the Behavior)。
- 導致行為的精神(過程)模型缺陷 (Mental (Process) Model Flaws that Contributed to it)。
- 控制結構整體缺陷 (Flaws in the Control Structure as a Whole),包括組件之間的協調和溝通缺陷、工業和組織安全文化、安全資訊系統以及隨時間推移的動態變化。
CAST 的最終目標是學習如何改進安全控制結構,以防止未來類似事故的發生。它提供了一種「為什麼」的解釋性分析,而非「誰」的指責性分析。
沒有留言:
張貼留言