2023年7月15日 星期六

如何衡量容錯餘裕與復原韌性

「容錯餘裕」與「復原韌性」如同安全文化般,是抽象的概念(pseudo-construct)

難以事前精確衡量,往往只在事發後(hindsight bias)才能隱約感受到- 缺少容錯餘裕與安全裕度+復原的韌性


核電廠應該要多安全?

https://sa.ylib.com/MagArticle.aspx?id=1780 

是10的負6次方、負9次方 or 負12次方?一萬年發生一次或10萬年發生一次?

大家分得清楚10的負6次方or 負9次方的差別嗎?(大家只能分辨”出事”或”沒出事”)


工程風險統計分析,容易流於自娛娛人自欺欺人

時間有如一塊面紗遮掩了風險的樣貌,讓人無法正確評估風險高低

很多時候自作孽的偷工減料或成本效益最大化,侵蝕了安全餘裕,加上主事者的鴕鳥心態與政府的政治不負責任

塑造了各種光怪陸離的事故

https://www.cna.com.tw/news/aopl/202306050329.aspx 

https://global.udn.com/global_vision/story/8662/7213514 



單一元件或設備


可用性Availability

可以簡單地理解為系統正常運行時間,即存儲系統可用和運行的時間百分比;可用性的反面是停機/故障=不可用時間。

可用性通常以 9 的個數計算。

1 個九 = 90% 可用性,2 個九 = 99% 可用性,3 個九 = 99.9% 可用性,4 個九 = 99.99% 可用性,依此類推。

7 個九 (99.99999%),則一年內停機時間僅為 3.15 秒。


一般工廠的可用性:(365-2)/365=0.9945=>只有2個九



耐用性(壽命) Durability

持久性是指設備機台的持續持久性。

耐用性與持久性,會與使用條件與狀況有關:使用環境條件越惡劣、越沒有定期保養與更換零附件,耐用性與持久性越差;決定耐用性與壽命的另一個因素是成本效益:更換維護保養的成本費用越來越高,高過採購新設備

汽車的壽命(30-40萬公里)、手機壽命3-5年

https://news.u-car.com.tw/news/article/70102 


可靠性Reliability

用於評估可靠性的一種常用指標是平均故障間隔時間 (MTBF)。

MTBF某種程度= Durability

硬碟平均故障間隔時間約為300,000小時


要有相當大量的測試統計數據,才能估算出MTBF與平均使用壽命

公司工場的打工仔,如果不想被窮得只剩錢的老闆念,最好用能夠舉證說明不同規格產品在壽命與平均失效時間上的差異(一分錢一分貨)


整體系統

韌性Resiliency

韌性的一個指標是測量平均修復時間 (MTTR),它捕獲在發生故障後使存儲基礎架構啟動和運行所需的時間。降低 MTTR,更好的彈性。

Spare Parts+人員應變修繕能力

Resiliency=f(MTTR, Lost of Capacity)

Resiliency其實有個閾值,e.g., 停水超過兩天或跳電超過8小時(UPS/ 柴油發電機無法cover),才會突顯有生產中斷與損失

每家公司工廠或不同作業特性的Resiliency與風險特徵不同

各項作業、機台或流程串聯環環相扣的,韌性與容錯越差

涉及越多專業知識經驗的作業(沒有辦法寫成SOP的哪種),韌性與容錯Margin越小


容錯Fault Tolerance

旁路故障容錯類似於可用性的概念,但它更進一步保證零停機時間。高可用性存儲系統的中斷可能最少,而容錯系統則不會出現服務中斷。具有更複雜設計的容錯系統通常維護起來非常昂貴:它將涉及始終運行數據的主動-主動副本,並在遇到存儲系統的任何組件出現故障並導致故障時進行必要的自動化故障轉移停機時間。而且這種故障轉移將是無中斷的,應用程序和數據訪問完全不會受到影響,業務將繼續按預期運行。三選二或四選三

Fault Tolerance ≒ Redundancy ≒ Safety Margin

以飛行來說,飛機速度越快、飛行高度越低,Fault Tolerance 與 Safety Margin越小

越精細的操作,需要當事人生理與心理狀態良好(經驗豐富、全神貫注) Fault Tolerance與Safety Margin越小

Fault Tolerance 與 Safety Margin=1時,代表不會發生事故

Fault Tolerance 與 Safety Margin=0時,代表事故註定發生

Fault Tolerance 與 Safety Margin是一個隨著時間(飛行速度與高度的變動值)

正常狀態下Fault Tolerance 與 Safety Margin約在1-0.4(降落那一刻的安全裕度最低,停放於地面的安全裕度最高)

異常狀態下Fault Tolerance 與 Safety Margin約在0.1-0.3(逆轉勝的可能相對小)



保護層

是一類安全保護措施,它是能有效阻止始發事件演變為事故的設備、系統或者動作。兼具獨立性、有效性和可審計性的保護層稱為獨立保護層(Independent Protection Layer,IPL),它既獨立於始發事件,也獨立於其他獨立保護層。正確識別和選取獨立保護層是完成LOPA分析的重點內容之一。典型化工裝置的獨立保護層呈“洋蔥”形分布,從內到外一般設計為:製程設計(本質安全/危害特性)、基本過程控制系統(簡單或複雜)、警報與人員干預(演算法)、安全儀表系統Detection + Interlock、物理防護Secondary Containment、釋放後物理防護Protection灑水吸附/、工廠緊急應變(保留空地/安全距離)以及社區應變疏散等。

https://www.consiltant.com/en/process-safety/lopa/ 

https://www.primatech.com/technical/layers-of-protection-analysis 



如何評估各個保護層效用

Qualifying Safeguards and IPLs

The heart of LOPA is deciding which safeguards qualify as IPLs. Criteria must be specified to make this determination. Historically, three key criteria have been used:


1.Effectiveness

The safeguard protects against the undesired consequence of the scenario when it functions as designed

需要測試報告、工安流言測試


2.Independence

Safeguard effectiveness must be independent of:

The occurrence, or consequences, of the initiating event

Failure of any component of an IPL already credited for the scenario

Conditions that caused another IPL to fail

Any other element of the scenario


3.Auditability

The safeguard is designed to enable periodic validation that:

It is effective in preventing the consequences if it functions as designed

It achieves the specified PFD

Design, installation, functional testing, and maintenance systems for the safeguard are in place and working

設計、安裝、功能測試與維護保養都有留下紀錄




算命系列文章

先天八字與後天八字

https://eshmanager.blogspot.com/2016/05/risk-management-from-micro-to-macro.html#more 


公司產品、技術與策略不敵公司文化與高階主管的固執(格局)

幫公司算命不如看產業變遷(領導人通常自我感覺良好)

https://eshmanager.blogspot.com/2018/09/blog-post.html#more 


事故是否會發生有如量子疊加態

可惜一般官員與鄉民的辨識能力止於企業名聲(甚至股價)刻板印象

https://eshmanager.blogspot.com/2015/10/can-accidents-be-predicted-or-prevented.html#more


為何聰明的組織高層總是會把事情搞砸?作出愚蠢/違反法律人性的決策?

https://johnhcochrane.blogspot.com/2023/06/stephens-at-chicago-effective.html 

Why is it that, when you bring together a lot of smart people in a room, their collective intelligence tends to go down, not up? Why do they always seem to press the mute button on their critical faculties when confronted with propositions that, as an old colleague of mine liked to say, ought to vanish in the presence of thought?

原因在於

  1. the problem isn’t that people aren’t smart. It’s that they are scared.(怕傷害自己的個人利益)
  2. there is the problem of rationalization — of smart people convincing themselves, and others, of some truly dumb things.(合理化這麼作的理由,透過電腦或統計數據來自我蒙蔽,數據與理論通常是school smart但street stupid)
  3. there is the psychological dimension.(同儕壓力,渴望融入團體、不希望成為異類被排擠)
  4. here’s a fourth factor, maybe the most crucial. It’s culture. Does the culture of a society, or of an institution, encourage us to stand out or to fit in; to speak up or to bury our doubts? Does it serve as a conduit to groupthink, or as an obstacle to it? (服從+官大學問大的組織文化)


沒有留言: