數據中心UPS供電系統可用性設計
1年前

UPS電源是工業領域用來對負載進行斷電保護的關鍵設備。對於斷電保護,針對不同的負載應用,又有兩種類型。一種是普通的電腦類設備,當斷電發生時,UPS電源需要爲負載提供幾分鐘到十幾分鐘的後備供電時間。在這段後備時間之內,負載設備會進行數據存儲等動作以防數據丟失,之後負載就會關機。在UPS達到後備時間之後負載仍然會斷電,但這不會導致經濟損失。另外一種是在數據中心,以及工業應用之類的場合,對UPS的要求就是真正的不斷電,UPS系統必須提供整年每天24小時的連續供電。本文對可靠性與可用性的討論就是針對這種情況。

電源系統的可靠性通常可以使用MTBF(平均故障間隔時間,或者平均無故障工作時間,以小時表示)來表示,此外還有一個更加容易理解的指標AFR(年失效率)。AFR和MTBF成反比關系,也就是AFR=8760/MTBF。因此MTBF越長,則年失效率越低。

對於可維修的系統來說,還有一個可用性的指標,其定義是A=MTBF/(MTBF+MTTR)其中A是一個百分比指標,MTTR值得是平均故障修復時間。如果系統出現故障時可以非常快速的恢復,那么系統的可用性指標就比較高。對於電網這類對象來說,使用可用性指標可以更加直觀的衡量其可靠程度。而對於在關鍵場合經常使用並聯冗余配置來說,可用性指標比可靠性指標更具有現實意義。

可靠性/可用性指標都是統計意義上的概念,一個電源系統的可靠性/可用性與構成系統的各個模塊的可靠性/可用性之間也存在統計意義上的關聯。

假設電源系統中存在兩個電源模塊,而這兩個模塊是並聯工作的,其中一個和另外一個是互相獨立的。

那么考察這兩個模塊組合起來的系統的可用性Asys與每個模塊各自的可用性A1與A2的關系就有Asys=1–(1–AFR1)×(1–AFR2)另外一種可能是系統中這兩個模塊是串聯的。

那么這兩個模塊組合起來的系統的可用性Asys與每個模塊各自的可靠性A1,A2的關系就有

Asys=A1×A2

由於可用性肯定是處於0~1之間的數值,因此兩個並聯模塊的總體可用性要高於各自的可用性,而兩個串聯模塊的可用性要低於各自的可用性。

UPS電源的可靠性

從單個UPS的設計來說,可以把整個產品按照模塊進行劃分。

從圖中可以看到,UPS各個模塊之間的依賴關系比較復雜,但是還是可以分出串並聯的關系如下:

輔助電源與所有其他模塊都是串聯的,因此輔助電源的可用性直接限制了系統能夠達到的最高可用性等級;

控制模塊與除輔助電源之外的其他模塊也都是串聯的,因此控制模塊的可用性也會直接影響到系統總體可用性設計;

對於負載端來說,能夠直接相連的只有旁路模塊與逆變模塊,而這兩個模塊是並聯的;

PFC/整流模塊與電池升壓模塊是並聯的,之後再與逆變模塊串聯;

從能源提供者來講,這裏旁路電源與市電電源是兩路獨立的電源,而電池能源是由市電經過充電模塊提供的。如果充電模塊故障的話電池就沒有能量存儲,實際上也無法實現正常的UPS功能,因此市電—充電模塊—電池也是串聯的。

從這一路徑關系裏可以看到,總共存在3條並聯的路徑,而每一條路徑各自又是由數個模塊串聯起來的。正與前面分析的一樣,輔助電源與控制模塊的可用性是串聯在所有通路上的,因此如果這兩者設計有缺陷的話UPS的可用性是無法做的很高的。電池回路串聯有最多的模塊數量,也是可用性最低的一條路徑。

要提升系統的可用性首先要提升關鍵路徑的可用性。從路徑圖上可以看到就是控制模塊與輔助電源。輔助電源是整個UPS的關鍵點,如果輔助電源不工作整個UPS都將癱瘓。提升輔助電源可用性的方式可以有很多種方案:一種是改進設計,提升MTBF;一種是對輔助電源也適用並聯冗余設計,提升可用性;再一種是對UPS的三條可用性路徑分別使用不同的輔助電源,相當於把原來完全串聯的路徑改成並聯。在UPS設計中可以混合使用這幾種方式,由於上面三條可用性通路是並聯的,而旁路通路本身是可用性最高的一條,因此最爲推薦的設計就是優先提升旁路的可用性,對旁路單獨使用一套輔助電源供電,並且這套電源的盡量採用簡單的設計,以擁有高的MTBF。

控制模塊同樣也是影響到所有路徑的關鍵點,也必須擁有高的可用性。參照輔助電源的處理方法,也可以給相對獨立的旁路路徑配備單獨的控制模塊,並且通過與其余控制功能協調工作來達到高可用性的目的。同樣,旁路上的控制模塊也要盡量簡單,以提升可靠性。一種推薦的做法是旁路控制模塊不斷的檢測UPS主控制模塊的狀態,如果發現主控制模塊,則自動切換到旁路方式。此外,對於主控制模塊來說也可以通過冗余的方式來提升可用性,比如採用雙MCU結構,當一個MCU檢測到另外一個MCU發生故障時可以接管另一個MCU的功能,或者採取緊急措施如轉旁路來保證負載不斷電。

對於UPS來說,電池是保證UPS能夠在市電或者旁路斷電發生時繼續維持供電的關鍵,但是串聯環節最多,也恰恰是可用性最爲薄弱的環節。一般電池規格書裏面會說明充電電流不要超過0.15CC,這就意味着電池在UPS滿載放電放完之後要用數倍的時間才能重新充滿,從這個意義上講其可用性一般都在20%以下。但是由於電池並不是連續工作的,只要在電池放完前市電恢復,在重新充電的過程中也沒有再發生斷電,那么負載仍然不會受到影響。從這方面來看,電池的可用性在只會發生短時間的斷電情況下還是很高的。

再重新來審視電池回路的可靠性,在電池與市電之間還有一個充電器模塊環節。如果充電器損壞則電池在一次放完電之後就無法再充回,導致下一次市電停電時負載斷電。但是充電器只是在電池需要充電時才會工作,因此如果能夠及時對充電器的狀態進行監控,在發現充電器異常時及時報警,就能夠避免充電器故障帶來的問題,從而提升整個UPS的可用性。對於電池也有一樣的手段。電池在使用多次之後也會面臨容量下降和失效的問題,但是如果能夠通過電池狀態監控發現電池失效並及時更換,也能夠有效提升UPS的可用性。

UPS系統的可靠性

由於UPS並非一個單獨的應用系統,而是要搭配有其他一些環境因素在裏面,所以這些外部因素也是必須考慮進來的。前面提到過,UPS電池的備電時間是有限的,如果斷電時間比較長,導致電池電放完,那么負載就仍然會斷電。因此UPS可用性會受到市電發生長時間斷電概率的影響。

爲了解決這一瓶頸,可以在UPS系統中加入一個特性和電池互補的備用電源:在市電斷電時的不需要很快反應,但是在長時間停電條件下能夠持續提供電力,燃油發電機組就是最爲合適的一個選擇。因此在UPS系統配置上可以加入一個自動切換裝置,在市電停電後切換到發電機組。這樣一來能夠極大的提升長時間斷電條件下UPS系統的可用性。

雖然在可用性路徑裏面多串聯了一個市電與發電機切換用的ATS,增加了單調路徑發生故障的概率,但是相對長時間斷電帶來的可用性問題來說還是值得的。

在UPS應用的另外一個分支是目前正在興起的直流UPS系統。直流系統的思路是出於提高效率的目的,減少電源系統中間的轉換環節,電力分配部分由原來的交流轉換成直流。

可以看出,理想的直流UPS系統由於把交流系統中UPS的逆變環節與服務器電源中的PFC環節使用一個隔離型DC/DC環節來取代,從而可以改善效率。不過在直流UPS系統裏面由於電池電壓的變動範圍是比較大的,爲了取得更優化的效率曲线,在後級的服務器電源中也有可能使用兩級結構。也就是通過一個簡單的轉換,減小服務器電源隔離DC/DC轉換級的輸入範圍,以得到更好的節能效果。

在這種直流UPS體系裏面,不存在交流UPS中的旁路回路了,只存在一個市電到電池回路,這個回路也兼有充電器的作用。因此從單個UPS的可用靠性角度考慮,直流UPS可靠性鏈路只有兩條,其中一條是兩級變換加上輔助電源與控制板,另外一條是電池。

與交流UPS相比,直流UPS供電少了交流UPS的旁路回路,少了一個提升可用性的回路。但是電池是直接給負載供電的,可用性要高於交流UPS。因此在可用性的方面直流供電系統有得有失。但是另一個方面直流系統比交流UPS更容易進行並聯,從而可以利用增加並聯台數的方式增加可用性。

配電系統的可用性

對於一般的UPS系統應用來說,存在兩種常見的配置方式,一種是雙機熱備份。

在正常情況下由UPS1供電,如果UPS1的逆變/整流部分損壞,則仍然有UPS2可以供電。第二種配置方式是雙機並聯冗余。

這種配置方式下兩台UPS是完全並聯工作的。基於前面可用性的原理,第二種配置方式比第一種會有更高的可用性。

這裏就反映了可用性與可靠性的一個明顯不同。對於兩台並聯冗余配置的UPS,由於器件多了一倍,那么出現故障的概率也會增高,因此從統計意義上來講整個系統的MTBF會下降。但是由於其中一台出現故障之後仍然有一台在工作,只要出故障的UPS能夠很快修復,負載就仍然處在有效的保護之中,可用性是提升的。從負載的角度衡量,評估系統的可用性比可靠性更加有意義。

在可用性的定義中,電源系統恢復的時間越短,則可用性也會越好。因此把電源系統設計爲模塊化易更換的結構,可以大大減小維護時間,從而使得可用性顯著改善。

對於機房應用的場合,雙總线的概念應用十分廣泛。對於關鍵的服務器負載,一般都提供兩組電源輸入。相應的,在配電部分就也可以對應採用兩組獨立的電源總线。結合UPS本身就支持雙總线輸入,實際上可以構造出很多種組合形式。對不同方式進行比較後。

這裏把兩組獨立市電都供給兩套UPS系統,然後每一套UPS系統作爲一條總线來使用,可以充分發揮市電雙總线,UPS內部雙總线以及負載雙總线高可用性的優勢。

結論

本文對UPS內部設計,UPS系統以及配電系統的可用性進行分析,給出了提升UPS電源系統可用性的思路。通過分析結果可以發現在UPS中採用旁路與市電獨立的電源,加入多CPU監控,加入電池監控等措施可以明顯提升UPS的可用性。另外一方面在系統層次上,選擇模塊化的結構,縮短維修更換時間,更多使用並聯結構,也可以明顯提升可用性。

追加內容

本文作者可以追加內容哦 !

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。



標題:數據中心UPS供電系統可用性設計

地址:https://www.breakthing.com/post/79683.html