eeuss影院www免费影院_wwwwww99_91成人网在线_日本黄色免费录像

學術研究

您當前的位置: 首頁 > 學術研究 > 論文薈萃 > 正文

全球最大快遞DHL如何管理3大洲數據中心

發布時間:2015-07-06 11:46:56 iThome

隸屬于德國郵政集團旗下最大的國際快遞公司DHL,不只是目前世界最大的航空快遞貨運公司之一,更運用IT在全球各地采用自建數據中心的方式,隨時掌控全球各據點貨物派送的最新進度。
  而去年,DHL在捷克共和國新打造完成的布拉格數據中心,后來也取得UptimeInstitute在設計(Design)和設施(Facility)的Tier3等級認證。近日負責DHLITServices數據中心維運負責人CtiborLesa來臺時也分享了他在擔任DHL數據中心長達10年間的維運和管理經驗。
  CtiborLesa目前主要負責統籌管理了DHL在馬來西亞、美國與捷克共和國的數據中心規劃和維運。他曾負責完成DHL數據中心的線上升級專案,來通過Tier3等級設施的驗證,并也為數據中心改良機械系統,以提高數據中心的可靠度與耐用度。
  CtiborLesa擁有機械工程碩士,在加入DHL以前,曾在機電工程公司負責管理整體機房冷卻系統的設計與維護,而在進入DHL后,為改善數據中心可靠度,并減少人為錯誤的發生,也將線上負載測試與故障模擬導入數據中心內部。
  CtiborLesa表示,這些線上負載測試與故障模擬,能提升數據中心設施的可靠度(Reliability)與可預測性(Predictability),例如,通過線上測試電力供給設備的運作情況,以及模擬各種可能的電力系統故障狀況,來預先演練故障排除,甚至能進一步做到診斷設備的耗損程度,來提早進場維護。
  不過他也強調,在進行這些測試過程中,IT管理人員得投入更多的心力專注在測試上,并也得確保不會對IT維運帶來影響。
  除了線上負載測試與故障模擬外,CtiborLesa說,提高數據中心可靠度的第一步是建立起定期維護(RegularMaintenance)機制,不論是電力設備、伺服器或不斷電系統等都需要定期的保養維護,才能夠確保這些設備能維持正常的運作。
  他建議,企業應花上更多的投資在設備維護上,像是采購相關管理軟件,來建立系統化的設備保養排程,因為「跟數據中心設備故障導致龐大金額損失相比,企業花在設備維護的每一塊錢帶來收益更多達1萬倍。」他說。
  此外,CtiborLesa指出,這些經由線上負載和模擬測試的結果,也能夠通過各種數據搜集系統,如環境監控系統、監控管理系統及數據監控系統等,來取得龐大機臺設備數據,并能通過分析數據,來協助數據中心改善各種問題。例如,數據中心意外事件中,3成是由不斷電系統和電池故障所引起的事故,而通過分析這些測試和模擬結果的數據,有助于改善不斷電系統的設計。
  CtiborLesa從DHL數據中心多年的經驗也觀察到,平均每5起數據中心設備的故障,幾乎就有1起是來自于人為疏失,最嚴重可能導致數據中心維運停擺,他也強調,人為疏失并非無法避免,而是可以用管理減少出錯的機會。以下為進一步專訪他管理DHL三大洲數據中心的經驗:
  Q:是否能談談DHL在全球數據中心IT建置的情形?
  A:我們最近完成了在美國賓州梅卡尼克斯堡(Mechanicsburg)一座數據中心的整修專案,包括了在數據中心所有機電設備運轉期間,測試線上關鍵IT負載實際運作情況。
  這項專案包含了全面重新設計電力供應基礎設施與結構,包括了采購新的備用柴油發電機組、ATS(自動切換開關)、UPS不斷電系統模組、配電盤(DistributionSwitchboard)、機房空調(ComputerRoomAirConditioning,CRAC)組件,以及監控系統。這個專案是分階段來執行,才能夠如期按預先規劃的試運行(Commissioning)時間表來執行,以降低新舊基礎設施交替期間的風險,而不會對于IT營運造成重要影響。
  Q:DHL為什么要自建數據中心?
  A:DHL在IT服務上的策略是傾向自己來管理區域性關鍵數據中心設施,只有在需要快速呈現IT服務或是一個小規模數據中心空間時,才會向主機代管業者租用數據中心。采取租用方式可以縮短服務推出時間。我們也嘗試著均衡發展自建數據中心營運的優勢。
  Q:你在管理DHL數據中心時遇到的最大挑戰?
  A:IT基礎設施內充滿著龐大網絡、儲存、備份、伺服器設備和數據中心設備的基礎設施。
  而過去的管理挑戰在于IT部門和數據中心設施部門協同合作,來了解數據中心設施的所需容量(CapacityRequirement),以符合新專案的需求。而當數據中心基礎設施管理(DataCenterInfrastructureManagement,DCIM)工具出現后,也讓任一個設計部門在數據中心設備的管理,有了顯著的改善。
  另一個熱門談論的話題依然是數據中心基礎設施的可靠度(Reliability),而要持續提升數據中心的可靠度,采用作法首先得有合適的數據中心試運行流程、定期的維護機制、線上負載測試和結果分析模擬,才能夠持續地來改善數據中心的可靠度。
  現在最大的挑戰則是專業人才(Staffing)的不足。這些具有IT基礎設施專業人才的流失,已經是數據中心管理者不得不面對的挑戰,而是否具備有市場所需的IT基礎設施專業技能,也主導了優秀人才的市場競爭力。
  除了專業技能外,員工向心力、職涯發展和動機也十分重要。而能不能取得數據中心基礎設施各細節的主導權,也影響數據中心能不能持續保有一群訓練有素專家的關鍵。
  Q:如何減少數據中心的人為出錯?
  A:我深信,可以通過管理方式,來大幅降低因人為疏失造成數據中心非計劃停擺的比例。借由定期在真實設備故障模擬下所做的一種可控制的線上負載測試,可以建立起數據中心維運團隊的信心,在事故判斷上有更多把握。
  維運團隊越有信心,在面對意外發生時也就越能提高數據中心的可靠度。意外事故在所難免,但是比起加強設備汰換,更重要的是能正確反映出事故本身,以及提供顧客透明的溝通管理。
  Q:近2年數據中心管理方式和過去有何不同?
  A這2年許多數據中心設施配備有更多監測設備,而在市場上推出的新產品都必須具備遠端管理的能力,再者,這些監測設備操作也越來越友善和直覺。但要將這些監控應用產生的數據拿來評估,仍需要更多努力。
  但不采取行動的數據將毫無意義(TheDataWithoutActionAreUseless)。
  我曾看過數據中心配備了強大DCIM工具,但是將取得數據拿來使用的情況卻非常少;而有時候,這些監測設備提供數據過多,已超過數據中心維運人員可以有效管理和執行的范圍。
  Q:DHL怎么分析這類數據中心的監測數據?
  A:測試結果分析(TestResultAnalysis)非常重要,并且也是決定數據中心基礎設施能不能更耐用、可靠,以及可預測的關鍵。但是,卻只有很少數據中心設施有采用。
  DHL在IT服務上的策略上,會依數據中心設施的不同而采用不一樣監控應用,這些搜集而來的數據基本來源,有來自環境監控系統(BuildingManagementSystems,BMS)或其他能感測更多數據的系統,如DCIM系統。
  這個測試結果分析是將可預期的自動化操作(做為單一設備分配路徑故障模擬(DistributionPathFailureSimulation)的一種反應)與在數據中心基礎設施的時間記錄(RecordsofTime)、機電設備規模(Magnitude)大小及序列(Sequence)數據的實際反應進行比較,而得出可用的分析結果。

首頁