容災(zāi)建設(shè)方案
第一章 容災(zāi)中心建設(shè)方法
容災(zāi)建設(shè)項(xiàng)目和業(yè)務(wù)連續(xù)性項(xiàng)目與用戶的業(yè)務(wù)要求、應(yīng)用現(xiàn)狀密切相關(guān),并涉及眾多技術(shù)和產(chǎn)品以及繁多的供應(yīng)商,因而屬于建設(shè)復(fù)雜、風(fēng)險(xiǎn)較高的項(xiàng)目之一。為降低項(xiàng)目風(fēng)險(xiǎn),保證容災(zāi)中心建設(shè)的成功,選擇有經(jīng)驗(yàn)的合作伙伴、并且有成熟實(shí)用的方法論指導(dǎo)對(duì)信息中心容災(zāi)建設(shè)非常重要。
EMC為企業(yè)提供“容災(zāi)中心建設(shè)”或業(yè)務(wù)連續(xù)性建設(shè)提出了BCSI(業(yè)務(wù)連續(xù)性解決方案集成)方法論,遵循的方法如下:
如上圖,EMC為企業(yè)進(jìn)行業(yè)務(wù)連續(xù)性或容災(zāi)系統(tǒng)建設(shè)分為三個(gè)階段。三個(gè)階段是(不包含項(xiàng)目啟動(dòng)等前期工作):
規(guī)劃(Plan)——科學(xué)的規(guī)劃是項(xiàng)目成功的前提。規(guī)劃階段需要對(duì)企業(yè)的IT系統(tǒng)現(xiàn)狀進(jìn)行評(píng)估分析,根據(jù)企業(yè)的業(yè)務(wù)發(fā)展的要求明確進(jìn)行需求定義,從而在確定的需求基礎(chǔ)上選擇合適的技術(shù),進(jìn)行技術(shù)架構(gòu)設(shè)計(jì),選擇合適的技術(shù)方案并采購(gòu)相應(yīng)的產(chǎn)品。
建設(shè)(Build) ——本階段主要是進(jìn)行技術(shù)平臺(tái)建設(shè)(包括整合、數(shù)據(jù)遷移等)、測(cè)試,建設(shè)完整的“災(zāi)難恢復(fù)計(jì)劃(DRP)”或“業(yè)務(wù)連續(xù)性計(jì)劃(BCP)”。在科學(xué)、合理的規(guī)劃前提下,建設(shè)階段將相對(duì)比較有序。
管理(Manage)——對(duì)容災(zāi)建設(shè)項(xiàng)目或業(yè)務(wù)連續(xù)性項(xiàng)目而言,建設(shè)了容災(zāi)技術(shù)平臺(tái)及相關(guān)的人員、流程要求僅僅是開始,而不是結(jié)束,必須定期更新、維護(hù)確保能夠滿足不斷變化的業(yè)務(wù)發(fā)展要求。
貫穿“規(guī)劃、建設(shè)、管理”三個(gè)階段的是“項(xiàng)目管理和服務(wù)集成能力”。容災(zāi)或業(yè)務(wù)連續(xù)性建設(shè)涉及的技術(shù)和產(chǎn)品非常廣泛,針對(duì)不同的業(yè)務(wù)應(yīng)用也可能采用不同的技術(shù)方案,這些方案來(lái)自不同的廠商;由于業(yè)務(wù)的相互關(guān)聯(lián),不同的技術(shù)方案之間也存在密切的聯(lián)系,甚至相互依賴。同時(shí),在容災(zāi)建設(shè)過(guò)程中,將有多方供應(yīng)商提供服務(wù)支持,能夠協(xié)調(diào)多方關(guān)系,對(duì)項(xiàng)目實(shí)施進(jìn)度及質(zhì)量進(jìn)行統(tǒng)一控制,對(duì)多方服務(wù)進(jìn)行集成調(diào)度是“項(xiàng)目管理和服務(wù)集成”的重要工作,也是保證項(xiàng)目按時(shí)完成并保證質(zhì)量的重要因素。
EMC的BCSI方法論為每個(gè)階段定義了所需要完成的工作和步驟(總共十大步驟),對(duì)每一步驟都有進(jìn)一步詳細(xì)的定義,后面章節(jié)將針對(duì)本設(shè)計(jì)項(xiàng)目相關(guān)的地方提供了詳細(xì)步驟圖。針對(duì)不同的客戶,EMC將按照以上科學(xué)的方法論,在需要時(shí)可按照客戶的實(shí)際情況進(jìn)行“量體裁衣”,設(shè)計(jì)合適步驟,為用戶進(jìn)行有計(jì)劃、有步驟容災(zāi)系統(tǒng)、業(yè)務(wù)連續(xù)性方案建設(shè)。
第二章 通用容災(zāi)技術(shù)框架
2.1 企業(yè)信息系統(tǒng)保護(hù)層次
現(xiàn)代企業(yè)的數(shù)據(jù)中心IT平臺(tái)(包括主機(jī)平臺(tái)、網(wǎng)絡(luò)平臺(tái)、存儲(chǔ)平臺(tái)等)的保護(hù)和恢復(fù)有不同等級(jí)的技術(shù)手段,未來(lái)企業(yè)的業(yè)務(wù)連續(xù)性建設(shè)將需要不斷提高企業(yè)的信息、數(shù)據(jù)的保護(hù)和恢復(fù)的等級(jí)。
不同層次的數(shù)據(jù)中心保護(hù)
如上圖所示,對(duì)企業(yè)集中化數(shù)據(jù)中心的IT系統(tǒng)和業(yè)務(wù)數(shù)據(jù)進(jìn)行保護(hù)可以有多種不同層次的保護(hù)方案,主要分為本地保護(hù)和遠(yuǎn)程保護(hù)兩個(gè)方面。
企業(yè)數(shù)據(jù)中心面向運(yùn)營(yíng)的保護(hù)及恢復(fù)包括三個(gè)層次:
1. 平臺(tái)保護(hù)—主要是平臺(tái)的高可用,如采用主機(jī)群集系統(tǒng)和高可用存儲(chǔ)平臺(tái)(包括SAN網(wǎng)絡(luò)環(huán)境的高可用和存儲(chǔ)系統(tǒng)的高可用),保證IT平臺(tái)沒(méi)有單點(diǎn)故障,實(shí)現(xiàn)業(yè)務(wù)和應(yīng)用的高可用性。
2. 數(shù)據(jù)備份—對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行經(jīng)常性的本地備份,在IT系統(tǒng)出現(xiàn)物理故障或邏輯故障時(shí),數(shù)據(jù)備份都能提供可靠的數(shù)據(jù)保護(hù)。
3. 數(shù)據(jù)恢復(fù)—在出現(xiàn)數(shù)據(jù)錯(cuò)誤或丟失時(shí)能夠進(jìn)行快速、可預(yù)見的數(shù)據(jù)恢復(fù),減少IT系統(tǒng)的中斷時(shí)間,降低對(duì)業(yè)務(wù)運(yùn)營(yíng)的影響。
建設(shè)了完善的本地保護(hù)和恢復(fù)后,企業(yè)需要規(guī)劃建設(shè)面向?yàn)?zāi)難保護(hù)及恢復(fù)的“遠(yuǎn)程”數(shù)據(jù)及業(yè)務(wù)保護(hù),它包括三個(gè)層次:
1. 遠(yuǎn)程的信息保護(hù)—是將企業(yè)的所有重要數(shù)據(jù)安全的存儲(chǔ)在遠(yuǎn)程站點(diǎn),提供保護(hù),避免災(zāi)難性的事件破壞數(shù)據(jù)。
2. 遠(yuǎn)程自動(dòng)處理—除了提供對(duì)生產(chǎn)數(shù)據(jù)的遠(yuǎn)程保護(hù)外,能夠自動(dòng)進(jìn)行系統(tǒng)切換、回切及數(shù)據(jù)恢復(fù)等工作,從而在災(zāi)難事件發(fā)生時(shí)能夠快速恢復(fù)業(yè)務(wù)運(yùn)行。
3. 多數(shù)據(jù)中心保護(hù)—通過(guò)建設(shè)多個(gè)數(shù)據(jù)中心,采用多數(shù)據(jù)中心的數(shù)據(jù)保護(hù)、恢復(fù)技術(shù),防范更大范圍的災(zāi)難事件。
2.2 容災(zāi)技術(shù)模型
容災(zāi)技術(shù)平臺(tái)建設(shè)是企業(yè)業(yè)務(wù)連續(xù)性建設(shè)的重要基礎(chǔ)。EMC公司將企業(yè)的IT平臺(tái)劃分為“接入平臺(tái)、應(yīng)用平臺(tái)、數(shù)據(jù)平臺(tái)”三部分,建議企業(yè)的容災(zāi)技術(shù)平臺(tái)建設(shè)應(yīng)該主要著眼于對(duì)業(yè)務(wù)處理平臺(tái),數(shù)據(jù)平臺(tái)和接入平臺(tái)這三個(gè)重要的系統(tǒng)領(lǐng)域的保護(hù)。
容災(zāi)技術(shù)模型示意圖
2.2.1 業(yè)務(wù)平臺(tái)的保護(hù)——業(yè)務(wù)處理能力的冗余
容災(zāi)技術(shù)方案建設(shè)中,對(duì)于企業(yè)的業(yè)務(wù)平臺(tái)的保護(hù),主要表現(xiàn)為對(duì)業(yè)務(wù)處理能力的冗余和復(fù)用,其中牽涉:
支持應(yīng)用系統(tǒng)運(yùn)行的服務(wù)器和操作系統(tǒng)等系統(tǒng)軟件
支持應(yīng)用系統(tǒng)運(yùn)行的存儲(chǔ)器及存儲(chǔ)器和服務(wù)器的連接(存儲(chǔ)網(wǎng)絡(luò)等)
連接服務(wù)器的IP網(wǎng)絡(luò)系統(tǒng)
支持應(yīng)用系統(tǒng)實(shí)現(xiàn)的中間件或數(shù)據(jù)庫(kù)等
客戶將需要在容災(zāi)中心應(yīng)該配置與需要保護(hù)的生產(chǎn)中心相同廠家、相同版本、相同配置的應(yīng)用服務(wù)器、中間件和數(shù)據(jù)庫(kù)。要確保主數(shù)據(jù)中心和容災(zāi)中心的軟件運(yùn)行環(huán)境相同。
實(shí)現(xiàn)業(yè)務(wù)邏輯的應(yīng)用軟件系統(tǒng)
EMC咨詢服務(wù)部門將可以為客戶對(duì)上述各方面進(jìn)行調(diào)查評(píng)估,分析客戶的當(dāng)前生產(chǎn)中心業(yè)務(wù)平臺(tái)當(dāng)前的現(xiàn)狀和特定技術(shù)要求,并提出建設(shè)容災(zāi)方案的具體要求。
2.2.2 數(shù)據(jù)平臺(tái)的保護(hù)——業(yè)務(wù)狀態(tài)數(shù)據(jù)的復(fù)制
在容災(zāi)系統(tǒng)中,對(duì)數(shù)據(jù)平臺(tái)的保護(hù)主要表現(xiàn)為對(duì)業(yè)務(wù)狀態(tài)數(shù)據(jù)的保護(hù)、備份和恢復(fù)以及復(fù)制,需要保護(hù)的業(yè)務(wù)狀態(tài)數(shù)據(jù)包括:
業(yè)務(wù)交易狀態(tài)(數(shù)據(jù)本身的數(shù)據(jù)屬性為文件、數(shù)據(jù)庫(kù)等)
系統(tǒng)狀態(tài)-包括應(yīng)用軟件的初始數(shù)據(jù)、參數(shù)設(shè)置、以及系統(tǒng)軟件的配置數(shù)據(jù)、參數(shù)設(shè)置等。
中間數(shù)據(jù)(或臨時(shí)數(shù)據(jù))
在容災(zāi)系統(tǒng)建設(shè)中,數(shù)據(jù)平臺(tái)的保護(hù)是實(shí)現(xiàn)企業(yè)災(zāi)難恢復(fù)的核心。保證數(shù)據(jù)的安全永遠(yuǎn)是第一位的,只有支撐企業(yè)業(yè)務(wù)運(yùn)營(yíng)的數(shù)據(jù)能夠及時(shí)、完整地復(fù)制到容災(zāi)中心,才可以在災(zāi)難發(fā)生時(shí),在容災(zāi)中心恢復(fù)受災(zāi)難影響的業(yè)務(wù)應(yīng)用。
對(duì)不同企業(yè),EMC將根據(jù)需求分析的結(jié)果,對(duì)企業(yè)的不同重要級(jí)別的應(yīng)用或業(yè)務(wù)單元采取不同的數(shù)據(jù)復(fù)制方法,對(duì)不同類型的應(yīng)用,根據(jù)其訪問(wèn)特點(diǎn)等也將采取不同的數(shù)據(jù)復(fù)制方法。
2.2.3 接入平臺(tái)冗余和切換
接入平臺(tái)在容災(zāi)備份系統(tǒng)里,需要實(shí)現(xiàn)對(duì)外部接口的冗余及切換,其中牽涉:
應(yīng)用數(shù)據(jù)接口的切換-包括文件傳輸、消息機(jī)制等
應(yīng)用連接接口的切換- HTTP連接、數(shù)據(jù)庫(kù)連接、遠(yuǎn)過(guò)程調(diào)用、對(duì)象的調(diào)用等…
網(wǎng)絡(luò)連接的冗余和切換–包括城域網(wǎng)網(wǎng)絡(luò)連接、撥號(hào)連接等等…
企業(yè)的“接入平臺(tái)冗余和切換”的關(guān)鍵在于實(shí)現(xiàn)在容災(zāi)中心應(yīng)該配置相同訪問(wèn)能力的網(wǎng)絡(luò)設(shè)備,并在網(wǎng)絡(luò)配置上確保能快速、方便地將網(wǎng)絡(luò)訪問(wèn)從主生產(chǎn)中心切換到備份生產(chǎn)中心
2.3 容災(zāi)模式
將根據(jù)項(xiàng)目啟動(dòng)前期的“現(xiàn)狀評(píng)估、業(yè)務(wù)需求分析”等結(jié)果,可以從容災(zāi)層次、容災(zāi)范圍、運(yùn)營(yíng)方式、容災(zāi)規(guī)模等多角度進(jìn)行綜合分析,得出適用于用戶容災(zāi)要求的容災(zāi)模式和運(yùn)營(yíng)方式。
2.3.1 容災(zāi)層次
根據(jù)業(yè)務(wù)恢復(fù)時(shí)間的長(zhǎng)短可以將容災(zāi)建設(shè)劃分為不同的層次:
只做數(shù)據(jù)的災(zāi)難保護(hù),僅能保證數(shù)據(jù)的完整性,此類業(yè)務(wù)在容災(zāi)中心只需要配置存儲(chǔ)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程復(fù)制和存儲(chǔ)即可。這種方式可以降低投資,但業(yè)務(wù)恢復(fù)時(shí)間很長(zhǎng)(一般在3天以上)。數(shù)據(jù)的災(zāi)難保護(hù)是僅將生產(chǎn)中心的數(shù)據(jù)完整地復(fù)制到容災(zāi)中心的容災(zāi)方式。數(shù)據(jù)的災(zāi)難保護(hù)是異地容災(zāi)的最低級(jí)形式,也是最基本的方式,是實(shí)現(xiàn)更高級(jí)容災(zāi)方式的基礎(chǔ)。
在災(zāi)難發(fā)生時(shí),僅有數(shù)據(jù)的災(zāi)難保護(hù)無(wú)法保證業(yè)務(wù)的連續(xù)性,僅可以保證數(shù)據(jù)是可用的,若技術(shù)策略選擇得當(dāng),可以保證業(yè)務(wù)數(shù)據(jù)的完整性。采用這種模式有以下特性:
業(yè)務(wù)恢復(fù)速度較慢,通常情況下RTO>72小時(shí)
業(yè)務(wù)恢復(fù)難度大,需要新增設(shè)備
實(shí)現(xiàn)技術(shù)難度比較低
運(yùn)行維護(hù)成本較低
投資比較節(jié)省
除數(shù)據(jù)的災(zāi)難保護(hù)外,實(shí)現(xiàn)應(yīng)用的高可用,確保業(yè)務(wù)可以快速恢復(fù)。容災(zāi)系統(tǒng)的應(yīng)用不改變?cè)械臉I(yè)務(wù)處理邏輯,是對(duì)生產(chǎn)中心系統(tǒng)的基本復(fù)制。這種方式有以下特性:
業(yè)務(wù)恢復(fù)速度較快,通常情況下RTO小于24小時(shí),也可以達(dá)到幾小時(shí)級(jí)別
業(yè)務(wù)恢復(fù)過(guò)程相對(duì)簡(jiǎn)單
實(shí)現(xiàn)技術(shù)難度比較高
運(yùn)行維護(hù)成本較高,如:增加軟件版本管理、軟件部署、維護(hù)人員等
投資比較高
2.3.2 容災(zāi)范圍
根據(jù)業(yè)務(wù)影響分析結(jié)果,容災(zāi)備份存儲(chǔ)平臺(tái)項(xiàng)目的業(yè)務(wù)將劃分為關(guān)鍵業(yè)務(wù)和非關(guān)鍵業(yè)務(wù)兩大類。未來(lái)可以根據(jù)需要選擇要做容災(zāi)保護(hù)的業(yè)務(wù)種類,可以先建設(shè)關(guān)鍵業(yè)務(wù)容災(zāi),未來(lái)實(shí)現(xiàn)全業(yè)務(wù)容災(zāi)。
關(guān)鍵業(yè)務(wù)容災(zāi):業(yè)務(wù)需求定義中通過(guò)業(yè)務(wù)影響分析定義關(guān)鍵業(yè)務(wù)的容災(zāi)
全業(yè)務(wù)容災(zāi)。
2.3.3 同級(jí)容災(zāi)或降級(jí)容災(zāi)
根據(jù)容災(zāi)中心配置的處理能力不同,可以分為同級(jí)容災(zāi)和降級(jí)容災(zāi)。若未來(lái)的在容災(zāi)中心為需要進(jìn)行容災(zāi)保護(hù)的業(yè)務(wù)系統(tǒng)都配置與生產(chǎn)中心相同處理能力和高可用能力的業(yè)務(wù)處理平臺(tái)(主要是指主機(jī)性能,高可用群集等),則為同級(jí)容災(zāi)設(shè)計(jì)。如果未來(lái)的在容災(zāi)中心為需要進(jìn)行容災(zāi)保護(hù)的業(yè)務(wù)系統(tǒng)配置比生產(chǎn)中心的處理能力低或高可用能力降低(比如沒(méi)有做群集等),則為降級(jí)容災(zāi)設(shè)計(jì)。采用同級(jí)或降級(jí)容災(zāi)方式取決于業(yè)務(wù)需求和投資預(yù)算,降級(jí)容災(zāi)可以減少投資(在主機(jī)方面的投資)。
第三章 不同容災(zāi)技術(shù)介紹
3.1 不同容災(zāi)技術(shù)方案概述
不同企業(yè)的不同業(yè)務(wù)需求和應(yīng)用特點(diǎn)將可能需要有不同的容災(zāi)技術(shù)要求,可以采用多種容災(zāi)技術(shù)來(lái)建容災(zāi)系統(tǒng),EMC專業(yè)咨詢服務(wù)部將根據(jù)客戶的實(shí)際需求提供不同的技術(shù)方案。對(duì)所有客戶的容災(zāi)技術(shù)平臺(tái)建設(shè)而言,容災(zāi)方案的技術(shù)核心是數(shù)據(jù)的保護(hù),實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)復(fù)制,并能夠在災(zāi)難發(fā)生時(shí)在遠(yuǎn)端利用復(fù)制數(shù)據(jù)提供企業(yè)業(yè)務(wù)運(yùn)營(yíng)支撐服務(wù),因此數(shù)據(jù)復(fù)制技術(shù)是構(gòu)建容災(zāi)技術(shù)平臺(tái)的核心。不同數(shù)據(jù)復(fù)制技術(shù)的分類如下:
如上圖所示,對(duì)容災(zāi)項(xiàng)目而言,比較可行的是采用連續(xù)數(shù)據(jù)復(fù)制技術(shù)。
根據(jù)不同容災(zāi)方案所采用數(shù)據(jù)遠(yuǎn)程復(fù)制技術(shù)位于企業(yè)IT架構(gòu)不同層面又可以分為以下三類容災(zāi)方案:
基于存儲(chǔ)層面的容災(zāi)方案—利用存儲(chǔ)系統(tǒng)的遠(yuǎn)程數(shù)據(jù)復(fù)制功能建設(shè)容災(zāi)系統(tǒng),它包括:
同類存儲(chǔ)平臺(tái)之間的數(shù)據(jù)復(fù)制;
異構(gòu)存儲(chǔ)平臺(tái)之間利用虛擬存儲(chǔ)技術(shù)實(shí)現(xiàn)數(shù)據(jù)復(fù)制。
基于主機(jī)層面的容災(zāi)方案—利用主機(jī)廠家提供的相關(guān)功能軟件或第三方的主機(jī)軟件實(shí)現(xiàn)遠(yuǎn)程的數(shù)據(jù)復(fù)制,建設(shè)容災(zāi)系統(tǒng)。
基于應(yīng)用層的容災(zāi)方案—如利用應(yīng)用軟件如Oracle數(shù)據(jù)庫(kù)的本身的遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)系統(tǒng)
本節(jié)將針對(duì)以上“基于存儲(chǔ)層面數(shù)據(jù)復(fù)制的容災(zāi)方案” 、“基于主機(jī)層面的容災(zāi)方案” 和“基于應(yīng)用層容災(zāi)方案(以O(shè)racle Data Guard為例)”等三類不同方式容災(zāi)方案進(jìn)行分析。
對(duì)不同的用戶,EMC將根據(jù)客戶的容災(zāi)技術(shù)方案的實(shí)際需要以及技術(shù)條件進(jìn)行評(píng)估,為用戶最合適的容災(zāi)技術(shù)方案。
3.2 基于存儲(chǔ)的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)系統(tǒng)
采用基于存儲(chǔ)的容災(zāi)方案的技術(shù)核心是利用存儲(chǔ)陣列自身的盤陣對(duì)盤陣的數(shù)據(jù)塊復(fù)制技術(shù)實(shí)現(xiàn)對(duì)生產(chǎn)數(shù)據(jù)的遠(yuǎn)程拷貝,從而實(shí)現(xiàn)生產(chǎn)數(shù)據(jù)的災(zāi)難保護(hù)。在主數(shù)據(jù)中心發(fā)生災(zāi)難時(shí),可以利用災(zāi)備中心的數(shù)據(jù)在災(zāi)備中心建立運(yùn)營(yíng)支撐環(huán)境,為業(yè)務(wù)繼續(xù)運(yùn)營(yíng)提供IT支持。同時(shí),也可以利用災(zāi)備中心的數(shù)據(jù)恢復(fù)主數(shù)據(jù)中心的業(yè)務(wù)系統(tǒng),從而能夠讓企業(yè)的業(yè)務(wù)運(yùn)營(yíng)快速回復(fù)到災(zāi)難發(fā)生前的正常運(yùn)營(yíng)狀態(tài)。
基于存儲(chǔ)的容災(zāi)方案示意圖如下:
基于存儲(chǔ)數(shù)據(jù)復(fù)制技術(shù)的容災(zāi)方案示意圖
采用基于存儲(chǔ)的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)系統(tǒng)是目前金融、電信企業(yè)、政府采用較多的容災(zāi)方案,有非常多的應(yīng)用案例,是容災(zāi)建設(shè)可選擇的技術(shù)方案之一。
基于存儲(chǔ)的復(fù)制可以是如上示意圖的“一對(duì)一”復(fù)制方式,也可以是“一對(duì)多或多對(duì)一”的復(fù)制方式,即一個(gè)存儲(chǔ)的數(shù)據(jù)復(fù)制到多個(gè)遠(yuǎn)程存儲(chǔ)或多個(gè)存儲(chǔ)的數(shù)據(jù)復(fù)制到同一遠(yuǎn)程存儲(chǔ);而且復(fù)制可以是雙向的。
基于存儲(chǔ)的容災(zāi)方案有兩種方式:同步方式和異步方式,說(shuō)明如下:
同步方式,可以做到主/備中心磁盤陣列同步地進(jìn)行數(shù)據(jù)更新,應(yīng)用系統(tǒng)的I/O寫入主磁盤陣列后(寫入Cache中),主磁盤陣列將利用自身的機(jī)制(如EMC的SRDF/S)同時(shí)將寫I/O寫入后備磁盤陣列,后備磁盤陣列確認(rèn)后,主中心磁盤陣列才返回應(yīng)用的寫操作完成信息。
異步方式,是在應(yīng)用系統(tǒng)的I/O寫入主磁盤陣列后(寫入Cache中),主磁盤陣列立即返回給主機(jī)應(yīng)用系統(tǒng)“寫完成”信息,主機(jī)應(yīng)用可以繼續(xù)進(jìn)行讀、寫I/O操作。同時(shí),主中心磁盤陣列將利用自身的機(jī)制(如EMC的SRDF/A)將寫I/O寫入后備磁盤陣列,實(shí)現(xiàn)數(shù)據(jù)保護(hù)。
采用同步方式,使得后備磁盤陣列中的數(shù)據(jù)總是與生產(chǎn)系統(tǒng)數(shù)據(jù)同步,因此當(dāng)生產(chǎn)數(shù)據(jù)中心發(fā)生災(zāi)難事件時(shí),不會(huì)造成數(shù)據(jù)丟失。為避免對(duì)生產(chǎn)系統(tǒng)性能的影響,同步方式通常在近距離范圍內(nèi)(FC連接通常是200KM范圍內(nèi),實(shí)際用戶部署多在35KM左右)。
而采用異步方式應(yīng)用程序不必等待遠(yuǎn)程更新的完成,因此遠(yuǎn)程數(shù)據(jù)備份的性能的影響通常較小,并且備份磁盤的距離和生產(chǎn)磁盤間的距離理論上沒(méi)有限制(可以通過(guò)IP連接來(lái)實(shí)現(xiàn)數(shù)據(jù)的異步復(fù)制)。
采用基于存儲(chǔ)數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)方案的必要前提是:
通常必須采用同一廠家的存儲(chǔ)平臺(tái),通常也必須是同一系列的存儲(chǔ)產(chǎn)品,給用戶的存儲(chǔ)平臺(tái)選擇帶來(lái)一定的限制。
采用同步方式可能對(duì)生產(chǎn)系統(tǒng)性能產(chǎn)生影響,而且對(duì)通信鏈路要求較高,有距離限制,通常在近距離范圍內(nèi)實(shí)現(xiàn)(同城容災(zāi)或園區(qū)容災(zāi)方案)
采用異步方式與其他種類的異步容災(zāi)方案一樣,存在數(shù)據(jù)丟失的風(fēng)險(xiǎn),通常在遠(yuǎn)距離通信鏈路帶寬有限的情況下實(shí)施。
盡管有以上限制,基于存儲(chǔ)的容災(zāi)技術(shù)方案仍然是當(dāng)前最優(yōu)先選擇的容災(zāi)技術(shù)平臺(tái),尤其是基于EMC公司的存儲(chǔ)系統(tǒng)建設(shè)容災(zāi)方案有非常廣泛的應(yīng)用,這主要是由于基于存儲(chǔ)的容災(zāi)技術(shù)方案有如下優(yōu)點(diǎn):
采用基于存儲(chǔ)的數(shù)據(jù)復(fù)制獨(dú)立于主機(jī)平臺(tái)和應(yīng)用,對(duì)各種應(yīng)用都適用,而且完全不消耗主機(jī)的處理資源;
基于存儲(chǔ)得數(shù)據(jù)復(fù)制技術(shù),由于在最底層,實(shí)施起來(lái)受應(yīng)用、主機(jī)環(huán)境等相關(guān)技術(shù)的影響最小,非常適合于這樣主機(jī)和業(yè)務(wù)系統(tǒng)很多、很復(fù)雜的環(huán)境,采用此種方式可以有效降低實(shí)施和管理難度;
采用同步方式可以完全不丟失數(shù)據(jù),在同城容災(zāi)或園區(qū)內(nèi)容災(zāi)方案中,只要通信鏈路帶寬許可,完全可以采用同步方案,而不會(huì)對(duì)主數(shù)據(jù)中心的生產(chǎn)系統(tǒng)性能產(chǎn)生顯著影響。采用EMC基于存儲(chǔ)的同步復(fù)制方式的容災(zāi)案例有很多,有非常多的成功經(jīng)驗(yàn),如江蘇移動(dòng)、中國(guó)光大銀行、遼寧移動(dòng)、黑龍江移動(dòng)都采用了EMC同步復(fù)制技術(shù),并能滿足大規(guī)模I/O吞吐情況下的同步數(shù)據(jù)復(fù)制要求。而目前同城容災(zāi)環(huán)境中已經(jīng)具備上述條件,可以很方便部署同步方式復(fù)制;
采用異步方式雖然存在一定的數(shù)據(jù)丟失的風(fēng)險(xiǎn),但沒(méi)有距離限制,可以實(shí)現(xiàn)遠(yuǎn)距離保護(hù)。異地?cái)?shù)據(jù)中心,則采用與北京兩個(gè)中心的異步復(fù)制方式進(jìn)行數(shù)據(jù)保護(hù)。
災(zāi)備中心的數(shù)據(jù)可以得到有效利用。
對(duì)于基于應(yīng)用、基于主機(jī)、基于存儲(chǔ)的三種容災(zāi)方案而言,災(zāi)備中心的數(shù)據(jù)通常不可用,僅為生產(chǎn)系統(tǒng)中的數(shù)據(jù)提供災(zāi)難保護(hù)和災(zāi)難恢復(fù)。但對(duì)采用基于存儲(chǔ)技術(shù)的容災(zāi)方案中,有很靈活的技術(shù)手段可以充分利用災(zāi)備中心的數(shù)據(jù),從而提高企業(yè)的業(yè)務(wù)運(yùn)營(yíng)效率,帶來(lái)更多的投資回報(bào)。如下圖所示:
基于存儲(chǔ)的容災(zāi)方案有效利用災(zāi)備數(shù)據(jù)
如上圖所示,生產(chǎn)中心的“源數(shù)據(jù)—R1”通過(guò)存儲(chǔ)本身的數(shù)據(jù)復(fù)制機(jī)制被復(fù)制到了災(zāi)備中心,即“目標(biāo)數(shù)據(jù)R2”。 “目標(biāo)數(shù)據(jù)R2”在正常生產(chǎn)情況下是不可訪問(wèn)的,災(zāi)備中心的后備主機(jī)只能在災(zāi)難發(fā)生時(shí),主中心服務(wù)停止后,才可以訪問(wèn)“目標(biāo)數(shù)據(jù)”,接管主中心的服務(wù)(基于主機(jī)和應(yīng)用的容災(zāi)方案的災(zāi)備中心數(shù)據(jù)與此類似)。但采用基于存儲(chǔ)的容災(zāi)方案時(shí),我們可以為“目標(biāo)數(shù)據(jù)”建立一個(gè)BCV卷或快照、克隆,從而可以給到另外的服務(wù)器使用。
利用這種機(jī)制,用戶可以在容災(zāi)中心做很多工作:
用戶開發(fā)測(cè)試人員可以利用R2-BCV或R2快照得到真實(shí)的數(shù)據(jù)進(jìn)行新應(yīng)用開發(fā)、測(cè)試工作,從而保證新應(yīng)用的質(zhì)量,加快新產(chǎn)品上市時(shí)間。這種方式在采用基于主機(jī)方案和基于應(yīng)用方案都很難實(shí)現(xiàn),或在獲得一份真實(shí)數(shù)據(jù)進(jìn)行開發(fā)測(cè)試時(shí)需要很長(zhǎng)的時(shí)間,消耗大量的資源。
用戶的其它應(yīng)用也可以利用R2-BCV或R2快照滿足其它業(yè)務(wù)的需要。如數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用通常需要從生產(chǎn)系統(tǒng)抽取數(shù)據(jù),一旦進(jìn)行大規(guī)模數(shù)據(jù)抽取,生產(chǎn)系統(tǒng)幾乎處于停頓狀態(tài),這時(shí)可以利用R2-BCV卷進(jìn)行數(shù)據(jù)抽取,從而避免數(shù)據(jù)抽取給生產(chǎn)系統(tǒng)帶來(lái)的巨大性能沖擊。企業(yè)的決策分析系統(tǒng)的數(shù)據(jù)來(lái)源也都可以基于R2-BCV來(lái)實(shí)現(xiàn)。
由于以上優(yōu)點(diǎn),基于存儲(chǔ)災(zāi)難保護(hù)方案是目前采用最多的災(zāi)難保護(hù)方案。
3.3 采用虛擬化存儲(chǔ)技術(shù)建設(shè)容災(zāi)系統(tǒng)
存儲(chǔ)虛擬化的技術(shù)方法,是將系統(tǒng)中各種異構(gòu)的存儲(chǔ)設(shè)備映射為一個(gè)單一的存儲(chǔ)資源,對(duì)用戶完全透明,達(dá)到屏蔽存儲(chǔ)設(shè)備的異構(gòu)和主機(jī)的異構(gòu)的目的。通過(guò)虛擬化技術(shù),用戶可以利用已有的硬件資源,把SAN內(nèi)部的各種異構(gòu)的存儲(chǔ)資源統(tǒng)一成對(duì)用戶來(lái)說(shuō)是單一視圖的存儲(chǔ)資源(Storage Pool),而且采用Striping、LUN Masking、Zoning等技術(shù),用戶可以根據(jù)自己的需求對(duì)這個(gè)大的存儲(chǔ)池進(jìn)行方便的分割、分配,保護(hù)了用戶的已有投資,減少了總體擁有成本(TCO)。另外也可以根據(jù)業(yè)務(wù)的需要,實(shí)現(xiàn)存儲(chǔ)池對(duì)服務(wù)器的動(dòng)態(tài)而透明的增長(zhǎng)與縮減。
通過(guò)存儲(chǔ)虛擬化技術(shù)可實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程復(fù)制,以確保容災(zāi)中心與主站點(diǎn)的數(shù)據(jù)保持同步以實(shí)現(xiàn)數(shù)據(jù)容災(zāi)。
存儲(chǔ)虛擬化技術(shù)可以在不同層面實(shí)現(xiàn),如在智能交換機(jī)層面、存儲(chǔ)層面或增加第三方設(shè)備來(lái)實(shí)現(xiàn)。采用虛擬存儲(chǔ)技術(shù)進(jìn)行數(shù)據(jù)復(fù)制同樣也可以有同步復(fù)制方案和異步復(fù)制方案,需要根據(jù)具體的需求選擇合適的產(chǎn)品。
采用虛擬存儲(chǔ)化技術(shù)建設(shè)容災(zāi)方案有以下優(yōu)點(diǎn):
主生產(chǎn)中心和容災(zāi)中心的存儲(chǔ)陣列可以是不同廠家的產(chǎn)品,存儲(chǔ)平臺(tái)選擇不受現(xiàn)有存儲(chǔ)平臺(tái)廠商的廠商限制(但目前市場(chǎng)上產(chǎn)品還沒(méi)有做到這一點(diǎn));
對(duì)不同廠家的存儲(chǔ)陣列提供統(tǒng)一的管理界面;
在虛擬存儲(chǔ)環(huán)境下,無(wú)論后端物理存儲(chǔ)是什么設(shè)備,服務(wù)器及其應(yīng)用系統(tǒng)看到的都是其熟悉的存儲(chǔ)設(shè)備的邏輯鏡像。即便物理存儲(chǔ)發(fā)生變化,這種邏輯鏡像也永遠(yuǎn)不變,系統(tǒng)管理員不必再關(guān)心后端存儲(chǔ),只需專注于管理存儲(chǔ)空間,所有的存儲(chǔ)管理操作,如系統(tǒng)升級(jí)、建立和分配虛擬磁盤、改變RAID級(jí)別、擴(kuò)充存儲(chǔ)空間等比從前的任何產(chǎn)品都容易,存儲(chǔ)管理變得輕松簡(jiǎn)單。
采用虛擬存儲(chǔ)化技術(shù)建設(shè)容災(zāi)方案需要考慮以下問(wèn)題:
虛擬存儲(chǔ)技術(shù)比較新,雖然為異構(gòu)環(huán)境設(shè)計(jì),但在異構(gòu)環(huán)境種保證兼容性和數(shù)據(jù)的完整性依然存在很大風(fēng)險(xiǎn);
采用虛擬存儲(chǔ)技術(shù),尤其是增加第三方硬件的方式將需要評(píng)估對(duì)整個(gè)系統(tǒng)的高可用性和性能的影響;
需要驗(yàn)證選擇的產(chǎn)品和技術(shù)的成熟性以及和現(xiàn)有設(shè)備、未來(lái)設(shè)備的兼容性能力,尤其是難以滿足復(fù)雜環(huán)境、大規(guī)模容災(zāi)要求的實(shí)際適用情況;
虛擬存儲(chǔ)技術(shù)目前尚不夠成熟,還處于發(fā)展階段,而且對(duì)于異構(gòu)存儲(chǔ)環(huán)境部署基于虛擬存儲(chǔ)技術(shù)的容災(zāi)方案,目前還無(wú)任何案例和應(yīng)用;
3.4 采用基于主機(jī)的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)系統(tǒng)
采用基于主機(jī)的容災(zāi)方案的示意圖如下:
基于主機(jī)的容災(zāi)方案示意圖
采用基于主機(jī)系統(tǒng)的容災(zāi)方式的核心是利用主、備中心主機(jī)系統(tǒng)通過(guò)IP網(wǎng)絡(luò)建立數(shù)據(jù)傳輸通道,通過(guò)主機(jī)數(shù)據(jù)管理軟件實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程復(fù)制,當(dāng)主數(shù)據(jù)中心的數(shù)據(jù)遭到破壞時(shí),可以隨時(shí)從備份中心恢復(fù)應(yīng)用或從備份中心恢復(fù)數(shù)據(jù),從而給企業(yè)提供了應(yīng)用系統(tǒng)容災(zāi)的能力。
實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)復(fù)制的數(shù)據(jù)管理軟件有很多產(chǎn)品,主機(jī)廠商和一些第三方軟件公司(如Veritas)提供基于主機(jī)的數(shù)據(jù)復(fù)制方案,如Sun公司的Availability Suite軟件和Veritas Volume Replicator(VVR)等軟件可實(shí)現(xiàn)基于主機(jī)的遠(yuǎn)程數(shù)據(jù)復(fù)制,從而構(gòu)建基于主機(jī)的容災(zāi)系統(tǒng)。
采用基于主機(jī)的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)方案有以下優(yōu)點(diǎn):
基于主機(jī)的方案最主要的優(yōu)點(diǎn)是只對(duì)服務(wù)器平臺(tái)和主機(jī)軟件有要求,完全不依賴于底層存儲(chǔ)平臺(tái),生產(chǎn)數(shù)據(jù)中心和后備數(shù)據(jù)中心可以采用不同的存儲(chǔ)平臺(tái);
既有針對(duì)數(shù)據(jù)庫(kù)的容災(zāi)保護(hù)方案,也有針對(duì)文件系統(tǒng)的容災(zāi)保護(hù)方案;
有很多不同的基于主機(jī)的方案,可以滿足用戶的不同數(shù)據(jù)保護(hù)要求,提供多種不同數(shù)據(jù)保護(hù)模式;
基于IP網(wǎng)絡(luò),沒(méi)有距離限制;
同時(shí),采用主機(jī)的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)方案有以下局限:
基于主機(jī)的方案需要同種主機(jī)平臺(tái);
基于主機(jī)的數(shù)據(jù)復(fù)制方案由于生產(chǎn)主機(jī)既要處理生產(chǎn)請(qǐng)求,又要處理遠(yuǎn)程數(shù)據(jù)復(fù)制,必須消耗生產(chǎn)主機(jī)的計(jì)算資源,對(duì)于主機(jī)的內(nèi)存、CPU進(jìn)行升級(jí)是非常昂貴的,因而對(duì)生產(chǎn)主機(jī)性能產(chǎn)生較大的影響,甚至是產(chǎn)生嚴(yán)重影響;
災(zāi)備中心的數(shù)據(jù)一般不可用,如果用戶需要在遠(yuǎn)程數(shù)據(jù)中心使用生產(chǎn)數(shù)據(jù)給開發(fā)測(cè)試、DW/BI應(yīng)用使用將非常困難;
利用主機(jī)數(shù)據(jù)復(fù)制軟件的方案比較復(fù)雜,尤其是和數(shù)據(jù)庫(kù)應(yīng)用結(jié)合的時(shí)候需要很復(fù)雜的機(jī)制或多種軟件的結(jié)合,從而對(duì)生產(chǎn)系統(tǒng)的穩(wěn)定性、可靠性、性能帶來(lái)顯著影響;
如果有多個(gè)系統(tǒng)、多種應(yīng)用需要災(zāi)難保護(hù),采用基于主機(jī)的方案將無(wú)法有統(tǒng)一的技術(shù)方案來(lái)實(shí)現(xiàn)。
管理復(fù)雜,需要大量的人工干預(yù)過(guò)程,容易發(fā)生錯(cuò)誤。
目前,企業(yè)采用基于主機(jī)的數(shù)據(jù)復(fù)制技術(shù)建設(shè)容災(zāi)方案相對(duì)比較少,通常適合單一應(yīng)用或系統(tǒng)在I/O規(guī)模不大的情況下局部使用。在應(yīng)用I/O負(fù)載比較大,需要災(zāi)難保護(hù)的應(yīng)用及應(yīng)用類型比較多、主機(jī)環(huán)境復(fù)雜的時(shí)候,基于主機(jī)系統(tǒng)的方案并不適用。
3.5 基于應(yīng)用的數(shù)據(jù)復(fù)制建設(shè)容災(zāi)系統(tǒng)
基于應(yīng)用之間的數(shù)據(jù)復(fù)制技術(shù)也有很多種,以下按常用的Oracle 9i/10G用自帶的Oracle Data Guard技術(shù)來(lái)進(jìn)行分析(Microsoft SQL*Server的Mirror技術(shù)采用類似方式)。
Oracle Data Guard技術(shù)是Oracle數(shù)據(jù)庫(kù)系統(tǒng)特有的災(zāi)難備份和恢復(fù)技術(shù),利用了Oracle數(shù)據(jù)庫(kù)系統(tǒng)的日志備份和恢復(fù)機(jī)制。Data Guard的基本原理是在與主系統(tǒng)完全一致的硬件和操作系統(tǒng)平臺(tái)上建立后備數(shù)據(jù)庫(kù)系統(tǒng),同時(shí)對(duì)主數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)日志(Log)和控制文件等關(guān)鍵文件進(jìn)行備份。
在主系統(tǒng)正常工作的同時(shí)將主系統(tǒng)產(chǎn)生歸檔日志文件(Archived Log)不斷的傳送到后備數(shù)據(jù)庫(kù)系統(tǒng),并且利用這些日志文件在后備數(shù)據(jù)庫(kù)系統(tǒng)上連續(xù)進(jìn)行恢復(fù)(Recover)操作,以保持后備系統(tǒng)與運(yùn)行系統(tǒng)的一致。當(dāng)主系統(tǒng)發(fā)生故障時(shí),使用備份的數(shù)據(jù)庫(kù)日志文件在后備數(shù)據(jù)庫(kù)上恢復(fù)主數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)。
圖5.18. 采用Oracle Data Guard的容災(zāi)方案
Oracle9i/10G Data Guard提供了三種模式:
最大保護(hù)模式
最大可用模式
最大性能模式
Oracle Data Guard最大保護(hù)模式提供了對(duì)于主數(shù)據(jù)庫(kù)最高級(jí)別的數(shù)據(jù)可用度,是一種保證零數(shù)據(jù)丟失的容災(zāi)解決方案。當(dāng)運(yùn)行最大保護(hù)模式時(shí),Redo紀(jì)錄以同步的方式從主數(shù)據(jù)庫(kù)發(fā)送到后備數(shù)據(jù)庫(kù),而且,在主數(shù)據(jù)庫(kù)方的事務(wù),一定要等到至少有一個(gè)后備數(shù)據(jù)庫(kù)確認(rèn)接收到事務(wù)數(shù)據(jù),該事務(wù)才被提交。在這種模式下,一般配置至少兩個(gè)后備數(shù)據(jù)庫(kù),以提供雙重容錯(cuò)保護(hù)。如果后備數(shù)據(jù)庫(kù)不可用,則主數(shù)據(jù)庫(kù)方會(huì)自動(dòng)掛起處理進(jìn)程。
最大可用性模式提供了對(duì)于主數(shù)據(jù)庫(kù)次高級(jí)別的數(shù)據(jù)可用度,保證零數(shù)據(jù)丟失,并對(duì)單個(gè)組件的失敗提供保護(hù)。與最大保護(hù)模式一樣,redo數(shù)據(jù)被同步地從主數(shù)據(jù)庫(kù)發(fā)送到后備數(shù)據(jù)庫(kù)。在主數(shù)據(jù)庫(kù)方的事務(wù),一定要等到后備數(shù)據(jù)庫(kù)確認(rèn)接收事務(wù)數(shù)據(jù),該事務(wù)才被提交。然而,如果后備數(shù)據(jù)庫(kù)因?yàn)橹T如網(wǎng)絡(luò)連接之類的問(wèn)題而不可用時(shí),主數(shù)據(jù)庫(kù)方的處理會(huì)繼續(xù)執(zhí)行。這樣,會(huì)出現(xiàn)后備數(shù)據(jù)庫(kù)暫時(shí)與主數(shù)據(jù)庫(kù)不一致的情況,但是一旦后備數(shù)據(jù)庫(kù)恢復(fù)可用,數(shù)據(jù)庫(kù)會(huì)自動(dòng)同步,不會(huì)有數(shù)據(jù)丟失。
最大性能模式是缺省的保護(hù)模式。與最大可用性模式相比,它對(duì)于主數(shù)據(jù)庫(kù)提供稍弱一點(diǎn)的保護(hù),但是性能更高。在這種模式下,當(dāng)主數(shù)據(jù)庫(kù)對(duì)事務(wù)進(jìn)行處理時(shí),日志數(shù)據(jù)被以異步的方式傳送到后備數(shù)據(jù)庫(kù)。在主數(shù)據(jù)庫(kù)方,提交操作在完成寫的動(dòng)作前、無(wú)需等待后備數(shù)據(jù)庫(kù)的接收確認(rèn)。在任何時(shí)候,如果后備方不可用,主數(shù)據(jù)庫(kù)方的處理繼續(xù)執(zhí)行,這樣對(duì)性能不會(huì)有什么影響。
采用Oracle 9i/10G Data Guard技術(shù)進(jìn)行災(zāi)難備份需要滿足以下前提條件:
后備系統(tǒng)與主系統(tǒng)的硬件平臺(tái)、操作系統(tǒng)、操作系統(tǒng)版本等保持一致;
后備系統(tǒng)與主系統(tǒng)上Oracle用戶的權(quán)限一致;
后備系統(tǒng)與主系統(tǒng)的Oracle數(shù)據(jù)庫(kù)版本一致;
后備系統(tǒng)與主系統(tǒng)的Oracle數(shù)據(jù)庫(kù)配置文件一致。
采用Oracle Data Guard建設(shè)容災(zāi)方案有以下優(yōu)點(diǎn):
完全通過(guò)Oracle數(shù)據(jù)庫(kù)機(jī)制來(lái)實(shí)現(xiàn),完全不依賴于其它軟件和底層存儲(chǔ)平臺(tái);
可以滿足用戶的不同性能、數(shù)據(jù)保護(hù)要求,提供多種不同數(shù)據(jù)保護(hù)模式;
可以實(shí)現(xiàn)一對(duì)多的數(shù)據(jù)復(fù)制,提供多重保護(hù);
后備數(shù)據(jù)庫(kù)可以在很短的時(shí)間內(nèi)提升到生產(chǎn)狀態(tài)(因?yàn)閿?shù)據(jù)庫(kù)已經(jīng)在運(yùn)行);
基于IP網(wǎng)絡(luò),沒(méi)有距離限制;
同時(shí),采用Oracle Data Guard建設(shè)容災(zāi)方案有以下限制:
Oracle Data Guard的三種模式都將對(duì)生產(chǎn)數(shù)據(jù)庫(kù)系統(tǒng)的性能產(chǎn)生影響,因而需要更多的處理資源;
后備數(shù)據(jù)庫(kù)不可用,如果用戶需要在遠(yuǎn)程數(shù)據(jù)中心使用生產(chǎn)數(shù)據(jù)給開發(fā)測(cè)試、DW/BI應(yīng)用使用將非常困難;
只能對(duì)Oracle數(shù)據(jù)庫(kù)數(shù)據(jù)提供保護(hù),不能對(duì)其它應(yīng)用數(shù)據(jù)—如文件應(yīng)用等提供災(zāi)難保護(hù);
管理復(fù)雜,需要大量的人工干預(yù)過(guò)程,并且要精通數(shù)據(jù)庫(kù)恢復(fù)技術(shù),容易發(fā)生錯(cuò)誤;
難以實(shí)現(xiàn)大數(shù)據(jù)量源數(shù)據(jù)庫(kù)和目標(biāo)數(shù)據(jù)庫(kù)初次同步,沒(méi)有相應(yīng)解決方案;
業(yè)界其它基于應(yīng)用的的容災(zāi)方案的優(yōu)點(diǎn)和局限性與Oracle Data Guard模式基本相同,如Golden Gate和Quest Shareplex軟件,下面也介紹一下:
其實(shí)現(xiàn)原理和Oracle DataGuard類似,針對(duì)數(shù)據(jù)庫(kù)的日志進(jìn)行數(shù)據(jù)的增量復(fù)制,通過(guò)Queue技術(shù)來(lái)保證傳輸?shù)目煽啃?。其方案?yōu)勢(shì)是:
同Oracle DataGuard相同的缺點(diǎn)(見上面部分)
更加靈活,此方案不依賴于主機(jī)系統(tǒng)平臺(tái),在主生產(chǎn)主機(jī)和備用節(jié)點(diǎn)主機(jī)不同的情況更具有優(yōu)勢(shì);
缺點(diǎn)是:
同Oracle DataGuard相同的缺點(diǎn)(見上面部分)
只能是異步模式(基于日志和Queue技術(shù)),不適合于同城容災(zāi)和高要求的容災(zāi)要求,如的零數(shù)據(jù)丟失要求;
Oracle對(duì)此技術(shù)方案不宣布技術(shù)支持和問(wèn)題處理,因此提高了此容災(zāi)方案的風(fēng)險(xiǎn);
3.6 容災(zāi)方案涉及內(nèi)容
根據(jù)的現(xiàn)狀評(píng)估、需求分析和技術(shù)選型的結(jié)果,容災(zāi)技術(shù)方案設(shè)計(jì)將需要包含以下內(nèi)容:
容災(zāi)總體架構(gòu)設(shè)計(jì)
存儲(chǔ)級(jí)容災(zāi)數(shù)據(jù)復(fù)制方案設(shè)計(jì)
應(yīng)用級(jí)別(或其它方式)的數(shù)據(jù)復(fù)制方案設(shè)計(jì)
SAN網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)
IP網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)
主機(jī)及應(yīng)用部署方案
系統(tǒng)調(diào)優(yōu)(根據(jù)需要選擇)
數(shù)據(jù)遷移方案
存儲(chǔ)部署規(guī)劃
備份系統(tǒng)設(shè)計(jì)(根據(jù)需要)
機(jī)房設(shè)計(jì)或機(jī)房環(huán)境要求。
等等
3.7 小結(jié)
基于應(yīng)用的容災(zāi)方案、基于主機(jī)的容災(zāi)方案和基于存儲(chǔ)(包括虛擬存儲(chǔ)技術(shù))的容災(zāi)方案都有各自的適用范圍,適用于不同的災(zāi)難保護(hù)需要。用戶需要根據(jù)具體的實(shí)際需求來(lái)選擇合適的容災(zāi)保護(hù)方案。
不同的用戶不同的業(yè)務(wù)系統(tǒng)、不同應(yīng)用對(duì)容災(zāi)的要求不同,要求不同的容災(zāi)服務(wù)等級(jí)。EMC在未來(lái)將按照科學(xué)流程和方法,并利用EMC公司在信息存儲(chǔ)管理領(lǐng)域的專業(yè)技能和經(jīng)驗(yàn)為用戶進(jìn)行IT環(huán)境的評(píng)估和業(yè)務(wù)影響分析,發(fā)掘客戶業(yè)務(wù)需求對(duì)容災(zāi)技術(shù)的要求,從而建議最合適的容災(zāi)方案。
對(duì)企業(yè)而言,選擇容災(zāi)方案既要考慮選擇合適技術(shù)方案,也需要考查實(shí)現(xiàn)該方案的產(chǎn)品在技術(shù)上是否成熟、可靠,性能和靈活性是否滿足要求,同時(shí)也需要考查提供該解決方案的供應(yīng)商是否有豐富的經(jīng)驗(yàn)和認(rèn)證的技能來(lái)保證方案的確實(shí)可行并能夠成功實(shí)施。
EMC公司在容災(zāi)領(lǐng)域有領(lǐng)先的技術(shù)并已經(jīng)得到了廣大用戶的實(shí)際應(yīng)用檢驗(yàn),方案的可行性、產(chǎn)品的成熟度、穩(wěn)定性、可靠性、靈活性都的到了大量實(shí)際應(yīng)用的考驗(yàn)。EMC的技術(shù)服務(wù)隊(duì)伍已經(jīng)在眾多容災(zāi)項(xiàng)目成功實(shí)施過(guò)程中表現(xiàn)出強(qiáng)大的技術(shù)力量,能夠確保用戶容災(zāi)方案的成功實(shí)施。
第四章 容災(zāi)通信鏈路設(shè)計(jì)
容災(zāi)通信鏈路設(shè)計(jì)是容災(zāi)系統(tǒng)建設(shè)非常重要的部分,也是容災(zāi)方案設(shè)計(jì)的難點(diǎn)、要點(diǎn)之一,所以單列本章節(jié)進(jìn)行闡述。
4.1 通信鏈路設(shè)計(jì)概述
下面是針對(duì)鏈路設(shè)計(jì)的相關(guān)技術(shù)介紹,供參考:
基于主機(jī)或基于應(yīng)用的容災(zāi)技術(shù)來(lái)建設(shè)容災(zāi)系統(tǒng),則將采用標(biāo)準(zhǔn)的IP網(wǎng)絡(luò)連接,通信鏈路可以是ATM、E1/E3、IP等;如果采用基于存儲(chǔ)或虛擬存儲(chǔ)的技術(shù)來(lái)建設(shè)容災(zāi)方案,則可以采用Fibre Channel、ESCON、DWDM、SONET等通信鏈路,也可以通過(guò)FCIP設(shè)備利用ATM、E1/E3、IP等通信鏈路。
不同的通信鏈路有不同的要求,如距離限制、帶寬能力等;而不同的容災(zāi)技術(shù)、不同的容災(zāi)應(yīng)用對(duì)通信鏈路的要求不同;采用同步方式或采用異步方式進(jìn)行數(shù)據(jù)復(fù)制對(duì)通信鏈路的要求也大不相同。
對(duì)于一個(gè)容災(zāi)方案,無(wú)論采用哪種復(fù)制技術(shù),都需要解決以下問(wèn)題.
在我當(dāng)前選擇的容災(zāi)中心距離的情況下:
我需要哪種鏈路? 需要多少條?成本如何?
這么遠(yuǎn)的距離對(duì)應(yīng)用影響是什么? 如采用同步方式,響應(yīng)時(shí)間是否太長(zhǎng)?I/O數(shù)量能否滿足?
如采用異步方式,我的RPO是多少?需要配多大的Cache量?
設(shè)計(jì)的鏈路是否一定滿足預(yù)期的目標(biāo)?
根據(jù)用戶的不同要求進(jìn)行科學(xué)的通信鏈路設(shè)計(jì)是保障用戶在合理的通信成本下成功實(shí)現(xiàn)容災(zāi)系統(tǒng)建設(shè)的重要步驟之一。
4.2 容災(zāi)通信鏈路的比較
當(dāng)前業(yè)界容災(zāi)方案的通訊鏈路基本采用有“裸光纖直連交換機(jī)方式、通過(guò)DWDM設(shè)備連接裸光纖方式、IP網(wǎng)絡(luò)方式”等,每種方式各有利弊,以下對(duì)不同通信鏈路方式進(jìn)行比較。
通過(guò)裸光纖直連交換機(jī),采用FC協(xié)議
采用FC協(xié)議的通信鏈路只適用于基于存儲(chǔ)復(fù)制或虛擬存儲(chǔ)復(fù)制的容災(zāi)方案。在這類方案中,生產(chǎn)中心與備份中心的光纖交換機(jī)通過(guò)裸光纖直連,如下圖所示:
裸光纖直連交換機(jī)的通信鏈路模式
兩個(gè)中心存儲(chǔ)系統(tǒng)的容災(zāi)端口通過(guò)光纖交換機(jī)和裸光纖進(jìn)行連接,可以保證同步或異步數(shù)據(jù)復(fù)制的性能。為保證高可用,通常采用冗余連接鏈路設(shè)計(jì)。容災(zāi)鏈路裸光纖可以和生產(chǎn)主機(jī)共享SAN交換機(jī),也可以獨(dú)立SAN交換機(jī)(也需要冗余)或SAN Router。通常為避免容災(zāi)鏈路通信和主機(jī)訪問(wèn)存儲(chǔ)的相互干擾,采用獨(dú)立的SAN來(lái)連接容災(zāi)通信鏈路的方式采用較多。
不同容災(zāi)方案需要的通信鏈路數(shù)量是不同的,具體需要鏈路的條數(shù)(即帶寬要求)需要具體分析、計(jì)算獲得。
通過(guò)CWDM/DWDM設(shè)備直連裸光纖
采用密集波分復(fù)用技術(shù),可以加載多協(xié)議,例如FC協(xié)議、IP協(xié)議,如下圖所示:
采用CWDM/DWDM設(shè)備的通信鏈路模式
如上圖所示, 通過(guò)CWDM/DWDM技術(shù),主數(shù)據(jù)中心和容災(zāi)數(shù)據(jù)中心的IP網(wǎng)絡(luò)連接、FC連接都可以復(fù)用到共享裸光纖,比較好的解決了裸光纖的利用率和多協(xié)議復(fù)用的問(wèn)題。為避免單點(diǎn)故障,同樣可以采用冗余連接、沒(méi)有單點(diǎn)故障的解決方案。同時(shí),采用CWDM/DWDM方式有更多的拓?fù)浞桨?,需要在具體設(shè)計(jì)時(shí)進(jìn)行分析后確定。
利用IP網(wǎng)絡(luò),采用ATM或E1、E3線路
采用基于主機(jī)和基于應(yīng)用的容災(zāi)方案可以直接利用IP網(wǎng)絡(luò),在此不再多加說(shuō)明。采用“基于存儲(chǔ)或基于虛擬存儲(chǔ)”的容災(zāi)技術(shù)將需要進(jìn)行FC協(xié)議到IP協(xié)議的轉(zhuǎn)換,從而將FC加載在IP網(wǎng)絡(luò)中傳輸。此方案采用國(guó)際流行的IP網(wǎng)絡(luò)協(xié)議和鏈路,通過(guò)FC/IP轉(zhuǎn)換設(shè)備(例如Nishan),將FC通道協(xié)議打包在IP數(shù)據(jù)包內(nèi),通過(guò)IP鏈路傳輸,理論上沒(méi)有距離的限制,適用于遠(yuǎn)程異步數(shù)據(jù)復(fù)制,是性價(jià)比很好的選擇。連接示意圖如下:
采用FC到IP設(shè)備的通信鏈路模式
各種種通信鏈路所提供的帶寬(只供參考)
線路類型 | 理論帶寬 | 實(shí)際帶寬 | 復(fù)制1TB所需時(shí)間 |
T1 | 1.544 | 1.08 | 85天 |
T3 | 45 | 31.31 | 71小時(shí) |
100bT | 100 | 70.00 | 31.7小時(shí) |
OC3 | 155 | 108.50 | 20.4小時(shí) |
OC12 | 622 | 435.40 | 5.1小時(shí) |
千兆以太網(wǎng) | 1000 | 800 | 2.9小時(shí) |
OC48 | 2488 | 1741.60 | 1.2小時(shí) |
OC192 | 9953 | 6967.10 | 19分鐘 |
T1 - 1.544 megabits per second
T3 - 43.232 megabits per second (28 T1s)
OC3 - 155 megabits per second (84 T1s)
OC12 - 622 megabits per second (4 OC3s)
OC48 - 2.5 gigabits per seconds (4 OC12s)
OC192 - 9.6 gigabits per second (4 OC48s)
4.3 容災(zāi)通信鏈路帶寬估算
存儲(chǔ)系統(tǒng)的性能配置要求和通信鏈路帶寬要求需要根據(jù)用戶的數(shù)據(jù)中心的實(shí)際情況進(jìn)行分析計(jì)算決定。準(zhǔn)確地估算用戶的容災(zāi)通信鏈路的帶寬要求需要對(duì)各中心需要容災(zāi)保護(hù)的應(yīng)用的I/O負(fù)載進(jìn)行數(shù)據(jù)收集,采集各應(yīng)用I/O特征、負(fù)載大小,尤其是寫I/O的數(shù)據(jù),利用所收集的寫I/O數(shù)據(jù)并結(jié)合所采用的容災(zāi)數(shù)據(jù)復(fù)制技術(shù)以及數(shù)據(jù)復(fù)制模式(同步、異步)、應(yīng)用恢復(fù)的RTO/RPO要求來(lái)計(jì)算容災(zāi)通信鏈路的帶寬要求。
EMC公司提供標(biāo)準(zhǔn)的方法和工具為客戶進(jìn)行容災(zāi)數(shù)據(jù)復(fù)制通信鏈路的設(shè)計(jì),通常按以下步驟來(lái)估算容災(zāi)方案的通信鏈路帶寬需求:
當(dāng)前生產(chǎn)中心I/O性能數(shù)據(jù)收集
主要收集需要進(jìn)行容災(zāi)保護(hù)的應(yīng)用、主機(jī)存儲(chǔ)的I/O性能數(shù)據(jù)。數(shù)據(jù)的收集從兩方面獲得:
從主機(jī)上獲得I/O性能數(shù)據(jù)(如在UNIX平臺(tái)上可利用IOSTAT,SAR可得到I/O性能數(shù)據(jù);在Windows服務(wù)器上可利用Perfmon工具獲得Windows服務(wù)器的I/O性能數(shù)據(jù));
從存儲(chǔ)平臺(tái)上獲得I/O性能數(shù)據(jù),通過(guò)存儲(chǔ)平臺(tái)的性能采集工具可以獲得訪問(wèn)存儲(chǔ)的每個(gè)LUN上的I/O分布情況,包括I/O特征(EMC提供完整的工具收集存儲(chǔ)平臺(tái)的I/O性能信息)。
利用EMC設(shè)計(jì)軟件過(guò)濾I/O性能數(shù)據(jù),得到I/O寫的數(shù)據(jù)
容災(zāi)通信鏈路的設(shè)計(jì)與I/O寫的性能要求相關(guān),只有寫I/O才復(fù)制到遠(yuǎn)程容災(zāi)中心,因此寫I/O的特征及負(fù)荷決定了鏈路的要求。此過(guò)程將過(guò)濾無(wú)關(guān)數(shù)據(jù)(如非關(guān)鍵應(yīng)用的I/O—不需要容災(zāi)),得到每秒寫I/O次數(shù),不同應(yīng)用類型的平均I/O塊大小,是否有調(diào)優(yōu)的需要等。下圖是通過(guò)EMC工具獲得的寫I/O性能數(shù)據(jù)參考樣本。
I/O寫性能數(shù)據(jù)參考樣本(EMC工具收集)
根據(jù)采集的I/O寫性能數(shù)據(jù)估算客戶應(yīng)用的總體峰值帶寬和平均帶寬
根據(jù)容災(zāi)鏈路類型,連接方案估算容災(zāi)通信的“延時(shí)”
要考慮不同通信協(xié)議的額外開銷以及物理鏈路帶來(lái)的“延時(shí)”。
估計(jì)未來(lái)性能增長(zhǎng)要求和需要預(yù)留的峰值空間
通信鏈路的設(shè)計(jì)(包括所有能力規(guī)劃)都需要考慮未來(lái)業(yè)務(wù)的增長(zhǎng),并預(yù)留增長(zhǎng)空間。
確定同步復(fù)制模式還是異步復(fù)制模式,如選擇異步復(fù)制模式,則需要確定RPO要求(最多允許丟失多少數(shù)據(jù))--根據(jù)RPO要求和業(yè)務(wù)的I/O量可以設(shè)計(jì)鏈路需求;也可以根據(jù)現(xiàn)有鏈路情況,結(jié)合業(yè)務(wù)的I/O量分析可以實(shí)現(xiàn)的RPO能力以及在源數(shù)據(jù)端需要為異步復(fù)制額外增加的Cache開銷。
利用EMC的專門工具進(jìn)行設(shè)計(jì)
根據(jù)不同復(fù)制模式,將收集的I/O性能等參數(shù)輸入到EMC工具中,同時(shí)考慮鏈路容余的要求,將可以為客戶計(jì)算出所需要的帶寬要求。
EMC公司未來(lái)將采用以上方法為用戶進(jìn)行容災(zāi)鏈路設(shè)計(jì),該方法已經(jīng)在很多EMC為重要提供的容災(zāi)方案中得到應(yīng)用并獲得成功。利用EMC科學(xué)的鏈路設(shè)計(jì)方法及獨(dú)到的設(shè)計(jì)工具,EMC將能夠?yàn)?/span>用戶提出合理的鏈路規(guī)劃方案,為成功實(shí)施容災(zāi)方案奠定基礎(chǔ)。
4.4 EMC容災(zāi)數(shù)據(jù)復(fù)制方案設(shè)計(jì)工具簡(jiǎn)介
EMC公司根據(jù)已經(jīng)為廣大高端用戶提供容災(zāi)建設(shè)的經(jīng)驗(yàn),開發(fā)設(shè)計(jì)了專門的工具—ET Tools,用來(lái)做容災(zāi)數(shù)據(jù)復(fù)制方案的設(shè)計(jì)。該工具利用用戶當(dāng)前的業(yè)務(wù)I/O情況和用戶的服務(wù)水平要求可以分析設(shè)計(jì)復(fù)制方案中的關(guān)鍵要求:通信鏈路帶寬和復(fù)制平臺(tái)(如主機(jī)或存儲(chǔ))的處理能力。也可以用來(lái)評(píng)估用戶在受限的通信條件下所能達(dá)到的RPO要求。該工具在未來(lái)用作用戶容災(zāi)技術(shù)平臺(tái)服務(wù)水平的評(píng)估工具,可以定期進(jìn)行I/O性能統(tǒng)計(jì)、分析性評(píng)估容災(zāi)數(shù)據(jù)復(fù)制平臺(tái)是否滿足不斷變化了的業(yè)務(wù)發(fā)展要求。