沒人愿意想到自己的技術(shù)會失效。但當您的業(yè)務(wù)處于危險之中時,這正是您應(yīng)該考慮的問題。在基礎(chǔ)設(shè)施領(lǐng)域,有一個普遍的真理。技術(shù)會失效。如果還沒有失效,那只是時間問題。
因此,無論您為托管支付多少費用,都建議建立一個內(nèi)置安全網(wǎng),以防出現(xiàn)問題。
這個安全網(wǎng)就是服務(wù)器冗余。
在本博客中,我們討論了什么是服務(wù)器冗余,并分享了四種在基礎(chǔ)設(shè)施生態(tài)系統(tǒng)中改善冗余的方法。從服務(wù)器內(nèi)冗余開始,一直到全面的災(zāi)難恢復(fù),我們將提供一些關(guān)于如何降低服務(wù)器故障風(fēng)險并實現(xiàn)基礎(chǔ)設(shè)施彈性的技巧。
什么是服務(wù)器冗余?
服務(wù)器冗余意味著建立冗余系統(tǒng)以防止數(shù)據(jù)丟失和/或服務(wù)器故障。例如,通過設(shè)置一個或多個備份服務(wù)器來支持主服務(wù)器。如果主服務(wù)器發(fā)生故障,冗余服務(wù)器將接管,以便您的網(wǎng)站或應(yīng)用程序保持在線。
如何通過 4 個步驟改善服務(wù)器冗余
1.服務(wù)器內(nèi)冗余
人們普遍誤以為選擇最先進的數(shù)據(jù)中心就足以保證基礎(chǔ)設(shè)施的穩(wěn)固。實際上,服務(wù)器冗余更多地取決于單個服務(wù)器設(shè)置的設(shè)計。
安裝RAID(獨立磁盤冗余陣列)是平臺可以采取的最簡單的措施之一,可以提高其基礎(chǔ)設(shè)施堆棧的彈性。RAID 是一種數(shù)據(jù)存儲系統(tǒng),可以在軟件或硬件級別實施,以提供冗余和性能優(yōu)勢。
有許多不同的 RAID 級別可供選擇(RAID 0、1、5、6 和 10 是最常用的)。所有 RAID 級別都是通過將數(shù)據(jù)存儲在多個驅(qū)動器上來工作的,但方法各不相同。由于這些差異,特定的 RAID 級別將更適合某些工作,具體取決于應(yīng)用程序的個別要求。
有關(guān)不同 RAID 級別的更多信息,您可以查閱下表。
使用在線RAID 計算器可以幫助您進行 RAID 規(guī)劃,讓您根據(jù)輸入的 RAID 參數(shù)(磁盤數(shù)量、單個磁盤大小、RAID 類型)計算存儲陣列的容量、速度增益和容錯能力。
提高服務(wù)器內(nèi)冗余度的其他因素包括:
- 雙電源 (PSU)。顧名思義,這意味著您的服務(wù)器上有兩個電源。因此,如果一個電源發(fā)生故障,另一個可以接管。
- 投資于更強大的網(wǎng)絡(luò)冗余。在服務(wù)器上激活額外的網(wǎng)絡(luò)交換機可確保如果一個交換機發(fā)生故障,冗余交換機可接管并且網(wǎng)絡(luò)仍可正常運行。
即使是高性能服務(wù)器也需要內(nèi)置冗余。結(jié)合所有這些措施將使單個服務(wù)器盡可能地冗余。但是,為了進一步增加冗余,企業(yè)需要以備份的形式提供超出單個服務(wù)器的額外容量。
2.備份
為了實現(xiàn)更高級別的基礎(chǔ)設(shè)施冗余,單個服務(wù)器上的數(shù)據(jù)應(yīng)備份到單獨的備份服務(wù)器或存儲設(shè)備中。備份服務(wù)器可以位于同一個數(shù)據(jù)大廳、不同的數(shù)據(jù)大廳或物理上不同的位置(輔助站點)。
分別地,每個選項都提供了更高級別的冗余。
備份服務(wù)器或存儲設(shè)備應(yīng)持續(xù)更新(每小時、每天、每周),并形成應(yīng)用程序數(shù)據(jù)的副本。如果主服務(wù)器出現(xiàn)故障,備份服務(wù)器或存儲設(shè)備上會有該數(shù)據(jù)及其版本歷史記錄的安全副本。
備份可防止服務(wù)器級別的物理故障、開發(fā)人員的錯誤以及(在二級站點備份的情況下)數(shù)據(jù)大廳內(nèi)火災(zāi)等環(huán)境威脅。但是,即使備份到位,事故發(fā)生后應(yīng)用程序也可能需要數(shù)周時間才能恢復(fù)在線狀態(tài)。
3.多服務(wù)器彈性
一些平臺選擇使用多個專用服務(wù)器來處理其彈性。在這些情況下,在兩個或多個應(yīng)用程序服務(wù)器之間放置負載平衡器將有助于提高服務(wù)器冗余度。
負載平衡將流量分配到多個服務(wù)器,因此如果其中一個服務(wù)器出現(xiàn)故障,則另一個服務(wù)器可以保持網(wǎng)站或應(yīng)用程序的運行。負載平衡器使應(yīng)用程序能夠擴展到單個服務(wù)器的容量之外。
相比之下,如果您希望提高數(shù)據(jù)庫軟件的彈性,則需要配置額外的數(shù)據(jù)庫服務(wù)器作為高可用性 (HA) 主動-被動對。主動-被動可用性意味著數(shù)據(jù)庫有一個可以處理請求的主動節(jié)點和一個可以在災(zāi)難中接管的熱備用節(jié)點。
4.災(zāi)難恢復(fù)規(guī)劃
無論您的基礎(chǔ)設(shè)施是由最便宜還是最昂貴的提供商托管,位于評級最差還是最高的數(shù)據(jù)中心,如果您真的想降低風(fēng)險,就應(yīng)該制定災(zāi)難恢復(fù)計劃。
災(zāi)難恢復(fù)計劃是組織為處理意外事件而制定的正式程序。基礎(chǔ)設(shè)施災(zāi)難恢復(fù)計劃將包括處理緊急情況的措施,例如物理建筑物損壞、網(wǎng)絡(luò)攻擊、服務(wù)器故障、硬件故障和其他硬件問題。
創(chuàng)建災(zāi)難恢復(fù)計劃時,有兩個關(guān)鍵參數(shù)。它們是恢復(fù)時間目標 (RTO) 和恢復(fù)點目標 (RPO)。
- RTO:這是衡量應(yīng)用程序在對企業(yè)造成重大損害之前可以停機的“實際時間”的指標。這是企業(yè)在沒有基礎(chǔ)設(shè)施的情況下可以生存多久的閾值。關(guān)鍵任務(wù)應(yīng)用程序的 RTO 非常短,而不太重要的應(yīng)用程序通常可以承受較長的 RTO。
- 要計算您的 RTO,您需要確定您的企業(yè)可以承受多少停機時間、系統(tǒng)恢復(fù)的預(yù)算以及實現(xiàn)完整系統(tǒng)恢復(fù)所需的工具。
- RPO:這是企業(yè)在意外事件發(fā)生后可以承受的最大數(shù)據(jù)丟失量的時間度量。RPO 實際上是可接受的最大數(shù)據(jù)丟失量,以自最近一次可靠數(shù)據(jù)備份以來經(jīng)過的時間來衡量。
大型組織通常需要從故障點進行備份。要計算您的 RPO,您需要確定關(guān)鍵數(shù)據(jù)的更新頻率、備份頻率以及備份的存儲容量。
沒有人愿意考慮最壞的情況,甚至更少有人愿意為可能發(fā)生或可能不會發(fā)生的服務(wù)器故障付費。正因為如此,許多組織忽視了災(zāi)難恢復(fù)規(guī)劃。但即使是最好的技術(shù)也容易出現(xiàn)故障,因此 RTO 和 RPO 都是確保意外事件后快速恢復(fù)的關(guān)鍵。
做好最壞的打算——你不會后悔的
提前規(guī)劃可防止性能不佳。這也適用于您的基礎(chǔ)設(shè)施。無論我們是否喜歡,硬件問題都會出現(xiàn),服務(wù)器故障會發(fā)生,環(huán)境危害也存在。
采取措施改善基礎(chǔ)設(shè)施冗余意味著當最壞的情況發(fā)生時,您將擁有足夠的資源來保持您的網(wǎng)站或應(yīng)用程序在線。