網(wǎng)絡變更管理是一個旨在降低變更失敗的可能性和風險的過程。這個過程需要幾個步驟來確保成功的改變,但是每個步驟是如何工作的呢?
飛機飛行員使用明確定義的流程來確保安全飛行。同樣,網(wǎng)絡團隊可以使用定義好的流程來降低網(wǎng)絡變更失敗的風險意外停機。盡管如此,組織有時會發(fā)現(xiàn)變化沒有按計劃進行,導致網(wǎng)絡中斷。一些中斷是由于過程失敗,而另一些是由于復雜配置的不明顯的結(jié)果。
本文討論了網(wǎng)絡變更管理的基本操作原則,如下所示:
- 范圍確定和風險分析。
- 同行評議。
- 部署前測試和驗證。
- 實施和測試。
- 文檔更新。
在進入變更管理流程之前,網(wǎng)絡團隊必須確定變更的詳細信息,例如新配置、設備連接信息和文檔。
1.范圍和風險分析
網(wǎng)絡變更管理流程的第一步是評估提議變更的范圍。確定哪些服務可能會受到影響,以及使用這些服務的利益相關者。考慮變更的潛在范圍和影響,包括任何可能的負面結(jié)果。
團隊應該根據(jù)以下兩個因素來衡量范圍:
- 受變更影響的端點數(shù)量。
- 變更可能影響的服務的重要性。
一旦團隊確定了范圍,他們應該執(zhí)行風險評估的變化。是不是過去做過無數(shù)次的事情,很好理解?它是完全自動化的,還是有可能人為錯誤會以一種意想不到的方式改變變更?所涉及的技術是否被很好地理解,或者是否有可能發(fā)生意想不到的事情?
變化的范圍與風險成正比。對運行關鍵業(yè)務流程的基礎架構(gòu)的更改比對小型分支機構(gòu)站點的更改給業(yè)務帶來的風險更大。
網(wǎng)絡團隊可以使用風險因素計算器,為關鍵參數(shù)賦值。要創(chuàng)建風險計算器,請計算以下示例參數(shù)的平均值,或在網(wǎng)上搜索計算器:
- 客戶會看到效果嗎?(否= 1,是= 10)
- 有多少客戶會受到影響?(范圍從1到10)
- 范圍內(nèi)的服務有多重要?(范圍從1到10)
- 這種改變在過去成功實施過嗎?(是= 1,否= 10)
- 變更是自動化的嗎?(范圍從1到10,取決于自動化程度)
- 在實施之前,是否可以徹底測試變更?(是= 1,否= 10)
- 供應商文件是否清晰明確?(范圍從1到10)
- 同行評審是否徹底,是否暴露了任何潛在的問題?(范圍從1到10)
風險越大,團隊在剩余的變更管理過程中就需要越小心。確保團隊有清晰的變更控制文檔,詳細說明任何變更的理由、回滾程序和范圍。
2.同行審查
下一步是進行同行評審。雖然團隊可以在風險分析之前執(zhí)行這一步驟,但是最好使用風險級別來推動同行評審的徹底性。所有的同行評審應該是相當徹底的,但是團隊很可能對常規(guī)變更進行粗略的評審,例如訪問控制列表變更或虛擬局域網(wǎng)修改。自動化測試并且常規(guī)變更的部署可以幫助減輕粗略的同行評審的風險。
通常,熟悉網(wǎng)絡的內(nèi)部員工會進行同行評審。然而,如果一個改變是不尋常的,讓設備供應商的專家來執(zhí)行審查是有意義的。審查應該反饋到風險分析階段,并更新技術風險度量,例如指出測試和文檔是否足夠。
同行評審員在評審過程中應檢查以下因素,其中包括:
- 配置腳本。
- 硬件和軟件兼容性。
- 回滾程序。
- 改變基本原理。
- 業(yè)務需要。
- 網(wǎng)絡安全和合規(guī)性。
- 模板和文檔。
3.部署前測試和驗證
理想情況下,所有變更都要經(jīng)過部署前測試和驗證階段。考慮自動化低風險的、重復的任務和變更,以消除跳過團隊認為低風險的變更測試的誘惑。范圍和風險越大,正確測試和驗證提議的變更就越重要。
虛擬路由器和交換機操作系統(tǒng)實例的流行使得自動創(chuàng)建測試網(wǎng)絡拓撲變得更加容易,而無需昂貴的硬件投資。使用網(wǎng)絡實驗室和沙箱在虛擬網(wǎng)絡拓撲中構(gòu)建自動化工作流,當測試成功完成時,團隊可以拆除這些工作流。
部署前測試包括團隊應該遵循的幾個步驟,以評估提議的更改:
- 檢驗測試網(wǎng)絡在變更前是否按預期工作。
- 在測試基礎設施中實現(xiàn)變更,以確認變更會導致期望的最終狀態(tài)。團隊應該使用自動化過程來避免人為錯誤,并減少驗證變更的時間。如果測試環(huán)境中的驗證失敗,請確定原因。失敗是因為更改不正確,還是因為測試網(wǎng)絡沒有準確代表真實網(wǎng)絡?
- 測試回退更改過程,以便在出現(xiàn)問題時可以很容易地恢復到以前的狀態(tài)?;貪L應該將網(wǎng)絡返回到開始狀態(tài),團隊可以通過重復步驟1來驗證這一點。
4.實施和測試
部署和部署后測試和驗證應遵循與部署前測試的步驟1和2相同的流程。如果團隊在部署前測試和驗證方面做得很好,就不會發(fā)生意外。如果變更后測試檢測到意外問題,團隊應該取消變更并驗證服務恢復。
一些網(wǎng)絡協(xié)議在更改為大型網(wǎng)絡后需要更多時間來收斂。因此,變更后驗證應該包含延遲或收斂測試,這是小型測試環(huán)境中的部署前測試所不需要的。
許多組織將網(wǎng)絡配置變更自動化,目標是遷移到基于基礎設施即代碼的DevOps文化。目標是通過一項連續(xù)累計/針對低風險變更的連續(xù)交付測試和部署流程。
5.文檔和網(wǎng)絡管理更新
理想情況下,團隊在變更創(chuàng)建過程中創(chuàng)建和更新文檔,使他們能夠?qū)彶槲臋n和網(wǎng)絡管理變更以及變更的細節(jié)。一旦團隊實施并驗證了更改,他們就可以將文檔更改合并到網(wǎng)絡文檔系統(tǒng)中。
不要忘記根據(jù)需要更新網(wǎng)絡管理系統(tǒng)。大多數(shù)網(wǎng)絡管理系統(tǒng)都有API來支持自動化流程進行更改。
如果更改驗證步驟是自動化的,則可以將其合并到定期網(wǎng)絡驗證檢查中。這些定期檢查可以高度檢測故障冗余和彈性網(wǎng)絡。隨著時間的推移,團隊會構(gòu)建一個涵蓋網(wǎng)絡許多部分的網(wǎng)絡驗證檢查庫。
良好的網(wǎng)絡變更管理原則為減少因變更失敗而導致的計劃外網(wǎng)絡中斷提供了指導。團隊應該創(chuàng)建一個適合他們組織的過程,并努力使該過程高效。