1. 備份是不能獨(dú)立數(shù)據(jù)容器存在,永遠(yuǎn)構(gòu)建于存儲之上 555ed586ec3cc
存 儲是數(shù)據(jù)保存容器的統(tǒng)稱,比如軟盤,光盤,磁盤,磁盤陣列,中小規(guī)模業(yè)務(wù)用的NAS,專業(yè)的磁帶庫,專業(yè)的光纖存儲網(wǎng)絡(luò)SAN。存儲容量從幾MB,到上 100TB,甚至P級。最近幾年出現(xiàn)新的一種方案,云存儲,其本身也分為個(gè)人用途和企業(yè)用途的。個(gè)人數(shù)據(jù)存儲用途比如百度網(wǎng)盤, 360網(wǎng)盤,DropBox等,通稱保存?zhèn)€人的一些資圖片,文檔等;企業(yè)用途的如AWS的S3, 阿里云的OSS,以及七牛云存儲,又拍云,金山云的云存儲等,通常用于關(guān)鍵業(yè)務(wù)系統(tǒng),比如用戶產(chǎn)生的文檔,圖片,視頻等數(shù)據(jù)存儲。云存儲有個(gè)好處是可以動 態(tài)擴(kuò)展存儲空間,平臺提供商由于采用低成本硬盤等方案,采用分布式技術(shù),把本身廉價(jià)的硬盤聚集起來,構(gòu)建成1個(gè)具備較高可靠性的存儲方案; 一些大平臺,當(dāng)具備規(guī)模效應(yīng)后,平攤到用戶,TCO成本會低不少,這是傳統(tǒng)存儲方案比較軟肋的一個(gè)地方。
 
備份是一種數(shù)據(jù)保護(hù)的機(jī)制和方案,其實(shí)現(xiàn)必須依賴于具體的存儲容器。目前在備份這塊的市場有非常多的品牌,如 Symantec 的NBU ,CommVault的備份產(chǎn)品,IBM的TSM,EMC的NetWorker,還有專注混合云數(shù)據(jù)備份保護(hù)服務(wù)的多備份。備份通常用于保護(hù)業(yè)務(wù)系統(tǒng)產(chǎn)生 的核心數(shù)據(jù)或個(gè)人重要的數(shù)據(jù)。一般的備份系統(tǒng),通常會與硬件存儲設(shè)備搭配組合成備份方案。多備份目前是構(gòu)建在阿里云存儲,AWS的S3,七牛,以及金山 云,百度云等云存儲之上,所有備份的數(shù)據(jù)會存儲在這些大存儲平臺上。
  2. 存儲通常解決地理空間的訪問問題;而備份解決地理空間上的冗余保存問題 555ed36b7ffd5
我們工作用的WORD軟件,如果沒有數(shù)據(jù)存儲介質(zhì),編輯產(chǎn)生的文檔無法保存,配上IDE或SATA硬盤后,應(yīng)用軟件產(chǎn)生的數(shù)據(jù)可以很快保存在硬盤上。這是一個(gè)簡單的硬盤存儲支持軟件工作的例子。一旦本地硬盤如果壞掉,努力工作一周的成功,可能得重新再來。
通 常的重要業(yè)務(wù)系統(tǒng)架構(gòu)設(shè)計(jì)的時(shí)候,會充分考慮存儲方案的構(gòu)成,什么樣的業(yè)務(wù)系統(tǒng),在幾個(gè)位置,數(shù)據(jù)如何分布,需要的容量,擴(kuò)展需求等進(jìn)行規(guī)劃設(shè)計(jì),重點(diǎn)解 決業(yè)務(wù)系統(tǒng)不斷增長的數(shù)據(jù)存儲問題。一般會就近業(yè)務(wù)應(yīng)用服務(wù)器來部署存儲架構(gòu)。不管是云存儲,還是傳統(tǒng)的存儲架構(gòu),都有1個(gè)目標(biāo),讓業(yè)務(wù)系統(tǒng),在不同的位 置和存儲在空間上的訪問是穩(wěn)定連續(xù)進(jìn)行的。
數(shù)據(jù)在一個(gè)地方始終是不可靠,機(jī)房斷電,線路故障,硬件故 障,火災(zāi)等,特別對于重要業(yè)務(wù)系統(tǒng),如支付系統(tǒng),一旦業(yè)務(wù)系統(tǒng)為了保持業(yè)務(wù)連續(xù)訪問,考慮到了多個(gè)地點(diǎn)的數(shù)據(jù)鏡像,就有一點(diǎn)備份的味道。云存儲目前在空間 數(shù)據(jù)冗余保存方面,一般也有做數(shù)據(jù)垮地區(qū)的冗余保存,防止災(zāi)難的發(fā)生。
備份在此基礎(chǔ)上,進(jìn)一步封裝邏 輯,對數(shù)據(jù)在不同的地方,可以訂制不同的復(fù)制策略。較重要的數(shù)據(jù),通常可以在1個(gè)地方進(jìn)行冗余,比如用戶產(chǎn)生的日志,圖片等可以冗余1份;對于更關(guān)鍵的數(shù) 據(jù),如用戶注冊數(shù)據(jù),數(shù)據(jù)存儲索引數(shù)據(jù),交易數(shù)據(jù),金融系統(tǒng)相關(guān)數(shù)據(jù)等,必要時(shí)得多地冗余。云存儲的出現(xiàn),使得基于云的備份方案,實(shí)現(xiàn)起來更加容易,輕易 按需構(gòu)建不同的地理位置的通道,只要你愿意,數(shù)據(jù)備份到全球幾十個(gè)地區(qū)的云存儲中心都可以。這一切可以用最簡單的手動復(fù)制方案,也可以用自動管理的方案, 比如多備份等。
3. 存儲通常解決連續(xù)數(shù)據(jù)讀寫,保存問題 ;備份解決時(shí)間版本凍結(jié)和回溯問題 555ed3bc6d776
保 存1個(gè)word文檔,上傳完一部電影,修改一個(gè)帖子,發(fā)送1條微信消息,這些要么被順序?qū)懭胗脖P,要么被寫入專業(yè)的數(shù)據(jù)庫或文件系統(tǒng)。這是存儲典型的一個(gè) 應(yīng)用場景,就是不斷響應(yīng)從業(yè)務(wù)或軟件發(fā)送的數(shù)據(jù)保存需求,文檔,電影,帖子最后只會有最新的一個(gè)狀態(tài),歷史的狀態(tài)一直被最新的狀態(tài)覆蓋。
既然有新增,那就也有刪除,也有修改,所以存儲并不識別上層軟件的意圖,可能是正常,也可能是惡意入侵,或誤操作, 新增和刪除同樣在底層會進(jìn)行操作。部分存儲設(shè)計(jì),帶有一定的備份恢復(fù)能力,當(dāng)然要想使用備份恢復(fù)能力,可能比部署一套備份方案,來的成本會更大。我們都知 道恢復(fù)一個(gè)硬盤的數(shù)據(jù),通常得數(shù)上千塊,硬盤不值錢,但里面的數(shù)據(jù)值錢。
 
解決新增,刪除,修改等有意無意的行為對數(shù)據(jù)存儲系統(tǒng)帶來的影響,這時(shí)候得專業(yè)功能-備份上場。備份系統(tǒng)最主要考慮 的一個(gè)功能就是時(shí)間線版本凍結(jié)和回溯。每次對存儲系統(tǒng)的備份,都會形成1個(gè)當(dāng)前備份時(shí)刻的數(shù)據(jù)鏡像版本,恢復(fù)的時(shí)候就可以直接選擇對應(yīng)的版本恢復(fù),數(shù)據(jù)就 回到從前那一時(shí)刻狀態(tài)。當(dāng)然不同的產(chǎn)品實(shí)現(xiàn)備份方案不一樣,對于基于混合云架構(gòu)的多備份來說,版本理論上可以一直保持下來,想怎么恢復(fù),就怎么恢復(fù)。另 外,不同的實(shí)現(xiàn),鏡像的一致性結(jié)果不盡相同。對于一致性要求高的場景,版本可能會凍結(jié)寫請求,如數(shù)據(jù)庫備份直接加寫鎖,這時(shí)候?qū)I(yè)務(wù)會有短時(shí)間影響;如果 你說自己是土豪出得起價(jià),需要對業(yè)務(wù)系統(tǒng)幾乎無干擾,幾十上百萬無所謂,則可以購買比較牛的連續(xù)數(shù)據(jù)保護(hù)方案(CDP),如國外的飛康CDP。
4. 存儲通常面向硬件故障為安全設(shè)計(jì)目標(biāo);備份解決軟硬件故障在內(nèi)的多種因素引起的數(shù)據(jù)安全問題 555ed417870b7
在我們?nèi)粘8拍钪?,存儲就等于安全,特別是云計(jì)算概念出現(xiàn)后,包括周邊的一些技術(shù)高手也有類似看法,實(shí)際上這是一個(gè)誤區(qū)。
 
從最常用的機(jī)械硬盤開始,通常圍繞溫度,讀寫壽命,抗沖擊力等設(shè)計(jì),一些硬盤在讀寫超過幾百TB后,就開始工作不正 常,SSD硬盤在環(huán)境溫度變化,可能也會引起數(shù)據(jù)有效性變化。隨著存儲安全技術(shù)的加強(qiáng),出現(xiàn)了冗余整理的技術(shù),把多塊硬盤進(jìn)行聚合,數(shù)據(jù)寫入多塊硬盤;提 高了單塊硬盤的可靠性。進(jìn)入到NAS,SAN等專用存儲解決方案后,通過冗余陣列,通道冗余,快照鏡像等技術(shù),進(jìn)一步提高了存儲容量和整個(gè)讀寫環(huán)節(jié)的可靠 性。但這些都是圍繞硬件故障或存儲區(qū)域故障進(jìn)行設(shè)計(jì)。云存儲,包括對象存儲和彈性塊存儲,核心設(shè)計(jì)目標(biāo)依然是數(shù)據(jù)在硬件或存儲節(jié)點(diǎn)或區(qū)域系統(tǒng)出問題時(shí)候, 有能力從其它節(jié)點(diǎn)恢復(fù)。
 
備份系統(tǒng)一個(gè)重要設(shè)計(jì)思想就是圍繞恢復(fù)設(shè)計(jì)。備份把數(shù)據(jù)從1個(gè)節(jié)點(diǎn),一個(gè)系統(tǒng)復(fù)制到另外一個(gè)節(jié)點(diǎn),一個(gè)系統(tǒng),規(guī)避了 硬件、軟件在同一時(shí)期發(fā)生問題的可能性;備份系統(tǒng)通常會在數(shù)據(jù)存儲這里增加高級別的冗余配置,或冗余復(fù)制,或低成本的算術(shù)冗余數(shù)據(jù)分布。備份系統(tǒng)通過時(shí)間 版本化,空間冗余分布進(jìn)一步規(guī)避了因?yàn)楦鞣N有意,無意的數(shù)據(jù)讀寫動作,包括人為操作,系統(tǒng)故障,軟件缺陷,heike入侵,病毒,自然災(zāi)難等,引起的數(shù)據(jù) 丟失,新增,修改等問題。一些設(shè)計(jì)得比較好的方案,會輕松還原數(shù)據(jù)。即時(shí)在備份系統(tǒng)軟件出現(xiàn)問題,也能把數(shù)據(jù)通過一定的流程還原回去。多備份在業(yè)務(wù)系統(tǒng)出 現(xiàn)問題后,甚至可以在選定數(shù)據(jù)庫表或某1個(gè)文件獨(dú)立恢復(fù);如果數(shù)據(jù)采用混合云模式,數(shù)據(jù)再TB級別,也可以在極其短暫的情況下恢復(fù)到業(yè)務(wù)系統(tǒng)中。
5. 存儲通常關(guān)注訪問性能指標(biāo)設(shè)計(jì);備份重點(diǎn)關(guān)注一次備份和恢復(fù)的時(shí)間開銷 555ed46d5932c
電 腦從IDE硬盤,升級到SSD硬盤,操作系統(tǒng)啟動速度,軟件運(yùn)行的速度明顯不一樣。業(yè)務(wù)系統(tǒng)從普通的硬盤存儲,過度到專業(yè)級SAN全光纖存儲,甚至對數(shù)據(jù) 進(jìn)行上幾百GB的全內(nèi)存加速,目的就是為了提高數(shù)據(jù)讀寫的速度,提升終端用戶的體驗(yàn)。所以,存儲系統(tǒng)通常會圍繞IOPS指標(biāo)來選型,場景不一樣IOPS的 選擇也不一樣。當(dāng)然價(jià)格也不一樣。云存儲涉及到的彈性塊存儲,以及對象存儲都有同樣的考量指標(biāo) ,目標(biāo)筆者了解到的是,彈性塊存儲通常在幾十MB左右,而結(jié)合SSD方案的,則可以到上百M(fèi)B。云存儲為了提高讀的能力,通常結(jié)合了CDN技術(shù)。部分廠家 還提供了上傳加速,比如七牛。
備份系統(tǒng),非常關(guān)注一次備份和恢復(fù)的時(shí)間窗口,主要原因在于大部分備份系統(tǒng)是構(gòu)建在生產(chǎn)主系統(tǒng)之上。通常備份越快, 對業(yè)務(wù)系統(tǒng)的影響越小。業(yè)務(wù)系統(tǒng)的場景非常復(fù)雜,有的是文件大,如視頻,圖片,系統(tǒng)壓縮文件,如多備份不少客戶是數(shù)據(jù)庫壓縮后的文件進(jìn)行備份,但單個(gè)文件 得幾百GB ;有的客戶是海量的文件,如郵件系統(tǒng),規(guī)模上TB級,數(shù)量也在億級別。如何在最短之內(nèi)把數(shù)據(jù)備份完成,通常是一個(gè)比較辣手的問題。在這塊包括先壓縮后備 份,先歸檔再備份,或者直接快照后再備份等各種方案都有。基本上總結(jié)起來就包括文件系統(tǒng)級的,IO塊級別的,或者快照級別的備份。文件系統(tǒng)級實(shí)施簡單,價(jià) 格低,性能受限文件系統(tǒng)IO能力;IO塊級別實(shí)施復(fù)雜,價(jià)格貴,通常需要變化存儲架構(gòu);快照級別可能對存儲架構(gòu)會有調(diào)整,適合規(guī)模小一點(diǎn)的。傳統(tǒng)主流大廠 的方案一般都會有以上幾個(gè)組合。多備份目前聚焦在文件系統(tǒng)對象級,IO塊和快照方案作為輔組;結(jié)合變掃描邊備份,實(shí)時(shí)發(fā)現(xiàn),智能壓縮,自適應(yīng)CPU硬件加 密等方案,盡可能減低處理時(shí)間。依賴備份方案,恢復(fù)的機(jī)制相應(yīng)也不一樣,恢復(fù)速度也不一樣; 對于純粹的備份來說,按照備份對象序列差異式的恢復(fù)變化的內(nèi)容,依然是一個(gè)可靠與速度平衡的解決思路,且在目標(biāo)系統(tǒng)可用的情況下,是非常合適的一個(gè)方案。 如果對于做了異地備份的情況,災(zāi)難式的恢復(fù)通常會受限于網(wǎng)絡(luò)通道。
6. 存儲通常以數(shù)據(jù)規(guī)模變”大”為美,而備份通常以最大程度把數(shù)據(jù)變“小”為美 555ed4b76ae43
這 里的變大,是指存儲解決的問題是如何存儲超大規(guī)模的數(shù)據(jù)。在我們?nèi)粘T掝}中,通常溝通交流的是誰家的硬盤支持1TB,2TB,4TB等,業(yè)務(wù)系統(tǒng)支持多少 用戶規(guī)模,產(chǎn)生了多少TB數(shù)據(jù),數(shù)據(jù)庫存儲規(guī)模如何等, 衡量一個(gè)存儲系統(tǒng)設(shè)計(jì)的是否好,就是在大規(guī)模數(shù)據(jù)下,系統(tǒng)反應(yīng)良好,用戶感覺流暢。而支持這一目標(biāo),通常會說存儲服務(wù)器支持的硬盤塊數(shù),單塊硬盤的容量, 當(dāng)然IO通道能力也是配套指標(biāo)。
 
為了支持足夠的大,配上專門的存儲交換機(jī),快速把大容量存儲陣列映射到不同的服務(wù)器上;而數(shù)據(jù)集中存儲在SAN網(wǎng)絡(luò) 中,有的高達(dá)幾百TB甚至PB級別。即使這樣,支持壓縮的特性也能派上用場,特別巨大的數(shù)據(jù)量,對存儲的數(shù)據(jù)默認(rèn)進(jìn)行壓縮或去重,降低數(shù)據(jù)占用空間。云存 儲的出現(xiàn),更是把容量推向了幾乎無限;單個(gè)云平臺或者準(zhǔn)確受限于存儲機(jī)房區(qū)域的容量和區(qū)域的數(shù)量。由于動態(tài)擴(kuò)容特性,當(dāng)存儲網(wǎng)絡(luò)不夠時(shí),在IDC空間足夠 的情況下,可以不斷增加節(jié)點(diǎn)完成存儲節(jié)點(diǎn)的增加。
 
通常當(dāng)數(shù)據(jù)足夠大,數(shù)據(jù)足夠久的時(shí)候,數(shù)據(jù)就需要?dú)w檔備份起來。而備份就是解決如何保持完整的數(shù)據(jù)同時(shí),能更好的減 低存儲開銷。所以,一般來說,由于備份會采取在原端去重,或存儲端全局去重等技術(shù),保持最小的備份空間。同時(shí)包括壓縮等方案,也會自動在備份流程中引入。 在傳統(tǒng)的實(shí)施方案中,由于要定期作全量,數(shù)據(jù)會變得很大,所以一般保留3個(gè)月,或半年,或按年做次全量等策略 ; 在快照模型下,由于產(chǎn)生的數(shù)據(jù)規(guī)模比較大,通常云主機(jī)對云磁盤采取的快照備份一般也保持幾個(gè)快照。傳統(tǒng)備份產(chǎn)品也有全增量策略,只是結(jié)合硬件存儲方案,使 用和管理成本依然還是比較高; 多備份采取的全增量策略,優(yōu)勢主要集中在混合云索引增量模型,數(shù)據(jù)保持最小增長規(guī)??煽看鎯Φ耐瑫r(shí),還可以保持更簡單的快速恢復(fù)體驗(yàn),大規(guī)模數(shù)據(jù)備份非常 省空間。
存儲和備份的差異總結(jié)
存儲主要重點(diǎn)解決原始產(chǎn)生數(shù)據(jù)的正常存放和讀取問題,包括媒介,以及存放讀取方法,
555ed2bb41142
比 如數(shù)據(jù)通過文件系統(tǒng)或?qū)iT的訪問接口保存在U盤,硬盤,光盤,磁盤陣列,NAS,SAN存儲網(wǎng)絡(luò),云存儲等。一般個(gè)人存儲和企業(yè)存儲在讀寫性能,安全,可 靠性,可管理性,服務(wù)質(zhì)量承諾等方面存在本質(zhì)區(qū)別。正如硬盤,網(wǎng)盤永遠(yuǎn)是解決個(gè)人照片,非敏感資料等存儲需求,而SAN,NAS,企業(yè)級云存儲服務(wù)則是企 業(yè)重要資料存取方案。性能,容量,規(guī)避單節(jié)點(diǎn),單區(qū)域依然是最求的最大設(shè)計(jì)目標(biāo),備份依然不是其重點(diǎn)解決點(diǎn); 進(jìn)一步,基于云存儲的模型,產(chǎn)生了用于保存相對冷數(shù)據(jù)的服務(wù),包括Google,AWS,還有阿里云的歸檔服務(wù)。這為歷史累計(jì)不常用的數(shù)據(jù)歸檔備份打下了 基礎(chǔ),但普通個(gè)人或企業(yè)也難于直接使用。
備份則通過定期或?qū)崟r(shí)復(fù)制技術(shù),應(yīng)對各類人為,軟件故障,系統(tǒng)故障,自然災(zāi)難引起的數(shù)據(jù)丟失,損壞,出錯(cuò)等問題
555ed2eb4de6f
U 盤備份,硬盤備份,磁帶備份,光盤備份,本地備份,異地備份,云備份,本地與云結(jié)合的混合云模式備份等類型,以及CDP 實(shí)時(shí)備份保護(hù)等。手動復(fù)制到U盤,硬盤構(gòu)成一個(gè)最簡單的備份方案。但涉及到大規(guī)模數(shù)據(jù),保護(hù)服務(wù)或系統(tǒng)數(shù)量增加,以及資料的敏感控制,生產(chǎn)系統(tǒng)資源占用控 制管理等需求,只要用專業(yè)的保護(hù)方案才能解決。
最新的系統(tǒng)與數(shù)據(jù)備份保護(hù)趨勢將逐步超出備份范疇,智能化數(shù)據(jù)管理,數(shù)據(jù)保護(hù)虛擬化,以及和各種云環(huán)境的融合,與數(shù) 據(jù)安全的融合將是重要的發(fā)展方向 ;備份即是立即可用的服務(wù),備份即是保護(hù)服務(wù),備份即是數(shù)據(jù)虛擬化,備份即是數(shù)據(jù)服務(wù),備份即是數(shù)據(jù)遷移服務(wù)等是重要的數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用發(fā)展方向。目前 巨頭和多備份等一些創(chuàng)新類企業(yè)等已經(jīng)在加快邁向這個(gè)趨勢。
作者簡介:
胡茂華:多備份聯(lián) 合創(chuàng)始人& CEO ,曾就職于騰訊、盛大(旅游)、1號店,歷任總監(jiān)、CTO、技術(shù)副總裁;曾全面負(fù)責(zé)過騰訊網(wǎng)運(yùn)維平臺建設(shè)、門戶產(chǎn)品的研發(fā)及管理,有豐富的海量服務(wù)系統(tǒng)建 設(shè)、運(yùn)維經(jīng)驗(yàn)以及產(chǎn)品管理經(jīng)驗(yàn),曾任2008北京奧運(yùn)會騰訊技術(shù)保障團(tuán)隊(duì)副組長;在盛大集團(tuán)全資子公司盛大旅游公司全面負(fù)責(zé)其技術(shù)團(tuán)隊(duì)組建以及旅游社區(qū)游 玩網(wǎng)和LBS產(chǎn)品切客的研發(fā)管理工作;在1號店負(fù)責(zé)電商核心系統(tǒng)ERP的研發(fā)管理和公司運(yùn)維部的管理工作。