今年四月,西雅圖的氣溫已經(jīng)達到華氏90度。這不是抱怨,但人們絕對相信全球變暖正在發(fā)生,需要做出一些改變來解決它。但本文并不討論關(guān)于氣候變化問題,而是關(guān)于數(shù)據(jù)的問題。具體而言,這是關(guān)于非結(jié)構(gòu)化數(shù)據(jù)的增長問題,如果我們繼續(xù)否認這個問題,并忽略警告的話,將會面臨悲觀的命運。這聽起來是不是很熟悉?
人們很難對非結(jié)構(gòu)化數(shù)據(jù)增長的證據(jù)進行爭論,估計會與研究機構(gòu)所公布的有所不同,但普遍的共識是,直到2020年將會產(chǎn)生40-50澤字節(jié),其中非結(jié)構(gòu)化數(shù)據(jù)將占80%-90%。
是什么推動了非結(jié)構(gòu)化數(shù)據(jù)的增長?
數(shù)據(jù)增長來自于很多地方。當(dāng)然也有像4K高清電影、電視節(jié)目、電影、圖片,以及我們每天都在使用的智能手機的圖像,但是非結(jié)構(gòu)化數(shù)據(jù)的增長源要這些廣泛得多。還有在各種不同行業(yè)的大量機器和傳感器,例如,工程和設(shè)計,金融服務(wù),地理空間探索,醫(yī)療保健,以及更多的數(shù)據(jù)驅(qū)動的行業(yè)日常產(chǎn)生的大量數(shù)據(jù)。隨著攝像頭分辨率和保存時間的增長,單是視頻監(jiān)控每天產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)幾乎達到艾字節(jié)。
這些不同的數(shù)據(jù)集具有一些共同的特點。通常情況下,它們分別是:
•大文件的組成;
•即不可壓縮的數(shù)據(jù),如重復(fù)數(shù)據(jù)刪除技術(shù)無法有效降低數(shù)據(jù);
•對創(chuàng)造數(shù)據(jù)的公司、部門或用戶有一定的價值;
•保存多年。
與全球變暖的相似之處
那么,非結(jié)構(gòu)化數(shù)據(jù)的增長如何像全球變暖一樣?
人們所表現(xiàn)的就像是不存在這樣的問題:公司每天產(chǎn)生的數(shù)據(jù)都在噴涌而出,越來越多的非結(jié)構(gòu)化數(shù)據(jù)進入到他們的IT環(huán)境,但是當(dāng)它涉及到管理這種增長時,一切照常。盡管所有證據(jù)與之相反,許多企業(yè)仍在嘗試使用數(shù)據(jù)存儲,他們一直使用相同的方法來管理和存儲非結(jié)構(gòu)化數(shù)據(jù)集,他們把數(shù)據(jù)都存儲在磁盤上。這種方法開始分解在數(shù)據(jù)的規(guī)模和比例。超出生長成本以外,隨著時間的推移,將內(nèi)容攝取到存儲系統(tǒng)的速度不夠快,隨著時間的失衡,其能力下降,而傳統(tǒng)的備份方法不再足以保護數(shù)據(jù)。
對于這些龐大機器和傳感器生成的數(shù)據(jù)集,明確了不同的方式來存儲和管理這個數(shù)據(jù)是必需的。
這樣的例子不勝枚舉,但問題是,對于這些類型的數(shù)據(jù)集,冷數(shù)據(jù)變得更有價值或變得更“熱”,需要改變數(shù)據(jù)的存儲方式。即使需要保持用戶訪問的歸檔數(shù)據(jù)。
•有關(guān)電影或電視演播室生成的視頻內(nèi)容,可以重新利用并重新分配,想想“幕后”你最喜歡的電視真人秀節(jié)目。
•零售企業(yè)分析視頻監(jiān)控錄像,跟蹤購物模式,并使用洞察力,以增加銷售。
•科學(xué)家們能夠在幾年前的數(shù)據(jù)集上進行分析,以獲得新的見解,并在他們的領(lǐng)域推進新的創(chuàng)新。
•自主轎車開發(fā)者使用在早期試駕生成的視頻和傳感器數(shù)據(jù),使自動駕駛汽車更加安全高效。
對于這些類型的數(shù)據(jù)集,因為冷數(shù)據(jù)變得更有價值或“升溫”,該數(shù)據(jù)的存儲方法需要改變。即使存檔的數(shù)據(jù)需要保持用戶的訪問。
現(xiàn)在有必要行動。在你下一個大訂單的磁盤存儲之前,現(xiàn)在是停止和考慮其他的替代品。堅持現(xiàn)狀是最簡單的方法,也是一個導(dǎo)致多余的存儲成本和效率低下的問題。
這個解決方案是什么?
為了解決這個問題,我們首先介紹一下可能是一個新的術(shù)語:數(shù)據(jù)工作流。在某些行業(yè)中,這是一個共同的術(shù)語,但對于許多行業(yè)來說,它可能是一個新概念,盡管是一個直觀的概念。所有這些非結(jié)構(gòu)化的數(shù)據(jù)集,這是迄今為止與之相關(guān)的一個工作流。它看起來像這樣的東西:數(shù)據(jù)被產(chǎn)生或捕獲,攝入到存儲系統(tǒng),并進行存儲和處理,以達到一定的結(jié)果(通常需要許多用戶之間的協(xié)作),然后數(shù)據(jù)歸檔長期保存和重新使用。這個過程對使用存儲系統(tǒng)更加有效,該存儲系統(tǒng)從一開始就為特定的數(shù)據(jù)集的工作流程所定制。
當(dāng)需要時,工作流存儲必須處理高性能攝取。在網(wǎng)絡(luò)上共享也同樣關(guān)鍵,以獲得協(xié)作的能力,以及降低存儲的成本,例如采用磁帶,同時保持在網(wǎng)絡(luò)上的用戶和應(yīng)用程序需要訪問的數(shù)據(jù)。這是最后一塊真正能走出來的存檔數(shù)據(jù)的方式,不會破壞其價值和能力。
這個以工作流程為基礎(chǔ)的存儲方法,與將所有數(shù)據(jù)保存在閃存或機械磁盤相比,其結(jié)果顯著降低了成本,并使其他組織可以存儲更多的自己的數(shù)據(jù)。
而且兼顧環(huán)保節(jié)能
通過使用分層存儲,可以將這些數(shù)據(jù)保存在低成本、低功耗的存儲介質(zhì)中,例如磁帶,你實際上是在做一部分有益于環(huán)境的事,以應(yīng)對全球變暖。
文章來源:機房專用空調(diào) http://keenjuche.com.cn