在我看來,凡是具有3V特性的數據,就是大數據,即:其一為Volume,極大的數據量;其二為Variety,極復雜的數據類型與數據來源;其三為Velocity,極高的數據產生與流轉速度。以Windows Azure為例,該平臺上的計算使用量在過去6個月中翻了一番,現有計算容量已超過1999年全球服務器計算資源的總和,其上存儲的數據在過去2個月中增加了一倍。
從3個V的角度看,大數據可以說是IT產業發展的必然結果。僅在15年前,我們主要面對的數據還是ERP和CRM系統的結構化數據,其來源是交易、產品銷售、客戶信息等,產生和流轉的速度多以年、月計。
隨著互聯網的興起,數據量開始攀升,同時數據類型也不斷豐富,網頁、文件、日志,非結構化、半結構化數據的存儲技術隨之興起,同時我們看到新的數據平臺、分析和展示工具不斷誕生,對大爆炸的數據進行分析和存儲,其時數據產生與流轉的速度大概以周、日計。
時至今日,來自物聯網(典型如智能設備傳感器網絡、車載傳感器網絡、氣候傳感器網絡、海洋傳感器網絡等、太空傳感器網絡等)、互聯網、移動互聯網、通信網、廣播電視網上的數以百十億計的傳感器與智能終端,能讓人類搜集到前所未有的宇量信號。而云計算成為主流,則讓網絡、計算和存儲資源的潛力得到了充分利用,再加上摩爾定律的持續影響,讓上述設備產生的信號得以被快速地處理為數據,并進行存儲和傳輸。接下來要解決的問題,就是如何通過數據挖掘、數據呈現、數據洞察,利用好其中蘊藏的巨大價值——在這樣的背景下,大數據成為全球熱門話題,自然是水到渠成。
微軟的“大數據”觀
如上所述,大數據中所增加的大多是社交網絡的言論、圖片、視頻等不受控制的內容,以及來自于各類傳感器的不規則信號,這些非關系型數據與傳統數據庫中的關系型數據有本質不同,作為專業的“數據人”,我們正在試圖從這些龐大的“數據寶藏”中獲得知識和洞察力。例如,我們已經開始嘗試通過對社交網絡數據的分析,來量化評估企業或個人的品牌影響力;可以利用實時的交通、天氣信息為每個人優化出行日程與線路;甚至可以幫助分析企業策略,如某種新產品投放市場后,其反響會怎樣,如何優化市場戰略?
在我看來,大數據并不特指某一種具體的技術與產品,而應包括三個層次,分別是:數據管理,即如何獲取、存儲和保護數據;其二是數據豐富,即如何清洗、發現不同數據間的數據相關性;其三是,數據洞察力,即通過分析、呈現與決策工具,獲得洞察力,并最終通過付諸行動,產生價值。
從14年前進入微軟起,我們便開始了類似的研究,當時就有這樣一個愿景:希望建立一個體系,可以讓任何客戶,管理任何種類、任何大小、任何來源的數據。現在我們正逐步實現這個愿景。
作為微軟大數據解決方案的核心基礎,最新版本的SQL Server 2012也已是今非昔比,它已完全成為一個綜合性平臺,可以管理比以前復雜一百倍的數據——關系型數據、空間數據、圖像、數據流以及高性能的數據存儲和獲取,過往可能需要幾個月時間來進行的數據分析,現在只需要幾天。
微軟“大數據”:兼顧簡易、開放與靈活
微軟所提供的大數據平臺,有著對大數據生命周期的全方位考慮,從數據到工具再到最后產生價值,都會納入到微軟的大數據平臺上。這也是為什么我們決定將Hadoop等開源架構,整合到微軟的大數據平臺里,一方面是將Hadoop作為SQL Server一部分進行無縫整合,將其作為對非關系型數據處理的補充;另一方面是將Hadoop作為一個服務,整合到微軟的公有云與私有云平臺里。
對于非技術企業的IT部門而言,Hadoop部署比較復雜,微軟即將正式發布的Hadoop版本則非常強調部署的簡易性,這也是微軟的傳統優勢。同時在Hadoop高性能和高擴展性的基礎上,增強了它的安全性和可靠性,打消了客戶對開源軟件的顧慮。
值得強調的是,微軟不是簡單地將Hadoop遷移到微軟的大數據平臺上,而是真正的融合,會系統地考慮其可用性、可靠性、安全性、部署的簡易性與靈活性,乃至對Hadoop上工具的集成與優化。與此同時,微軟也會堅持開源的原則,將在Hadoop上做的一些研發工作回饋給社區,與社區形成良性互動。
我們期待著,無論是數據科學家,還是商業智能專業人員或是普通的業務分析人員,都可以通過微軟的大數據平臺,去探索關于過去、關于現在、關于未來的奧秘,并得到答案。
編輯:北京信誠IT保姆IT外包部 http:// www.aboverow.cn www.xcit.com.cn