大數據的互聯網思維
2009年聯合國制定了“數據脈動”計劃,2010年英國發起了“數據權”運動、2012年美國實施了“大數據”戰略,最近新加坡等提出“大數據治國”理念, “大數據”時代的序幕由此漸漸拉開。今年7月25日,國務院在聽取浪潮云計算、大數據產業發展匯報后指出,信息化正在全球快速發展,云計算、大數據是一個大潮流。作為繼物聯網、數字城市、智慧城市之后的又一個流行詞匯, “大數據”的究竟是什么?大數據時代下應樹立怎樣的思維?大數據對國家治理現代化和反腐倡廉有什么作用?
一、大數據時代正悄然來臨
今年全國兩會時,“大數據” (Big data)第一次出現在政府工作報告中,這表明我國對大數據重要性的認識上升到了國家層面。信息產業發達國家,如美、英、德、日等此前已將大數據作為國家核心競爭力提升為了國家戰略。數字主權將是繼邊防、海防、空防之后,又一個大國博弈的空間。
(一)大數據的定義和特征
大數據并非現在才出現。中國東漢時期人口已達6千多萬,這顯然是一個大數據,但不是今天討論的大數據。維基百科對大數據的定義為:“大數據意指一個超大、難以用現有常規的數據庫管理技術和工具處理的數據集。”IDC(互聯網數據中心)報告對大數據的定義為:“大數據技術描述了一種新一代技術和構架,用于以很經濟的方式、以高速的捕獲、發現和分析技術,從各種超大規模的數據中提取價值。”大數據研究的目的是將數據轉化為知識,探索數據的產生機制,進行預測和政策制定。建立在相關關系分析法基礎上的預測是大數據的核心,通過找出一個關聯物并監控它,我們就能預測未來。
大數據同過去的海量數據有所區別,其基本特征可以用4個V來總結(Volume、Variety、Value和Velocity),即體量大、多樣性、價值密度低和處理速度快。具體來講,一是數據體量巨大。數據信息計量的最小基本單位是字節(Byte) ,換言之, Byte是計算機信息技術用于計量存儲容量和傳輸容量的一種計量單位,一個字節等于8位二進制數,在UTF-8編碼中,一個英文字符等于一個字節。數據存儲是以“字節”(Byte)為單位,數據傳輸是以“位”(bit)為單位,一個位就代表一個0或1(即二進制),每8個位(bit)組成一個字節(Byte)。8bit=1Byte,數據存儲是以10進制表示,數據傳輸是以2進制表示,所以1KB不等于1000B,而是1KB=1024B, K是千, M是兆 ,G是吉咖, T是太拉。按信息量從小到大的順序,單位分別是:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,除了1Byte=8bit而外,后續的計量單位均按照進率1024(2的10次方)來計算。大數據的“大”沒有精確的定義,不同的時代對應著不同的大數據規模,當前大數據的數據規模在GB、TB、PB、EB、ZB這幾個規模尺度上。二是數據類型多樣。現在的數據類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數據,個性化數據占絕對多數。三是價值密度低。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。大數據分析猶如“大海撈針”。四是處理速度快。數據處理遵循“1秒定律”,需從各種類型的數據中快速獲得高價值的信息。
(二)大數據的主要成因
大數據的背后推手有哪些?以下三大因素是大數據的主要成因:
第一,人類保持數據的能力增強。
1965年,英特爾的創始人之一戈登·摩爾提出了著名的摩爾定律。該定律認為,同一面積集成電路上可容納的晶體管數量,一到兩年將增加一倍。回顧半個多世紀的歷史,硬件技術的發展基本符合摩爾定律。以物理存儲器為例,其性能不斷上升,與此同時,價格不斷下降。1955年,IBM推出第一款商用硬盤存儲器,一兆字節的存儲量需要6000多美元。到2010年,一兆字節的存儲量僅僅需要0.005美分。半個多世紀,存儲器的價格下降了1億倍!
預計2020年,1太硬盤的價格將下降到3美元,相當于一杯咖啡的價格。一所普通大學的圖書館,其館藏量大約就一兩個太。也就是說,到2020年,只需要花上一杯咖啡的錢,就可以把一個圖書館的全部信息拷進一個小小的硬盤。正是因為存儲器的價格在半個世紀之內經歷了空前絕后的下降,人類才可能以非常低廉的成本保存海量的數據,這為大數據時代的到來鋪平了硬件道路,打下了堅實的物質基礎。
第二,人類生產數據的能力增強。
從2004年起,以臉譜網(Face book)、推特(Twitter)為代表的社交媒體相繼問世,拉開了互聯網的嶄新時代—2.0時代。社交媒體的問世,帶來以下三大變化:
一是社交媒體把交流和協同的功能推到了一個登峰造極的高度。在此之前,互聯網的主要作用是信息的傳播和分享,其最主要的組織形式是建立網站,但網站是靜態的。進入Web2.0時代之后,互聯網開始成為人們實時互動、交流協同的載體。2011年8月23日,美國弗吉尼亞州發生5.9級地震,紐約市居民首先在推特上看到這個消息,幾秒鐘之后,人們才感覺到地震波從震中傳過來的震感。社交媒體把人類信息傳播的速度,帶到了比地震波還快的時代!
二是社交媒體推動數據總量驟然增加。由于社交媒體的橫空出世,人類自己開始在互聯網上生產數據,例如發推特、微博和微信,記錄各自的活動和行為,全世界的網民都是數據的生產者,每個網民都猶如一個信息系統、一個傳感器,不斷地制造數據,這引發了人類歷史上迄今為止最龐大的數據爆炸。2012年,喬治敦大學的教授李塔魯考察了推特上產生的數據量,他做出估算說,過去50年,《紐約時報》總共產生了30億個單詞的信息量,現在僅僅一天,推特上就產生了80億個單詞的信息量。也就是說,如今一天產生的數據總量相當于《紐約時報》100多年產生的數據總量。
數據量的增長到現在,已經不是以我們所熟知的多少G和多少T來描述了,而是以P(1千T),E(1百萬T)或Z(10億T)為計量單位。百度對此給予了更形象的描述。僅其新首頁導航每天就要從超過1.5PB的數據中進行挖掘,這些數據如果打印出來將超過5千億張A4紙,摞起來會超過4萬公里高,接近地球同步衛星軌道長度,平鋪可以鋪滿海南島。而2020年新增的數字信息將是2009年的近45倍。如今,只需要兩天就能創造出自文明誕生以來到2003年所產生的數據總量。
三是社交媒體使人類的數據世界更為復雜。數據包含兩類數據:結構化數據和非結構化數據。在大家發的微博中,你的帶圖片、他的帶視頻,大小、結構完全不一樣。因為沒有嚴整的結構,在社交媒體上產生的數據,也被稱為非結構化數據。目前全世界的數據大約75%都是非結構化數據。這部分數據的處理,遠比結構嚴整的數據困難。
第三,人類使用數據的能力增強。
大數據之大,不僅在于其大容量,更在于其大價值。最根本的原因,是人類使用數據的能力取得了重大突破和進展。
這種突破集中表現在數據挖掘上。數據挖掘是指通過特定的算法對大量的數據進行自動分析,從而揭示數據當中隱藏的規律和趨勢,即在大量的數據當中發現新知識,為決策者提供參考。數據挖掘進步的根本原因是人類能夠不斷設計出更強大的模式識別算法。正是通過數據挖掘,各大商家譜寫了不少點“數”成金的傳奇故事。例如沃爾瑪通過捆綁“啤酒和尿布”提高銷量。阿里巴巴等憑借長期以來積累的用戶資金流水記錄,涉足金融領域,在幾分鐘之內就能判斷用戶的信用資質,決定是否為其發放貸款。
2014年1月,美國的電子零售巨頭亞馬遜宣布了一項新的專利:“預判發貨”。即在網購時,顧客還沒有下單,亞馬遜就將包裹寄出。這種顧客未動、包裹先行的做法,核心技術還是數據挖掘。發貨的根據是顧客以前的消費記錄、搜索記錄以及顧客的心愿,甚至包括用戶的鼠標在某個商品頁面上停留的時間。微軟紐約研究院經濟學家大衛·羅斯柴爾德利用大數據準確預測了2014年第86屆奧斯卡24個獎項中的21個獎項。 2012年,他正確預測了美國51個行政區中50個總統大選的結果……結果就在大數據中,驚喜已死。
(三)大數據的應用
主要有以下四個方面:
第一,對大數據的處理分析正成為新一代信息技術融合應用的結點。
移動互聯網、物聯網、社交網絡、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。云計算為這些海量、多樣化的大數據提供存儲和運算平臺。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。
第二,大數據是信息產業持續高速增長的新引擎。
大數據時代,面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬件與集成設備領域,大數據將對芯片、存儲產業產生重要影響,將催生一體化數據存儲處理服務器、內存計算等市場。在軟件與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟件產品的發展。
第三,大數據利用將成為提高核心競爭力的關鍵因素。
各行各業的決策正在從“業務驅動” 轉變“數據驅動”。對大數據的分析可以使零售商實時掌握市場動態并迅速做出應對;可以為商家制定更加精準有效的營銷策略提供決策支持;可以幫助企業為消費者提供更加及時和個性化的服務;在醫療領域,可提高診斷準確性和藥物有效性;在公共事業領域,大數據在促進經濟發展、維護社會穩定等方面的重要作用已開始得以發揮。
第四,大數據時代科學研究的方法手段將發生重大改變。
抽樣調查是社會科學的基本研究方法。但在大數據時代,不需要通過抽樣,而是通過實時監測、跟蹤研究對象在互聯網上產生的海量行為數據,進行挖掘分析,揭示出規律性的東西,提出研究結論和對策。
(四)大數據與反腐倡廉
大數據反腐,是指利用強大的數據庫支持反腐的各個環節,實現精準預測和發布。具有以下重要價值:
第一,大數據為網絡反腐提供便利的“信息來源”。
中國工程院李國杰院士指出,“數據背后是網絡,網絡背后是人,研究網絡數據實際上是研究人組成的社會網絡”。大數據為網絡反腐提供了一個非常龐大并且可以便利索取的“數據庫”和“信息來源”,這使得網絡猶如一個巨大的“信息蓄水池”。盡管這些信息是碎片化并且是無序排列的,但是可以通過設置“關鍵詞”等形式,將大數據變成小數據,從而使得信息有序排列,獲取到有價值的信息。在“楊達才事件”中,以“楊達才、安監局”為關鍵詞,就可以獲取大量相關的信息。利用搜索、社交網絡、網絡新聞等互聯網服務中的語義分析和關鍵詞分析,掌握各地區腐敗輕重程度、廉潔指數、市民抱怨度、市民對政府的滿意度等,為反腐敗和廉政工作提供數據支撐。
第二,大數據刺激并鼓勵網民的“掏糞運動”。
19世紀末20世紀初,美國新聞界以雜志為主體掀起了一場揭露丑聞、譴責腐敗、呼喚正義與良心的運動,這就是著名的“掏糞運動”。這一名稱源于當時的美國總統羅斯福。 在大數據時代,“掏糞運動”有越演越烈之勢。正是因為網民圍觀以及他們的“掏糞運動”,一件普通的事件也容易發生“多米諾骨牌效應”,從而“拔出蘿卜帶出泥”。 “楊達才事件”,是一個微笑引發的腐敗案。一張再普通不過的新聞圖片,被細心的“信息搬運工”發現,這位官員竟然在車禍現場微笑。旋即引起網民圍觀,繼而被扒出佩戴多款價值不菲的名表,又因回應言辭欠妥陷入誠信危機,再因眼鏡、皮帶等昂貴飾物被接連曝光催生腐敗疑云,直至因涉嫌嚴重違紀被撤職。
第三,大數據破解信息不對稱的監督難題。
反腐敗之難,難在信息不對稱。運用大數據反腐敗,就像開在馬路上的汽車,任何行駛的蛛絲馬跡都逃不脫電子警察的法眼,從而真正做到全員監控、全程監控、全方位監控,實現可記錄、可追溯、可查究。在全民圍觀時代,現實中再強勢的官員也會變成弱勢。官員不恰當的言行舉止,都有可能引發網絡圍觀效應,瞬間激起網民“拍磚”熱情,在虛擬社區形成巨大的輿論漩渦,并投射到現實社會中去。
通過大數據和云計算技術建立全國性的官員資產紀錄大數據庫。因為貪官可以通過白手套和假的身份文件持有資產,因此可以仿效英國的電子護 照,在身份證和戶口當中植入記錄指紋信息的電子芯片,這樣一來資產就和獨一無二的指紋對應起來,再加上數據挖掘技術,貪官的財產就無處遁形。
人民幣冠字號碼記錄跟蹤系統開始應用于反腐敗。該系統是一種ATM現金循環保障方案,通過實時監控交易和鈔票冠字號碼,一方面,可以幫助銀行解決自助設備現金循環出現的偽鈔糾紛、金額糾紛;另一方面,每個人正常所得工資及收入,其人民幣冠字號碼都很清楚,那么非法所得就是人民幣冠字號碼異常,這些人民幣是誰的,到了誰手中,誰在哪里使用,都很清楚,因此誰在行賄、受賄,就一目了然,因為有人民幣號碼作證,人民幣就是“跟蹤器”,現金行賄就難以進行!
大數據的互聯網思維相關文章:
1.互聯網思維創業
4.互聯網時代新思維
5.商業模式創新時代
大數據的互聯網思維





上一篇:傳統行業的互聯網思維誤區
下一篇:大數據的核心思維