吳軍

[文章導讀]隨著互聯網的興起和產業的數字化,“大數據”吸引了越來越多的關注。本文從當前社會對“大數據”的理解誤區出發,指出“大數據”不僅意味著海量的數據,還具備了多維度與完備性的特質,并表現為一種全新的思維方式,即以完備的數據收集取代邏輯推導從而得出結論,這種“大數據思維”使得機器智能能夠比人類更好地掌握社會全局。基于此,作者強調,在改善人類生活的同時,“大數據”亦將對人類社會造成巨大的沖擊,尤其是智能化大潮將引發的勞動力就業不足,諸如此類的變化則成為決策者所必須直面的問題。

在過去的50多年里,人類GDP增長的根本動力是摩爾定律,即每過18個月,集成電路的性能(以集成電路芯片中的晶體管數量來衡量)就翻一番,或者說同樣性能的集成電路每18個月價格下降一半。圖1展示出不同年代集成電路芯片里晶體管的數量(縱軸,注意它是指數坐標)。在此之前,人類還沒有一項技術能夠在長達半個多世紀的時間里以指數增長的速度進步。集成電路的發展不僅開啟了整個IT行業的技術革命,而且帶來了全球的自動化和信息化,因此,這是在過去的半個多世紀里拉動世界經濟增長的根本動力(雖然在中國還有房地產和基礎設施建設,但是在世界范圍內,這個市場是在萎縮的)。

摩爾定律帶來的另外兩個結果,就是互聯網的興起以及產業的數字化,而這兩個結果合在一起,又產生了一個過去我們不太關注的結果,那是各種數據量的急劇增長。當數據量增加到一定程度,量變就有可能成為質變,因此今天大數據成為了一個非常熱門的話題。不過,目前在行業里和社會上對大數據炒作居多,對于它的理解依然停留在比較淺的層面。這表現在:

·在概念上將大數據和大量數據相混淆,認為大數據就是數據量大,沒有看到多維度和完備性的本質。

·在應用上(商業上)僅僅看到了利用統計規律提升業務,沒有看到它和摩爾定律的結合必將導致機器智能社會的到來,從而徹底改變商業模式和產業結構,以及人們的生活和工作方式。

·明顯低估了大數據和機器智能將給我們人類社會帶來前所未有的機遇和沖擊。

我們就從這三個方面來看看大數據、機器智能和它們對未來社會的影響。

一、可怕的大數據

要說清楚大數據的本質和作用,先要講講數據的作用以及它和機器智能的關系。

1. 數據驅動的方法導致機器智能的出現

從1946年計算機誕生以來,人類一直在思考這樣幾個問題:機器是否能有類似于人一樣的智能?如果有,會在什么時候,以什么樣的方式出現?如果出現了,它將對人類的生活產生什么影響?在過去的半個多世紀里,雖然人類一直在為此努力,但是到目前為止,這件事情似乎并沒有發生,其中原因主要有兩點。首先,人類在機器智能這個問題上一度過于樂觀并且走了20年的彎路。人們最初的想法是讓計算機來仿造智能,并且提出了人工智能的概念。學術界后來把這樣的方法論稱作“鳥飛派”,意思是說看看鳥是怎樣飛的,就能模仿鳥造出飛機,而不需要了解空氣動力學。(事實上我們知道,懷特兄弟發明飛機靠的是空氣動力學而不是仿生學)直到上個世紀70年代,人類才找到了適合計算機發展智能的道路,即采用數據驅動和大強度計算。其次,30年前計算機的功能還不夠強大,雖然當時人們以為它已經很快了,容量很大了,但是只有今天的十億分之一左右,對解決智能問題來講是遠遠不夠的。而今天,人類正走在機器智能可能超越人類智能的轉折點上。

講到機器智能(而不是人工智能),首先要搞清楚什么是機器智能。1950年,計算機科學的先驅圖靈博士給出了一個衡量機器是否有智能的測試方法:讓一臺機器和一個人坐在幕后,與一個人(測試者)展開對話(比如回答人的問題),當測試者無法被辨別和他講話的是另一個人還是一臺機器時,就可以認為這臺機器具有和人等同的智能。這種方法被稱為圖靈測試 (Turing, 1959)。計算機科學家們認為,如果計算機實現了下面幾件事情中的一件,就可以認為它有圖靈所說的那種智能:

(1)語音識別。

(2)機器翻譯。

(3)自動回答問題。

但是,從20世紀50年代到60年代,機器智能按照傳統人工智能的路子走得非常不順利,幾乎沒有拿得出手的像樣成果。而與此同時,計算機科學的其他分支都發展得非常迅速。因此,美國計算機學界開始反思是否機器智能走錯了路?1968年,著名計算機科學家明斯基在Semantic Information Process一書(Minsky,1968)中分析了所謂人工智能的局限性,他引用了Bar-Hillel使用過的一個非常簡單的例子:

The pen was in the box.

這句話很好理解,如果讓計算機理解它,做一個簡單的語法分析即可。但是另一句話語法相同的話:

The box was in the pen.

就讓人頗為費解了。原來,在英語中,pen還有另外一個不太常用的意思——小孩玩耍的圍欄。在這里,理解成這個意思整個句子就通順了。但是,如果用同樣的語法分析,這兩句話會得到相同的語法分析樹,而僅僅根據這兩句話本身,是無法判定pen在哪一句話中應該作為圍欄,哪一句話應該是鋼筆的意思。事實上,人對這兩句話的理解并非來源于語法分析和語意本身,而來自于他們的常識,或者說關于世界的知識(World Knowledge),這個問題是傳統的人工智能方法解決不了的。因此,明斯基給出了他的結論,“目前”(指當時)的方法無法讓計算機真正有類似人的智能。由于明斯基在計算機科學界崇高的聲望,他的這篇論文導致了美國政府削減了幾乎全部人工智能研究的經費。在機器智能的發展史上,賈里尼克是一個劃時代的人物。1972年,當時還是康奈爾大學教授的賈里尼克來到IBM沃森實驗室進行學術休假,并且擔任起IBM研制智能計算機的工作。賈里尼克于是挑選了一個他認為最有可能突破的課題,即語音識別。

賈里尼克從來不是真正的計算機科學家,而他的專長是信息論和通信,因此他看待語音識別問題完全不同于人工智能的專家們——在他看來這是一個通信問題。人的大腦是一個信息源,從思考到合適的語句,再通過發音說出來,是一個編碼的過程,經過媒介(空氣或者電話線)傳播到聽眾耳朵里,是經過了一個長長的信道的信息傳播問題,最后聽話人把它聽懂,是一個解碼的過程。既然是一個典型的通信問題,就可以用解決通信問題的方法來解決,為此賈里尼克用兩個馬爾可夫模型分別描述信源和信道。當然,為了訓練和使用這兩個馬爾可夫模型,就需要使用大量的數據。采用馬爾可夫模型,IBM 將當時的語音識別率從70%左右提高到90%以上,同時語音識別的規模從幾百詞上升到兩萬多詞(Jelinek,1976),這樣,語音識別就能夠從實驗室走向實際應用。 賈里尼克和他的同事在無意中開創了一種采用統計的方法解決智能問題的途徑,因為這種方法需要使用大量的數據,因此它又被稱為是數據驅動的方法。

賈里尼克的同事彼得·布朗在1980年代,將這種數據驅動的方法用于了機器翻譯 (P.F. Brown,1990)。由于缺乏數據,最初的翻譯結果并不令人滿意,雖然一些學者認可這種方法,但是其他學者,尤其是早期從事這項工作的學者認為,解決機器翻譯這樣智能的問題,光靠基于數據的統計是不夠的。因此,當時SysTran等公司依然在組織大量的人力,寫機器翻譯使用的語法規則。

如果說在1980年代還看不清楚布朗的方法和傳統的人工智能的方法哪一個更適合計算機解決機器智能問題的話,那么在1990年代以后,數據的優勢就凸顯出來了。從1990年代中期之后的10年里,語音識別的錯誤率減少了一半,而機器翻譯的準確性提高了一倍,其中20%左右的貢獻來自于方法的改進,而80%則來自于數據量的提升。當然,這背后的一個原因是,由于互聯網的普及,可使用的數據量呈指數增長。

最能夠說明數據對解決機器翻譯等智能問題的幫助的,是2005年NIST對全世界各家機器翻譯系統評測的結果。

這一年,之前沒有做過機器翻譯的Google,不僅一舉奪得了各項評比的第一名,而且將其他單位的系統遠遠拋在了后面。比如在阿拉伯語到英語翻譯的封閉集測試中,Google 系統的 BLEU 評分為 51.31%,領先第二名將近 5%,而提高這五個百分點在過去需要研究7~10年;在開放集的測試中,Google51.37%的得分比第二名領先了17%,可以說整整領先了一代人的水平。當然,大家能想到的原因是它請到了世界著名的機器翻譯專家弗朗茲·奧科 (Franz Och),但是參加評測的南加州大學系統和德國亞琛工學院系統也是奧科寫的姊妹系統。從奧科在Google開始工作到提交評比結果,中間其實只有半年多的時間,奧科在方法上沒有做任何改進。Google系統和之前的兩個系統唯一的不同之處在于,前者使用了后者近萬倍的數據量。

表1是2005年NIST評比的結果。值得一提的是,SysTran公司的系統是唯一采用傳統的語法規則進行機器翻譯的。它和那些采用數據驅動的系統相比,差距之大已經不在一個時代了。

到了2000年之后,雖然還有一些舊式的學者死守著傳統人工智能的方法不放,但是無論是學術界還是工業界,機器智能的主流方法是基于統計或者說數據驅動的方法。與此同時,另外兩個相關的研究領域,機器學習和數據挖掘也開始熱門起來。

2012~2014年,筆者曾經負責Google的機器問答項目,并且通過使用大數據,解決了30%左右的問題,這遠遠超過了學術界迄今為止同類研究的水平。究其原因,除了Google在自然語言處理等基礎算法上做到了世界領先之外,更重要的是,Google將這個過去認為是純粹自然語言理解的問題變成了一個大數據的問題。首先,Google發現對于用戶在互聯網上問的各種復雜問題,有70%~80%左右的問題可以在前十條自然搜索結果(去掉廣告、圖片和視頻等結果)中找到答案,而只有20%左右的復雜問題,答案存在于搜索結果的摘要里。因此,Google將機器自動問答這樣一個難題轉換成了在大數據中尋找答案的摘要問題。當然,這里面有三個前提,首先答案需要存在,這就是我們前面講到的大數據的完備性;其次,計算能力需要足夠,Google回答這樣一個問題的時間小于10毫秒,但是需要上萬臺服務器同時工作;最后,就是要用到非常多的自然語言處理算法,包括對全部的搜索內容要進行語法分析和語義分析,要能夠從文字的片段合成符合語法而且讀起來通順的自然語言等等。其中第一個前提是只有Google等少數大公司具備,而學術界不具備,因此這就決定了是Google而非學術界最早解決圖靈留下的這個難題。

由此可見,我們對數據重要性的認識不應該停留在統計、改進產品和銷售,或者提供決策的支持上,而應該看到它(和摩爾定律、數學模型一起)導致了機器智能的產生。而機器一旦產生了和人類類似的智能,就將對人類社會產生重大的影響了。

2. 大數據(Big Data)的本質

機器智能離不開數據,那么大量的數據和現在大家所說的大數據是否是一回事呢?如果不是,它們之間又有什么聯系和區別呢?

毫無疑問,大數據的數據量自然是非常大的,但是光是“量”大還不是我們所說的大數據。比如過去國家統計局的數據量也很大,但是不是真正意義上的大數據。這兩者的差別我們可以從三個方面來看。

首先,大數據具有多維度性質,而不同維度之間有著天然的(而非人為的)聯系。為了說明這一點,我們不妨看一個實際的例子。

2013年9月份,百度發布了一個頗有意思的統計結果《中國十大“吃貨”省市排行榜》。百度沒有做任何的民意調查和各地飲食習慣的研究,它只是從“百度知道”的7700萬條和吃有關的問題里“挖掘”出來一些結論。

在關于“什么能吃嗎?”的問題中,福建、浙江、廣東、四川等地的網友最經常問的是“什么蟲能吃嗎”,江蘇、上海、北京等地的網友最經常問“什么的皮能不能吃”,內蒙古、新疆、西藏,網友則是最關心“蘑菇能吃嗎”,而寧夏網友最關心的竟然是“螃蟹能吃嗎”。寧夏的網頁關心的事情一定讓福建的網友大跌眼鏡,反過來也是一樣,他們會驚訝于有人居然要吃蟲子。

百度做的這件小事其實就是大數據的一個典型應用。它有這樣一些特點。首先,它的數據量非常“大”。第二,這些數據維度其實非常多,它們不僅涉及食物的做法、吃法、成分、營養價值、價格、問題來源的地域和時間等等,而且里面包含了提問者的很多信息,互聯網的IP地址,所用的計算機(或者手機)的型號,瀏覽器的種類等等。這些維度也不是明確地給出的(這一點和傳統的數據庫不一樣),因此在外面人看來,這些原始的數據是“相當雜亂”,但是恰恰是這些看上去雜亂無章的數據將原來看似無關的維度(時間、地域,食品、做法、成分,人的身份和收入情況等)聯系了起來。經過對這些信息的挖掘,加工和整理,就得到了有意義的統計規律。

當然,百度只公布了一點點大家感興趣的結果。它完全可以從這些數據中得到更多有價值的統計結果。比如,它很容易得到不同年齡人、性別和文化背景(這些很容易挖掘出來)的飲食習慣,不同生活習慣的人(比如正常作息的、夜貓子們、經常出差的或者不愛運動的等等)的飲食習慣等等。如果百度的數據收集的時間跨度足夠長,它還可以看出不同地區人飲食習慣的變化,尤其是在不同經濟發展階段飲食習慣的改變。而這些看似很簡單的問題,比如飲食習慣的變化,沒有百度知道的大數據,還真難得到。這就是大數據多維度的威力。

大數據的第二個特點在于它的完備性。為了說明這一點,讓我們再來看一個真實的案例。從1932年開始,蓋洛普一直在對美國總統選舉進行預測,幾十年來它也在不斷地改進采樣的方法,力求使得統計準確,但是在過去的幾十年里,它對美國大選結果的預測可以講是大局(全國)尚準確,但是細節(每一個州)常常出錯。因為再好的采樣方法,也有考慮不周全之處。

但是到了2012年總統選舉時,這種“永遠預測不準”的情況得到了改變。一位名不見經傳的統計學家Nate Silver通過對互聯網網上能夠取得的各種大量的數據(包括社交網絡上用戶發表的信息、新聞信息和其他網絡信息),進行大數據分析,準確地預測了全部50個州的選舉結果,而在歷史上,蓋洛普從來沒有做到這一點。當然,有人可能會問,這個結果是否是蒙的?這個可能性或許存在,但是只有一千萬億分之一,因此可以認為這是大數據分析的結果。在這個例子中,Silver并沒有什么好的采樣方法,只是收集的數據很完備。大數據的完備性,不僅有用,甚至有點可怕。

數據的完備性的作用遠比準確預測一個總統選舉大得多,Google無人駕駛汽車便是一個很好的例子。首先,無人駕駛汽車可以算是一個機器人,這點應該沒有疑問,因為它能像人一樣對各種隨機突發性事件快速地做出判斷。在這個領域Google只花了六年時間就做到了全世界學術界幾十年沒有做到的事情。在2004年,經濟學家們還認為司機是計算機難以取代人的幾個行業之一。當然,他們不是憑空得出這個結論的,除了分析了技術上和心理上的難度外,還參考了當年DARPA組織的自動駕駛汽車拉力賽的結果——當時排名第一的汽車花了幾小時才開出8英里,然后就拋錨了。但是,僅僅過了六年后,2010年Google的自動駕駛汽車不僅研制出來了,而且已經在高速公路和繁華的市區行駛了14萬英里,沒有出一次事故。

為什么Google能在不到六年的時間里做到這一點呢?最根本的原因是它的思維方式和以往的科學家們都不同——它把這個機器人的問題變成了一個大數據的問題。首先,自動駕駛汽車項目是Google街景項目的延伸,Google自動駕駛汽車只能去它“掃過街”的地方,而在行駛到這些地方時,它對周圍的環境是非常了解的,這就是大數據完備性的威力。而過去那些研究所里研制的自動駕駛汽車,每到一處都要臨時地識別目標,這是人思維的方式。其次,Google的自動駕駛汽車上面裝了十幾個傳感器,每秒鐘幾十次的各種掃描,這不僅超過了人所謂的“眼觀六路、耳聽八方”,而且積攢下來的大量的數據,對各地的路況,以及不同交通狀況下車輛行駛的模式有準確的了解,計算機學習這些“經驗”的速度則遠遠比人快得多,這是大數據多維度的優勢。這兩點是過去學術界所不具備的條件,依靠它們,Google 才能在非常短的時間里實現汽車的自動駕駛。

大數據的第三個特征在它的英文提法“Big Data”這個詞當中體現的很清楚。請注意,這里使用的是Big Data,而不是Large Data。Big和Large這兩個單詞有什么區別呢,Big更主要是強調抽象意義上的大,而Large是強調數量(或者尺寸)大,比如大桌子Large Table。Big Data的提法,不僅表示大的數據量,更重要地是強調思維方式的不同。這種以數據為主的新的做法,在某種程度上顛覆了我們長期以來在科學和工程上的方法論。在過去,我們強調做一件事情的因果關系,通過前提和假設,推導出結果。但是在大數據時代,由于數據的完備性,我們常常是先知道結論,再找原因(甚至不去找原因),那么我們是否愿意去接受這樣的工作方式。事實上,在一些具有大數據的IT公司里,包括Google,阿里巴巴等,今天已經是按照這種思維方式做事情了。Google的產品比競爭對手稍微好一點,主要不是靠技術,而是靠它的數據比對手更完備,同時它愿意用數據來解決問題。阿里巴巴的小額貸款能做起來(而其他商業銀行做不到),其實就是對大數據思維的一種詮釋。這是一種我們以前完全沒見過的新的思維方式,一種新的方法論。

大數據的這三個特點導致了機器智能和人具有完全不同的特點,它不是通過邏輯推理歸納演繹得出結論,而是利用大數據的完備性和多維度特點,直接找到答案。而大數據的完備性有可能讓機器比人更能夠掌控全局,或者說幫助決策者更好地掌握全局。

大數據不僅僅是數據量大,而在于它的天然多維度特點和它的完備性。數據驅動的方法結合呈指數增長的計算機性能導致了機器智能的產生,并且在今天這個時間點上可以比肩人類的智能,這才是大數據重要的根本原因。機器智能和人的智能是不同的,它不是依靠人嚴密的邏輯推理得到問題的答案,而是通過大數據的完備性直接找到答案,或者根據大數據多維度的特點找到以前我們無法發現的規律性。這將改變我們的思維方式,也就是所謂的采用“大數據思維”。

二、 大數據和機器智能的井噴式爆發

大數據這個概念在今天這個時間點被提出來,其根本原因是因為摩爾定律導致互聯網的發展,進而使得各種數據量的急劇增長(圖5,數據增長的速度快于互聯網本身增長的速度)。因此,大數據的第一個來源是互聯網,包括移動互聯網。大數據的產生還有第二個原因,就是傳感器技術的突破——今天各種手機,各種可穿戴式設備都有非常精準的傳感器。而一些傳感器價格非常便宜(比如RFID,每個售價僅四美分),使得每一個物品都可以裝上一個。這些傳感器產生了大量的數據。

那么大數據能有多么完備?未來的機器能有多么“聰明”?我們看兩個極端的例子。

1. 精確到每一個細節

我們來構造兩個場景,一個是關于物品,一個是關于人。

我們假定在未來的社會里,每一件物品上都貼有一個RFID(指甲蓋大小的不干膠),那么它每經過一道(裝有RFID閱讀器)門,都可以記錄下來,這樣我們可以追蹤它從出廠一直到被消費掉(或者最終銷毀掉)的每一步。將來顧客在超市買東西時,他不再需要在收銀臺前排隊,然后一件件掃描商品算賬,而只需要把購物車推出裝有RFID閱讀器的大門,而那個閱讀器將讀出他購物車里每一件商品,并且算出價錢。不僅如此,他還能知道商品的來源,這樣假貨就難有藏身之處。對于廠家來講,它的意義就更大了,大數據可以能建立起廠家和終端用戶的直接聯系。以前,廠家和客戶之間或多或少隔著一些經銷商,因此只能了解自己產品大致的銷售情況(比如哪個地區賣了多少),而無法了解細節(比如哪個收入階層在消費,各個流通環節加價多少等)。但是在大數據時代,它不僅能夠知道每一件商品買給了誰,甚至能知道中間每一個流通環節里的細節。因此,它可以完全根據市場供需進行生產,而且可以減少中間環節。對于政府的稅收部門,如果可以備份每一筆交易的每一個細節,保證每一筆稅收。但是,實現這一切需要多少IT投入,什么時候可以完成現在尚難估計。

接下來談談對人的精細化了解。從理論上講,在大數據時代完全有條件了解每一個人24小時的全部行程。對于使用手機的人,這件事很容易做到。Google向智能手機和Chrome的用戶提供一個被稱為Google Now的個人資訊服務,它通過大數據(利用多維度的特點)將用戶在日常生活中使用的很多(網絡)服務打通,讓使用者可以非常方便地管理每一天的生活。比如,它通過記錄使用者不同時間所在的位置,自動了解他的住址和上班的地點,每天上下班前,通知用戶路上所需要的時間和比較好的行程路線,同時也能通知用戶沿路可能發生的擁堵和交通事故。它還可以根據用戶的通信(比如郵件),幫助用戶自動地將每天的活動自動地加到日歷中并且及時提醒下一個活動。事實上,用戶在獲得這種方便性的同時,將每天的活動全部交給了Google來管理。只要再做進一步的數據挖掘,擁有這樣大數據的公司和機構(不一定需要是手機制造商和服務運營商),不僅可以知道一個人任何時刻的位置,而且可以知道他在做什么(比如在打電話、寫郵件、開會或者工作)等等,甚至可以知道在什么時候他和什么人見了面(比如兩個人在某個地方一起吃了一小時午飯,吃的是什么飯)。對于沒有使用手機的人來講,雖然不能獲得如此詳盡的信息,每天的活動也是有辦法知道的。比如只要他身上任何一件物品是可以識別,或者他的一些生物特征(臉譜、指紋、聲音等)可以識別,再經過大數據分析,也能比較詳盡地了解這個人的活動。在過去,針對非常少量的人,如果不計成本的話,這件事情也能辦到,但是不可能針對大范圍的人,而在大數據和機器智能使得了解每一個人的生活變成了可能。

大數據和機器智能的發展,必將使得“機器”能夠準確地了解社會的每一個細節。因此,具有最強大智能機器的不是哪一個具體的機器人,而是超級數據中心后面幾十萬、上百萬的服務器集群。而掌控這個集群的人實際上在掌控這個社會發生的一切。

2.對醫療衛生的影響

近幾十年來,雖然人類的壽命在不斷地延長,但這在很大程度上是靠技術手段,而不是醫療本身水平的提高。事實上,提高醫療水平是一個非常漫長的過程,而過去研制新的藥品和醫療手段亦是如此。醫療保健的費用不斷增加,而且照此下去各國將是不堪負荷的,據估計到2020年,美國用于醫療保健的費用將達到GDP的20%左右。

那么出路在哪里?今天IT界和醫學界領域都有一個共識,就是通過IT的進步,尤其是大數據和機器智能的進步,幫助解決人類健康的問題。當然,這個話題很大,我們可以從三個側面來看看在未來IT技術對生物醫療的幫助。

首先,藥品的研制。攻克癌癥是人類的一個夢想,但是迄今為止沒有一種特效的抗癌藥能夠治愈癌癥。過去醫學界還試圖研制這樣的抗癌藥,但是后來醫學界認識到,由于癌細胞本身的基因會變異,因此并不存在這樣一種萬能藥。基于這一點共識,醫學界改變了治療癌癥的思路,那就是針對特定患者(不斷變化的癌細胞),研制特定的藥物,從理論上講,只要研制的速度超過癌細胞變化的速度,癌癥就可以治愈了。

按照傳統的藥品研發思路,科學家們應該先研究病理,找到解決方法(比如阻止具有某種基因的癌細胞蛋白質的合成),然后找到相應的藥物,進行各種動物實驗和臨床試驗。這是我們前面提到的強調因果關系的工作方法。但是,按照這個思路,為每一位癌癥患者研制一種新藥是很難辦到的。且不說制藥公司能否安排一個專門的團隊為一個特定的患者服務,就算是能做到這一點,研制新藥的成本也是患者無法負擔的——平均一個人要十億美元(基因泰克公司董事長李文森博士的估計)。事實上,不僅研制抗癌藥成本高周期長,在美國,任何一種有效的處方藥研制的時間和費用都非常高。過去大約需要十年時間,十億美元,今天這個過程并沒有縮短,而成本甚至上升到近百億美元。

針對這種困境,科學家們想到了利用大數據來解決問題。在美國有大約5000多種處方藥(遠比一般人想象的少),過去每一種處方藥都是用于當初針對的那些疾病的,比如治療心臟病的藥物就是用于心臟病的。但是,今天通過大數據統計研究發現,一款治療心臟病的藥物對于胃病的治療效果明顯。按照大數據的思維方式,我們應該先接受這個結論,再反過來找原因。基于這樣的方法,找到治療一種疾病的藥品的組合,成本比以前研制新藥成本要降低至少一個數量級,而時間可以縮短70%~80%。根據著名生物系統專家、基因泰克公司董事長阿瑟·李文森博士的估計,采用大數據有望實現針對每一位癌癥患者量身定制藥物和治療方法,而成本可以降到每個人5000美元。

其次,基因科技和醫療診斷。

2012年Google科學比賽的第一名授予了一位來自威斯康星的高中生,她通過對760萬個乳腺癌患者的樣本數據的機器學習,設計了一種確定乳腺癌癌細胞位置的算法,來幫助醫生對病人進行活檢,其位置預測的準確率高達96%,超過目前專科醫生的水平。可以講,她的成功在很大程度上得益于大數據。這個例子只是眾多通過IT技術來幫助疾病診斷的成功案例之一。一些類似的軟件已經開始商用化。

大數據對醫療診斷的另一個主要的應用在于將人類的基因圖譜和各種疾病聯系起來,從而找到可能致病的基因并且設法修復。如果這件事情能夠完成,那么不僅有希望治愈很多過去因為基因缺陷引起的絕癥(比如癌癥、帕金森綜合癥等),甚至有可能逆轉人類的衰老過程。2013年,Google成立了它的醫療保健分公司Calico,并且聘請了李文森博士擔任CEO,其第一期的投入已經高達10億美元。據李文森博士介紹,采用傳統的醫學研究的方式,要想找到導致老年癡呆的基因并且找到治療方法,在他有生之年(1950年出生)可能是看不到的,但是利用大數據,則有可能辦到。

第三,醫療機器人。約翰·霍普金斯大學的羅素·泰勒教授是全世界最有權威的醫療機器人專家。根據他的專利制造的手術機器人達·芬奇已經成功地在全世界進行了150萬例的手術,包括前列腺摘除,心臟瓣膜修復等。據泰勒教授介紹這種造價200萬美元的機器人采用了非常多的跨學科的技術,具體到IT領域,其核心技術包括圖像處理和圖像識別,3D圖像的復原,統計模型等等。為了制造這個機器人,科學家們從醫學院里收集了大量的數據,建立各種模型,從而讓它擁有了一個非常見多識廣的大腦。相比醫生,手術機器人最大的好處在于它的穩定性——即不會因為情緒而影響手術效果。從2000年這種機器人被FDA批準使用后,目前全球已經裝備了3000多臺,其中三分之二在美國。在未來,這一類的醫療機器人會越來越多地被使用。

第四,可穿戴式設備改變生活習慣。在大數據時代,可穿戴式設備將扮演很多角色,和以往互相不關聯的電子設備不同,它有可能將人一天24小時都連到互聯網上。使用者(和背后的大數據公司)可以通過可穿戴式設備了解到他的生活習慣和健康狀況。這可以為疾病診斷提供準確的數據,試想一下,7天24小時監控的心跳和血壓數據,一定比在醫院一次測量的數據更加準確地反映了一個人的健康狀況。每個人的健康數據將來還可以作為醫療保險收費的憑據,并且幫助人們養成一個良好的生活習慣。在美國,一些保險公司正在嘗試給愿意使用可穿戴式設備,并且證明有良好生活習慣的人較低的保費。

可以預見,在不久的將來,IT技術尤其是大數據和機器智能技術在醫療保健上的應用會越來越多,并且將極大地改善人類的生活。

3. 智能機器(機器人)

在2015年拉斯維加斯的消費電子產品展CES上,各廠家都用“所有東西皆智能”(Smart Everything)來吸引觀眾。當然,機器人(包括無人機)是展覽會上的一個亮點。

無人機本身已經不是什么新鮮事,但是美國一家小公司Sky Catch則將它們的智能水平提到一個新的高度。這家公司讓智能機的操作完全(比如換電池、換硬盤)由機器人來完成,用戶只需要定義任務即可。蘋果公司是Sky Catch的客戶之一,目前租用無人機服務監控它的新總部施工情況,每天無人機要出動六、七次到工地上空拍攝出全部的工程進展錄像和照片,能了解工地建設從第一天到最后一天全部的細節。

由于在地面為無人機服務的是機器人,能派出的無人機的數量可以非常多,頻率也可以非常高。如果我們把這件事想得遠一點,無人機可以查出一個城市全部的違章建筑,任何地方的交通狀況,對農業收成的估計、礦山和工地的勘察等等。如果把這種機器人能夠做的事情再進一步擴展,變成為固定機翼的無人機裝卸燃料,那么就構成了一支非常可怕的空軍。

如果我們再把無人駕駛汽車看成一個能在地面上行駛的機器人,那么它們經過改裝,可以變成為反恐服務的巡邏車。當然,這些要以進一步的機器智能和大數據研究為基礎。

當然,智能機器最關鍵的不在于可以移動的“四肢”,而在于它的大腦。在這超級“機器大腦”的控制下,智能機器可以完成很多人難以完成的事情,從在生產線上取代工人,到取代那些職業人士(金融、法律和醫生)。這些在過去看似不可能的事情,今天正在發生。關于這一點,我們下面會詳細論述。

三、大數據和機器智能的社會影響

機器智能無疑可以幫助改善人類的生活,包括延長人的壽命,但另一方面,我們在歡呼機器智能到來的同時,是否準備好了它對未來社會帶來的沖擊呢。技術革命的作用常常是正反兩方面并存的。我們從對制造業、服務業等幾個層面的影響來說明它。

2011年德國提出工業4.0的概念,即通過數字化和智能化來提升制造業的水平。其核心則是通過智能機器、大數據分析來幫助工人甚至取代工人,實現制造業的全面智能化。這在提高設計、制造和供應銷售效率的同時,也會大大減少產業工人的數量。在中國,全球最大的OEM制造商富士康,一直在研制取代生產線上工人的工業機器人。富士康預計未來它將有上百萬的機器人取代裝配線上的工人。這一方面使得工人們不再需要到生產線上去從事繁重而重復性的工作,另一方面則使得工廠里的工人數量將大幅度地減少。

當然,很多人會說,自從大機器出現后,工人的數量就在減少,但是勞動力會被分配到其他行業。但是,如同在2004年經濟學家低估了機器可以取代駕駛員的可能性一樣,今天我們可能在低估機器智能對未來社會的沖擊。這一次由機器智能引發的技術革命,不僅僅是替代那些簡單的勞動,而將在各個行業取代原有的從業人員,因為這將是人類歷史上第一次,機器在智能方面超越人類。我們不妨看看機器智能對那些最需要專業技能的行業帶來的沖擊。

在美國,專科醫生,比如放射科醫生,是社會地位和收入最高的群體,也是需要專業知識最多,智力水平最高的群體——他們需要在大學和醫院學習和訓練13年(平均)才能獲得行醫的執照。這樣的工作,過去被認為是不可能被機器取代的。但是,今天智能的模式識別軟件通過醫學影像的識別和分析,可以比有經驗的放射科醫生更好地診斷病情,而這個成本,只是人工的百分之一。

律師,也被認為是最“高大上”的職業,但是他們的工作受到了自然語言處理軟件的威脅。今天,打一場像蘋果vs三星這樣的官司,要分析和處理上百萬份法律文件(因為美國是判例型法律),律師費高得驚人。但是,位于硅谷Palo Alto的 Blackstone Discovery公司發明了一種處理法律文件的自然語言處理軟件,使得律師的效率可以提高500倍,而打官司的成本可以下降99%。這意味著未來將有相當多的律師可能失去工作。事實上這件事情在美國已經發生,新畢業的法學院學生找到正式工作的時間比以前長了很多。

面對勢不可擋的機器智能大潮,人類在未來需要重新考慮工作和生活的方式了,尤其是勞動力的出路問題。從一百多年前開始的農業革命使得發達國家2%~5%(注釋:根據美國勞工部的統計,美國農業工人占不到勞動力人口的2%。)的人提供了全部人口所需的食品,隨著機器智能的發展,或許只需要5%以下的勞動力就能提供人類所需的所有工業品和大部分的服務工作。當然,會有一小部分人參與智能機器的研發和制造,但是這只會占到勞動力的很小一部分。那么,我們現在必須考慮未來勞動力的出路在哪里?這是一個在機器智能發展過程中無法回避的問題。

在歷史上,第一次工業革命(1760~1820)一方面極大地解放了生產力,并且使得人類第一次生產的產品超過了消費的需求。當時在世界上真正受益的只有英國,起初產業工人不過數百萬而已。即便如此,它也感覺到市場不夠用,以至于它需要進行全球性市場的拓展。亞當·斯密的《國富論》誕生于那個年代有它的歷史背景。在這本經典經濟學著作中,亞當·斯密闡述了英國開放市場的重要性,而其目的是換取他國同樣地開放市場。這次工業革命進行了60年,有兩代人的時間消化它帶來的沖擊力,但是在很長時間里,社會依然無法承受。在19世紀上半葉,是英國勞資矛盾最突出的時期,狄更斯等人的小說里描寫的工人們悲慘的景象,便是在那個時期,而馬克思主義也恰恰是在那個時代誕生的。直到19世紀中,英國才形成一個相對穩定的中產階級群體,而靠著對外貿易,英國在19世紀中期進入它的維多利亞榮光時代,其標志為1855年首屆世博會。如果從1760年算起,英國整整花了一個世紀才消化工業革命帶來的負面影響,這還是在全世界獨此一國進入工業化時代的前提下。

第二次工業革命(1870~1914)也歷時了近半個世紀,電的使用幫助美國和德國超越了英國,并且成為人類歷史上財富增長最快的時期。在美國一方面造就了范德比爾特、卡內基和洛克菲勒等商業巨子(在全世界有史以來最富有的75人中,有五分之一出現在第二次工業革命時期的美國),但是另一方面,這也是美國社會公平性最受破壞的事情。最后,經過老羅斯福、塔夫特和威爾遜三任總統反壟斷的努力以求恢復社會的公平性、經過了一次大戰從債務國變成債權國,直到20世紀20年代,才迎來了柯立芝繁榮。這前后也花了半個多世紀來適應這次產業革命。

在從上個世紀末開始的所謂第三次浪潮的信息革命中,美國無疑是一個領跑者和贏家,但是美國大部分民眾在經濟上和幸福指數上其實并沒有什么提升(圖6,美國家庭在扣除通貨膨脹后收入的增長,最左邊是收入排在50%~75%的家庭,中間是排在25%~50%的家庭,右邊是最富有的5%的家庭)和(圖7,美國人幸福指數的變化)。

這一次將由機器智能帶來的革命,對社會的沖擊將是全方位的。社會結構可能會發生根本性的變化,這可能不是簡單地把農業人口變成城市人口,把第一第二產業變成第三產業這么簡單。第一次工業革命和第二次工業革命還有半個世紀左右的時間消化吸收這些變化,但是這一次由于機器智能和大數據帶來的革命來得非常之快,涉及的領域非常之多,以至于我們未必會有很長的時間來應對,社會將如何適應這種變化,是決策者現在需要考慮的問題。

(作者系谷歌公司計算機科學家、騰訊公司前副總裁)