Big Data 熱潮,科學還是迷信?

Big Data的內容主要是指有關人類活動所留下的各種數據軌跡,例如:行動電話記錄、信用卡消費記錄、社群網站活動等。
Thinkstock
第153期
林茂昌
林茂昌為台灣知名的翻譯家,翻譯過多本重量級財經著作,如葛林斯潘的回憶錄《我們的新世界》、暢銷書《黑天鵝效應》、《師父》、《馬丁沃夫教你看懂全球金融》、《大債時代》等。曾任台証期貨總經理、期貨商公會理事。自2004年即財務獨立從事價值投資。2011年出版第一本著作《我的職業是股東》,廣受好評。

首先,甚麼是Big Data?甚麼不是Big Data?這個問題沒有標準答案,各家有各家的說法,但大同小異。

麻省理工學院教授席多哥(Cesar A. Hidalgo)在《科學美國人》(Scientific American)的論壇上發表了一篇文章,認為Big Data的內容主要是指有關人類活動所留下的各種數據軌跡,例如:行動電話記錄、信用卡消費記錄、社群網站活動等。這些資料,全部的資料,經過數據視覺化(data visualization)和機器學習(machine learning)等技術,找出一些形態或相關性,可供管理決策參考運用或是預測未來行為。

基本上這套技術和傳統的統計抽樣、問卷調查、訪談等完全不同。傳統的統計總是來自抽樣,所以不是「大資料」。

 

先玩玩Google Trends

你也許會認為Big Data莫測高深,離自己很遠,其實不然,任何人都可以立即體驗一下。請進入Google Trends網站(www.google.com.tw/trends/),在網頁最上端「Search Google Trends」的那一欄裡打入任何你想知道(有多少人在搜尋)的字詞,例如「股市行情」,這時Google Trends就會把歷年來搜尋「股市行情」的人數消長圖顯示出來。不過這資料包括大陸和香港,如果我們只想知道台灣的部分,可以在網頁上面藍色那行,把「全球」改成「台灣」。於是我們可以看到台灣關心股市的程度,從我目前的資料看起來,是呈現「暴增」的趨勢。

這就是最容易上手的Big Data了,除了有趣之外,潛力更是無可限量。你要查甚麼字詞,找出甚麼現象,幾乎沒有限制。Google工程師還弄了一個Google Flu Trends系統(http://www.google.org/flutrends/),用流感症狀的相關詞彙搜尋狀況來研判疫情,發現他們的指標只比實際疫情落後一天,遠優於疾病管理局(CDC)落後一週的通報資料。他們把這個成果發表於《自然》雜誌,引起廣大迴響,並帶動Big Data的風潮。雖然Google Flu Trends事後被發現有些瑕疵,但其歷史意義則不容否認。

 

不花大錢也可以試玩Big Data

如果你的企業所有資訊,也能有一套類似Google Trends的東西,隨時提供經營上的線索給老闆和經理人參考,不是很好嗎?以往,Big Data只屬於超大型企業的東西,現在,基本上不用花大錢也能玩入門款了。

大家最擔心的系統架設問題,IBM Watson Analytics、Amazon Web Services、Google BigQuery等都有收費低廉甚至於免費試用的方案,很適合小企業使用。我們只要上去他們的網站,在系統的指引下,就可以一步一步地動手開始做。

至於人員培訓方面,實體課程有資策會或各大學推廣中心可選擇,而由全球一百多所知名大學所提供的Coursera網路課程,則是完全免費。此外,你也可以先用公領域的資料庫當作練習,Amazon Web Services上提供了從美國普查資料、聯準會經濟數據、到基因定序的各種Big Data資料庫,任何人都可以下載使用。

總之,要玩Big Data已經不再是遙不可及的事。但是請注意,長期而深度使用Big Data系統的成本仍然不低,須審慎評估效益。因此,我們接下來的思考重點是,煞費苦心搞了一套Big Data系統之後,到底有沒有用?

 

具體效益難顯現

我個人的猜測是,對大多數的企業,尤其是中小企業,營運資料的複雜程度並不高,Big Data沒甚麼用武之地,它很難勝過人腦,尤其是優秀員工的頭腦。

就算是稍微複雜一些的大企業,他們大致上也已經電腦化,而且有一套以上的經營管理系統在運作,當然有一定的水準。更何況在市場競爭機制之下,能夠存活的廠商絕非泛泛之輩。而Big Data系統純靠機械的資料學習來找出特定型態,要超越現有經營績效,如果沒有高手相助,恐怕是不行的。而一般的企業,頂多是邊做邊學Big Data,如何能夠在短期間培育出高手?

因此,除了極少數例外,大多數企業建置Big Data的初期,效益是不容易被看見的,倒是鼓勵和培養人才的意義比較大。美國IDG Research Service和Kapow Software在2013年曾發表一份調查報告指出,高達85%的企業主管認為Big Data「有助於做出更周全的商業決策」,但只有23%主管認為這些Big Data計畫「到目前為止還算成功」,52%則認為「不怎麼成功」。原因是「計畫拖太久……東西太艱深,大部分員工無法了解……如果不聘請昂貴的顧問或資料科學家,便很難從中得出關鍵而有效的觀點」。

 

舉辦一場競賽

很多企業花了好大功夫把Big Data架設起來之後,面對海量的資料,由於功力不夠,只能一籌莫展。怎麼辦呢?頭都洗下去了。最常見的手法就是舉辦一場Big Data競賽,把整套的資料提供出來(當然,敏感的部分或名稱必須用代號或其他方式轉換),懸賞獎金,請各界高手展現真功夫。或是先辦一場比賽,找出高手,再聘請他們進來公司解決問題。

國內許多企業都曾舉辦過Big Data賽事,至於國外就更不勝枚舉了。由於有這個需求,於是有Kaggle這麼一家企業設置了一個平台,專門協助企業和學界在上面舉辦Big Data競賽,以找出優勝者和最好的模型。在競爭之下,人的潛能無限發揮,Big Data或許可以有驚人的成果。

限於篇幅,只能走筆至此。但請想一想,我們為甚麼要花那麼大的工夫,找一個不了解我們企業的「高手」(可能還在讀大學)來解讀資料庫裡的無字天書,然後大家在不知其所以然的情況下就奉為圭臬?

這到底是科學還是迷信?

你可能會有興趣的文章

6.釣魚台主權爭議 中日台上演保釣劇碼
釣魚台列嶼領土爭議,可說是2012年東北亞地區最火熱的國際議題。不僅讓曾因311東北大地震而重拾「台日友好」的台日關係再度降到冰點,…
2022年,站在懸崖邊的人類
疫情、地震、火山爆發、海嘯,災難接踵而至,地球上的每一個人都彷彿站在懸崖邊。諸多預言更讓未來變得不可觸摸。人類真的是大限將至,在劫難逃了嗎…
金融危機蒸發的錢到哪去了?
最近,各國企業裁員、房價下跌、百姓緊捂錢袋,而金融危機前,世界似乎富得流油,怎麼一夜之間經濟蕭條了?在經濟泡沫爆破中,俄羅斯股市跌去70…
第六集 人中學 師如友
「老師!老師!」 「有甚麼事情嗎?」 「您剛才講得好有道理喔,我還有好多問題想問。」 「謝謝,不過我要去趕車了。」 「那………
《新聞周刊》不賣給共產黨
《時代》周刊(Time)和《新聞周刊》(Newsweek)是美國老牌、並具全球影響力的新聞雜誌,前者創刊於1923年,後者也有77年歷史。…
宇宙中是否存在「來自星星的你」?
晴朗無雲的夜裡,仰望滿天星斗,美得令人感動…… 廣闊無垠的星空中,巨大的星球看起來非常渺小且難以盡數。您可曾想過,浩瀚的宇宙到底有多大?…
關於龍年小孩的研究
去年是龍年,也是台灣新生兒數目連續第二年的反彈。台灣的新生兒人數從2000年的260,354人一路下滑到2010年的166,886人,…
學武的孩子,忍人不能忍
常聽說學琴的孩子不會變壞,那習武的孩子呢?是好勝爭強,還是講究武德、彬彬有禮?是頭腦簡單、四肢發達,還是冷靜沉穩,習武風範行於日常的「…