Big Data 热潮,科学还是迷信?

Big Data的内容主要是指有关人类活动所留下的各种数据轨迹,例如:行动电话记录、信用卡消费记录、社群网站活动等。
Thinkstock
第153期
林茂昌
林茂昌为台湾知名的翻译家,翻译过多本重量级财经著作,如葛林斯潘的回忆录《我们的新世界》、畅销书《黑天鹅效应》、《师父》、《马丁沃夫教你看懂全球金融》、《大债时代》等。曾任台证期货总经理、期货商公会理事。自2004年即财务独立从事价值投资。2011年出版第一本着作《我的职业是股东》,广受好评。

首先,甚么是Big Data?甚么不是Big Data?这个问题没有标准答案,各家有各家的说法,但大同小异。

麻省理工学院教授席多哥(Cesar A. Hidalgo)在《科学美国人》(Scientific American)的论坛上发表了一篇文章,认为Big Data的内容主要是指有关人类活动所留下的各种数据轨迹,例如:行动电话记录、信用卡消费记录、社群网站活动等。这些数据,全部的数据,经过数据可视化(data visualization)和机器学习(machine learning)等技术,找出一些形态或相关性,可供管理决策参考运用或是预测未来行为。

基本上这套技术和传统的统计抽样、问卷调查、访谈等完全不同。传统的统计总是来自抽样,所以不是「大数据」。

 

先玩玩Google Trends

你也许会认为Big Data莫测高深,离自己很远,其实不然,任何人都可以立即体验一下。请进入Google Trends网站(www.google.com.tw/trends/),在网页最上端「Search Google Trends」的那一栏里打入任何你想知道(有多少人在搜寻)的字词,例如「股市行情」,这时Google Trends就会把历年来搜寻「股市行情」的人数消长图显示出来。不过这资料包括大陆和香港,如果我们只想知道台湾的部分,可以在网页上面蓝色那行,把「全球」改成「台湾」。于是我们可以看到台湾关心股市的程度,从我目前的资料看起来,是呈现「暴增」的趋势。

这就是最容易上手的Big Data了,除了有趣之外,潜力更是无可限量。你要查甚么字词,找出甚么现象,几乎没有限制。Google工程师还弄了一个Google Flu Trends系统(http://www.google.org/flutrends/),用流感症状的相关词汇搜寻状况来分析疫情,发现他们的指标只比实际疫情落后一天,远优于疾病管理局(CDC)落后一周的通报资料。他们把这个成果发表于《自然》杂志,引起广大回响,并带动Big Data的风潮。虽然Google Flu Trends事后被发现有些瑕疵,但其历史意义则不容否认。

 

不花大钱也可以试玩Big Data

如果你的企业所有信息,也能有一套类似Google Trends的东西,随时提供经营上的线索给老板和经理人参考,不是很好吗?以往,Big Data只属于超大型企业的东西,现在,基本上不用花大钱也能玩入门款了。

大家最担心的系统架设问题,IBM Watson Analytics、Amazon Web Services、Google BigQuery等都有收费低廉甚至于免费试用的方案,很适合小企业使用。我们只要上去他们的网站,在系统的指引下,就可以一步一步地动手开始做。

至于人员培训方面,实体课程有资策会或各大学推广中心可选择,而由全球一百多所知名大学所提供的Coursera网络课程,则是完全免费。此外,你也可以先用公领域的数据库当作练习,Amazon Web Services上提供了从美国普查数据、联准会经济数据、到基因定序的各种Big Data数据库,任何人都可以下载使用。

总之,要玩Big Data已经不再是遥不可及的事。但是请注意,长期而深度使用Big Data系统的成本仍然不低,须审慎评估效益。因此,我们接下来的思考重点是,煞费苦心搞了一套Big Data系统之后,到底有没有用?

 

具体效益难显现

我个人的猜测是,对大多数的企业,尤其是中小企业,营运资料的复杂程度并不高,Big Data没甚么用武之地,它很难胜过人脑,尤其是优秀员工的头脑。

就算是稍微复杂一些的大企业,他们大致上也已经计算机化,而且有一套以上的经营管理系统在运作,当然有一定的水平。更何况在市场竞争机制之下,能够存活的厂商绝非泛泛之辈。而Big Data系统纯靠机械的数据学习来找出特定型态,要超越现有经营绩效,如果没有高手相助,恐怕是不行的。而一般的企业,顶多是边做边学Big Data,如何能够在短期间培育出高手?

因此,除了极少数例外,大多数企业建置Big Data的初期,效益是不容易被看见的,倒是鼓励和培养人才的意义比较大。美国IDG Research Service和Kapow Software在2013年曾发表一份调查报告指出,高达85%的企业主管认为Big Data「有助于做出更周全的商业决策」,但只有23%主管认为这些Big Data计划「到目前为止还算成功」,52%则认为「不怎么成功」。原因是「计划拖太久……东西太艰深,大部分员工无法了解……如果不聘请昂贵的顾问或数据科学家,便很难从中得出关键而有效的观点」。

 

举办一场竞赛

很多企业花了好大功夫把Big Data架设起来之后,面对海量的数据,由于功力不够,只能一筹莫展。怎么办呢?头都洗下去了。最常见的手法就是举办一场Big Data竞赛,把整套的数据提供出来(当然,敏感的部分或名称必须用代号或其它方式转换),悬赏奖金,请各界高手展现真功夫。或是先办一场比赛,找出高手,再聘请他们进来公司解决问题。

国内许多企业都曾举办过Big Data赛事,至于国外就更不胜枚举了。由于有这个需求,于是有Kaggle这么一家企业设置了一个平台,专门协助企业和学界在上面举办Big Data竞赛,以找出优胜者和最好的模型。在竞争之下,人的潜能无限发挥,Big Data或许可以有惊人的成果。

限于篇幅,只能走笔至此。但请想一想,我们为甚么要花那么大的工夫,找一个不了解我们企业的「高手」(可能还在读大学)来解读数据库里的无字天书,然后大家在不知其所以然的情况下就奉为圭臬?

这到底是科学还是迷信?

你可能會有興趣的文章

三茵無毒創意生活的實踐者
台灣近年來由塑化劑所延燒出的毒風暴,至今讓這個小島真正地「台毒」,民眾焦急惶恐,無所適從,要下手購物之時,覺得彷彿被黑心廠商層層包圍,…
第27集:講究功效,理性決策
「小吳,基於公司種種考量,可能要請你離職。」 「離職?為甚麼!」 「你這幾個月的貢獻比不上付給你的薪水,評估下來還是得請你走路。」 「…
家在糖廠
每日擦身而過的人不下數十者,甚麼樣的人,會讓你留下深刻印象? 那一個夏日午後,我們來到嘉義,一望無際的雲嘉南平原,空氣裡還有禽畜、…
以色列是罪魁嗎?
哈馬斯突襲以色列造成重大平民傷亡,以色列進行軍事反擊也導致平民傷亡。全世界對此產生分歧,有支持以色列的,有支持巴勒斯坦的。到底誰更有道理…
社會分析:管理問題還是社會問題?
富士康不到半年來發生的「12跳」問題,其實很大一部分是重新跳出中國由來已久的「農民工」問題。中央研究院社會學研究所副研究員、…
中國中小企業主加入富人移民潮
近期,統計數據顯示,中國富人的移民風潮已經從富豪開始向中小企業主蔓延。中國種種的社會亂象、安全感的缺失所帶來的負效應,…
年終的考績症候群
每年年底打考績,總是幾家歡樂幾家愁。考績壓力會讓人出現失眠、心悸、頭暈、眼睛酸澀、全身倦怠、煩躁、多夢、情緒起伏敏感、易怒、飲食失常等現象…
科學難解:擇人而發的傳染病
傳染病一般通過呼吸、體液、血液等途徑傳播,染病的機率和流行程度有關。但追蹤人類歷史上幾次大的傳染病案例,…