首先,甚么是Big Data?甚么不是Big Data?这个问题没有标准答案,各家有各家的说法,但大同小异。
麻省理工学院教授席多哥(Cesar A. Hidalgo)在《科学美国人》(Scientific American)的论坛上发表了一篇文章,认为Big Data的内容主要是指有关人类活动所留下的各种数据轨迹,例如:行动电话记录、信用卡消费记录、社群网站活动等。这些数据,全部的数据,经过数据可视化(data visualization)和机器学习(machine learning)等技术,找出一些形态或相关性,可供管理决策参考运用或是预测未来行为。
基本上这套技术和传统的统计抽样、问卷调查、访谈等完全不同。传统的统计总是来自抽样,所以不是「大数据」。
先玩玩Google Trends
你也许会认为Big Data莫测高深,离自己很远,其实不然,任何人都可以立即体验一下。请进入Google Trends网站(www.google.com.tw/trends/),在网页最上端「Search Google Trends」的那一栏里打入任何你想知道(有多少人在搜寻)的字词,例如「股市行情」,这时Google Trends就会把历年来搜寻「股市行情」的人数消长图显示出来。不过这资料包括大陆和香港,如果我们只想知道台湾的部分,可以在网页上面蓝色那行,把「全球」改成「台湾」。于是我们可以看到台湾关心股市的程度,从我目前的资料看起来,是呈现「暴增」的趋势。
这就是最容易上手的Big Data了,除了有趣之外,潜力更是无可限量。你要查甚么字词,找出甚么现象,几乎没有限制。Google工程师还弄了一个Google Flu Trends系统(http://www.google.org/flutrends/),用流感症状的相关词汇搜寻状况来分析疫情,发现他们的指标只比实际疫情落后一天,远优于疾病管理局(CDC)落后一周的通报资料。他们把这个成果发表于《自然》杂志,引起广大回响,并带动Big Data的风潮。虽然Google Flu Trends事后被发现有些瑕疵,但其历史意义则不容否认。
不花大钱也可以试玩Big Data
如果你的企业所有信息,也能有一套类似Google Trends的东西,随时提供经营上的线索给老板和经理人参考,不是很好吗?以往,Big Data只属于超大型企业的东西,现在,基本上不用花大钱也能玩入门款了。
大家最担心的系统架设问题,IBM Watson Analytics、Amazon Web Services、Google BigQuery等都有收费低廉甚至于免费试用的方案,很适合小企业使用。我们只要上去他们的网站,在系统的指引下,就可以一步一步地动手开始做。
至于人员培训方面,实体课程有资策会或各大学推广中心可选择,而由全球一百多所知名大学所提供的Coursera网络课程,则是完全免费。此外,你也可以先用公领域的数据库当作练习,Amazon Web Services上提供了从美国普查数据、联准会经济数据、到基因定序的各种Big Data数据库,任何人都可以下载使用。
总之,要玩Big Data已经不再是遥不可及的事。但是请注意,长期而深度使用Big Data系统的成本仍然不低,须审慎评估效益。因此,我们接下来的思考重点是,煞费苦心搞了一套Big Data系统之后,到底有没有用?
具体效益难显现
我个人的猜测是,对大多数的企业,尤其是中小企业,营运资料的复杂程度并不高,Big Data没甚么用武之地,它很难胜过人脑,尤其是优秀员工的头脑。
就算是稍微复杂一些的大企业,他们大致上也已经计算机化,而且有一套以上的经营管理系统在运作,当然有一定的水平。更何况在市场竞争机制之下,能够存活的厂商绝非泛泛之辈。而Big Data系统纯靠机械的数据学习来找出特定型态,要超越现有经营绩效,如果没有高手相助,恐怕是不行的。而一般的企业,顶多是边做边学Big Data,如何能够在短期间培育出高手?
因此,除了极少数例外,大多数企业建置Big Data的初期,效益是不容易被看见的,倒是鼓励和培养人才的意义比较大。美国IDG Research Service和Kapow Software在2013年曾发表一份调查报告指出,高达85%的企业主管认为Big Data「有助于做出更周全的商业决策」,但只有23%主管认为这些Big Data计划「到目前为止还算成功」,52%则认为「不怎么成功」。原因是「计划拖太久……东西太艰深,大部分员工无法了解……如果不聘请昂贵的顾问或数据科学家,便很难从中得出关键而有效的观点」。
举办一场竞赛
很多企业花了好大功夫把Big Data架设起来之后,面对海量的数据,由于功力不够,只能一筹莫展。怎么办呢?头都洗下去了。最常见的手法就是举办一场Big Data竞赛,把整套的数据提供出来(当然,敏感的部分或名称必须用代号或其它方式转换),悬赏奖金,请各界高手展现真功夫。或是先办一场比赛,找出高手,再聘请他们进来公司解决问题。
国内许多企业都曾举办过Big Data赛事,至于国外就更不胜枚举了。由于有这个需求,于是有Kaggle这么一家企业设置了一个平台,专门协助企业和学界在上面举办Big Data竞赛,以找出优胜者和最好的模型。在竞争之下,人的潜能无限发挥,Big Data或许可以有惊人的成果。
限于篇幅,只能走笔至此。但请想一想,我们为甚么要花那么大的工夫,找一个不了解我们企业的「高手」(可能还在读大学)来解读数据库里的无字天书,然后大家在不知其所以然的情况下就奉为圭臬?
这到底是科学还是迷信?