帕加尼

注册

 

发新话题 回复该主题

谭跃杂谈大数据兼及话出版 [复制链接]

1#
治疗白癜风的中药方 http://news.39.net/bjzkhbzy/171219/5943334.html

什么是大数据?大数据从哪里来,往哪里去?出版业如何应对大数据代的冲击?如何更好地将大数据为我所用?

本报此次刊发的《杂谈大数据兼及话出版》一文,是中国出版集团总裁谭跃在年中国版权协会高级研修班上的讲课内容。文章看似“杂谈”——从公共医疗领域到社会生活领域,从二进制到《易经》,从新墨西哥数字巡天项目到中国“天河二号”计算机……谈古论今,旁征博引,轻松可读;实则“聚焦”——透过若干个鲜活的案例,条分缕析的思考,梳理了数据化与数字化的关系、大数据的历史过程、云计算条件下新的数据观、大数据的核心和特点、大数据与出版的关系……虽是年的文章,但视角独特,深入浅出,系统翔实,对当前出版业的数字化转型乃至整个出版业业态升级仍具有一定的启发和借鉴意义。特此刊发,以飨读者。

谭跃

中国出版集团公司总裁

几年前,有人跟我谈大数据出版。当时吓了一跳,数字出版还没弄懂搞好,又来大数据出版了。于是做了些学习,借此机会,谈点初步心得。

1

从两个案例说起

第一个案例,是年发生甲型H1N1流感,当时美国很恐慌,专家说很可能像墨西哥、西班牙当年的大流感一样,会波及到五亿人以上。美国国家疾控中心采用的是抽样法,结果出来很慢。不知道流感源头在哪里,不知道下一步控制的办法是什么。但是谷歌立即在《自然》杂志出了一个报告告诉公众,什么时间、在什么地方、源头在哪里,流感要大爆发。两个月以后,国家疾控中心才出了报告,它的重合率,也就是谷歌报告的正确率达到97%。谷歌怎么做的呢?这就要说到大数据了,它运用了每天31亿条的搜索,将万条美国最频繁搜索的词条和国家疾控中心年至年所有数据进行对比,对比的结果就出了一份报告。

第二个案例,是有一个软件专家参加他弟弟的婚礼,从西雅图到洛杉矶。因为婚礼通知得早,两个月前就买了机票,但上了飞机才知道别人的票价都比他便宜,于是十分恼火。但他是一个数据专家,他的恼火没有发到其他地方,他要开发一个软件来指导大家怎么买票。他利用软件,对所有航线机票的价格和提前购买天数的关系做了大量的运算。数据的基础是多少呢?是41天内的1.2万个价格的样本。然后他觉得还不够,又把国家航空产业所有公司的每条航线中的每架飞机、每个座位,一年内的所有票的综合价格,做了大量的运算,获得了亿条飞行数据。在这个基础上,他做了一个东西公布出去。公布的结果是什么呢?微软发现了商机,把这个公司买了下来,花了1.1亿美元。买下来实际看重的价值是什么呢?是这个公司发展到第二年,已经拥有了十万亿条价格记录,准确率达到75%,所有用他的方法买票的人平均可以降低票价50美元,这是不小的数字。

这是两个案例,当然还有很多案例。重要的不是案例本身,而是案例告诉我们什么。这两个案例告诉我们四点认识。一是数据是静止的。一旦发生了就存在那儿。二是数据是过去的。潜台词是数据没有太大的作用,像没有被开发的矿产一样。三是数据是有待开发的。像很多物理学家讲的,只要是物理现象,背后都有潜能有待开发,数据也是这样。四是数据是无处不在的。刚才讲到的案例,一个是公共医疗领域,一个是社会生活领域,其实很多的方面都表现出数据的无处不在。

最近美国这样的书比较多,我看了一些,远没看全。其中读到一个观点是,数据化将使世界一切皆可量化。这跟我们出版业有关联了,一切也包含了出版业。它说我们过去的年代重点在哪里,在T,T是技术。而从现在开始,我们的聚焦将集中在I,信息本身,也就是数据。Data(数据)的拉丁文本意是“已知”的意思,是存在过的现实的意思。

数据化跟数字化是什么关系呢?有很多学术的表述,我的通俗的理解是,在二进制的数字条件下,数据又做了进一步的开拓,以便更加实用,更加能够运用到社会领域的方方面面。美国的很多专家都讲了这个问题,有的讲得很过分,讲数据无处不在,越是随着互联网不断的推进,越是随着大数据云计算的推进,数据将会越来越怎么样,最后将怎么样等。有一篇文章讲理论将会终结,不需要理论了,只要数据就能解决一切问题,因为大数据的本质就是在众多数据的基础之上,通过运算提供解决方案,所以理论没有意义了。就像当年炒作硅谷一样,当泡沫落下来的时候我们就要想清楚,如果理论没有意义了,那数据还有意义吗?生活就是辩证法,总有对立面,如果这面没有了,那面到哪去了?所以理论一定是还在的,理论之树还会常青,但是我们今天不讨论这个问题。

2

其实古已有之

“无处不在”的观念,我觉得是有道理的。美国人认为我们正在进入一个新的时代。这个时代数据的事实证明了一百多年来物理学家的一个定论:世界的本质不是原子,而是信息。大家可以琢磨一下这个话,世界是由万物组成的,过去我们的认识是,万物是基于原子构成的,而现在科学家告诉我们万物基础不是原子而是信息。所以我就想到了《道德经》里的一段话“大道汜兮,其可左右。万物恃之以生而不辞,功成不名有。衣养万物而不为主,常无欲,可名于小。”这一段我认为很好。不是老子跟现在的科学家商量过,只要真知灼见,在高处都是相通的。我们想,讲原子讲数据,都是在不同角度回答这个问题,即什么是道。道就是原子形式的物质,数据形式的信息。不同领域的道表现不同,因此它无处不在。

“数据”有它可怕的一面和挑战的一面,但是首先要确立一个观念,任何事情不是从天而降的,任何事情总有一个历史的演化过程,我们都能找到它的根。我以为在中国我们可以找到这个根,就是中国古老的思想。佛教上有一个公案:释迦牟尼在一次佛众大会上,走到前面来以后什么话都不说,就拈了一枝花,高高举起,什么都不说,注视着全场。他的大弟子迦叶破颜一笑,彼此都没有语言交流,文献上也没看到有目光的交流。就是这个动作,一个动作一个笑,彼此心领神会,后来释迦牟尼就把他的衣钵传给了迦叶。

过去很多人解释不了这个事情,我以为解释比较好的,是南怀瑾先生。他想到了孔子。孔子跟曾子说:“参啊,我的道是什么呢?吾道一以贯之。”过去我们的理解是,讲道的人干什么事情要一以贯之。但是南怀瑾的认识是,道就是一,所以一以贯之。因为老子这么讲,道生一,一生二,二生三,三生万物。这跟我们讲的数据,都是有联系的,只不过我们的先贤们在那种条件下,用着自己独到的悟性将这些东西读出来了。

孔子对曾子讲完“吾道一以贯之”就走了,同学就问“一以贯之”到底什么意思。曾子说“夫子之道,忠恕而已矣”。这就引起了讨论,孔子讲的是“一以贯之”,而不是二以贯之,怎么用“忠恕”二字解呢?南怀瑾先生说,这就是阴阳,一就是二,二就是三,三就是万物。这就是中国古老哲学中的大数据。一是一切的一,一是一的一切。还有什么大数据比一还大吗?大家可以仔细去想藏在这些故事背后的、古代数据观与现代大数据的联系。

《易经》告诉我们三大原则——变易、简易、不易,还告诉我们三大法则——象、数、理,这个法则又跟我们讨论的话题有关了。象是现象,八卦就是八个现象挂在墙上,然后又演化成16卦、32卦和64卦,都是自然和社会的现象。现在大数据所描述的就是各个领域的现象。数,就是数据。理,也叫辞,是对象和数的理性认识。象靠看,靠眼睛观察。数靠算,也就是运算。理讲判断,也就是理性思维。象、数、理,最终是判断。回到我们刚才讲的,不是理论不存在了,没有必要了,而是理论建立在什么基础上很重要,如果建立在象、数这个基础上,理还是会有必要,有道理的。所以,在《易经》64卦的基础上,孔子才写了“十翼”,作了十篇论文,在理的层面把周易讲清楚了。

知道大数据的历史过程,我们心里面才会比较定。中国文化里,大家都会说“掐指一算”,算的背后是数,叫心中有数,算到心中有数的层面就定了。就像我们现在的出版,如果对大数据背后的道理不理解就会很恐惧,我第一次听到的时候就感到特别晕,数字化还没弄好,又来大数据了。

再看我们的文化当中,什么事情发生了,大家会说“早有定数”,这是老百姓都会讲的。这些思想是哪里来的呢?你看先天八卦、后天八卦,都是数字。汉朝对《易经》研究的最好的叫京房十六卦变,又是离不开数字。再往下,*道十二宫,又是数字,十二宫里面的数字就很复杂了。再往下六十花甲,也离不开数字。再往下十二生肖,还是离不开数字。

最近我找到一张图,洛书。过去我们只注意洛书的图案,有一点门道,想探究一下。这次带着问题再去看,这个图上面全是数字,它还归纳了一句很好的话,叫“戴九履一、左三右七、二四为肩、六八为足”。这里面最值得重视的,是孔子在作《十翼》的时候讲的一句话“六爻之动,三极之道也”,这句话要引起我们足够的重视。

我觉得自己没理解透,这句话跨越千年时空,仍然是指导实践的真理。它告诉我们第一层意思,天地之间别看数字很多,但是真正管用的不会超过六。孔子了不起啊,后来有科学家做过研究,除了极少的现象,万事万物的物理现象,基本上都是六个阶段。

第二层意思是什么呢?六爻都在动,动的本质是什么?它告诉我们是“三极之道”。也就是六爻是三极变化的法则,三极就是天、地、人。我们现在讲的这些都是过去的表达方式,不研究它的人会认为是非理性的,甚至是迷信。其实,这都是古人对科学研究的一种数据表达,只不过现在我们不用了,感觉很陌生。古人有很强的数字概念,所以说数字、数据、大数据古已有之。

3

不可同日而语

所以,对大数据我们要正确的去把握。数据本来就是有的,古人早就感觉到了,并做了高度抽象的概括。只不过到了新的条件下,特别到了大数据的条件下,更准确地说是到了云计算的条件下,它的作用和潜能被释放出来了,和古代数据观已不可同日而语了。这是第一个观念。第二个观念,哲学上叫量变到质变,大数据也一样,当数据大到一定程度的时候,事物的形态就发生变化了,大数据的意义就在这儿,它已经不是原来的东西了,或者说它是也不是了。

我找到几个例子。大家都知道法国拉斯科洞穴壁画,画的是马。毕加索去看了以后开了一个玩笑,他说自那以后人类就没有再创造什么东西了,包括徐悲鸿的马,画来画去还是马。但是,现在的科学家又从量变到质变的角度重新解释,虽然一幅马的照片大同小异、十分相似,但是把它搞成24幅,变成电影以后,性质就发生变化了。你看,这就是数字带来的变化。一的时候它是一幅画,到了24幅、开始动的时候它是一部电影,性质发生变化了。

第二个例子是纳米技术。纳米技术告诉我们,可以把东西变小,变到一定的程度。什么程度?分子量级的程度,物质形态、物质的本质变化了。比如讲铜,铜是可以导电的,到了分子级别的时候就不导电了。比如讲陶土,陶土到了分子级别的时候,就成了软的有弹性的东西,我们现在看紫砂壶,想不到紫砂壶可以变成有弹性的东西,但是到了纳米技术就可以了。再说金属,金属给我们的感觉是硬的,到了分子级别是软的,你可以任意去摆弄它。

这些事情都在说明大数据这个道理早就存在,只不过是到了现在技术条件下,非常集中地体现出来,但体现并揭示的仍然是哲学上的定律,量变到质变。形态和本质都发生了变化,大数据的意义也就体现出来了。

第三个观念,我们现在都是做企业的,企业过去最强调的是有形资产,现在还作为一个重要的判断标准,就是企业规模。后来我们知道了跟有形资产至少同样重要的,还有无形资产。对出版业来说,就是版权,还有我们的商标、商号等等。现在到了大数据时代,它又告诉你其实比这些都重要的是数据资源,做得好,数据也是投入,是潜在的竞争力。现在做得好的一些公司,已经让数据成为现实的竞争力,比如苹果,如果你用有形资产去评价它,这家公司就没什么了不起,如果用数据的概念去评价它,这个公司就不得了,因为它拥有巨量的数据,并且每天都在增加。

第四个观念,叫一个主因。大数据这些东西我们说它过去就存在,但是现在爆发出来了,主因是什么?我觉得是处理数据的能力迅速提升。

为了直观,我也找了几个例子。大数据首先是来源于什么地方呢?第一是来源于天文学,因为天文学的信息量巨大。第二是来自于生物学中对基因的研究。一个是宏观,一个是微观,这两极深下去数据都是巨量的,以至于大到现在的计算能力无法实现了。因此,科学家们到了一个大数据时代。这就倒逼着处理数据的能力迅速提升。

有资料显示,年Sloan数字巡天项目启动,这是一个很著名的项目,在新墨西哥。它用望远镜几周之内收集的数据,比自人类有历史以来收集的所有数据还要多。但是,过了十年,到了年的时候,在智利,也是巡天望远镜,把新墨西哥这个纪录打破了,五天就可以完成它所有的运算。最近媒体报道,中国的“天河二号”,世界上排名第一。第一是什么概念?比美国快一倍,计算速度快一倍。还有一个消息,我们的天文望远镜,它的收集、储存、运算能力是美国的五倍,就这么厉害。

我们还记得十年前看新闻,全球科学家联手,十年完成了31亿对碱基的排序,现在这个工作量,只要15分钟就可以完成。我们都知道谷歌是了不起的,再看看它的数字,了不起到什么程度?它每天处理超过24拍字节的数据。这个概念是什么呢?每天的量相当于美国国家图书馆所有纸质出版物所含数据量的上千倍,每天更新的照片一千万张,每天的点击量或者写评论的是30亿人次。我们现在要有一个概念,每点击一次就是一批数据留下来,这里的30亿人次就是30亿个数据留下来了。

谷歌的一个页面,现在每月访客是8亿,可以算算一年和十年是多少,因为数据是积累的。它每秒钟就会有长约一小时的视频上传,是讲它的数据量,数据量用一小时的视频来算。美国人处在前沿,所以南加州加尼福尼亚大学的一个教授,就做了一个专门的课题来研究这个事儿。结论是年人类大约储存了超过艾字节的数据。这是什么概念呢?我们一部电影可以压缩成一个GB,而一个艾字节相当于10亿个GB,这个不多说了,总之是一个概念,就是海量、巨量,已经超出我们过去那种静态的想法,而且与日俱增,呈几何级数增长的态势。

现在我们的数据三年翻一番,这个速度还在提升。年全球数字数据达到了1.2泽字节,这是专业术语,相当于什么呢?如果把这些数据全部记在书中,这个书可以覆盖美国52次,美国是万平方公里,跟中国差不多,少两个江苏,可以覆盖52遍。如果存入只读的光盘,可以堆成五座高山。高到什么程度?高到月球上,五座高达月球的光盘。这个数据还在增长。

这是引申出来的第四个概念,关键是我们处理巨量数据的云计算诞生了,我们今天不去讲云计算了,其实已经含在里面了。正是因为强大的计算能力,使过去潜在的死的数据,变成了活的有效的并且将会迸发出巨大生产力的大数据。这是第四个跟大家交流的,叫作大数据爆发出来的主因。

4

核心、特点和关键

说了半天,咱们凡事都要抓要害,我学习的时候是这样梳理的。第一,大数据的核心是什么?第二,特点是什么?第三,关键在哪里?看了一些资料以后,思想就开始清晰了。首先要肯定,我的一些朋友跟我讲,我们正在搞大数据出版,不是空穴来风,但是也不像说的那样神乎其神。其实大数据的核心是预测,对我们出版业来讲当然还有其他的,我们今天不去把每个问题都

分享 转发
TOP
发新话题 回复该主题