数据之巅

数据之巅 pdf epub mobi txt 电子书 下载 2025

图书标签:
  • 数据分析
  • 大数据
  • 数据科学
  • 商业智能
  • 数据挖掘
  • 机器学习
  • 人工智能
  • 数据可视化
  • 行业分析
  • 数字化转型
想要找书就要到 新城书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 唐人易和图书专营店
出版社: 中信出版社
ISBN:9787508644660
商品编码:10577831239

具体描述

内容推荐 数据,自古就有,人口普查、农业统计、军事战争、政治计算……数据虽小,却有助于治国安邦。美国之所以繁荣鼎盛,数据文化根基牢不可破概是主因之一。
信息爆炸、互联互通、智慧城市时代,大数据,更以排山倒海之势席卷全球,政府施政、企业掘金,大众要公平与正义,大数据被赋予了新的历史使命。
在这本书中,从小数据时代到大数据的崛起,作者以宏大的历史观、文化观、大数据观,给我们描绘了一幅数据科学、智慧文化的全景图。全书从美国建国之基讲起,通过阐述初数时代、内战时代、镀金时代、进步时代、抽样时代、大数据时代的特征,系统梳理了美国数据文化的形成,阐述了其数据治国之道,论述了中国数据文化的薄弱之处,展望了未来数据世界的远景。
“尊重事实,用数据说话”,“推崇知识和理性,用数据创新”,作者不仅意在传承黄仁宇“数目字”管理的薪火,还试图把数据这个科技符号在中国转变为文化符号,形成一种文化话语体系。大数据正在撬动中国的制度创新、科技创新。阅读此书,历史与现实相互融合,知识与激情相互交织,思想与观念相互碰撞,未来与前景必定豁然开朗。
作者简介 涂子沛,江西吉安人,现居美国硅谷。2012年其著作《大数据》在中国社会开大数据之先河,引发了大数据战略、数据治国和开放数据的讨论,历史学家许倬云先生盛赞其“为华文世界开创了一个重要话题”。本书为作者第二本著作,全书对大数据追根溯源,提出当前信息技术的发展,已经让中国获得了后发优势,中国要在大数据时代的全球竞争中胜出,必须把大数据从科技符号提升成为文化符号,在全社会倡导数据文化。
作者本科毕业于华中科技大学计算机系,研究生毕业于中山大学和卡内基梅隆大学,获公共管理硕士和信息科学硕士学位。
目录 推荐序一进入一个重要的现代文化园地/许倬云XV
推荐序二一部精彩纷呈的时代杰作/郭为XIX
推荐序三大数据可以创造未来/王巍XXIII

**部分小数据之历史
**章初数时代:奠基共和
克服民主的劣势:用数据分权
制度创新:变对抗为合作的魔法棒
两党之争:无法精确分割的权力
亚拉巴马悖论:没有完美的方案
有数初成:共和政治反哺数据文化
中国往事:**次现代意义上的人口普查
第二章内战时代:终结奴隶制的灯塔
人口普查:南方*大的敌人
用数据辩论:南北战争的序幕
用数据远征:向大海进军
政治计算:解放黑奴的真正原因
兵家和数据:中国历史上的吉光片羽
第三章爆发:镀金时代的三重崛起
用数据预测:转变思维方式
总统之死:专业化的悲情序曲
世纪巅峰:大数据驱动的创新
和政治分家:劳工统计的异军突起
姑娘、棉花和数据:究竟谁在推动历史
尘封的瑰宝:中国的数据可视化先驱
第四章量化:进步时代的数据大潮
用数据决策:水利工程中的数据竞争
冲击量化的极限:给生命定价
“平托”风波:福特公司的道德危机
用数据来审判:理性的必然选择
代理人需要监督:成本收益分析方法的未来
思考中国话题:民族复兴能否量化?
第五章抽样时代:统计革命的福祉
从选票到电影票:和《乱世佳人》共舞
用数据跨界:质量大师是怎样炼成的
旋转质量的飞轮:日本崛起
世纪之问:日本行,为什么我们不行?

第二部分大数据的崛起
第六章开放时代:内开放的历程
内开放1.0:数据承载知情权
内开放2.0:用数据制衡
悲剧现场的**个问题:普查局的数据之痛
LEHD项目:开放数据的使用权
内开放3.0:用数据推动创新
2012年:来自中国的组织创新
第七章大数据时代:通往计算型的智能社会
世上本没有数:正解大数据
改变世界的三股力量:大数据的成因
有数据,还要有计算:计算型社会的兴起
普适计算:即将到来的超级数据爆炸
数据和计算:第三次工业革命的CPU
数据之巅:通向智能型社会的挑战
第八章智慧城市:正在拍打世界的浪潮
西方和东方:聪明和智慧
目标锁定“城市平台”:神州数码对话录
众包、众智和众创:让大众解决大众的问题
云、隐私和未来:中国和美国的不同挑战
结语把握后发优势:把科技符号变成文化符号
后记蝴蝶振翅

前言 进入一个重要的现代文化园地
许倬云著名历史学家、美国匹兹堡大学历史系荣誉讲座教授
涂子沛先生所著的这部大作,是大数据时代的应时之作。
他将数据用在管理和研究方面的发展史,以其在美国的发展过程,作为主要内容。他从美国开国时期的人口普查,作为起点,讨论民主制度如何经过数据的调查,才能发展成为“一人一票”的制度。接着,19世纪中叶,美国向西开发,美国的工程兵团,进行丈量和调查,使美国的地理状况和疆域,都有明白的依据。20世纪,“打孔”的计算方法,开创了后世计算器管理大量数据的技术。到今天,我们日常生活中,因为计算机和网络的普及,无处没有数据的存在。以我老病人为例,疾病的性质,或药物的效果,都必须靠大量的数据,作为诊断和治疗的依据。凡此,都是数据的使用。
美国的社会愈来愈复杂,资本主义的国家,证券交易乃是一桩大事。单单用统计来管理证券,已经不太够用。大概在*近30来年,许多大证券商,为了要预测经济的起落和某一种产业的兴衰,大量地使用不同产业之间的关系,也顾及国际贸易的情形。这些私营的企业界,几乎都能相当精准地判断市场的情形。于是,管理证券交易的美联储,实际上就是美国的中央银行,也必须更细密地运用许多数据,以掌握经济的全貌,然后再决定对市场供应的货币是从宽还是从紧。这才是“大数据”的**次使用。
中国古代兵书《孙子兵法》就说过:“算则胜,不算则不胜;多算胜,少算则不胜。”此处的“算”字,就是如何利用数字,来估计各种因素。一个能干的将领,打一次战役,要考虑到天时、地利、人和,这都是可以用数字表现的。但是,一个治国的领袖,在上述因素以外,还得考虑许多其他的条件。1942年,日本偷袭珍珠港,以为可以一棒打死美国。他们没算到,美国工业的实力,有充分的再生力量,三个月之内,美国立刻就能恢复足够的海空实力。这就是日本军人,只知道计算战役,不会计算战争。到今天,安倍野心勃勃,处处挑衅,他志在日本复兴。他的计算,大概又是计算自己现在的兵力和科技能力;他没有算到,自己的原料供应不够,能源不能自主,人口结构老化:这就是“算”得不够。
“大数据”之“大”,就在于将各种分散的数据,彼此联系,由点而线,由线而面,由面而层次,以瞻见更完整的覆盖面,也更清楚地理解事物的本质和未来的取向。人脑的结构,足够发挥联想力和推论。我们每天的日常生活,时时刻刻在不知不觉中,做“大数据”的工作,将许多因素综合在一起,作为行动和决定的依据。只是一个国家或一个社会的发展,不能全靠眼睛看得见的一些讯息,有许多事物,必须依靠全面和长期的发展情况,才能真实地反映当时一切决定的背景和条件。
今天信息科学的发展,已经能够产生、存储并实时地分析处理大量的信息,整合多个源头的数据,形成全面的多项关系,指出线性的发展方向,引导我们有广阔的视野。计算机今天处理数据的能力和速度,已经超过*聪明的个人。可是,用计算机的还是“人”,如何驾驭这些数字,还是“人”在设计。只是,我们必须要有此认识:今天的世界,已经千丝万缕,将各地、各种行业、各种条件,纠缠成一个复杂的全球网络。管理大企业和管理国家,必须要有足够的信息,了解多种多样的情况,以全面地理解各种问题及其彼此的关联。即使是对个人而言,因为越来越多的行为已经转变为电子化的记录,其生活也和大数据息息相关。“大数据”这个课题,十分重要,我盼望有更多的学者,在这方面提出更多的作品。
涂子沛先生的大作,是讨论大数据较早的中文作品;在此以前,还罕见讨论数据为管理方式的书籍。这本书,主要是以美国社会中数据的使用为例。我知道他一心想用这些例子,提醒中国的读者:在信息科学高度发展的今天,我们不能再忽略数据的使用。涂子沛先生开启了一道大门,我相信,后面会有更多的开展,让大家进入这一个重要的现代文化园地。
一部精彩纷呈的时代杰作
郭为神州数码控股有限公司董事局主席
好看的作品,出色的作家
认识涂子沛先生,源于他的**本著作《大数据》。2012年,我在机场书店无意间看到这本书,一读起来,就不忍释卷。我当时很惊讶,没想到作为IT产业内的大数据技术,竟然可以这样写,如此自然流畅地与美国的社会发展、民主进程融合在一起,有观点、有故事,读来引人入胜,掩卷引人深思。
之后,我主动联络了涂子沛先生,邀请他来神州数码参观考察。涂先生欣然接受,他不仅给神州数码的员工做了非常好的演讲,而且,还与我们围绕中国智慧城市建设的话题,进行了深度碰撞,对我启发很大。
正是那个时候,他告诉我,他已经在构思下一本书,还是以大数据为主题,但会和中国有更多的结合。我非常兴奋,马上向他表示,神州数码非常愿意向他敞开大门,我们在大数据和智慧城市建设方面的所有思考、探索和实践,毫无保留地向他公开,欢迎他来了解、见证我们的发展。在这之后一年多的时间里,涂先生果然多次来访神州数码,亲自走访了佛山、苏州、张家港、武汉等地,认真访谈了我们的业务负责人、技术带头人,也多次登门拜访各地的政府用户、企业和市民。他体现出的敬业精神和专业能力,让我非常感动,也令我相信他一定能够再次完成一本具有社会影响力的作品。
但亲眼看到《数据之巅》这部书稿时,我承认,我再次被震惊了。这本书再一次超出了我的预期,除了承袭《大数据》一书中科学历史观的叙事方式,这一次,涂先生跳到了哲学思考的层面,以统计学的社会应用为切入点,解构数据文化在美国政治、经济乃至军事发展领域起到的关键作用,一环扣一环,构思精巧,故事生动,逻辑清晰,读起来实在“解渴”。而且,正如他曾经和我说的,“要和中国有更多的结合”,在每一章的*后,他都讲述了中国历史上相对应的数据事件。*后一章的视线更是完全转向中国,用独具中国特色的智慧城市建设案例,理性昭示着中华民族自己的未来。其间,亦庄亦谐的“子沛曰”,也体现了涂先生的幽默和智慧。
说涂先生是中国当代文坛*出色的科学作家之一,这毫不为过,在信息技术领域,他也是前沿的思想者。
捅破东西方哲学的窗户纸
众所周知,理性化、体系化,强调批判精神和实证精神,是西方哲学的特征;感性、体验、直觉,则是东方人的思维方式。在中国的传统文化中,喜欢用道、术、器对事物的本质进行模糊的归纳总结,而西方,则在数据文化的基础上,形成了严谨、理性、体系化的实证科学,如统计学、心理学、社会学等。
站在历史长河上来看,东西方哲学都曾经和正在创造辉煌。在各自哲学思想的引领下,每一个民族、每一个国家都是****的。正如中央电视台的纪录片《大国崛起》的开放式结尾,对于未来的发展,每一个国家、每一个民族都在思考。
也许涂子沛先生并非刻意,但他在《数据之巅》一书里“中美对比”的结构设计中、在对“数据文化”的倡导中,包括他写作此书的目的—“这本书,我试图在历史的纵轴上,写出数据时代的全景;在和美国的横向对比中,思考我们的现状和未来”,都让他在不经意间,捅破了隔在东西方哲学中间的那层虽薄却韧的窗户纸。
中国社会的持续发展,必然是在中国哲学思想的引导下,同时对“数据文化”这一典型西方哲学特征加以融合,譬如在中国传统文化中谈到的道、术、器各层面里,融入“数据文化”的基因。正在到来的大数据时代,为这种融合提供了切实的可能性。
中国道路与数据治国
历史的发展,总是存在这样或那样的契机。如果说,美国现代社会治理体系肇始于人口普查,那么,大数据的到来,已经显示出强烈的征兆,它将成为中国全面现代化的契机。
涂子沛先生在书中,对大数据有通俗易懂的图解。简单说,大数据的特征,首先是海量,而且是多种格式并存的海量,如文字、图片、音频、视频等;其次是多源,大数据的来源,一是来自于商业企业,如电信、金融、电商平台、社交网站等;二是来源于政府,如人口普查、户籍登记、社保、医保等。伴随着物联网、移动互联网、云计算的快速发展,全球数据总量每年以超过40%的速度成长,几乎每两年就翻一番。
2013年,中国产生的数据总量超过0.8ZB,是2012年的两倍,相当于2009年全球数据总量。预计到2020年,中国产生的数据总量将超过8.5ZB,相当于2013年的10倍。另据国家统计局公布的2013年数据,我国已拥有6.18亿互联网用户,几乎是美国的2倍;拥有超过12.29亿部手机,是美国的3倍,但每年新增的数据量却不及美国的1/10。所以,与发达国家相比,中国是数据大国,但还不是数据强国。中国缺乏的不是可供收集的数据,而是对于大数据收集、分析、应用及有效管理的手段和意识。
前不久,神州数码提出了“虚拟映像”理论,尝试从技术角度阐释大数据革命的本质。在我们看来,随着网络泛在化,各种社会关系和生产关系逐步映射到其中,形成了与现实社会平行的网络空间。由于网络的拓扑性,各种关系通过数据的方式多维度地体现出来,给社会发展、社会治理、经济活动带来了巨大的变化。这种变化直接体现在大数据对各个行业的颠覆式创新上,而且已经在政府、金融、贸易等领域初现端倪。涂子沛先生在本书的第八章,对城市公共信息服务平台在改善民生、繁荣经济和优化社会治理结构方面的成效有生动的描述,也有对下一步政府运营外包的创新思考。“单独二孩”政策的出台,就是通过对巨大的人口普查数据,进行复杂建模、可视化分析、沙盘演练后做出的科学决策。互联网金融的出现,委实给全社会带来了一场“地震”。制造业乃至各行各业,在可预见的未来,也将受到大数据颠覆式的影响。众创、众智、众筹等商业创新模式,也在大数据时代呼啸而来。
大数据时代,信息安全是头等大事。没有数据的开放,就难以形成大数据应用和大数据革命,与此同时,网络和数据安全就显得尤为重要。没有网络安全就没有国家安全;没有数据安全,就没有社会稳定。必须把网络安全纳入到法制的轨道上来。因此,首先要建立个人信息安全保护、信息主权的法律,用法律来界定信息主体、信息主权的边界;其次,作为有影响力的大国,中国应该积极推动全球信息安全公约的建立,使得网络安全能够像核安全一样,在联合国的协调下,各国在法律体系下相互制约、共谋发展;*后,中国要做强,在大数据应用、大数据安全和信息安全上,一定要增强自主创新的能力。
大数据正在从道德、文化、制度、产业和生活的方方面面重构现实社会。没有信息化就没有现代化。我们欣喜地看到,中国正在抓住这一契机,倡导数据文化,做好制度建设,全面推进中国现代化的进程。我相信,涂先生这本书,一定会推动中国向数据强国不断迈进。
感谢涂子沛先生的智慧,为时代贡献了一部杰作。在倡导数据文化和数据治国上,我们永远是同行人!
大数据可以创造未来
王巍中国金融博物馆理事长
读好书是愉快的,这是涂子沛先生的新书,也与他**本《大数据》一样,我一气呵成地读完。
美国的独立与宪政、扩张与夯实、创新与制度,这都是耳熟能详的历史进程,不过200多年,我们可以用各种维度来梳理,不免老生常谈。从大数据起步,居然别开生面,令人欣喜。涂先生善于讲故事,在他的演绎中,大数据所奠定的一个个里程碑令人信服地在繁杂错乱的社会文化与伦理的演化中挺拔而出。
数据思维以泰勒模式在100年前统御了美国企业与产业管理之道,也在半个世纪前以戴明模式契合并促进了日本企业全球竞争的能力。对于大而化之、不谙“数目字管理”(黄仁宇言)的中国民族而言,这个突然降临的大数据时代,我们如何应对,如何起步,又如何融入?
涂先生在本书中为这些问题提供了许许多多深入的思考和有见地的观点。他深思熟虑,用语殷殷,穿行在中美两国的历史中,努力发掘各个大数据改变观念、改造社会、改革制度的故事,无论人与事件,都是栩栩如生,发人深省。从商业运作、社会治理到技术创新,我们都确信大数据不可或缺,必须开放,面向全球,更要面向我们自己。我们也甚至同意要如涂先生所言,努力“把科技符号变成文化符号”。
本书十分厚重,但读下来,还是令人意犹未尽,我认为还可以发展出第三部分,即大数据的市场基础(或机制)。大数据观念不只是明智领导的选择,也不只是精英人士的忧患意识,更是千千万万人能够在一个稳定而宽容的创业环境中的竞争过程。我们需要郭为林杨们的披荆斩棘,需要政府官员们的视野通达,更需要去中心化的开放市场,允许创业者、投资者与消费者真正将大数据作为资产、资本和生态空间去开发、增值和交易,而不是简单视其为工具和便利。
大数据可以承载信息、知识和历史,而信息、知识和历史就是人类生存和发展的平台、资产和财富。大数据可以梳理历史,可以颠覆现实,当然就可以创造未来。
停留在思维和观念的大数据是无解的,创造大数据社会是这一代人的使命和行动。这本书让我们有目标有信心,也给我们创新的无限空间。
结语把握后发优势:把科技符号变成文化符号
人类知识的**来源,是对过去经验的记录和整理,而数据,正是这种记录的载体,因此数据的价值首先在于它是知识的来源。如果说传统的数据是人类部分知识的来源,那随着人类记录范围的不断扩大,现代意义上的大数据将逐渐成为人类全部知识的来源。
前文反复谈到,数据是对客观世界的测量和记录,这种记录也是对历史和现实的记录。1869年,当美国总统加菲尔德在对美国的人口普查体系进行现代化改造之时,他就发现,数据当中不仅蕴藏着社会发展的规律,它还提供了一种全新的历史书写方式:
“直到现在,历史学家还是以一种总体的形式来研究一个国家,他们只能给我们讲述帝王将相以及战争的历史,但关于人民本身—我们庞大社会中每个生命的成长、各种力量、细节及其规律,历史学家说不出太多的东西……而普查把我们的观察放大到民房、家庭、工厂、煤矿、田野、监狱、医院等集中展示人性之强大及脆弱的所有地方,这让新的历史记录成为可能。”
今天回头看,此话非常具有前瞻性。随着人类跃进到大数据时代,数据不仅是新知识的来源,还是记录历史*重要、*可靠、*好的方式。从今以后,人类所有的历史记录,无论是数字、文档、图片,还是音频和视频,都将以数据的形式存在,数据就是静态的历史,历史就是动态的数据。历史的碎片,就是游离的数据;历史的迷雾,就是模糊的数据;历史的盲点,就是缺失的数据。用数据构建的历史,因为精确的细节而永远鲜活,数据越丰富,后世的历史学家也就越能经由数据更好地再现当时的社会。
除了发现知识、记录历史,本书认为,人类使用数据的巅峰形式,是通过数据训练机器,让机器获得智能,在不远的将来,无处不在的计算设备和网络将像有智商的人一样,为人类工作和服务。这意味着我们在向智能型社会迈进,在这个新的社会形态,由于精准的计算和预测,整个社会的各个部分可以像无数个大大小小的轴承和齿轮一样,环环相扣,齿齿吻合,日常管理将通过数据得到优化,各种任务、合作可以无缝对接,社会运行的成本可大幅降低,更重要的是,越来越多的工作将被计算机或者机器人代替。这既是进步,又是挑战。回望农业时代和工业时代,人类不断地开发我们赖以生存的自然环境,从地表到地下,物理性的资源终有耗尽的一天,而大数据将成为人类取之不尽、用之不竭的新资源,在这片资源之上,再通过软件和算法,人类将建设一个智能型世界。
数据,正在成为这个世界*重要的土壤和基础。
在这个社会转型的紧要关头,中国,作为正在赶超发达国家的发展中国家,历史将赋予我们前所未有的机遇。例如,当年的美国用了几十年的努力,才建立了全民信用制度,今天,因为掌握了客户的交易流水数据,阿里巴巴在短短几分钟之内就可以决定是否发放一笔贷款。利用无处不在的充沛数据,中国的全民信用体系可能在较短的时间内、以较小的成本就可以建立起来。又如,随着网络的普及,信用卡将数据化、虚拟化,实体信用卡将大幅减少甚至消失,这意味着我们的银行不用再像美国银行那样建设那么多的物理网点和自动存取款机了。再如,因为智能在线教育平台的出现,未来的教育资源完全不会局限于钢筋水泥的学校,中国教育资源紧缺的问题可能得到快速的、大幅的缓解。此外,可穿戴式电脑设备、智能软件诊断系统、远程医疗等技术的出现,将缓解医疗资源、专业人才的紧缺。
种种机遇,可以概括为“后发优势”。
以银行的自动存取款机为例。从下表可以看出,近年来,中国拥有的自动存取款机在迅速增加。2012年,中国平均每10万成年人拥有的自动提款机数量为37.51台,但和英、美、日、加等发达国家相比,我们的差距还很大:加拿大平均每10万成年人拥有的自动存取款机为205台、美国为173台、日本为127台。如果要在数据上缩小、拉平这个差距,中国肯定还需要很多年的努力。但由于大数据、互联网金融的出现和普及,大部分金融交易都可以通过虚拟账户来完成。可以预见,未来的社会一定不需要那么多实体存取款机了,如果我们现在就能立足长远、科学规划,就可以跨越建设这些存取款机的环节、省去相应的费用,这就是后发优势。

媒体评论 涂子沛先生开启了一道大门,我相信,后面会有更多的发展,让大家进入这一个重要的现代文化园地。
——许倬云著名历史学家、美国匹兹堡大学历史系荣誉讲座教授
在《数据之巅》这本书中,涂先生跳到了哲学思考的层面,以统计学的社会应用为切入点,解构数据文化在美国政治、经济乃至军事发展上起到的关键作用,一环扣一环,构思精巧,故事生动,逻辑清晰,读起来实在“解渴”。感谢涂先生的智慧,为时代贡献了一部杰作!
——郭为神州数码控股有限公司董事局主席
涂子沛先生的《数据之巅》通过追溯梳理美国的数据历史、展望人类的数据未来,给中国社会提出了一个数据时代的新命题——如何构建数据文化?本书引人入胜、发人深思,是不可不读的好书。
——马蔚华招商银行前行长
数据表示的是过去,但表达的是未来,所以观察数据需要有历史观。涂子沛先生的这本新作《数据之巅》以大历史、大数据、大社会、大进步的格局,通过数据将遥远拉近,将悠久缩短,将巨大归聚,将过程简直。无论你从事何业或研究何题,都值得认真阅读这部巅峰之作。
——朱小黄中信银行行长、中信集团监事长
大数据是互联网金融的基础支柱。互联网金融是云计算、大数据、社交网络这个移动互联大时代里的小时代。时代潮流,浩浩荡荡!涂子沛先生的大数据系列著作,带您观时代大潮!
——肖风通联数据董事长、万向信托董事长
涂子沛先生《数据之巅》一书的历史高度和现实意义,超出了他的《大数据》。如果说他上部书开启了中国人对大数据的认识,此书则从历史的角度来说明,对数据的理解和掌握是人类文明进步的标志。
——田溯宁中国宽带资本董事长
涂先生深思熟虑,用语殷殷,穿行在中美两国的历史中,努力发掘各个大数据改变观念,改造社会,改革制度的故事,无论人与事件,都是栩栩如生,发人深省。这本书让我们有目标有信心,也给我们创新的无限空间。
——王巍中国金融博物馆理事长
大数据的江湖有两派,国家治理派和产业升级派。涂子沛先生无疑是国家治理派的宗师,这本书在美国200多年的政界商海、刀光剑影中勾勒出雄浑的数据思维、文化、价值观和方法论。
——吴甘沙英特尔中国研究院院长
涂子沛先生已经成为中国大数据和数据分析领域*前沿的思想者和专家,如果您想了解大数据的历史、现实和未来,这本书将是您的必读书目。
——托马斯H达文波特巴布森学院教授,麻省理工学院数字商务中心研究员
ZipeiTuhasbecometheforemostthinkerandexpertonbigdataandanalytics
inChina.Ifyouwanttoknowthepast,present,andfutureofbigdatainthatcountry,youmustreadthisbook.
ThomasH.Davenport
DistinguishedProfessor,BabsonCollege
Fellow,MITCenterforDigitalBusiness
涂子沛先生不仅在写书,还在用书来传递他的炽热激情:大数据时代是上帝恩赐给中国人的,国人切切不可错过这个经济发展和社会进步的时代机遇。如其书中所言,在这个新的时代,我们不仅要用数据来说话,还要用数据来创新。
——刘鹰清华大学社会科学学院教授
在全球化、信息化和市场化的今天,国际竞争本质上是软实力的竞争,即制度和文化的竞争。涂子沛先生倡导的客观、精确、理性和逻辑的“数据文化”理念,不仅是挖掘中国传统优秀文化、吸纳西方文明,重塑中华文化的新范式,也是推进国家治理体系和治理能力现代化的利器。
——周超中山大学公共政策研究中心主任、教授
《数据之巅》以数据为轴线洞察人类社会的发展规律,描绘未来的趋势和走向,力透纸背的还有作者严谨的治学风格及其赤子情怀。涂子沛老师的这本新书就是一座桥梁,实现了中西方之间、历史与现实之间、政治与商业之间的贯通融合,深入研读,可以帮助我们进入通达无碍的智慧境界!
——付伟中国银联支付学院院长
身处国内喧嚣浮华的互联网金融蜃景,此书恰似拨云见日,涂子沛先生跨洋而来的目光深邃地看清了中华文明与西方文明在虚与实上的认知鸿沟。民主的细节在于数据,金融的血液中流淌的也是数据,《数据之巅》,众心向往!
——郭宇航点融网创始人、首席执行官
作为《大数据》*早的一批读者,我曾于2012年10月专程前往美国拜会涂子沛先生。涂先生的格局和视野、勤奋和雅静以及时代的责任感令我印象深刻。这本新书立意高远、数往知来,把数据从科技符号演进到文化符号,在今天这样一个尤其需要高瞻远瞩的大变革时代,相信《数据之巅》会再次成为热点话题,推动中国数据文化的普及。
——陈登坤金蝶集团执行董事、高级副总裁、金蝶医疗软件公司总经理
涂子沛先生的新作《数据之巅》揭示了在人类近、现代文明进程中,在民主和共和体制的创立演化中那无形的数据之手。国内鲜有类似的作品。把数据与人类社会的进步、民主体制的演化联系起来,这是真正的人文关怀。当下的中国,从不缺“民主自由”的口号,但口号建不起先进的人类文明,数据才能。
——赵嘉敏译言网联合创始人、首席执行官
通过《数据之巅》,涂子沛先生再次深入美国历史中的细节,以真正治学之人的责任与良心,发掘“数据”所凝聚的可以再生的思想文化资源。数据文化是一个全新的视角,非常值得教育工作者探索和思考。在智能型社会、人机共生的时代敲响鼓点、加速到来的时刻,本书的阅读,也是一场自我启蒙之旅,将为我们推开那扇未来世界之门。
——潘江雪上海真爱梦想基金会理事长
数据自古存在。本书截取历史长卷中的数据剖面,或古今中外,或政经产学,案例生动,立意高远,令人心生钦敬。
——赵国栋中关村大数据产业联盟秘书长

在线试读部分章节 第七章大数据时代:通往计算型的智能社会
大数据是人类文明新的土壤,在这片土壤之上,人类将开始建设一个智能社会。
—本书作者,2014年
世上本没有数:正解大数据
传统意义上的“数据”,是指“有根据的数字”,数字之所以产生,是因为人类在实践中发现,仅仅用语言、文字和图形来描述这个世界是不精确的,也是远远不够的。例如,有人问“姚明有多高”,如果回答说“很高”、“非常高”、“*高”,别人听了,只能得到一个抽象的印象,因为每个人对“很”、“非常”有不同的理解,“*”也是相对的,但如果回答说“2.26米”,就一清二楚。除了描述世界,数据还是我们改造世界的重要工具。人类的一切生产、交换活动,可以说都是以数据为基础展开的,例如度量衡、货币的背后都是数据,它们的发明和出现,都极大地推动了人类文明的进步。
数据*早来源于测量,所谓“有根据的数字”,是指数据是对客观世界测量结果的记录,而不是随意产生的。测量是从古至今科学研究*主要的手段,可以说,没有测量,就没有科学;也可以说,一切科学的本质都是测量。就此而言,数据之于科学的重要性,就像语言之于文学、音符之于音乐、形色之于美术一样,离开数据,就没有科学可言。
除了测量,新数据还可以由老数据经计算衍生而来。测量和计算都是人为的,也就是说,世上本没有数,一切数据都是人为的产物。我们说的“原始数据”,并不是“原始森林”这个意义上的“原始”,原始森林是指天然就存在的,而原始数据仅仅是指**手的、没有经过人为修改的数据。
传统意义上的数据,和信息、知识也是完全不同的概念:数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理
但进入信息时代之后,“数据”二字的内涵开始扩大:不仅指代“有根据的数字”,还统指一切保存在电脑中的信息,包括文本、图片、视频等。其中的原因是,20世纪60年代软件科学取得了巨大进步、发明了数据库,此后,数字、文本、图片都不加区分地保存在电脑的数据库中,数据也逐渐成为“数字、文本、图片、视频”等的统称,也即“信息”的代名词。
文本、音频、视频本身就已经是信息,而且其来源也不是对世界的测量,而是对世界的一种记录,所以信息时代的数据又多了一个来源:记录。
图7–2数据的三大来源
图7–3现代意义上的“数据”:范畴比信息还要大
注:进入信息时代之后,数据成为信息的代名词,两者可以交替使用。一封邮件虽然包含很多条信息,但从技术的角度出发,可能还是“一个数据”,就此而言,现代意义上的数据的范畴,其实比信息还大。
除了内涵的扩大,数据库发明之后,还出现了另外一个重要现象,那就是数据的总量在不断增加,而且增加的速度不断加快。
20世纪80年代,美国就有人提出了“大数据”的概念。这个时候,其实还没有进入数据大爆炸的时代,但有人预见到,随着信息技术的进步,软件的重要性将下降,数据的重要性将上升,因此提出“大数据”的概念。这时候的“大”,如“大人物”和“大转折”之“大”,主要指价值上的重要性;到了21世纪前10年,尤其是2004年社交媒体产生之后,数据开始爆炸,大数据的提法又重新进入大众的视野并获得了更大的关注。这个时候的“大”,含义也更加丰富了:一是指容量大,二是指价值大。
从这个角度出发,大数据可以首先理解为传统的小数据加上现代的“大记录”,这种大记录的主要表现形式是文本、图片、音频、视频等,和传统的测量完全是两回事。而且大数据之所以“大”,主要是“大记录”的增长,基于信息技术的进步,人类记录的范围在不断扩大:
大数据=传统的小数据+现代的大记录
(源于测量)(源于记录)
但到底多大才算大呢?针对这一问题,十多年来争议颇多。这首先涉及衡量数据大小的单位,2000年的时候,一般认为,“太”(T)级别的数据就是大数据了,当时拥有“太”级别数据的企业并不多,但自此之后,互联网企业开始崛起,这些企业拥有各种各样的数据,其中大部分都是文本、图片和视频,其数据量之大,传统企业根本无法望其项背。
理解几个主要的存储单位
一首音乐≈4兆(M)
一部电影≈1吉(G,1吉=1024兆,相当于250首歌曲的大小)
一个普通图书馆的藏书≈1太(T,1太=1024吉,相当于1024部电影的大小)
我认为,不仅仅是互联网行业,其实各行各业的数据都在爆炸,只是规模不同。如果仅仅把大数据的标准限定在互联网企业,认为只有互联网企业才拥有大数据,那就严重窄化了大数据的意义。毕竟容量只是表象,价值才是本质,而且大容量并不一定代表大价值,大数据的真正意义还在于大价值,价值主要是通过数据的整合、分析和开放而获得。大数据是指人类有前所未有的能力来使用海量的数据,在其中发现新知识、创造新价值,从而为社会带来“大知识”、“大科技”、“大利润”和“大智能”等发展机遇。
以上论述,是从概念上分析“数据”和“大数据”的区别,而掌握一个概念*好的方法,还是从动态上了解其成因。大数据的成因,还是人类信息技术的进步,而且是信息技术领域不同时期多个进步交互作用的结果,其中*重要的原因,当数摩尔定律。
改变世界的三股力量:大数据的成因
1965年,英特尔的创始人之一戈登?摩尔(GordonMoore)在考察了计算机硬件的发展规律之后,提出了著名的摩尔定律。该定律认为,同一面积芯片上可容纳的晶体管数量,一到两年将增加一倍。1
要理解这种增加的意义,并不简单。摩尔的本意是,由于单位面积芯片上晶体管的密度增加了,计算机硬件的处理速度、存储能力,即其主要性能一到两年将提升一倍。本来性能提升了,价格也应该上升才对,但现实却很诡异:半个多世纪以来,硬件的性能不断提高,价格却持续下降。之所以这样,竟然还是因为晶体管越做越小,这种体积的缩小也导致其成本下降,再加上人类对晶体管的需求越来越大,大规模的生产也导致价格不断下降。
回顾这半个多世纪的历史,硬件的发展基本符合摩尔定律。以物理存储器为例,其性能确实不断上升,与此同时,价格不断下降。1955年,IBM推出了**款商用硬盘存储器,一兆字节的存储量需要6000多美元,此后,其价格不断下降:1960年,一兆字节下降到3600美元;1993年,下降到大概1美元;2000年,再降至1美分左右;到2010年,每兆价格约为0.005美分。半个多世纪,存储器的价格下降了1亿多倍,这种变化的速度既巨大又剧烈,令人瞠目结舌。事实上,考察人类全部的历史,没有其他任何一种产品的价格下降空间能够如此巨大!
图7–41971~2011年中央处理器上的晶体管数量和摩尔定律
注:纵坐标为晶体管数量,横坐标为年份。该曲线表明,在1971~2011年,大概每两年相同面积的中央处理器集成电路上的晶体管数量就增加1倍。需要注意的是,纵坐标从2300到10000再到
100000,其实不成比例,如果严格按比例作图,这将是一条非常陡峭的曲线,页面将无法容纳。(资料来源:维基百科)
晶体管的产量多过全世界的大米颗粒
晶体管由硅构成,相当于一个开关,通电的时候表示“1”,不通电时候表示“0”,是电子产品*小的组织单元。一部手提电脑大概有400亿个晶体管,一部智能手机约有10亿个晶体管。晶体管行业(即半导体行业)堪称人类历史上*高产的行业。现在一年生产的晶体管比全球一年消耗的大米颗粒还要多:2002年,人类生产的晶体管数量大概是大米颗粒的40倍,买1粒米的钱可以购买100个晶体管2;2009年,晶体管的产量上升到大米颗粒的250倍,1粒大米的价钱可以购买10万个晶体管3。
摩尔定律发展到今天,一根头发尖大小的地方,就能放上万个晶体管。当然,晶体管不可能无限缩小,所以十几年来,业界曾围绕以下问题展开激烈争论:摩尔定律所揭示的现象还会不会持续,即单位面积上的晶体管还能不能继续增加甚至翻倍?如果能,又能持续多久?
作为摩尔定律的发现者,2003年,戈登?摩尔也被问到这个问题。他认为:“创新无止境,下一个10年摩尔定律可能还将有效。”
事实证明,摩尔是对的。2011年,英特尔公司宣布发明了22纳米的3D(三维)晶体管,这使争论暂时画上了句号。此前的晶体管为31纳米,22纳米的晶体管小了大约1/3,因为小,新的晶体管比现在更便宜、更节能。2012年,英特尔又宣布将投资50亿美元在美国亚利桑那州建厂,计划2014年投产14纳米的晶体管,这比21纳米的尺寸又将缩小1/3。
英特尔的发明使大部分科学家相信,摩尔定律的生命将延续到2020年。预计到2020年,1太硬盘的价格将下降到3美元,这相当于一杯咖啡的价格。前面我们提到,美国的国会图书馆是全世界*大的图书馆,其印刷品馆藏量约为15太;一所普通大学的图书馆,其馆藏量可能也就一两个太。也就是说,到2020年,只需花上一杯咖啡的钱,就可以把一个图书馆的全部信息拷进一个小小的硬盘。信息保存的过程如此方便、成本如此低廉,历史上从来没有过。
图7–51太容量的硬盘价格变化
注:1太容量的硬盘价格正在持续下降,已经从2012年11月的94.99美元下降到2014年3月的49.99美元。以上数据是作者在***网站上跟踪的希捷硬盘在不同时段的报价。
摩尔定律已经成为描述一切呈指数级增长事物的代名词,它给人类社会带来的影响非常深远。正是因为存储器的价格在半个世纪之内经历了****的下降,人类才可能以非常低廉的成本保存海量的数据,这为大数据时代的到来铺平了硬件道路。这相当于物质基础,没有它,大数据无异于水中月、镜中花。
摩尔定律促使硬件成为大众消费品
摩尔定律导致的硬件价格大幅下降,*终使曾经昂贵的硬件成为大众消费品,原来“高大上”的产品,如激光打印机、服务器、智能手机,已经逐渐从科研机构、大型企业进入普通家庭。由于这些设备的普及,美国的一些公司甚至出现了一种新趋势:鼓励员工自己带设备来上班(BYOD),公司只提供网络和办公场地,成为“轻”公司。
除了便宜、功能强大,摩尔定律也导致各种计算设备变得越来越小。这个现象在1988年被美国科学家马克?韦泽(MarkWeiser)概括为“普适计算”。普适计算理论认为,计算机发明以后,将经历三个主要阶段:一是主机型阶段,指的是很多人共享一台大型机,一台机器就占据半个房间;二是个人电脑阶段,计算机变小,人手一机,韦泽当时就处于这个时代,这似乎已经是很理想的状态,但韦泽天才般地预见到,人手一机不是时代的终结;在第三个阶段,计算机将变得很小,小得将从人们的视线中消失,人们可以在日常环境中广泛部署各种各样微小的计算设备,在任何时间、地点都能获取并处理数据,计算*终将和环境融为一体,这个阶段,被称为普适计算阶段。
今天,第三股浪潮正向我们奔涌而来,小小的智能手机,其功能已经毫不逊色于一台计算机,各种传感器正越做越小,RFID(射频识别)标签方兴未艾,可穿戴式设备又向我们走来。
RFID标签已经在零售、医疗、动物饲养等领域得到了广泛应用。近两年,美国费城等城市在垃圾桶内安装RFID传感器,垃圾装满或者因为腐烂而散发异味时,传感器就会发出信号,这可以优化垃圾车的巡回路线,减少城市管理人员收集垃圾的次数。
可穿戴式设备是指可以穿戴在身上、不影响个人活动的微型电子设备,这些设备可以记录佩戴者的物理位置、热量消耗、体温、心跳、睡眠模式、步伐多少以及健身目标等数据。2013年,德国霍芬海姆足球俱乐部(TSG1899Hoffenheim)已经把传感器装到了足球和每个球员的护膝或衣服上。这些传感器可以实时记录运动员的活动轨迹、奔跑速度、加速过程、控球时间,一场比赛打下来,系统可以收集6000万条记录,球员、教练都可以对这些数据做出分析,并借此提高训练质量、制定*佳组合、减少运动员受伤的概率。
除了足球,传感器还进入了网球场。法国的运动器材制造商Babolat把传感器安装在了网球拍的手柄上,它可以记录球员击球时的状态,例如正反拍、击球点、击球的力量、球速、球的旋转方向等参数。这些数据以几乎实时的速度传到现场的智能手机和平板电脑上,运动员和教练可以随时查看。2014年在澳网封后的中国网球一姐李娜,用的就是这个品牌的球拍。为了配合这种球拍的使用,2013年,国际网球联合会(InternationalTennisFederation,ITF)已经修改了章程,从2014年1月起,允许运动员在国际比赛中使用带有传感器的球拍,以记录、分析自己的数据。在未来的比赛中,如果运动员同意,这些数据甚至可以实时出现在比赛场地的大屏幕上,供观众分析参考。
除了足球、网球,传感器也在快速进入棒球、橄榄球等领域。美国的一些研究机构认为,美国运动产业的营收,近年内会有大幅增长,主要原因就是,基于传感器的数据收集和分析技术将改写整个领域的生态。
除了运动,可穿戴式设备还有很多。2014年2月,日本东京大学的研究人员发明了一种比羽毛还轻的传感器,把它放置在纸尿片内,纸尿片一湿就会发出信号,看护就会知道并及时更换。这种传感器的成本只有几美分,不仅适用于婴儿,还适用于老人、病人。此外,作为可穿戴式设备*经典的产品,风靡一时的谷歌眼镜也在娱乐之外得到了更广泛的应用:美国纽约市的警察准备在日常巡逻中佩戴谷歌眼镜,以快速记录事故现场的情形,并通过网络和同事共享数据。
普适计算的根本,是在人类生活的物理环境中广泛部署微小的计算设备,实现无处不在的数据自动采集,这意味着人类数据收集能力的增强。在此之前,电子化的数据主要由各种信息系统产生,这些信息系统记录的主要是商业过程的数据,而传感器的出现及其技术的成熟,使人类开始有能力大规模记录物理世界的状态,这种进步推动了大数据时代的到来。
但人类数据的真正爆炸发生在社交媒体时代。
从2004年起,以脸谱网(Facebook)、推特(Twitter)为代表的社交媒体相继问世,这拉开了一个互联网的崭新时代—Web2.0。在此之前,互联网的主要作用是信息的传播和分享,其*主要的组织形式是建立网站,但网站是静态的;进入Web2.0时代之后,互联网开始成为人们实时互动、交流协同的载体。2011年8月23日,美国弗吉尼亚州发生5.9级地震,纽约市居民首先在推特上看到这个消息,几秒钟之后,才感觉到地震波从震中传过来的震感,社交媒体把人类信息传播的速度,带到了比地震波还快的时代!
除了把交流和协同的功能推到了一个登峰造极的高度,社交媒体的另外一层重要意义就是,给全世界无数的网民提供了一个平台,使其随时随地都可以记录自己的行为、想法,这种记录其实就是贡献数据。我们谈到过,所有的数据都是人为产生的,所有的数据都是对世界的测量和记录。从1946年人类发明**台计算机并进入信息时代算起,到社交媒体产生之前,主要是信息系统、传感器在产生和收集数据,但由于社交媒体的横空出世,人类自己也开始在互联网上生产数据,例如发推特、微博和微信,记录各自的活动和行为,这部分数据也因此被称为“行为数据”。
图7–6各种数据类型和大小
注:数据是对人类生活和客观世界的测量和记录。过去,是我们选择什么东西需要记录,才对它进行记录;在大数据时代,是选择什么东西不需要记录,才取消对它的记录。随着记录范围的不断扩大,可以肯定,人类的数据总量还将呈滚雪球式扩大。
由于社交媒体的出现,全世界的网民都开始成为数据的生产者,每个网民都犹如一个信息系统、一个传感器,不断地制造数据,这引发了人类历史上迄今为止*庞大的数据爆炸。除了数据总量骤然增加,社交媒体还使人类的数据世界更为复杂:在大家发的微博中,你的带图片、他的带视频,大小、结构完全不一样。因为没有严整的结构,在社交媒体上产生的数据,也被称为非结构化数据。这部分数据的处理,远比结构严整的数据困难。2012年,乔治敦大学的教授李塔鲁(KalevLeetaru)考察了推特上产生的数据量,他做出估算说,过去50年,《纽约时报》总共产生了30亿个单词的信息量,现在仅仅一天,推特上就产生了80亿个单词的信息量。也就是说,如今一天产生的数据总量相当于《纽约时报》100多年产生的数据总量。
在这种前所未有的数据生产速度下,社交媒体的出现虽然还不到10年,目前全世界的数据大约75%都是非结构化数据。今天回头看,社交媒体的出现,才是让大数据一锤定音的力量。基于以上分析,我们也可以这样认为:
大数据=结构化数据+非结构化数据
但我们前面谈到,大数据之大,不仅在于其大容量,更在于其大价值。价值在于使用,如同埋在地底下的石油,远古即已有之,人类进入石油时代,是因为掌握了开采、冶炼石油的技术,现在进入大数据时代,*根本的原因,也是人类使用数据的能力取得了重大突破和进展。
这种突破集中表现在数据挖掘上,数据挖掘是指通过特定的算法对大量的数据进行自动分析,从而揭示数据当中隐藏的规律和趋势,即在大量的数据当中发现新知识,为决策者提供参考。数据挖掘进步的根本原因是人类能够不断设计出更强大的模式识别算法4,这其实是软件的进步,其中*重要的里程碑,是1989年美国计算机协会(ACM)下属的数据挖掘及知识发现专委会(SIGKDD)举办了**届数据挖掘学术年会,出版了专门期刊,此后数据挖掘得到了如火如荼的
发展。
正是通过数据挖掘,近几十年来,各大商家谱写了不少点“数”成金的传奇故事,例如沃尔玛通过捆绑“啤酒和尿布”提高销量。又如,奈飞公司利用客户的网上点击记录,预测其喜欢观看的内容,实现精准营销。再如,阿里巴巴等互联网公司凭借长期以来积累的用户资金流水记录,涉足金融领域,在几分钟之内就能判断用户的信用资质,决定是否为其发放贷款……
近年来,数据挖掘在企业的应用还在不断推陈出新,有望到达一个新高度。例如,2014年1月,美国的电子零售巨头***宣布了一项新的专利:“预判发货”(AnticipatoryShipping),即在网购时,顾客还没有下单,***就将包裹寄出。这种顾客未动、包裹先行的做法听起来有些不可思议,中国的新闻媒体甚至惊呼:“***这是要逆天吗?”5
在商言商,***当然不会做赔本生意,预判发货的核心技术还是数据挖掘。其本质是,通过预测,把发货这个过程“外包”给算法,让算法自动发货,实现智能化!***解释说,发货的根据是顾客以前的消费记录、搜索记录以及顾客的心愿单,甚至包括用户的鼠标在某个商品页面上停留的时间。根据这些数据,**如果判断某位顾客对一件新商品有购买意愿,就会直接将商品寄给他,或者将该商品发送到离他*近的仓库,顾客一旦下单,那收货时间就将以“小时”计,而不是以“天”计。***认为,正是从下单到收货之间的物流延迟,导致人们购买意愿降低,如果能够缩短物流时间,将极大地改善客户体验。
***还提到,并不是所有的商品都会采用预判发货的形式,这种形式比较适合在上市之初就容易吸引大量买家的商品,例如畅销书。为了降低预判发货的风险,***还有一些配套技巧,例如模糊填写用户的收货地址,只将商品配送到离他*近的仓库,如果在配送过程中收到订单,再将地址信息补充完整,在这个等待的过程中,***还会向这位潜在顾客推送信息,以提升这笔交易成功的可能性。
但这些都不是其算法的关键,预判发货这种模式之所以有商业价值,是因为***会锁定其适用的群体,例如年收入较高的家庭,他们对某些消费有固定的预算;又如某一领域的狂热粉丝,他们愿意为*新的时尚一掷千金。这批高端用户更注重购物体验,如果把发货流程外包给算法,顾客就不用操心自己想买什么,这相当于节省了他的时间;流行物品在**时间就送上门,这是急顾客之所急。可以想象,当这些家庭拆开邮包时,更多的可能是欣喜,这种欣喜将强化顾客的忠诚度。当然,假如顾客真的坚持退货,***还有解决办法:一是打折销售,二是作为礼物免费赠送,这也有利于***在高端客户中提升口碑。
***有1亿客户,这些人的消费记录日积月累,可以说是海量数据,但数据虽然多,却没有人会直接将自己的收入高低和兴趣爱好告诉***,所有的预判,***都必须靠数据挖掘来完成。
2013年5月,加拿大蒙特利尔交通局(SociétédeTransportdeMontréal,STM)宣布,将利用SAP(思爱普)公司的大数据处理平台,对所有顾客的消费历史和个人信息进行分析,然后按照其偏好、习惯和需要,为每位顾客定制专门的消费计划和个性化票价。蒙特利尔交通局共有120万名顾客,这意味着这120万人都将得到不同的票价,其目的是优化公共交通的运营,提高顾客的忠诚度。
蒙特利尔交通局之所以能够这么做,还是因为其掌握了大量顾客的数据。在信息时代之前,受限于记录手段,商家对于自己产品及服务的销售和流向,只有一个粗略的记录,但现在的信息技术已经可以把一件产品的流向、每位消费者的情况都记录下来,再通过数据挖掘,为客户量身定制,把消费和服务推向一个高度个性化的时代。
数据挖掘技术的不断成熟也在挑战现有的统计体系。在第五章我们谈到,20世纪30年代,由于抽样技术的出现,统计科学发生了一场革命,即社会调查可以通过选取有代表性的样本来完成,而不必像人口普查一样,把全社会的人都问一遍。但前文也谈到,即使是抽样技术,也有其缺陷。1948年,杜鲁门和杜威竞选,盖洛普通过抽样调查预测杜威将当选,但结果让所有人都大跌眼镜。其失败的原因在于,抽样调查需要经过问卷设计、信息收集、数据分析等多个步骤,这导致它掌握的数据滞后于真实的情况,在*后两周里,盖洛普不得不停止调查,而杜鲁门恰恰在*后的关头扭转了乾坤。在大数据时代,对谁将当选总统的预测已经出现了新方法:在投票前后,对社交媒体上的数据进行观点的挖掘,可以较为准确地预测出谁能当选。*近两次美国总统的选举,都有人通过挖掘推特、脸谱网上的数据,准确预测到奥巴马的当选。
这种基于网络数据的挖掘,不需要制定问卷,也不需要逐一调查,成本低廉。更重要的是,这种分析是实时的,没有滞后性,所以有越来越多的科学家相信,因为大数据的出现,统计科学将再次发生革命,进入统计2.0时代。在这个新的时代,数据挖掘将成为越来越重要的分析预测工具,抽样技术将下降为辅助工具。
表7–1数据挖掘和统计抽样的区别
数据样本
数据来源
数据时效
数据成本
数据挖掘
用的是已经存在的大数据,样本偏差可能很大,但如果数据量足够大,偏差又可能缩小
多个源头
实时
基本免费
统计抽样
根据设计好的问卷,收集自己需要的数据,如果设计科学,那样本会比较均匀、偏差小
比较单一
滞后
比较昂贵
注:数据挖掘的优越性,也集中反映了大数据“量大、多源、实时”等三个特点。
虽然数据挖掘正如日中天,但在一定程度上,数据挖掘已经不是大数据的前沿和热点,取而代之的是机器学习。当下兴起的机器学习凭借的也是计算机算法,但和数据挖掘相比,其算法并不是固定的,而是带有自调适参数的,也就是说,它能够随着计算、挖掘次数的增多,不断自动调整自己算法的参数,使挖掘和预测的结果更为准确,即通过给机器“喂取”大量的数据,让机器可以像人一样通过学习逐步自我改善、提高,这也是该技术被命名为“机器学习”的原因。
除了数据挖掘和机器学习,数据的分析、使用技术已经非常成熟,并且形成了一个谱系,例如数据仓库、多维联机分析外理(MultidimensionOLAP)、数据可视化、内存分析(In-memoryAnalytics)都是其体系的重要组成部分,在人类数据技术的进步过程中,都扮演过重要的角色。6
回顾半个多世纪人类信息社会的历史,正是因为1966年提出的摩尔定律,晶体管越做越小、成本越来越低,才形成了大数据现象的物理基础,这相当于铸器,人类有能力制造巨鼎盛载海量的数据;1989年兴起的数据挖掘,则相当于把原油炼成石油的技术,是让大数据产生“大价值”的关键,因为如果没有技术,石油再多,我们也只能“望油兴叹”;2004年出现的社交媒体,则把全世界每个人都变成了潜在的数据生成器,向摩尔定律铸成的巨鼎当中贡献数据,这是“大容量”形成的主要原因。
图7–7大数据的三大成因
分析了大数据的静态概念和动态成因,我们更清楚地理解了大数据的特点,现在可以从以下角度来理解、定义大数据:
图7–8大数据的概念和维度
注:正如前文讨论的,当前人类的数据约75%都是非结构化数据,大记录的表现形式主要就是非结构化数据,而大记录、非结构化数据要体现出价值,当前主要的处理方法,还是把它们转化为有严整结构的数据,即传统的小数据,因此我认为,大数据的价值维度主要体现在传统的小数据和结构化数据之上,而大数据的容量维度主要体现在现代的大记录和非结构化数据两个方面。
大数据产生之后,全世界的科学家都在预测和展望。这股由信息技术掀起的新浪潮将对人类社会产生何种影响,将带领我们的世界走向何方?我认为,有更多的数据,就必定会有更多的使用,而使用数据*根本的方法就是计算,大数据时代就是大计算的时代,无处不在的计算标志着一个计算型社会的兴起。
有数据,还要有计算:计算型社会的兴起
前文谈到,进入信息时代之后,“数据”这个概念的内涵扩大了,它不仅仅指代传统的数字,还包括文字、图片甚至音频、视频等。
由于数据的内涵扩大,可以想象,计算的内涵也应该发生相应的变化。计算是以数据为基础的,其本质是对输入的数据,经过一定规则的处理后,例如加、减、乘、除,输出一个新数据,从这个意义上说,计算就是对数据进行有规则的转换。
传统的计算自然以传统的“数字”为基础,例如:8×8=64,而在大数据时代,文本是数据,视频是数据,这些数据是否也能计算?例如,输入一段文本,经过一定规则的处理,得出另外一段文本或者一张图片,甚至一个视频,那是不是也应该算作“计算”?
这个新型的数据转换过程,其实就是我们熟悉的搜索和数据挖掘。
按照我们对计算的定义:计算是按照一定的规则对数据进行转换的过程,而文本、图片、音频和视频都是大数据时代的数据,那以上的过程就应该是计算。换句话说,在大数据时代,计算的内涵也扩大了,搜索就是计算,数据挖掘也是计算!它们依照的规则,并不是简单的加、减、乘、除,而是特定的、更为复杂的算法。
我们的世界主要由物理环境、人和社会构成,如果按此划分,人类的计算也可以分为两大类:物理环境的计算、人和社会的计算。社会领域的计算主要是研究个人和群体的行为,包括过去和现在的行为,也包括有组织的群体行为和无组织的群体行为,传统学科如经济学、政治学、社会学、历史学等都属于这个范畴;物理环境领域的计算主要研究人类生活环境的状态,传统学科如物理、化学、天文学、地理学、动物学、植物学等都属于这个范畴。
在大数据时代,人和社会、物理环境这两大领域的计算都将蓬勃兴起。物理环境领域的计算由来已久,大数据时代*大的亮点就是人和社会的计算,越来越多的社会问题都将通过计算得到解决。换句话说,由于大数据的出现,社会正逐渐变得可以计算!
可以计算的原因是,个人在真实世界的活动和社会状态被前所未有地记录,这种记录的粒度很高,频度也在不断增加,为社会领域的计算提供了极为丰富的数据。
2011年10月,美国佛罗里达州劳德代尔堡市(FortLauderdale)发生了一起恶性交通事故,事故原因是一名退休警察超速行驶。佛罗里达州《太阳哨兵报》的记者克斯汀(SallyKestin)在查阅历年的数据后发现:从2004年起,整个佛罗里达州发生过320起警察超速导致的交通事故,并且导致19人丧生,而*后的结果,只有一名警察入狱服刑。克斯汀意识到,这可能是一个非常值得关注的社会问题,她甚至怀疑这个数据只是冰山一角,类似的警察很多,开快车可能是其经常性的行为。
但怀疑只能是怀疑,克斯汀知道,要证明它,无异于要证明警察这个群体知法犯法、凌驾于法律之上,这是个很大的挑战,*大的困难就在于取证。
为了取证,克斯汀尝试过跟踪警车,获取其超速的**手记录。她抱着测速雷达,一连几天守在高速公路边,一看见有超速的黑点,就驱车直追,但她很快发现,这无异于守株待兔,难度太大:一是路上车辆太多,难以确定目标,追来追去,常常发现不是警车,一到晚上,目标更是难以辨认;二是就算运气好、碰上的恰好就是警车,克斯汀也无权截停,仅仅通过照片或录像,证据还是不够充分,事后也无法服人。
克斯汀*后想出的办法,是根据美国内开放1.0时代制定的《信息自由法》,向当地的交通管理部门申请数据开放,因为警车是公务用车,公民有权了解其使用状态,她因此获得了110万条当地警车通过不同高速路口收费站的原始记录。在专业数据分析人员的帮助下,克斯汀用了3个月的时间对这些记录进行了整合和分析。
克斯汀的分析方法是:她选取两个特定的收费站并测算两点之间的距离,再在110万条记录中找到每一辆警车通过这两个不同收费站的时间点,两点之间的距离除以其时间差,即为该警车在这段路程中的平均行驶速度。
克斯汀的分析得到了令人震惊的结果。她发现,在13个月期间,当地的
3900辆警车一共发生了5100宗超速事件,也就是说,警车超速的行为几乎每天都在发生;96%的超速在144公里/小时至176公里/小时之间,当地1/5的警车都有时速超过144公里的“劣迹”,而且,时间记录表明,绝大部分超速行为发生在上下班时间和上下班的途中。这意味着,他们开快车并不是为了执行公务。
克斯汀的怀疑终于得到了证实,2012年2月,她利用这些数据分析的结果,在《太阳哨兵报》上发表了一系列报道,头篇报道的标题为“他们凌驾法律之上?”7。在大量数据和调查访谈的基础上,克斯汀得出结论说,因为工作需要和警察身份的特权意识,开快车成了警察群体的普遍习惯,即使下班之后身着便服,其驾驶速度也没能降下来,而路上值勤的警察也警警相护,互相理解并纵容这种行为。
铁数如山。可以想象,克斯汀的报道一见报,舆论一片哗然。接下来一个月,《太阳哨兵报》的电话响个不停。全国各地的读者纷纷打来电话,有的表示感谢,有的要来取经。当地警务部门则发生了一场“大地震”,5100宗超速案件涉及12个部门近800名警察,一些被“坐实”的警察陆续受到处理:48名州高速公路巡警被处以警告处分或者被勒令纪律反省;44名地方刑警被剥夺开车上下班的权利并回炉参加安全驾驶培训;迈阿密市的38名警察被处理,其中1名开除、10名停发工资;各地还有33名基层警察也受到警告、剥夺驾驶权利等不同程度的处罚。
故事到这里,还没有完。警务部门的整顿是否有效呢?2012年12月,克斯汀又向交通管理部门申请开放了*新的原始数据。她对新的数据又做了分析,并和2011年的同期数据进行了对比。数据表明,从2012年2月到10月,警察超速的个案已经从2011年同期的3179宗下降为495宗,下降幅度高达84%。克斯汀又在《太阳哨兵报》上发表了一篇新报道—《警察猛踩刹车!》8。在这篇报道中,她甚至把数据分解到了各个警务部门,详细地列出了每一个部门的改进水平。
图7–9哪些部门的警察还在开快车?(2012年2月至10月与2011年的同期对比)
《太阳哨兵报》只是美国一个县的地方报纸,总发行量不足23万份,但因为克斯汀的报道,该报名声大振,并于2013年4月获得了2013年度的普利策新闻奖,其获奖理由是:“克斯汀的报道以无可辩驳的技术调查,记录了警察在非公务期间开快车、危及市民生命的事实,这种致命的威胁在报道引发的讨论和整顿中得到消减。”
可以想象,如果不是通过使用数据,如果没有上百万条充沛的数据记录以及成熟的数据分析手段,类似于“警察群体普遍开快车”的社会问题,人类可能永远都无法在法庭上得到证实,这种知法犯法的特权行为,也永远得不到有效的治理和纠正。
通过计算来解决社会问题,正变得越来越普遍。2013年,美国肯塔基大学利用大数据平台,对学生的各种行为数据进行整合,例如各门课程的成绩、出勤率、在线学习平台的活跃度、使用图书馆等各种设施的记录,再通过数据挖掘,快速确认可能存在问题的学生,对他们开展专门的辅导,以减少学生流失。其实,国内也有类似的应用。2013年7月,有报道称,华东师范大学的一位女生收到校方的短信:“同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?”9这条温暖的短信也要归功于数据挖掘:校方通过挖掘校园饭卡的消费数据,发现其每顿的餐费都偏低,于是发出了关心的询问,但随后发现这是一个美丽的错误——该女生其实是在减肥。可以想象,误会之所以发生,还是因为数据不够大,大数据的特点除了“量大”,还有“多源”,如果除了饭卡,还有其他来源的数据作为辅助,判断就可能更加准确。
社会领域的计算,也被很多学者称为“社会计算”(socialcomputing),这个概念的提出已经有20多年的历史。20世纪90年代,美国的学者*早提出这个概念之时,是从“社会软件”(socialsoftware)这个角度出发的,*早的社会软件是指支持群体交流的软件,如MSN(微软网络服务)、QQ(腾讯公司的一款即时通信软件)等。社会软件也是相对于“商业软件”的一个概念,两种软件的目的不同:传统的信息系统降低的是商业交易的费用,但社会软件降低的主要是人际交往的成本,使大规模的合作成为可能。
2004年,社交媒体产生之后,社会软件的功能被发挥得淋漓尽致,个人的行为和思想通过脸谱网、推特、微博等工具被广泛记录,有学者进一步明确主张,将基于社交媒体的行为分析称作“社会计算”。近年来,随着大数据的崛起,越来越多的学者认为,关于人和社会本身的数据现在已经极为丰富,而且这类数据还在快速增长,未来一切的社会现象、社会过程和社会问题,都可以而且应该通过以计算为特点的定量方法分析解决,这样更加精确、更加科学。
虽然关于“社会计算”的定义正在演进当中,国际共识也还未形成,但这并不妨碍相关研究的开展。近年来,美国的国家人文研究基金会(NationalEndowmentfortheHumanities,NEH)甚至还大力鼓励利用基于历史的大数据来研究、解决社会问题。2012年,美国的乔治梅森大学联合英国的两所大学,将英国伦敦市240年的罪犯庭审记录输入电脑,然后对这些数据加以分析和挖掘,以研究各种案件的发展趋势、触发原因以及和社会背景的关系。另外一个研究更有意思,1918年,美国曾经发生一起大流感,死亡上百万人,历史学家认为,大部分死亡其实都可以避免,但问题究竟出在哪里呢?美国弗吉尼亚技术大学的一个课题组着手收集了当年各个地区的死亡人数,并将这个时期全国各地所有的新闻报道都电子化,他们试图研究信息传播的时序、路线和死亡人数的关系,例如,什么样的报道方式、新闻措词*有效,什么样的传播渠道*有可能减少死亡人数。
又如,文艺复兴期间,欧洲的思想界群星璀璨,出现了一大批思想先驱,但历史研究的一个困难在于,某一特定新思想的首倡者往往难以确定。随着新证据的出现,早年历史学家认定的事实,常常被发现是张冠李戴。美国大学的一个课题组提供了一个新的方法和思路:他们把文艺复兴时期几千封名人之间的通信电子化,然后进行文本挖掘和分析,追踪确定一个新思想、新概念的首倡者,同时研究这些新思想和新概念又是怎样在人们的交流和互动中发展成形的。
就此而言,通过社会计算,一些精细的、微妙的、在人类历史上曾经难以捕捉的关系和知识,现在都可以捕捉到,并被上升为显性知识。对此,麻省理工学院的教授布林约尔松(ErikBrynjolfsson)比喻说,大数据的影响,就像4个世纪之前人类发明的显微镜一样:显微镜把人类对物理环境的观察和测量水平推进到了“细胞”的级别,为人类社会带来了历史性的进步和革命,而大数据,将成为我们下一个观察人类自身行为以及社会行为的“显微镜”。
当然,社会领域的计算、对类似知识和关系的捕捉,不仅能够有效推动社会治理,还能产生商业价值。
2012年6月欧洲杯足球赛期间,中国国内出现了多篇《男人一看球,女人就网购》的相关报道10。报道称,根据淘宝网的销售数据,欧洲杯开赛以来,女性网购的成交量明显上升,而且“网购的高峰期延时两个小时,变成了23点到24点”,此外,在“凌晨1点45分**场球结束到凌晨2点45分第二场球开始前”,出现了一个新的网购高峰,这个新的高峰和赛前的同时段相比,成交量“增长超过260%”。
这个现象背后的逻辑不难理解。球赛期间,男性沉迷于球赛,冷落了妻子(女朋友)和孩子,女性,特别是已婚女性会觉得沮丧、恼火、失落。每天晚上球赛开始的时候,在个体层面,每位女性都有很多选择,她可以做家务、辅导孩子、跟闺蜜聊天、和母亲通电话以及逛街购物,也就是说,其行为具有不确定性,她究竟会做什么,难以预测。但是,当我们把几个电子商务平台的交易数据一汇总、一分析,就会发现,群体的行为有规可循。随着球赛的开始,女性在网上购物的成交量就开始增加,其中的高档物品也较平时明显增多,也就是说,平时舍不得买的东西,这时候终于出手了。在小数据时代,“男人一看球,女人就网购”永远是一个猜测,无法得到证实,但在大数据时代,很容易就能证实,甚至连成交的商品有什么特点,都可以进行分析。等到明年球赛再开始的时候,商家的广告就可以更有的放矢,不仅可以把广告对象瞄得更准,推广的商品也会更有针对性,猜测上升为知识,知识将创造利润。
关于个人行为和社会状态的数据已经无处不在,这些数据是多源的、即时的、分散的、多形式的、碎片化的,同时又是海量的。高明的商家通过大数据的整合和挖掘,可以从这些海量的、零散的数据中找到规律,发现大众行为背后的心理机制。这些心理机制,在个人层面,可能是隐性的需要、无意识的诉求或者无法言说的欲望,但通过整理大量的数据,商家就可以理清大众生活中这些无意识的原型,掌握消费者背后真正的心理动机,从而提供创造性、突破性的产品和服务,获得更多的消费者和更大的市场份额。事实上,这也正是大数据用于精准营销的*高境界。为什么当年沃尔玛啤酒和尿布的故事能让全世界津津乐道几十年?原因就在于,即使是在购买尿布时喜欢顺便购买啤酒来犒劳自己的年轻父亲,可能也不清楚这个行为背后的心理动机,但沃尔玛通过数据,捕捉到了这个无意识的原型,并通过数据分析的验证,将其提升为知识。
普适计算:即将到来的超级数据爆炸
除了社会领域的计算正在兴起,物理环境领域的计算也在面临一场革命,其中的原因,就是上文中提到的普适计算。传感器、可穿戴式设备等微小的计算设备将进一步普及,装备到全世界的各种物体之上,包括机器、电器、人体、动物、植物等需要监测的目标,真正形成“万物皆联网、无处不计算”的状态。
随着这场革命的到来,人类的数据总量还要爆炸,这场爆炸将达到****的规模。
其中,机器将是**梯队。人类在进入机器大生产的时代之初,机器的效率在不断提高,但到达一个临界点之后,机器的效率就很难再优化了。当机器和机器相联、形成一个系统的时候,其效率问题就显得更为显著,一台机器的效率可能成为系统的瓶颈,一台机器的故障可能导致整个系统瘫痪,系统的复杂性使工程师常常顾此失彼,难以优化系统的效率。如果能通过传感器监测机器的运行状态,通过计算确认各类设备的良好程度,算准时间进行设备优化和维修更新,就能控制生产过程中的不确定性,减少意外情况带来的损失。
全球*大的工业制造商通用电气将这种运营效率的提高总结为“1%现象”。该公司经过估算指出,如果全世界的飞机引擎维护效率提升1%,每年全世界就可以节省2.5亿美元;能源行业的发电设备每提高1%的效率,就可为全球经济贡献40亿美元;医疗器械的效率如果提升1%,则可以帮助全球医疗行业节约630亿美元。也就是说,所有机器只要提高1%的效率,就能为全世界带来非常可观的收入。
目前,全世界现在大概有300万个重要的、巨大的、日夜运行的机器,这些机器都在一定的温度、湿度、压力、振动、旋转状态下工作,这些参数都是重要的监测指标。此外,全世界还有上百亿台带有微处理器的机器或者电器,未来都可以装上传感器,全球人口共有60多亿,当社交媒体被发明的时候,每个网民都成了一个数据生成器,就已经引起了一次数据大爆炸,而机器远比人多,而且日夜不停地旋转、工作,可以想象,这次即将到来的数据爆炸,远非上次可比,将是超级大爆炸。
通用电气公司为此发布了专门的研究报告、制订了相应的规划,并且计划在旗下大至飞机、小至激光手术刀等数万种产品上都安装传感器,通过网络将设备运行状态数据实时传至平台,并将该计划称为“工业互联网”。2012年7月,通用电气公司投资1.7亿美元在纽约州斯克内克塔迪市(Schenectdy)开设了一家电池工厂,1.6万平方米的厂房内安装了1万个传感器。这些传感器分布在各条生产线上,监控、记录生产过程中的温度、气压、湿度、生产配料、能源消耗等数据,工厂的管理人员则通过随身携带的iPad(苹果平板电脑)获取这些数据,以便在第一时间发现问题,对生产进行监督和调整。
通过传感器监测生产过程,还只是通用电气工业互联网计划的一部分,通用电气的目标是“让每件产品产生记忆”:未来,产品在出厂前就被植入了传感器,记录了它的生产过程,在产品抵达顾客、进入服务状态之后,传感器将每时每刻都记录产品的运行情况,一旦出现问题和故障,通用电气可以快速地整合生产记录、销售记录、产品运行记录这三种数据进行分析。
除了通用电气高调突进的工业互联网,还有生活物联网,即生活电器入网。2014年1月,谷歌以32亿美元的现金收购了智能家居设备商Nest。业界纷纷认为,生活物联网的脚步越来越临近,我们即将迈进一个智能家居的时代:你坐在办公室里,就可以调节家里电冰箱的温度;你在下班的路上,就可以控制电饭煲的开关,并关上窗户、打开空调。
但智能家居的作用可能还远远不止自动化这么简单。例如,大部分美国家庭都有自己的车库,每个车库都有一个电动卷帘门,电动门利用一个小感应器来监测电动门伸缩期间的震动情况。现在有人提出来,北美大地上有几百万个这样的车库门,传感器都是现成的,如果把它们全部连接到互联网上,房主可以监控自家的大门不说,美国大地上每平方米的面积上震动一下,互联网上都知道,这种网络对地震监测是不是有辅助作用?这启发人们思考,机器、电器入网可能在功能上还会有外部性,起到意想不到的作用,因为世界的万事万物都是普遍联系、高度相关的。
物理环境领域的计算的崛起将给全世界带来巨大的机遇。新一代的机器是能够记录自己行为以及与其他机器的交换数据的智能机器,在机器“出生”的时候,传感器就已经和机器一体化了。面对机器产生的海量数据,各行各业都需要制定很多数据标准,使同一类别的机器、同一品牌的机器产生的数据能够自由整合、对比和分析。我们还需要新的分析平台和工具,同时,因为生产过程中机器工作过程中实时数据的获得,我们需要制定新的生产流程和商业规范,以提高各种决策的效率,在这个过程中,全世界会需要一大批数字机械工程师、软件工程师、数据科学家和人机交互界面专家。
此外,因为这种超级大爆炸,全世界的数据中心将大量增加,这将拉动硬件产业的发展。通用电气公司估计,数据中心的需求将每两年翻一倍。2015年,对数据中心的投资将增长到1000亿美元;到2020年,数据中心的数量会增长40倍;到2025年,这一数字将达到2000亿美元。数据中心是耗电大户,据统计,美国所有数据中心每年的耗电量是整个纽约城居民用电量的两倍。建设清洁、高效、具有弹性的数据中心将是未来的一个重大挑战。此外,数据中心的增加还将推动宽带网、光纤网的建设,使各种数据中心能够跨地区、跨产业相联。
数据和计算:第三次工业革命的CPU
2012年以来,第三次工业革命、新工业革命、数字工业革命等各种工业革命论的提法频频在全球激起讨论、见诸报端,虽然这些提法各异,但其中心思想是一致的,即全球的制造业正在面临一场挑战和变革,未来的工业制造将呈现数字化、智能化、定制化、互联化以及绿色化等特点。而且,无论哪种提法,都离不开对3D打印机的关注和讨论。学界的共识是,3D打印已经成为第三次工业革命当中*活跃的因素之一,它将终结人类大规模工业生产的历史,引发商业组织和管理形态的重大变革。
前文我们谈到物理环境领域的计算即将爆炸,讨论了工业互联网如何引导未来的工业制造进入一个智能化、互联化的时代,而3D打印将实现的是生产制造过程的数字化和定制化。随着下文讨论的展开,我们将看到,3D打印对未来设计、生产、流通和消费等各个环节产生的影响,离不开数据的驱动和协同。也就是说,第三次工业革命离不开数据!
3D打印是一种加式制造
3D打印是一种以数字文件为基础,运用粉末状金属或塑料等可黏合材料,通过逐层打印的方式来构造物体的技术。传统的制造方式是“减式制造”,即通过模具,利用机器外力对原始材料进行“压、切、割、冲”等机械加工,将原材料转化成产品,在这个过程中,原材料缩减了,因此叫作减式制造。而3D打印是通过逐层叠加、不断增加材料的方式,一次性完成生产过程,所以被称为“加式制造”。
首先,3D打印是以“数据包”为基础的生产,只要这个数据包在打印机上运行,并且具备打印的原材料,生产就可以完成。2013年5月,美国有人把制造枪支各种零部件的数据包上传到了互联网上,在美国政府做出反应、发布禁令之前,该数据包被下载了数十万次,民间就有人利用这些数据包打印出了可以发射子弹的塑料手枪。半年后,美国的科技工程公司SolidConcepts公司又用3D打印机打印了一支真正的金属手枪,并试射了几十发子弹。除枪支这种高危管控物品外,近一两年以来,在世界各国科学家的努力下,可以打印的物品种类迅速增多,大到飞机的零部件、房子的建筑材料,小到下颚骨、心脏瓣膜、电路板等,不断刷新人们的想象力。可以肯定,随着数字化生产的扩大,未来任何可见的物理实体的背后都会有一个数据包与其对应存在。从这个意义上来看,3D打印为大数据时代贡献了一种新的数据种类:物理实体数据。
图7–10数字工业革命将丰富大数据时代的数据类型
除了可以打印的物品越来越多,更重要的改变是,由于摩尔定律的持续作用,3D打印机的价格也在不断下降。目前,不少3D打印机只需要一两千美元,可以预计,就像其他曾经“高大上”的硬件设备一样,3D打印机也将快速走进普通家庭。
3D打印机的普及对人类的意义非同小可。在全面畅想其对未来社会带来的冲击和改变之前,我们还必须了解一个重要的概念:众包。
“众包”是美国的两位记者在2005年发明的新词,意思是利用互联网将工作打包分配出去,其关键在于,分包时并不知道接包人是谁,这正是“众包”区别于“外包”的地方。更有意思的是,接包人的目的可能并不是为了报酬,而是为了公益、兴趣,或者寻求一种帮助他人的满足感,甚至在一些情况下,连接包人自己也没意识到,就在不知不觉中帮助发包人把任务完成了。
众包*经典的例子是维基百科。这个人类社会*大的知识分享网站、*重要的“百科全书”成立于2001年,目前仅仅英文词条就有近450万个,全部由志愿者完成。2011年3月11日下午2点46分,日本发生了有观测记录以来规模*大的地震,其后引发了大海啸,导致了核泄漏和火灾,日本东北部分地区因此遭受到毁灭性的破坏。地震发生后的半小时不到,3点18分,维基百科上就建立了相应的词条“2011Tōhokuearthquakeandtsunami”(2011年日本东北地区近海地震),这之后,该英文词条经过了全世界2122人共计6781次的修改和完善,如今已经形成了一个图文并茂、带有352条引用、两万多字、非常复杂和完善的词条,在英文词条的基础上,还衍生出近80种不同语言的翻译和补充11。
图7–11“2011年日本东北地区近海地震”英文词条的变化
注:左上为该词条在2011年3月11日日本时间下午3点18分建立时的历史记录,只有短短一句话;右下为该词条在2014年2月的截屏,词条已经分为十几个部分,有两万多字的介绍。(图片来源:网络截屏)
对于众包当中蕴藏的巨大社会能量,我也有亲身体会。2012年的一个下午,我决定为华人历史学家许倬云先生在维基百科建立一个英文词条。为了证明资料的真实性,维基百科规定新建的词条必须至少有三个引用。词条建好之后,系统提示我还缺一个引用,我于是回头去找资料。仅仅一分钟之后,我一刷屏,发现第三个引用竟然已经被人加上了!我的心头如过电般涌起一股惊讶和欣喜之情:在世界的另一个角落,竟有人在协同我的工作!短短几十秒的时间,在这个广袤的大千世界,就有人看到了我在互联网上搭建的这个新页面,而且,他和我一样关心许先生的词条,并且帮助我补充了*后需要的一个引用。
除了基于兴趣和公益的志愿贡献,众包也已经成为一种可以创造价值和利润的商业模式,验证码(CAPTCHA)的应用就是另外一个经典例子。2002年,卡内基梅隆大学的博士生路易斯(LuisvonAhn)发明了我们熟悉的验证码,即用一排人为扭曲、奇形怪状的字符来判断当下程序的使用者是“人”还是“机器”。因为机器无法自动识别这些变形的字符,所以验证码可以用来防止互联网上广泛存在的恶意机器注册。恰恰在这个时候,《纽约时报》正面临一个令人头痛的任务:他们试图把100多年的历史报纸全部电子化,当时*可行的方法就是通过扫描进行光学字符识别(OCR),但因为旧报纸上油墨的痕迹、折叠的印记和发黄变色,加上几十年前的字体与现在的也不一样,因此识别率很低。当然,还有一个*笨的方法就是逐字敲打,再找人校对,但这样不仅速度慢,效果也不好。这时候,路易斯想到了一个天才的办法:全世界每一天都有几亿个验证码在被校验,他把《纽约时报》的文章切成小片,把它当作验证码发给全世界的人,这些人在使用验证码的时候,在不知不觉中就帮助《纽约时报》完成了输入和校对。对于难以识别的字符,系统可以发给多个校验者,当几个人返回的结果一致的时候,就说明识别的结果是正确的,然后再把这个结果返回系统进行整合。2007年,路易斯成立了验证码公司reCAPTCHA,该公司利用这个办法把《纽约时报》几十年的报纸都电子化了。2009年,该公司被谷歌收购。
类似的例子还有很多,例如Airbnb网站,通过它,个人可以将多余的房间临时出租给旅游者;又如将翻译任务打包发给其他国家的外语学习者作为练习素材,以较低的成本,甚至免费的形式就可以完成大量翻译;再如中国的知乎、大众点评网等问答型网站,都成功地应用了众包这种商务模式。说到底,众包是通过互联网,在全球范围内利用、整合分散的、闲置的、廉价的劳动力、技能和兴趣等资源,为软件业和服务业提供一种新的劳动力组织方式。
随着3D打印机的普及,众包这种新的商业模式,将从服务业进入制造业,改变整个社会的生产制造方式。
今天的制造是以大规模的减式制造为基础的,对每种产品而言,制造商只能就若干款式,对流水线进行定制,然后进行大规模生产。例如,今年的女式高跟鞋可能流行立体的鞋面花饰,制造商在市场调研的基础上,认为牡丹花和山茶花的花形可能*受欢迎,于是就生产这两种花形的鞋子,而玫瑰花、百合花、菊花等其他花形,因为市场需求过小,生产商限于成本,就无法生产。
事实上,一双鞋子的样式可以千变万化。类似于立体花形的改变还有很多,例如鞋跟的形状、鞋面的花纹、纹理的线形等。每个顾客都可能有不同的喜好和需求,这些需求之间可能就是一个微小的区别,所以需求的种类虽多,但每一种需求的消费者群体都不大。也正因如此,制造商如果投产,将无利可图。这部分需求被形象地称为长尾需求,对于长尾需求,制造商无法一一满足,即传统制造业无法满足所有消费者的要求。
图7–12传统的制造商无法满足市场上的长尾需求
注:此图为消费市场上的长尾现象,在短头区,代表着为数不多的大规模需求;在长尾区,有很多不同的需求,但每种需求的消费者群体都不多,如果投产,制造商将无法获得利润。
但以数据包为基础的3D打印将有能力解决这个难题。数字化制造不需要在流水线上定制,只需要找到数据包,对其中的代码和数据进行修改,一个花形、线形的区别,可能只是几个参数值的大小不同,在对它们做出修改和调整之后,在3D打印机上再运行一次,一款新的鞋子就生产出来了。
图7–13个性化的需求可以通过修改数据包来实现
3D打印技术为满足消费者个性化的长尾需求提供了契机,将开启一个制造业的新时代。在这个新时代,因为3D打印机正在走进家庭,生产活动可能在工厂之外的地方进行。更复杂的情况是,每款3D打印机的打印范围可能不同,你的能打印鞋子、我的能打印杯子、他的能打印玩具……为了找到合适的3D打印机,必须进行搜索。
不妨假设一位女性消费者心仪的高跟鞋是这个样子:玫瑰花的立体花形;5.5厘米的高跟,后跟为圆形,圆形面积为0.8平方厘米;鞋面有细条纹,条纹间隔为1.5厘米……其要求可能无比细致且千奇百怪,传统制造业绝对无法实现,但在3D打印时代,“想法即产品”,一个完整的设计、生产、消费流程在很短的时间内就能完成:首先上网搜索类似产品的数据包,或者搜索懂得修改这个数据包的设计师,再委托他按照新的要求进行修改,一个有经验的设计师可能在几分钟之内就能够完成修改;这之后,进入生产环节,消费者要寻找愿意给她提供打印服务的3D打印机,这又需要搜索,当然,她*后可能就在自己居住的小区附近找到了合适的打印机,双方达成协议之后,就可以委托生产。
这个搜索的过程,就是计算。我们前面谈到过,搜索就是一种计算,而且是一种典型的基于大数据的计算。在这里,通过搜索,社会需求和生产资料将实现动态的、实时的、*经济的对接;搜索完成之后,委托、授权对方进行设计、生产的过程就是众包。
当然,未来可能出现一个互联网平台,拥有3D打印机的生产方也可以在这个平台上通过搜索主动寻找其潜在客户,提前感知并且响应用户的个性化需求。这个平台将不仅仅是现在的“电商”平台,还将是“互联网制造”的平台!生产方和消费方在平台上通过搜索对接,完成整个设计、生产和消费流程。也就是说,通过搜索和计算,全社会的生产需求和社会资源将在*短的时间内,以*经济的方式实现对接,数据和计算,将是未来生产制造的CPU(中央处理器)!
2012年,中国科学院的研究员王飞跃先生率队考察了美国的加式制造产业。他认为,这场新的产业革命已经触手可及,未来的新型制造模式可以称为“社会制
书摘与插画










用户评价

评分

评分

评分

评分

评分

评分

评分

评分

评分

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有