品味大数据

品味大数据 下载 mobi epub pdf 电子书 2024


简体网页||繁体网页
张玉宏 著

下载链接在页面底部
点击这里下载
    


想要找书就要到 新城书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

发表于2024-11-22

图书介绍


出版社: 北京大学出版社
ISBN:9787301276099
版次:1
商品编码:11993015
包装:平装
开本:16开
出版时间:2016-10-01
用纸:胶版纸
页数:420
字数:620000


类似图书 点击查看全场最低价

相关图书





图书描述

产品特色


编辑推荐

  《品味大数据》与市面上图书不同的是从多维度对大数据的历史、内涵、哲学与技术四个方面对大数据进行了深入的探讨,用百位大牛的观点论辩来帮助读者形成自己的大数据认知体系。
  图书行文幽默、结构完整、图文并茂通俗易懂,让读者寓学于乐。
  率先采用正反辩论的方法对观点形成阐述,让读者可以从辩证的角度去品味大数据。

内容简介

  当下,大数据是一个热门的话题,很多领域的学者,从不同的角度进行了深入的讨论。《品味大数据》从大数据的历史、内涵、哲学和技术四个角度,全面解析大数据,让读者对大数据有更深入的了解。

  全书共11章,大致分为4块:第1-3章主要漫谈了大数据的有趣的历史,包括数据的启蒙、信息载体的演变和数据管理的发展脉络。第4-6章主要聊聊大数据的内涵,包括大数据与哲学及第四科学范式的关联。第7-9张是大数据的杂谈,包括大数据的用途、可能面临的陷阱以及通过小故事对大数据进行一些反思,第10-11章主要涉及大数据的技术,包括100余篇大数据论文的漫读及Hadoop的初级实战篇。

  图书结构完整,行文幽默,并以图文并茂、通俗易懂的方式力图让读者心有余地品味大数据。图书援引了数以百计大家牛人的观点,或褒或贬,高手过招,精彩纷呈,是一本不容读者错过的大数据图书。


作者简介

  张玉宏 留美博士,曾跟随导师Alok Choudhary教授参加了奥巴马总统办公室有关Big Data(大数据)研讨会。

目录

目录


序 在路上,学而时习之 / 张玉宏


第一章 大数据简史漫谈之一——数字的来源及数据思维的发展

1.1 人类的“数觉”与计数系统 

1.2 关于二进制的一点讨论 

1.3 数字的诞生与广泛应用的匹配法 

1.4 数学的“问世”与“算法”的祖师爷 

1.5 文字的“出炉”与罗马语言的来历 

1.6 古代的数据保存之道与文言文的“无奈”精简 

1.7 古代的“数据中心”——图书馆 

1.8 古代计算工具的诞生及其演变 

1.9 统计学诞生——数据思维的渐起 

1.10 美国式的人口普查——大数据催生新技术 

1.11 中国式的人口统计与数目字管理 

1.12 本章小结与思考


第二章 大数据简史漫谈之二——近代存储体系发展中的那些人和事

2.1 数据复制与传播中的问题及解决方案

2.2 影响人类发展进程的几次能源革命

2.3 不能遗忘的电气时代的传奇——特斯拉

2.4 霍尔瑞斯的穿孔卡 

2.5 现代通用计算机的奠基者——图灵和冯·诺伊曼 

2.6 波弗劳姆的磁带发明 

2.7 华人王安电脑的磁芯存储器

2.8 IBM 的传奇磁存储世界

2.9 网络存储世界的兴起

2.10 本章小结与思考


第三章 大数据简史漫谈之三——数据库的发展与大数据的兴起

3.1 近代“数据中心”之梦殇

3.2 “穷”则思变之网状数据库

3.3 浓墨重彩之关系数据库

3.4 突破数据共享封锁线的领头人

3.5 高手对决的数据仓库领域两侠客

3.6 向非结构化进发的数据大趋势

3.7 大数据术语的历史渊源

3.8 现代大数据的诞生

3.9 在混沌和秩序转化中螺旋上升

3.10 本章小结与思考


第四章 大数据的内涵

4.1 从数据、信息到知识、智慧的飞跃

4.2 大数据的多版本定义

4.3 大数据——新时代的生产资料

4.4 信息(数据)化、第二经济与数据思维的转变

4.5 大数据——来自学术界的青睐

4.6 大数据——来自政府层面的重视

4.7 大数据——来自工商业的热捧

4.8 大数据内涵——“岂止于大”

4.8.1 大数据之“大”有不同(Volume)

4.8.2 大数据之唯“快”不破(Velocity)

4.8.3 大数据之五彩缤纷(Variety)  

4.8.4 大数据之价“值”无限(Value)

4.8.5 包括但不限于 4V

4.9 本章小结与思考


第五章 大数据时代的一点哲学思考

5.1 哲学与科学的关系——为什么计算机专业博士也发个哲学文凭(Ph.D)

5.2 大、小数据的“质”不同

5.3 大数据的数理哲学基础——同构关系

5.4 大数据认识主体的变化——“替人消灾”式的认识能免责吗

5.5 波普尔的世界 3——秦始皇的长生梦,找错了空间

5.6 大数据认识对象的变化——提升普罗大众的权重 :“长尾理论”

5.7 认识论对大数据研究的指导意义 

5.7.1 科学始于观察——证实主义 

5.7.2 证实主义的困顿——来自波普尔的批判

5.7.3 科学始于问题——波普尔的贡献 

5.7.4 科学始于数据——大数据时代的科学转机与思考

5.7.5 大数据的悲观思潮

5.8 本章小结与思考


第六章 大数据研究的第四范式

6.1 谷歌公司的“不务正业”

6.2 塞吉·布林的“秘密”病情

6.3 布林病情的“治疗”方案 

6.4 詹姆斯·格雷的科学第四范式 

6.5 科学研究的其他三个范式 

6.6 本章小结与思考


第七章 大数据,大有为

7.1 洞察带来价值 

7.2 案例 1 :谷歌是如何“越俎代庖”地预测流感的 

7.2.1 流感治疗网络化 

7.2.2 “无意间”生产的搜索数据 

7.2.3 谷歌工程师们的杰作——流感预测趋势(GFT)

7.2.4 谷歌的“越俎代庖”为何成功

7.2.5 案例小结 :数据、模型与理论

7.3 案例 2 :“全数据”是如何为叶诗文抱不平的

7.3.1 叶诗文事件的新闻背景

7.3.2 什么是性能分析法

7.3.3 质疑的合理性在哪里

7.3.4 “大数据 = 全数据”的威力——为叶诗文抱不平

7.3.5 案例小结

7.4 案例 3 :大数据是如何对抗癌症的

7.4.1 癌症大数据的特征是什么

7.4.2 癌症从哪里来

7.4.3 大数据用之于癌症斗争,挑战何在

7.4.4 癌症诊疗的基础大数据——获取难

7.4.5 数据化带来的颠覆式医疗——执行难

7.4.6 哪些机构在用大数据对抗癌症 

7.4.7 癌症大数据的重要源头——基因组数据 

7.4.8 大数据对抗癌症,前景如何

7.4.9 案例小结

7.5 更多大数据应用案例

7.6 本章小结与思考


第八章 大数据之坑与小数据之美

8.1 引子——哪个 V 才是大数据最重要的特征

8.1.1 “大”有不同——Volume(大量)  

8.1.2 数据共征——Velocity(快速)与 Value(价值)

8.1.3 五彩缤“纷”——Variety(多样)

8.2 大数据的力量与陷阱

8.2.1 大数据的力量 

8.2.2 大数据的陷阱 

8.2.3 今日王谢堂前燕,暂未飞入百姓家——大数据还没那么普及 

8.2.4 你若安好,便是晴天——小数据之美

8.3 本章小结与思考


第九章 12 个小故事,思考大数据

9.1 故事 1 :大数据都是骗人的啊——大数据预测得准吗

9.2 故事 2 :颠簸的街道——对不起,“n=all”只是一个幻觉 

9.3 故事 3 :醉汉路灯下找钥匙——大数据的研究方法可笑吗

9.4 故事 4 :园中有金不在金——大数据的价值 

9.5 故事 5 :盖洛普抽样的成功——大小之争,“大”数据一定胜过小抽样吗

9.6 故事 6 :点球成金——数据流 PK 球探,谁更重要

9.7 故事 7 :啤酒和尿布——经典故事是伪造的,你知道吗 

9.8 故事 8 :谷歌流感预测——预测是如何失效的

9.9 故事 9 :Target 超市预测女孩怀孕——“大数据”智慧,还是愚蠢

9.10 故事 10 :你的一夜情我知道——大数据的隐私之痛

9.11 故事 11 :大数据,无须惧——比萨店员更能知道顾客所有的信息吗

9.12 故事 12 :扑朔离迷的“因果关系”——苏格拉底的“诡辩术”

9.13 本章小结与思考


第十章 大数据技术漫谈——需要读懂的 100 篇大数据文献

10.1 大数据价值的实现 

10.2 大数据分析的关键架构层 

10.3 架构的演进 

10.4 几个重要的概念 

10.5 文件系统层

10.6 数据存储层

10.7 资源管理器层(Resource Managers)

10.8 调度器(Schedulers)  

10.9 协调器(Coordination)

10.10 计算框架(Computational Frameworks)

10.11 数据分析层(Data Analysis)

10.12 数据集成层(Data Integration)

10.13 操作框架层(Operational Frameworks)

10.14 本章小结与思考


第十一章 牛刀小试之 Hadoop 实战

11.1 什么是 Hadoop 

11.2 Hadoop 发展历程

11.3 Hadoop 集群服务器的安装与配置 

11.3.1 安装 CentOS 7

11.3.2 配置 Java 环境

11.3.3 启动和配置 SSH 服务

11.3.4 安装 Hadoop

11.3.5 启动 Hadoop

11.4 运行 Hello World 版 Hadoop 程序——WordCount 

11.5 全分布模式下的 Hadoop 集群构建 

11.5.1 Linux 以运行等级 3 启动 

11.5.2 在 Windows 和 Mac OS 环境下克隆虚拟机 

11.5.3 设置静态 IP 地址 

11.5.4 修改 hosts 文件 

11.5.5 虚拟机的同步配置

11.5.6 SSH 的免密码登录

11.5.7 全分布模式下安装 Hadoop 

11.5.8 同步配置文件

11.5.9 创建所需目录

11.5.10 关闭防火墙

11.5.11 格式化文件系统

11.5.12 启动 Hadoop 守护进程

11.5.13 验证全分布模式

11.5.14 默认配置文件所在位置

11.5.15 关闭 Hadoop

11.5.16 Hadoop 的运行错误查找 

11.6 WordCount 代码详解

11.6.1 MapReduce 编程模型 

11.6.2 WordCount 的 MapReduce 处理流程

11.6.3 WordCount 源码解读

11.7 本章小结与思考

后  记


精彩书摘

5.2 大、小数据的“质”不同

大数据的实质是什么?在第四章中,我们已经讨论过这个议题。虽然当前学术界和实业界对此都还没有一个统一的定义或认知,但从狭义的字面来理解的话,它应该与小数据相对应,大数据是指数据量特别巨大,超出了常规的处理能力,需要引入新的科学工具和技术手段,方能够进行处理的数据集合。
于此对应的,所谓的小数据指的是,数据规模比较小,用传统的工具和方法就足以完成处理的数据集合。下面我们用一段天文学家第谷·布拉赫和约翰尼斯·开普勒的故事来举例说明小数据的应用。
在16 世纪,有位杰出的占星学家、天文学学家,名叫第谷·布拉赫(TychoBrahe,1546—1601)。第谷出生于丹麦的一个贵族家庭。早在1572 年,第谷凭借自己出色的观察能力,发现仙后座中的一颗新星,后来受惜才的普鲁士国王腓特烈二世(Friedrich Ⅱ)b 的邀请,他在汶岛建造天堡观象台,经过20 年的观测,发现了许多新的天文现象。第谷是天文史上的一位奇人。他对于星象所做的观测精度之高,是他同时代的人望尘莫及的,他编纂的星表的数据甚至接近了肉眼分辨率的极限。
1597 年, 有位才华横溢的年轻人约翰尼斯· 开普勒(Johannes Kepler,1571—1630)渐露头角,年仅26 岁的他出版了自己对宇宙模型猜想的著作——《神秘的宇宙》(Mysterium Cosmographicum)。在这本书中,开普勒设计了一个非常有趣的、由许多有规则的几何形体构成的宇宙模型。
1599 年,第谷看到这本书,十分欣赏开普勒的智慧和才能,立即诚邀他做自己的助手。开普勒来到第谷身边以后,师徒二人“珠联璧合”,朝夕相处,对天文学领域共同的狂热,让他们结成忘年交。
但是,好景不长,开普勒受多疑的妻子的挑唆,突然和第谷决裂,不辞而别。开普勒的离去,使爱才如命的第谷非常伤心。他意识到这完全是一种误会,立即写信给开普勒解释,并胸怀宽广地请他回来继续合作。开普勒读了第谷的诚挚来信,感到十分愧疚。当两人重修旧时,第谷不记旧怨,不但把才华出众的开普勒推荐给国王腓特烈二世,还把自己20 多年辛勤工作积累下来的观测资料和手稿,全部交给开普勒使用。他对开普勒说:“除了火星所给予你的麻烦之外,其他一切麻烦都没有了。现在我把火星的研究也要交托于你,它够你一个人麻烦的了。”
开普勒在接手第谷观测的数据后,这批花费第谷20 多年时间得到的数据,很快就在开普勒手中“妙笔生花”,开普勒经过手工计算,从中发现了著名的“行星运动三大定律”,即轨道定律、面积定律和周期定律。这三大定律最终使开普勒赢得了“天空立法者”的美名。开普勒的成就,来自坚实的数据支撑。他凭借手工,就能处理完第谷20 多年收集而来的数据。这一案例反映的是他处在一个“小数据时代”。
随后,与开普勒同时代的牛顿,通过论证开普勒行星运动定律与他的引力理论间的一致性,证明了地面物体与天体的运动都遵循着相同的自然定律,从而发现了万有引力和三大运动定律,现在看来,这也是基于小数据的。这些经典理论的提出,奠定了此后三个世纪里物理学领域的科学观点,并成为了现代工程学的基础。再后来,随着科学的发展,数据量有了较大的增加,为了处理那些在当时看来的“大数据”,统计学家发明了抽样方法,其基本要求是,在确保所抽取样品具备“随机性”的基础上,来保证样本可以对全体具有充分的代表性,从而推断全体样品的特性,由此解决了“大”数据处理的难题。
而当前的大数据,不仅是所谓数据海量,而且各种数据的差别非常大,用抽样方法难以保证它的有效性。传统的统计方法,之所以不能适用于现在的大数据,大致源于如下三点原因。
(1)在第四章中,我们讨论了大数据的“4V”特征,其中最能反映大数据和小数据不同之处,就是它的“多样性”(Variety):由多种数据来源组成的一个全面的数据。在多种数据源的应用环境中,抽样很难保证它的“无偏性”(unbiasedness)。
(2)统计学家们设计的统计模型,其结论的准确性,强烈依赖于与结论有关的应用类型。目前大数据的主力军——网络数据呈现长尾分布(长尾理论将在后面的小节介绍),使得传统的标准方差等衡量标准失效,“长相依”和“不平稳”常常超过了经典时间序列的基本假设。
(3)传统的机器学习方法,通过先在较小的数据集样本中学习,然后调整参数,验证分类、判定等“假设”和“模型”的适用性,再推而广之到更大的数据集上。通常来说,一般的NlogN、N2 N2 等级别的算法复杂度,是可以容忍的,然而面对PB 级别(1PB=1 024TB=1 024×1 024GB=1 125 899 906 842 624 Bytes)的大数据处理,这种算法复杂度已经难以忍受,因此需要设计新的数据处理算法来适应这一新情况。江西财经大学科技哲学教授黄欣荣,对小数据和大数据“质”的区别也做了比较到位的描述。
(1)从采集手段上来说,小数据属于人工数据,是有意测量、采集的数据;而大数据大多数是由智能系统自动采集或人们无意留下的数据(比如,用户在搜索引擎中使用的搜索关键字、服务器运行的各种日志等),因为当时没有什么明显的用途,很多大数据一度被称为“垃圾数据”。目前,“数据排放”(data emission)——互联网用户留下的点点滴滴(如点击记录、浏览时间、评价内容等),都可以发掘出价值,目前正成为网络经济主流。在大数据时代,有个口号就是,记录一切数据,等待有趣的事发生。在特定的生态环境下,用适合的工具挖掘,大数据中的所谓“垃圾数据”就不再垃圾。
(2)从存储介质和处理平台来看,小数据因为容量较小,常存储于本地存储介质中,其处理平台仅需单机即可完成,数据的处理者清楚地知道数据“身处何地”,可以“亲力亲为”地编写对应的数据分析程序。而现在的大数据,往往因数量过大,而不得已存放于“云端”中,“云深不知处”,云计算利用自己的“虚拟化”技术,让用户不知道也不需要知道数据存在哪台“云计算”的服务器上。就如同用水、用电一样,用户无须知道自来水厂和发电厂在哪里一样,仅仅打开水龙头、按下开关就能得到水资源和电资源。所谓的云计算,就其本质而言,就是一种以互联网为连接中介,以租赁服务的方式,为用户提供动态可伸缩的虚拟化资源的计算模式。中国宽带资本基金董事长田溯宁先生曾总结说,大数据与云计算就好比一个问题的两面。如果说大数据是有待解决的问题,那么云计算就是问题的解决方法。通过云计算对大数据进行分析、预测,会使决策更加精准,释放出更多的隐藏价值。大数据,这个21 世纪人类探索的新边疆,正在被新的计算模式——云计算所发现和征服。
(3)从数据性质来说,小数据因“有意采集”来支持研究者的假设或观点,因此可归属于“主观数据”。相比较而言,大数据则因没有事先渗透主观意图,数据的生产者反而能“真情流露”,从而更显客观性,因此属于“客观数据”。此外,根据舍恩伯格教授的观点,大数据不再是随机样本,而是全体数据。全数据是由多维度数据构成的。一个事物的全息可见,自然比单维度的采集要来得客观。有些商家(特别是大型电商)就是利用顾客的多维度、多层面“用户画像”来更全面刻画客户特征,从而达到精准营销。舍恩伯格教授在其著作《大数据时代》一书中,开门见山地提出了大数据的哲学意义:“大数据开启了一次重大的时代转型。就像借助望远镜,让我们能够感知浩瀚的宇宙,借助显微镜,我们能够观测渺小的微生物一样,大数据正作为人类认知世界的新手段、新方法、新工具,改变我们的生活、工作以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄意待发……”由此可见,大数据,除了在信息科学领域成为研究热点外,在哲学层面的认知,也应有所突破,这也是人类进一步认识世界的迫切需求。
品味大数据 下载 mobi epub pdf txt 电子书 格式

品味大数据 mobi 下载 pdf 下载 pub 下载 txt 电子书 下载 2024

品味大数据 下载 mobi pdf epub txt 电子书 格式 2024

品味大数据 下载 mobi epub pdf 电子书
想要找书就要到 新城书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

用户评价

评分

写得不错,很好啊,值得一读的,推荐!GG…

评分

我之前的在博客上的看过很多他的文章,感觉他这个人非常细腻有想法,分析问题总有一些独到的视角,导致我订阅他的博客,然后他写的每篇文章我们都仔细的研究。这本书我就是在他博客里看到的,就直接买了五本,自己留一本,剩下的送给朋友。快递到了之后,我用一个星期的时间仔细的看了一遍。一句话就是这本书没让我失望。这本书语言通俗易懂,而且很有幽默感,能够激发读者的兴趣,有一种一直看下去的冲动,而且有些话细细品味确实很有道理,不像我之前看的有些书籍,只是罗列事实而不分析其中的逻辑。这本书感觉有一种思辨、全面的态度。而且有大量的注解,专门强调了注解来源,让读者有证可考,可见作者的用心,也多少可以看出作者确实是博览群书。我觉得这本书在大数据科普读物中,除了大数据时代等极少数书能够超过它之外,其他大部分书在各方面都不如他。从这本书来看,作者在大数据方面肯定是有很深建树。在此呢!给大家推荐一下这本书。哈哈?,不知不觉评论已经折磨长了。

评分

说实话,作者倒是没有什么名气,但非常用心,从序言及正文里可以看到,注解了500多个文献,行文规范,文字功底也不错,行云流水,娓娓道来,而且还有点小幽默。在讲述观点时,逻辑严谨,采用了正反辩论的方法对观点形成阐述,读者可以从辩证的角度去品味大数据,是一本值得品味的大数据科普读物。

评分

写得不错,很好啊,值得一读的,推荐!GG…

评分

深入浅出,生动形象,引人入胜,一本认识大数据的很好参考书。

评分

质量很好,物流给力!

评分

在京东买书很方便,正版图书,性价比高!以后还会再买的~

评分

在京东买书很方便,正版图书,性价比高!以后还会再买的~

评分

很不错哦咯不错不错不错不错不错!GG…

类似图书 点击查看全场最低价

品味大数据 mobi epub pdf txt 电子书 格式下载 2024


分享链接




相关图书


本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

友情链接

© 2024 book.cndgn.com All Rights Reserved. 新城书站 版权所有