大数据技术概论:从虚幻走向真实的数据世界

大数据技术概论:从虚幻走向真实的数据世界 pdf epub mobi txt 电子书 下载 2025

娄岩,徐东雨 著
图书标签:
  • 大数据
  • 数据分析
  • 数据挖掘
  • Hadoop
  • Spark
  • 云计算
  • 数据科学
  • 大数据技术
  • 数据工程
  • 机器学习
想要找书就要到 新城书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 清华大学出版社
ISBN:9787302450511
版次:1
商品编码:12081852
包装:平装
开本:16开
出版时间:2016-11-01
用纸:胶版纸
页数:196
字数:315000

具体描述

内容简介

  《大数据技术概论:从虚幻走向真实的数据世界》从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。

  本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。

  本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。


内页插图

目录

第1章大数据概论

1.1大数据技术概述

1.1.1大数据的基本概念

1.1.2IT产业的发展简史

1.1.3大数据的来源

1.1.4大数据产生的三个发展阶段

1.1.5大数据的特点

1.1.6大数据处理流程

1.1.7大数据的数据格式特性

1.1.8大数据的特征

1.1.9大数据的应用领域

1.2大数据技术架构

1.3大数据的整体技术和关键技术

1.4大数据分析的五种典型工具简介

1.5大数据未来发展趋势

1.5.1数据资源化

1.5.2数据科学和数据联盟的成立

1.5.3大数据隐私和安全问题

1.5.4开源软件成为推动大数据发展的动力

1.5.5大数据在多方位改善我们的生活

本章小结

第2章大数据采集及预处理

2.1大数据采集

2.1.1大数据采集概述

2.1.2大数据采集的数据来源

2.1.3大数据采集的技术方法

2.2大数据的预处理

2.3大数据采集及预处理的工具

本章小结

第3章大数据分析概述

3.1大数据分析简介

3.1.1什么是大数据分析

3.1.2大数据分析的基本方法

3.1.3大数据处理流程

3.2大数据分析的主要技术

3.2.1深度学习

3.2.2知识计算

3.2.3可视化

3.3大数据分析处理系统简介

3.3.1批量数据及处理系统

3.3.2流式数据及处理系统

3.3.3交互式数据及处理系统

3.3.4图数据及处理系统

3.4大数据分析的应用

本章小结

第4章大数据可视化

4.1大数据可视化概述

4.1.1大数据可视化与数据可视化

4.1.2大数据可视化的过程

4.2大数据可视化工具

4.2.1常见大数据可视化工具简介

4.2.2Tableau数据可视化入门

本章小结

第5章Hadoop概论

5.1Hadoop简介

5.1.1Hadoop的发展简史

5.1.2Hadoop应用现状和发展趋势

5.2Hadoop的架构与组成

5.2.1Hadoop架构

5.2.2Hadoop组成模块介绍

5.3Hadoop的应用

5.3.1Hadoop平台搭建

5.3.2Hadoop的开发方式

5.3.3Hadoop应用分析

本章小结

第6章HDFS和Common概论

6.1HDFS概述

6.1.1HDFS相关概念

6.1.2HDFS特点

6.1.3HDFS体系结构

6.1.4HDFS工作原理

6.1.5HDFS相关技术

6.1.6HDFS源代码结构

6.1.7HDFS接口

6.2Common概述

本章小结

第7章MapReduce概论

7.1MapReduce简介

7.1.1如何理解MapReduce

7.1.2MapReduce功能和技术特征

7.2MapReduce的Map和Reduce任务

7.2.1Map与Reduce

7.2.2Map任务原理

7.2.3Reduce任务原理

7.3MapReduce架构和工作流程

7.3.1MapReduce的架构

7.3.2MapReduce工作流程

7.4MapReduce编程源码范例

7.5MapReduce接口

本章小结

第8章NoSQL技术介绍

8.1NoSQL基础知识

8.1.1NoSQL的产生

8.1.2NoSQL的特点

8.1.3NoSQL的技术基础

8.2NoSQL的种类

8.2.1键值存储

8.2.2列存储

8.2.3面向文档存储

8.2.4图形存储

8.3典型的NoSQL工具

8.3.1Redis

8.3.2Bigtable

8.3.3CouchDB

8.3.4Neo4j

本章小结

第9章Spark概论

9.1Spark概述

9.1.1Spark简介

9.1.2Spark发展

9.1.3Scala语言

9.2Spark与Hadoop

9.2.1Hadoop的局限与不足

9.2.2Spark的优点

9.2.3Spark速度比Hadoop快的原因分解

9.3Spark大数据处理架构及其生态系统

9.3.1底层的Cluster Manager和Data Manager

9.3.2中间层的Spark Runtime

9.3.3高层的应用模块

9.4Spark的应用

9.4.1Spark的应用场景

9.4.2应用Spark的成功案例

本章小结

第10章云计算与大数据

10.1云计算概论

10.1.1云计算定义

10.1.2云计算与大数据的关系

10.1.3云计算基本特征

10.1.4云计算服务模式

10.2云计算核心技术

10.2.1虚拟化技术

10.2.2虚拟化软件及应用

10.2.3资源池化技术

10.2.4云计算部署模式

10.3云计算仿真

10.4云计算的安全

10.4.1云计算安全现状

10.4.2云计算安全服务体系

10.5云计算应用案例

本章小结

第11章大数据解决方案及相关案例

11.1大数据解决方案基础

11.2Intel大数据

11.2.1Intel大数据解决方案

11.2.2Intel大数据相关案例——中国移动广东公司详单、账单

查询系统

11.3百度大数据

11.3.1百度大数据引擎

11.3.2百度大数据+平台

11.3.3相关应用

11.3.4百度预测的使用方法

11.4腾讯大数据

11.4.1腾讯大数据解决方案

11.4.2相关实例——广点通

本章小结

参考文献


前言/序言

  前言

  IT产业在其发展历程中,经历过几次技术浪潮。如今,大数据浪潮正在迅速朝我们涌来,并将触及各个行业和生活的许多方面。大数据浪潮将比之前发生过的浪潮更大、触及面更广,给人们的工作和生活带来的变化和影响也更大。

  毋庸置疑,大数据的应用激发了一场思想风暴,也悄然改变了我们的生活方式和思维习惯。大数据正以前所未有的速度颠覆人们探索世界的方法,引起工业、商业、医学、军事等领域的深刻变革。因此,在当前大数据浪潮的猛烈冲击下,人们迫切需要充实和完善自己原有的IT知识结构,掌握两种全新的技能: 一是掌握大数据基本技术与应用,使大数据为我们所用的技能; 二是掌握数据之间隐藏的规律与关系,以及可视化方法,使大数据更好地服务于社会发展的技能。

  本书注重实用性,围绕大数据及其相关技术这一主题,采用深入浅出、图文并茂的叙述方式,简明扼要地阐述了大数据及其相关技术的基本理论和发展趋势,使广大读者通过阅读本书,深入了解和掌握大数据的理论和应用,从而更好地把握时代发展的脉搏和历史赋予的机遇。

  本书的目标是给广大读者提供一个既通俗易懂,又具有严谨、完整、结构化特征的书籍。其独到之处是既阐明了大数据技术的系统性和理论性,又对传统数据和大数据在来源、结构、特征、存储方式、使用方法等方面,通过大量的表格和图形方式进行了有针对性的对比和阐述,使读者对两者的区别一目了然,对理解和掌握大数据理技术具有事半功倍的效果。另外,考虑到大数据技术涉及许多新名词和专业性极强的词汇,故在全书的每一章中均附有相关术语的注释,方便读者查阅和自学。

  本书还力求将大数据技术晦涩难懂的理论知识以通俗易懂的语言和方式,由浅入深地展现在读者面前,便于读者理解和掌握。本书内容重点突出,语言精练易懂,非常便于自学,可作为想了解、使用大数据技术的相关人员,如工程技术人员、IT工作者、企业策划和管理人员的参考书,也可作为相关学习班的培训教材。

  全书共分成11章: 第1章大数据概论,第2章大数据采集及预处理,第3章大数据分析概论,第4章大数据可视化,第5章Hadoop概论,第6章HDFS和Common概论,第7章MapReduce概论,第8章NoSQL技术介绍,第9章Spark概论,第10章云计算与大数据,第11章大数据解决方案相关案例。

  本书在写作过程中参阅了大量的中外书籍和相关资料,在此对各位作者表示真诚的谢意。另外本书得到了中国医科大学沙宪政教授和东北大学杨广明教授的大力支持,清华大学出版社对这本书的出版做了精心策划及充分论证,特此感谢!由于作者水平有限,加之时间仓促,书中难免存在疏漏之处,恳请广大读者批评斧正!

  娄岩2016年6月



《数据力量:洞察未来,驱动创新》 在信息洪流席卷而来的时代,数据已不再是冰冷的数字,而是重塑我们认知、驱动社会进步、开启无限可能的关键要素。本书《数据力量:洞察未来,驱动创新》旨在拨开层层迷雾,带领读者深入理解数据这一核心驱动力,从本质到应用,从理论到实践,勾勒出数据如何从概念转化为行动,如何成为洞察未知、预测趋势、优化决策,乃至创造全新价值的强大引擎。 本书并非简单罗列技术名词,而是着力于构建一套完整的“数据思维”体系。我们将首先从数据诞生的源头出发,探讨其多重形态与内在逻辑。从结构化的表格数据,到非结构化的文本、图像、音频、视频,再到物联网设备产生的海量传感器数据,每一种数据形式都蕴藏着独特的叙事方式和分析挑战。我们将深入剖析不同类型数据的特征、采集方式、存储需求及其潜在价值,为后续的数据处理与分析奠定坚实的基础。 随着数据的指数级增长,传统的数据处理方式已显得捉襟见肘。因此,本书将重点介绍现代数据处理的核心理念与关键技术。我们将探讨如何构建高效的数据管道,实现数据的实时采集、清洗、转换与整合。数据仓库、数据湖、数据湖仓一体等概念将得到详尽阐释,帮助读者理解不同架构在应对海量、异构数据时的优势与适用场景。我们将深入介绍ETL/ELT过程中的关键步骤,讲解数据质量的重要性以及如何通过各种技术手段来保障数据的准确性、一致性和完整性。 在数据准备就绪之后,如何从中挖掘出有价值的洞察,是数据应用的关键所在。本书将带领读者探索一系列强大的数据分析方法。我们将从基础的描述性统计入手,学习如何通过聚合、分组、度量等手段来理解数据的整体分布和关键指标。接着,我们将深入到推断性统计的领域,学习如何利用样本来推断总体,理解假设检验、置信区间等概念,从而对数据中的关联与差异做出更有力的判断。 本书的另一重要篇幅将聚焦于预测性分析。我们将介绍机器学习算法的基本原理,包括监督学习、无监督学习和强化学习。对于监督学习,我们将详细讲解回归、分类等核心任务,并深入探讨诸如线性回归、逻辑回归、决策树、支持向量机(SVM)、随机森林、梯度提升树(如XGBoost、LightGBM)等经典算法的运作机制、优缺点及应用场景。我们还将介绍神经网络与深度学习的基础概念,特别是卷积神经网络(CNN)在图像分析中的应用,以及循环神经网络(RNN)和Transformer模型在序列数据处理(如自然语言处理)中的威力。 对于无监督学习,我们将介绍聚类分析,帮助读者理解如何根据数据的内在相似性将数据分组,例如K-Means、DBSCAN等算法;以及降维技术,如主成分分析(PCA)和t-SNE,如何有效地减少数据的维度,便于可视化和后续分析。 此外,本书还将触及数据挖掘中的关联规则挖掘(如Apriori算法)和异常检测等技术,这些技术在市场篮子分析、欺诈检测等领域有着广泛的应用。 数据可视化是理解和沟通数据洞察的有力工具。本书将强调可视化在数据分析流程中的重要性,并介绍多种可视化技术与工具。我们将学习如何选择合适的可视化图表(如柱状图、折线图、散点图、饼图、热力图、箱线图等)来清晰有效地传达信息。同时,我们将介绍一些流行的可视化库和平台,指导读者如何将数据转化为直观、富有洞察力的图形,从而帮助决策者快速理解复杂的数据模式和趋势。 本书不会止步于理论的探讨,我们将结合大量真实世界的案例,展示数据在各个行业的应用。从金融领域的风险评估与量化交易,到医疗健康的数据驱动诊断与个性化治疗;从零售业的客户行为分析与精准营销,到制造业的生产优化与供应链管理;从交通领域的智慧出行规划,到城市管理的智能化决策;再到互联网巨头的用户画像构建与推荐系统,乃至科学研究中海量实验数据的分析,我们将展示数据如何赋能各行各业,解决实际问题,驱动业务增长,并催生新的商业模式。 在数据应用日益广泛的今天,数据安全与隐私保护成为不可忽视的议题。本书将探讨数据安全的基本原则,包括数据的加密、访问控制、身份验证等。我们还将深入讨论数据隐私的法律法规与伦理挑战,例如GDPR、CCPA等,并介绍差分隐私、联邦学习等新兴技术,以在数据利用与隐私保护之间寻求平衡。 本书的另一重要主题是数据治理。我们将介绍数据治理的框架、核心原则以及关键实践,包括数据标准、数据目录、数据血缘、数据生命周期管理等。清晰且有效的 数据治理体系是确保数据资产的可信度、可用性和安全性,从而最大化数据价值的基础。 最后,本书将展望数据技术与应用的发展趋势。我们将探讨人工智能、物联网、边缘计算、区块链等前沿技术如何与数据技术深度融合,共同塑造未来的数据格局。从更智能的分析工具,到更广泛的自动化决策,再到对社会生活更深层次的重塑,我们将描绘一个由数据驱动的更智能、更高效、更美好的未来。 《数据力量:洞察未来,驱动创新》的目标是为读者提供一套全面、系统、深入的数据知识体系。无论您是希望入门数据领域的新手,还是期望深化理解的从业者,亦或是对数据驱动的未来充满好奇的学习者,本书都将是您探索数据奥秘、掌握数据能力、引领创新变革的宝贵伙伴。通过本书的学习,您将能够更好地理解数据背后的逻辑,掌握驾驭数据的方法,最终将数据转化为驱动您个人、组织乃至社会不断前行的强大力量。

用户评价

评分

我对这本书的期待,主要集中在它对于“真实”世界的描绘。我总觉得,大数据之所以能从“虚幻”走向“真实”,一定离不开一系列强大的技术支撑。我迫切地想了解,这些支撑技术究竟是什么?是分布式存储技术?是并行计算框架?还是各种各样的机器学习算法?我希望书中能够用一种循序渐进的方式,将这些复杂的概念一一剖析。或许,它会从最基础的数据处理技术开始,然后逐步深入到更高级的算法和应用。我期待的,不仅仅是理论的介绍,更希望看到一些实际的应用案例,例如,大数据是如何在医疗、金融、交通、零售等各个领域发挥作用的。我希望通过这些案例,我能够更直观地感受到大数据带来的变革和影响。我希望这本书能够成为我的一个“导航仪”,帮助我在纷繁复杂的大数据世界中,找到一条清晰的路径,去理解和掌握这项关键技术。我期待它能让我不再对大数据感到陌生,而是能以一种积极和开放的心态去拥抱它。

评分

我对这本书的期望,更多地聚焦于它在“真实数据世界”这一部分的阐述。毕竟,我们每天都在创造和消费海量的数据,但对于这些数据的“旅程”,我却知之甚少。我希望作者能够深入浅出地剖析,数据是如何被采集、存储、处理和分析的。我尤其关心那些看似神秘的算法,它们是如何从庞杂的数据中提炼出有价值的信息,并最终转化为 actionable insights 的。有没有可能,书中会穿插一些有趣的“数据侦探”故事,展示如何利用数据来解决实际问题?比如,如何通过分析交通流量数据来优化城市规划,或者如何利用用户行为数据来预测疾病爆发。我脑海中浮现的是,作者会用通俗易懂的语言,讲解那些复杂的机器学习模型,或许还会用一些形象的比喻来解释神经网络的工作原理。我希望这本书能让我对数据的生命周期有一个全面的了解,不仅仅是知道“大数据”这个名词,更是能理解它背后的运作机制。如果能有一些实际操作的指导,或者相关的工具介绍,那就更好了,尽管我不是技术专业人士,但对尝试性的学习总是充满热情。

评分

这本书给我的第一印象,是它充满了探索和发现的意味。“从虚幻走向真实”这个表述,恰恰击中了许多人在面对“大数据”这一概念时的困惑。我个人一直觉得,大数据听起来很宏伟,但具体操作起来,却像是一个黑箱。我希望这本书能够揭开这个黑箱的盖子,让我们看到里面究竟是什么。我想知道,大数据究竟是如何被“看见”的?是通过哪些工具和方法,将那些海量、异构的数据转化为可以被分析的对象?我尤其期待书中对于数据可视化部分的讲解。毕竟,一张图表胜过千言万语,如果能将复杂的数据关系通过直观的可视化呈现出来,那将是学习和理解大数据的绝佳方式。我希望能看到一些经典的、有代表性的数据可视化案例,它们是如何通过图像和图表,讲述数据背后的故事,并引发人们的思考。我希望这本书能让我不仅理解“大数据是什么”,更能理解“大数据能做什么”,并且,我希望它能引导我思考“大数据能为我做什么”。

评分

这本书,我早就觊觎它的大名了,毕竟“大数据”这三个字,在这几年里,几乎是无处不在。尤其是“从虚幻走向真实的数据世界”这个副标题,着实点燃了我内心深处的求知欲。我一直觉得,大数据这个概念,虽然听起来高大上,但离我们普通人的生活,总有一种隔着一层纱的距离感。这本书的出现,似乎就是为了打破这层迷雾,让那些曾经只存在于新闻报道和技术论坛上的概念,变得触手可及。我特别好奇,它究竟是如何将那些抽象的技术原理,转化为生动的故事和易于理解的图示的。我设想,它可能会从我们日常生活中经常接触到的数据应用开始,比如电商平台的个性化推荐,或者社交媒体上的热点话题分析,一步步地揭示背后隐藏的大数据技术。我想知道,它会不会用一些具体的案例,来证明大数据并非遥不可及,而是真正影响着我们的决策,改变着我们的生活。我期待它能让我明白,大数据究竟是什么,它能做什么,以及它将如何塑造我们未来的世界。这种将理论与实践相结合的写作方式,对我来说,是学习复杂技术最有效的方式之一。我希望这本书能成为我的“数据启蒙书”,让我对这个领域有一个扎实而清晰的认知。

评分

读了书名,我脑海中立刻勾勒出一个画面:从最初的零散数据,如同一片片飘渺的云,经过层层技术的打磨,最终汇聚成一股股强大的数据洪流,驱动着现实世界的进步。我特别期待书中对于“虚幻”部分的处理。究竟是什么样的“虚幻”,让我们觉得大数据是遥不可及的?是那些听起来高深的统计模型?还是那些复杂的分布式计算框架?我希望作者能够打破这些“虚幻”的壁垒,用最直观的方式,让我们理解这些技术是如何从理论走向实践的。有没有可能,书中会穿插一些历史性的叙述,讲述大数据技术是如何一步步发展演变至今的?从最初的统计学,到后来的数据库技术,再到如今的云计算和人工智能,这条发展脉络,对我而言,将是理解“真实”的关键。我设想,作者会用一种“故事叙述”的方式,而不是枯燥的公式堆砌,来阐述这些技术概念。我希望读完这本书,我能够自信地回答,大数据究竟解决了哪些人类社会面临的难题,它又为我们创造了怎样的价值。

评分

废话不多说 印刷质量太差了 和盗版的没有区别 只显示一页 还有很多类似的

评分

好书,包装很好。

评分

哈哈哈哈哈好好好好好

评分

好好好好好好

评分

废话不多说 印刷质量太差了 和盗版的没有区别 只显示一页 还有很多类似的

评分

大数据技术及工具入门级教材

评分

了解大数据的入门书籍,可以一看

评分

还可以

评分

此用户未填写评价内容

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有