编辑推荐
O’Reilly 媒体 总经理 Jim Stogdill 倾情作序推荐
IBM研究院首席科学家 Jeff Jonas
美国家得宝公司主席及CEO Frank Blake
美国凯悦酒店首席信息官 Mike Blake
美国职业棒球大联盟媒体公司首席技术官 Joe Choti
Kaggle公司创始人及CEO Anthony Goldbloom
佩斯大学客户智能硕士工程创始人之一 Tony Branda
联袂诚意推荐
大数据分析的时代来临了,这将是一场真正的变革。《大数据分析:决胜互联网金融时代》着眼于一些利用令人兴奋的大数据思路支持业务分析的新一代新锐企业。这是一个真正的飞跃,也是一个能实现在效率、生产力、收入和盈利能力等方面产生巨大收益的良机。
《大数据分析:决胜互联网金融时代》为企业经理和管理人员所写,使他们可以有效地利用信息资源。本书在艰深的战略理论和通俗易懂的示例之间做到平衡,对技术性很强的话题,通过故事、比喻和类比的方式使读者更容易理解和接受。作者是一位决策科学家和分析专家,通过行业的具体例子来描述大数据相关的技术,并说明大数据的价值。在介绍了大数据领域有成功实践的个人和公司之后,《大数据分析:决胜互联网金融时代》还深入研究了要在大数据领域取得成功所需要的组织和角色的构成。
内容简介
《大数据分析:决胜互联网金融时代》第1章主要介绍了大数据分析的定义和由来、大数据的重要性,以及大数据时代的历史背景和发展趋势。第2章通过对成功企业领导者的采访,详细介绍了大数据分析在信息、金融、传媒、医疗等领域的使用案例,并通过这些案例帮助读者了解如何将大数据分析方法应用到商业活动中。第3章详细介绍了大数据分析采用的一系列技术手段及案例,并指出大数据技术应用到实际生活中的一些关键问题。第4章介绍了承载大数据应用的计算、存储等底层基础设施的关键技术,并讨论了大数据计算的瓶颈及近年来涌现出的新技术。第5章详细介绍了在大数据时代商业分析的方法及涉及的关键技能,以及如何对分析结果进行归纳总结,对企业的决策产生影响。第6章主要介绍了数据科学家的定义,以及数据科学和决策科学人才培养的方法论。第7章讨论了涉及数据隐私及数据安全的相关问题。
《大数据分析:决胜互联网金融时代》可供企业经理和管理人员阅读,通过本书可以使他们学习如何有效地利用信息资源。大数据领域的相关从业者通过本书可以了解如何在大数据方向进行成功的实践。由于《大数据分析:决胜互联网金融时代》在艰深的战略理论和通俗易懂的示例之间做到了平衡,对技术性很强的话题,通过故事、比喻和类比的方式使读者更容易理解和接受,因此对大数据领域感兴趣的读者也可进行阅读。
作者简介
迈克尔·梅内里(MichaelMinelli)是一个市场和销售专家,在商业分析解决方案领域有16年的经验。他是销售和全球联盟的副总裁,万事达卡公司的信息服务顾问。
米歇尔·钱伯斯(MicheleChambers)拥有诺瓦东南大学的计算机工程学士学位和杜克大学的MBA学位。她是一位有25年技术经验的创业高管。钱伯斯女士曾经是负责IBM公司大数据分析的副总裁。
安碧嘉·帝拉吉(AmbigaDhiraj)是MuSigma公司客户交付部的经理,MuSigma是决策科学和分析解决方案的首席供应商。
内页插图
精彩书评
“完美的细节在某种程度上提供了一种洞察方法,它以真实世界的应用来洞察这个千变万化的商业世界,与你的经验背景无关。”
——弗兰克·布莱克(Frank Blake),美国家得宝公司(The Home Depot)主席及CEO
“大数据就像一堆巨大的拼图碎片。一旦从背景出发整体考虑,渐渐展开的画面将指导着更为精准的行动,终得到更好的商业成果。这本书很及时,写得也很好,它可以帮助商界和IT界的管理人士在大数据的世界加速前进。”
——杰夫·乔纳斯(Jeff Jonas),IBM研究院首席科学家
“大数据影响了所有人,而本书是适合初学者的一本与应用有关的好书。迈克尔(Michael)和他的团队通过简单、易消化的风格抓住了大数据的本质,它值得与你的整个管理团队一起分享。”
——迈克·布莱克(Mike Blake),美国凯悦酒店首席信息官(CIO)
“每天企业从各个部门产生大量的数据——网站、销售团队、社交媒体、数字图片及多媒体、交易记录等。对于商界及IT界的管理人员来说,本书是他们拥抱‘大数据世界’的好书,它能帮助他们理解大数据将如何改变商业竞争。”
——乔·焦蒂(Joe Choti),美国职业棒球大联盟媒体公司首席技术官(CTO)
“大数据正在改变现代商业社会。它决定了银行如何授权贷款,对冲基金如何交易……本书向读者清晰地解释了他们需要了解的所有知识,从大数据对于技术的意义到它如何被应用。”
——安东尼·高德布卢姆(Anthony Goldbloom),Kaggle公司创始人及CEO
“作为客户智能方面的教授,本书将帮助我的学生理解大数据的多学科本质,以及如何解决销售问题,如何为客户更好地服务,如何使他们的公司经营地更好。极力推荐阅读此书!”
——托尼·布兰达(Tony Branda),佩斯大学(Pace University)客户智能硕士工程创始人之一
目录
第1章 什么是大数据,它为什么重要?
1.1 创业的大洪水
1.2 大数据不仅仅是“大”
1.3 为什么是现在?
1.4 关键技术的融合
1.5 相对而言……
1.6 更丰富多样的数据
1.7 非结构化数据域的扩张
1.8 高层的声音
参考文献
第2章 大数据的工业实例
2.1 数字营销和离线世界
2.2 数据库营销,大数据的先驱
2.3 大数据和市场营销的新技能
2.4 欺诈和大数据
2.5 风险和大数据
2.6 信用卡风险管理
2.7 大数据和算法交易
2.8 大数据在健康医疗领域的应用
2.9 医药领域的前沿先锋
2.10 广告和大数据:从莎草纸到受众识别
2.11 从消费类产品作为入口
参考文献
第3章 大数据技术
3.1 房间里的大象:Hadoop并行计算世界
3.2 新旧技术对比
3.3 数据发现:沿着人类思维方式而工作
3.4 大数据分析的开源技术
3.5 云计算和大数据
3.6 预测分析崭露头角
3.7 软件即服务(SaaS)BI
3.8 移动商业智能将成为主流
3.9 众包分析
3.10 防火墙外部分析及跨防火墙分析
3.11 R&D;方法帮助吸取新技术
3.12 大数据技术术语
3.13 二进制数据
参考文献
第4章 信息管理
4.1 大数据基础
4.2 大数据计算平台
4.3 大数据计算
4.4 更多关于大数据存储
4.5 大数据计算的局限性
4.6 大数据的新兴技术
第5章 商业分析
5.1 大数据分析的“最后一英里”
5.2 智能地理信息会让你的生活更美好
5.3 听:是信号还是噪声?
5.4 数据分析的实际使用
5.5 从生产到消费
5.6 可视化:如何将数据分析变得可用?
5.7 组织使用数据可视化作为采取即时行动的方法
5.8 从数据采样到数据分析
5.9 跳到盒子外思索
5.10 360°建模
5.11 速度需求
5.12 让我们变得具有竞争性
5.13 什么技术是有效的?
5.14 数据分析已经超越工具本身,并升级为大数据分析应用程序
参考文献
第6章 大数据行业角色
6.1 数据科学家的兴起
6.2 深度使用数学、科学以及计算机科学
6.3 10/90原则和批判性思考
6.4 分析师人才和行政支持
6.5 发展决策科学人才
6.6 数据分析的全局视图
6.7 培养决策科学人才
6.8 创建培养决策科学人才的文化
6.9 建立正确的组织结构进行有组织的分析
第7章 数据隐私与伦理
7.1 隐私涉及的主要领域
7.2 大数据抓取不是新鲜事
7.3 偏好、个性及关系
7.4 权利与义务
7.5 良心与责任意识
7.6 隐私可能是错误的焦点
7.7 数据可以匿名吗?
7.8 用户数据在情报安全部门的平衡
7.9 现在该做些什么?
参考文献
精彩书摘
另一个HDFs成为传统数据仓库的补充的原因是数据库支持的数据类型和数据存储容量的限制。通常,传统的数据库“支持”数据类型但数据一旦被存储对其进行操作则不太现实,因而导致数据仓库技术相当无用。
大数据处理涉及对大数据的操作和计算。各个传统数据库有各自不同的处理大数据的有效方法。除此之外,对于数据库软件如何有效利用底层硬件架构有着广泛的分歧。数据库软件是硬件无关的,因而不能有效利用底层硬件架构的优势。但有一些数据库软件是和硬件架构紧密绑定的,为的就是能充分利用特定硬件的处理能力来获得完全的处理能力。数据仓库专用设备就属于这一类型,由于硬件绑定的关系获得了不同程度的性能优势。
今天,用于HDFs的标准处理软件是上一章介绍过的MapRedtice。MapRedtce是一个被设计用来利用分布式处理能力的容错并行编程框架。MapRedice框架支持使用任意的编程语言(通常是lava语言)通过编程自动把正在处理的工作负载划分为更小的工作负载。
一个“并行计算框架”对大多数人来说是没有意义的,因此我们用其他可以和我们产生关联的事情来类比。例如,一个拥有10条流水线的工厂接到了生产500辆玩具卡车的订单。可以用一条流水线来生产所有的500辆卡车,或者进行任务划分让每条流水线生产50辆玩具卡车。如果每条流水线都同时开工并且全程无故障,那么每条流水线都会同时完成生产50辆卡车。这种有效的任务划分是非常明显的,因为每辆卡车都可以独立生产。但是,如果其中3条流水线只能生产(卡车)引擎,另外7条流水线只能生产卡车的挡板,那么这个任务划分就会变得更加复杂。在这种情况下,计划需要考虑到引擎生产和剩余玩具卡车生产的依赖关系。就像玩具卡车的生产,某些数据操作和计算可以独立完成。为了最大化处理吞吐量,MapReduce假设分布式的工作负载是相互独立的任务,工作负载可以被均分,就像(玩具卡车生产)任务可以被分配到10条流水线上,每条流水线生产50辆玩具卡车。然而,如果处理负载之间存在依赖关系,MapReduce框架是不知道那些依赖关系的。程序开发者需要意识到这种依赖性,然后有针对性地编程划分这些工作负载并且理解MapReduce会自动分配这些任务。这种编程方式被称为并行化编程。就像把任务分配到仅能生产引擎的流水线和剩余其他流水线的流水线生产任务分配规划更加复杂一样,并行化编程同样更加复杂。MapReduce和某些数据仓库专用设备的好处之一是更容易通过框架或数据库专用设备进行自动化处理。
MapReduce是为容错而设计,这是因为使用未知硬件的可靠性是未知的,必须有办法优雅地处理故障。容错软件被设计为可以自动恢复和处理操作故障,这使得容错软件的可靠性很高。仅使用MapReduce和许多专用数据仓库设备就是具备容错性的。
在数据持续增长时会有一些不同的典型处理流程瓶颈。第一个瓶颈就是加载数据的速度,第二个是计算分析处理的速度(或者常被称为“数字运算”),第三个是按需分析和响应业务的速度。
例如,数据可能是机器产生的,无休止的数据创建和数据增长速度可能使得数据很难被消耗。无论是操作或分析这些产生的数据都会很困难。以现实世界中的算法交易为例来说明(处理)瓶颈。对于算法交易,实时分析程序分析和处理线上产生和传输的数据。
比方说你正在使用实时的交易数据,并依据这些交易数据进行新的交易。由于数据是实时变化的,可能会对每一个实时进行的交易进行实时分析。这些分析行为会制定决策并触发诸如购买、抛售或看空。过去,大多数实时交易数据要么没有被捕获或在交易发生很长时间之后捕获用于后续分析并放人某些类型的大数据存储引擎——一个数据仓库设备或HDFS,在那儿,交易数据被以原始格式存储,昼夜连轴分析以助于改进实时的分析和行动。越快越频繁地对交易数据执行上述周而复始的操作,你的组织就能越快地学习和改讲。
……
前言/序言
《深度学习:原理、算法与前沿应用》 图书简介 在信息爆炸与计算能力飞速提升的今天,人工智能正以前所未有的速度渗透到社会经济的各个角落。而支撑这场技术革命的核心引擎,无疑是深度学习。本书《深度学习:原理、算法与前沿应用》旨在为读者构建一个全面、深入且实践性强的知识体系,帮助他们不仅理解深度学习的“是什么”,更能掌握其“为什么”和“如何做”。 第一部分:深度学习的基石——数学与计算基础 任何强大的技术都建立在坚实的理论基础之上。本部分将系统梳理读者进入深度学习世界所需的数学工具,摒弃过于抽象的纯数学推导,而侧重于它们在模型构建中的实际意义。 线性代数与概率论的再审视: 重点讲解矩阵运算在神经网络中的表达(如张量、卷积操作)、梯度下降法背后的微积分原理,以及贝叶斯定理在模型不确定性量化中的角色。我们不会仅仅停留在公式层面,而是通过大量的代码示例(使用Python和NumPy)展示如何用数学语言描述数据流和参数更新。 优化理论入门: 详细剖析随机梯度下降(SGD)及其变种,包括动量(Momentum)、自适应学习率方法(如Adagrad, RMSProp, Adam)的机制和收敛特性。我们将深入探讨学习率衰减策略的重要性,并分析局部最优解和鞍点问题对训练过程的影响及规避方法。 计算框架初探: 介绍当前主流的深度学习框架(如TensorFlow 2.x和PyTorch)的核心设计哲学和使用范式。强调动态图与静态图的差异,以及如何利用GPU/TPU进行高效的并行计算,为后续的复杂模型训练打下操作基础。 第二部分:核心神经网络架构的精讲与剖析 本部分是本书的核心,系统地分解了支撑现代人工智能应用的各类经典与创新网络结构。 多层感知机(MLP)的深入理解: 从基础的神经元模型出发,讨论激活函数(ReLU, Sigmoid, Tanh, GELU)的选择对模型非线性的影响,以及为什么MLP在处理序列和空间数据时会遭遇局限性。 卷积神经网络(CNN): 详细解析卷积核的工作原理、池化层的设计目的、感受野的构建过程。不仅涵盖经典的LeNet、AlexNet、VGG、ResNet(残差连接的精妙之处),更重要的是深入探讨了深度可分离卷积(如MobileNet)在移动端部署中的效率优化策略。我们还将介绍U-Net在图像分割中的编码器-解码器结构。 循环神经网络(RNN)及其演进: 阐述RNN处理时间序列数据的能力与短时记忆问题的根源。重点讲解长短期记忆网络(LSTM)和门控循环单元(GRU)的内部结构——输入门、遗忘门、输出门如何协同工作,以捕获长期依赖关系。随后,会介绍双向RNN和栈式RNN的应用场景。 Transformer 架构的革命: 全面解析自注意力(Self-Attention)机制,特别是“缩放点积注意力”的数学细节。深入探讨多头注意力(Multi-Head Attention)如何提升模型的表达能力。本书将详细阐述Encoder-Decoder结构,以及BERT、GPT等预训练模型如何基于Transformer实现大规模无监督学习。 第三部分:前沿技术与高级专题 随着模型复杂度的提升,新的挑战和机遇也随之出现。本部分聚焦于当前研究和产业应用的热点领域。 生成模型: 区分判别模型与生成模型。详尽介绍变分自编码器(VAE)的潜在空间映射原理和重参数化技巧。重点解析生成对抗网络(GAN)的博弈论基础,包括DCGAN、WGAN以及条件GAN(cGAN)在图像合成、数据增强中的应用。 迁移学习与预训练模型: 探讨如何高效地利用在大规模数据集上训练好的模型。详细介绍微调(Fine-tuning)、特征提取(Feature Extraction)等策略。针对不同任务(如分类、序列标注),提供最佳的迁移学习实践指南。 模型的可解释性(XAI): 深度学习的“黑箱”特性阻碍了其在关键领域的应用。本章将介绍LIME、SHAP值计算方法,以及梯度可视化技术(如Grad-CAM),帮助读者理解模型做出决策的依据,增强模型的透明度和可信度。 模型部署与高效化: 从理论走向实践的桥梁。讨论模型量化(Quantization)、模型剪枝(Pruning)和知识蒸馏(Knowledge Distillation)等技术,如何在保证性能的前提下,显著压缩模型体积,加速推理速度,以适应边缘计算和资源受限的环境。 第四部分:深度学习的行业实践与案例分析 本书的最后一部分将理论与实践紧密结合,通过具体的、非金融领域的案例来巩固学习成果。 自然语言处理(NLP)实战: 以文本分类、命名实体识别为例,演示如何使用预训练模型处理中文和英文文本,关注分词、词嵌入(Word2Vec, GloVe)的选择和使用。 计算机视觉(CV)应用: 针对目标检测(如YOLO系列的基本思想)和图像风格迁移,提供完整的代码实现流程,并分析不同超参数对最终效果的影响。 本书内容严谨,逻辑清晰,既适合希望系统学习深度学习原理的理工科学生和研究人员,也适合希望将AI技术应用于自身业务的工程师和技术管理者。通过本书,读者将能够独立设计、训练和优化前沿的深度学习模型,迎接下一波技术浪潮的挑战。