共5本 python数据分析基础+数据处理+网络数据采集+数据抓取技术与实战+网络爬虫

共5本 python数据分析基础+数据处理+网络数据采集+数据抓取技术与实战+网络爬虫 pdf epub mobi txt 电子书 下载 2025

图书标签:
  • Python
  • 数据分析
  • 数据处理
  • 网络爬虫
  • 数据采集
  • 网络数据采集
  • 数据抓取
  • 实战
  • 编程入门
  • 数据挖掘
想要找书就要到 新城书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 蓝墨水图书专营店
出版社: 人民邮电出版社
ISBN:9787115463357
商品编码:14680697662

具体描述

套装包括5本图书:

python数据分析基础

数据处理

网络数据采集

数据抓取技术与实战

用Python写网络爬虫

书号: 9787115463357 9787115431790 9787115459190 9787115416292 9787121298844

基本信息

  • 作者:   
  • 译者: 
  • 出版社:
  • ISBN:9787115463357
  • 上架时间:2017-7-31
  • 出版日期:2017 年7月
  • 开本:16开
  • 页码:272
  • 版次:1-1
  • 所属分类:
     

编辑推荐

想深入应用手中的数据?还是想在上千份文件上重复同样的分析过程?没有编程经验的非程序员们如何能在·短的时间内学会用当今炙手可热的Python语言进行数据分析? 
来自Facebook的数据专家Clinton Brownley可以帮您解决上述问题。在他的这本书里,读者将能掌握基本Python编程方法,学会编写出处理电子表格和数据库中的数据的脚本,并了解使用Python模块来解析文件、分组数据和生成统计量的方法。 
学习基础语法,创建并运行自己的Python脚本 
读取和解析CSV文件 
读取多个Excel工作表和工作簿 
执行数据库操作 
搜索特定记录、分组数据和解析文本文件 
建立统计图并绘图 
生成描述性统计量并估计回归模型和分类模型 
在Windows和Mac环境下按计划自动运行脚本

内容简介



本书展示如何用Python程序将不同格式的数据处理和分析任务规模化和自动化。主要内容包括:Python基础知识介绍、CSV文件和Excel文件读写、数据库的操作、示例程序演示、图表的创建,等等。 

作译者

Clinton W. Brownley
博士,Facebook数据科学家,负责大数据流水线、统计建模和数据可视化项目,并为大型基础设施建设提供数据驱动的决策建议。 

目录

前言 xi 
第1章 Python 基础 1 
1.1 创建 Python 脚本 1 
1.2 运行 Python 脚本 3 
1.3 与命令行进行交互的几项技巧 6 
1.4 Python 语言基础要素 10 
1.4.1 数值 10 
1.4.2 字符串 12 
1.4.3 正则表达式与模式匹配 16 
1.4.4 日期 19 
1.4.5 列表 21 
1.4.6 元组 26 
1.4.7 字典 27 
1.4.8 控制流 30 
1.5 读取文本文件 35 
1.5.1 创建文本文件 36 
1.5.2 脚本和输入文件在同一位置 38 
1.5.3 读取文件的新型语法 38 
1.6 使用 glob 读取多个文本文件 39 
1.7 写入文本文件 42  ...............

Python网络数据采集 

用简单高效的Python语言,展示网络数据采集常用手段,剖析网络表单安全措施,完成大数据采集任务!

基本信息

  • 作者:   
  • 译者: 
  • 59.00
  • 丛书名:
  • 出版社:
  • ISBN:9787115416292
  • 上架时间:2016-3-4
  • 出版日期:2016 年3月
  • 开本:16开
  • 页码:216
  • 版次:1-1
  • 所属分类:
     

编辑推荐

网络上的数据量越来越大,单靠浏览网页获取信息越来越困难,如何有效地提取并利用信息已成为一个巨大的挑战。本书采用简洁强大的Python语言,全面介绍网络数据采集技术,教你从不同形式的网络资源中自由地获取数据。你将学会如何使用Python脚本和网络API一次性采集并处理成千上万个网页上的数据。
本书适合熟悉Python的程序员、安全专业人士、网络管理员阅读。书中不仅介绍了网络数据采集的基本原理,还深入探讨了更高级的主题,比如分析原始数据、用网络爬虫测试网站等。此外,书中还提供了详细的代码示例,以帮助你更好地理解书中的内容。
通过阅读本书,你将能够:
解析复杂的HTML页面
遍历多个网页和网站
了解API的基本概念和工作原理
学习存储数据的方法
下载、读取并抽取网络文档中的数据
使用工具和方法清洗格式异常的数据
读取并处理自然语言
越过表单和登录窗口采集数据
学习采集的方法
学习图像处理和文字识别方法

内容简介



本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导。,部分重点介绍网络数据采集的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。 

作译者

Ryan Mitchell
数据科学家、软件工程师,目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前,曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作,主要面向金融和零售业。另著有Instant Web Scraping with Java。 

目录

译者序 ix
前言 xi
,部分 创建爬虫
第1章 初见网络爬虫 2
1.1 网络连接 2
1.2 BeautifulSoup简介 4
1.2.1 安装BeautifulSoup 5
1.2.2 运行BeautifulSoup 7
1.2.3 可靠的网络连接 8
第2章 复杂HTML解析 11
2.1 不是一直都要用锤子 11
2.2 再端一碗BeautifulSoup 12
2.2.1 BeautifulSoup的find()和findAll() 13
2.2.2 其他BeautifulSoup对象 15
2.2.3 导航树 16
2.3 正则表达式 19
2.4 正则表达式和BeautifulSoup 23
2.5 获取属性 24
2.6 Lambda表达式 24
2.7 **BeautifulSoup 25
第3章 开始采集 26
3.1 遍历单个域名 26
3.2 采集整个网站 30
3.3 通过互联网采集 34
3.4 用Scrapy采集 38
第4章 使用API 42
4.1 API概述 43
4.2 API通用规则 43
4.2.1 方法 44
4.2.2 验证 44
4.3 服务器响应 45
4.4 Echo Nest 46
4.5 Twitter API 48
4.5.1 开始 48
4.5.2 几个示例 50
4.6 Google API 52
4.6.1 开始 52
4.6.2 几个示例 53
4.7 解析JSON数据 55
4.8 回到主题 56
4.9 再说一点API 60
第5章 存储数据 61
5.1 媒体文件 61
5.2 把数据存储到CSV 64
5.3 MySQL 65
5.3.1 安装MySQL 66
5.3.2 基本命令 68
5.3.3 与Python整合 71
5.3.4 数据库技术与·佳实践 74
5.3.5 MySQL里的“六度空间游戏” 75
5.4 Email 77
第6章 读取文档 80
6.1 文档编码 80
6.2 纯文本 81
6.3 CSV 85
6.4 PDF 87
6.5 微软Word和.docx 88
第二部分 高级数据采集
第7章 数据清洗 94
7.1 编写代码清洗数据 94
7.2 数据存储后再清洗 98
第8章 自然语言处理 103
8.1 概括数据 104
8.2 马尔可夫模型 106
8.3 自然语言工具包 112
8.3.1 安装与设置 112
8.3.2 用NLTK做统计分析 113
8.3.3 用NLTK做词性分析 115
8.4 其他资源 119
第9章 穿越网页表单与登录窗口进行采集 120
9.1 Python Requests库 120
9.2 提交一个基本表单 121
9.3 单选按钮、复选框和其他输入 123
9.4 提交文件和图像 124
9.5 处理登录和cookie 125
9.6 其他表单问题 127
第10章 采集 128
10.1 简介 128
10.2 Ajax和动态HTML 131
10.3 处理重定向 137
第11章 图像识别与文字处理 139
11.1 OCR库概述 140
11.1.1 Pillow 140
11.1.2 Tesseract 140
11.1.3 NumPy 141
11.2 处理格式规范的文字 142
11.3 读取验证码与训练Tesseract 146
11.4 获取验证码提交答案 151
第12章 避开采集陷阱 154
12.1 道德规范 154
12.2 让网络机器人看起来像人类用户 155
12.2.1 修改请求头 155
12.2.2 处理cookie 157
12.2.3 时间就是一切 159
12.3 常见表单安全措施 159
12.3.1 隐含输入字段值 159
12.3.2 避免蜜罐 160
12.4 问题检查表 162
第13章 用爬虫测试网站 164
13.1 测试简介 164
13.2 Python单元测试 165
13.3 Selenium单元测试 168
13.4 Python单元测试与Selenium单元测试的选择 172
第14章 远程采集 174
14.1 为什么要用远程服务器 174
14.1.1 避免IP地址被封杀 174
14.1.2 移植性与扩展性 175
14.2 Tor代理服务器 176
14.3 远程主机 177
14.3.1 从网站主机运行 178
14.3.2 从云主机运行 178
14.4 其他资源 179
14.5 勇往直前 180
附录A Python简介 181
附录B 互联网简介 184
附录C 网络数据采集的法律与道德约束 188
作者简介 200
封面介绍 200 

出版信息

  • 书 名Python数据处理
  • 执行编辑关于本书的内容有任何问题,请联系 
  • 书 号978-7-115-45919-0
  • 定 价99.00 元
  • 页 数396
  • 印刷方式黑白
  • 开 本16开
  • 出版状态正在审校
2017.7

 

 

全面掌握用Python进行爬虫抓取以及数据清洗与分析的方法,轻松实现高效数据处理 本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。 用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。

* 快速了解Python基本语法、数据类型和语言概念
* 概述数据的获取与存储方式
* 清洗数据并格式化,以消除数据集中的重复值与错误
* 学习何时对数据进行标准化,何时对数据清理进行测试并将其脚本化
* 使用Scrapy写网络爬虫
* 利用新的Python库和技术对数据集进行探索与分析
* 使用Python解决方案将整个数据处理过程自动化

“如果你一直感觉电子表格(甚至关系型数据库)无法回答你想要提出的问题,或者除这些工具之外你准备进一步学习,那么这本书非常适合你。我一直在等待这本书的出现。”

——Derek Willis,ProPublica新闻应用开发者,OpenElections联合创始人

“所有新手数据科学家、数据工程师或其他技术方面的数据专家都应该读一读这本实践指南。数据处理领域正需要这样一本书,真希望我,次开始用Python处理数据时就能有它指导。”

——Tyrone Grandison博士,Proficiency Labs Intl. CEO  

目录

正在加工……

作者介绍

Jacqueline Kazil,数据科学家,资深软件开发者。活跃于Python软件基金会、PyLadies等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织18F的联合创始人。曾担任《华盛顿邮报》数据记者。

Katharine Jarmul,资深Python开发者,PyLadies联合创始人。喜欢数据分析和获取、网页抓取、教人学习Python以及Unix,期望通过教育和培训来促进Python和其他开源语言的多元化。

【译者简介】

张亮(hysic),毕业于北京大学物理学院,爱好机器学习和数据分析的核安全工程师。

吕家明,2016年毕业于哈尔滨工业大学,现就职于腾讯,从事搜索、Query分析等相关工作,熟悉大规模数据下的数据挖掘和机器学习实践。

书名:用Python写网络爬虫

定价:45.00元

作者:[澳]理查德 劳森(Richard Lawson)

出版社:人民邮电出版社

出版日期:2016-08-01

ISBN:9787115431790

作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站。《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。《用Python写网络爬虫》介绍了如下内容:通过跟踪链接来爬取网站;使用lxml从页面中抽取数据;构建线程爬虫来并行爬取页面;将下载的内容进行缓存,以降低带宽消耗;解析依赖于的网站;与表单和会话进行交互;解决受保护页面的验证码问题;对AJAX调用进行逆向工程;使用Scrapy创建高级爬虫。本书读者对象本书是为想要构建可靠的数据爬取解决方案的开发人员写作的,本书假定读者具有一定的Python编程经验。当然,具备其他编程语言开发经验的读者也可以阅读本书,并理解书中涉及的概念和原理。

目录

 


 

目录第1章 网络爬虫简介11.1 网络爬虫何时有用 11.2 网络爬虫是否合法 21.3 背景调研 31.3.1 检查robots.txt 31.3.2 检查网站地图 41.3.3 估算网站大小 51.3.4 识别网站所用技术 71.3.5 寻找网站所有者 71.4 编写个网络爬虫 81.4.1 下载网页 91.4.2 网站地图爬虫 121.4.3 ID遍历爬虫 131.4.4 链接爬虫 151.5 本章小结 22第2章 数据抓取 232.1 分析网页 232.2 三种网页抓取方法 262.2.1 正则表达式 262.2.2 Beautiful Soup 282.2.3 Lxml 302.2.4 性能对比 322.2.5 结论 352.2.6 为链接爬虫添加抓取回调 352.3 本章小结 38第3章 下载缓存 393.1 为链接爬虫添加缓存支持 393.2 磁盘缓存 423.2.1 实现 443.2.2 缓存测试 463.2.3 节省磁盘空间 463.2.4 清理过期数据 473.2.5 缺点 483.3 数据库缓存 493.3.1 NoSQL是什么 503.3.2 安装MongoDB 503.3.3 MongoDB概述 503.3.4 MongoDB缓存实现 523.3.5 压缩 543.3.6 缓存测试 543.4 本章小结 55第4章 并发下载 574.1 0个网页 574.2 串行爬虫 604.3 多线程爬虫 604.3.1 线程和进程如何工作 614.3.2 实现 614.3.3 多进程爬虫 634.4 性能 674.5 本章小结 68第5章 动态内容 695.1 页示例 695.2 对页进行逆向工程 725.3 渲染页 775.3.1 PyQt还是PySide 785.3.2 执行 785.3.3 使用WebKit与网站交互 805.3.4 Selenium 855.4 本章小结 88第6章 表单交互 896.1 登录表单 906.2

内容提要


基本信息

书名:Python数据抓取技术与实战

定价:49.00元

作者:潘庆和 编著

出版社:电子工业出版社

出版日期:2016-08-01

ISBN:9787121298844

字数:4000

页码:256

版次:1

装帧:平装

开本:16开

商品重量:

编辑推荐

 


 

如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。

目录

 


 

目 录
第1章 Python基础1
1�保� Python安装1
1�保� 安装pip 6
1�保� 如何查看帮助7
1�保� 个程序10
1�保� 文件操作25
1�保� 循环28
1�保� 异常30
1�保� 元组30
1�保� 列表32
1�保保� 字典36
1�保保� 集合38
1�保保� 随机数39
1�保保� enumerate的使用40
1�保保� 第二个例子41
第2章 字符串解析46
2�保� 常用函数46
2�保� 正则表达式50
2�保� BeautifulSoup 55
2�保� json结构62
第3章 单机数据抓取77
3�保� 单机顺序抓取77
3�保� requests 107
3�保� 并发和并行抓取117
第4章 分布式数据抓取137
4�保� RPC的使用138
4�保� Celery系统145
第5章 全能的Selenium 159

5�保� Selenium单机159
5�保� Selenium分布式抓取178
5�保� Linux无图形界面使用Selenium 188
第6章 神秘的Tor 191
6�保� 抓取时IP封锁的问题191
6�保� Tor的安装与使用192
6�保� Tor多线程197
6�保� Tor与Selenium结合205
第7章 抓取常见问题210
7�保� Flash 210
7�保� 桌面程序211
7�保� U盘213
7�保� 二级三级页面214
7�保� 图片的处理214
7�保� App数据抓取214
第8章 监控框架221
8�保� 框架说明223
8�保� 监控系统实例225
第9章 拥抱大数据229
9�保� Hadoop生态圈229
9�保� Cloudera环境搭建231

内容提要

 


 

如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。


用户评价

评分

评分

评分

评分

评分

评分

评分

评分

评分

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有