套装包括5本图书:
想深入应用手中的数据?还是想在上千份文件上重复同样的分析过程?没有编程经验的非程序员们如何能在·短的时间内学会用当今炙手可热的Python语言进行数据分析?
来自Facebook的数据专家Clinton Brownley可以帮您解决上述问题。在他的这本书里,读者将能掌握基本Python编程方法,学会编写出处理电子表格和数据库中的数据的脚本,并了解使用Python模块来解析文件、分组数据和生成统计量的方法。
学习基础语法,创建并运行自己的Python脚本
读取和解析CSV文件
读取多个Excel工作表和工作簿
执行数据库操作
搜索特定记录、分组数据和解析文本文件
建立统计图并绘图
生成描述性统计量并估计回归模型和分类模型
在Windows和Mac环境下按计划自动运行脚本
网络上的数据量越来越大,单靠浏览网页获取信息越来越困难,如何有效地提取并利用信息已成为一个巨大的挑战。本书采用简洁强大的Python语言,全面介绍网络数据采集技术,教你从不同形式的网络资源中自由地获取数据。你将学会如何使用Python脚本和网络API一次性采集并处理成千上万个网页上的数据。
本书适合熟悉Python的程序员、安全专业人士、网络管理员阅读。书中不仅介绍了网络数据采集的基本原理,还深入探讨了更高级的主题,比如分析原始数据、用网络爬虫测试网站等。此外,书中还提供了详细的代码示例,以帮助你更好地理解书中的内容。
通过阅读本书,你将能够:
解析复杂的HTML页面
遍历多个网页和网站
了解API的基本概念和工作原理
学习存储数据的方法
下载、读取并抽取网络文档中的数据
使用工具和方法清洗格式异常的数据
读取并处理自然语言
越过表单和登录窗口采集数据
学习采集的方法
学习图像处理和文字识别方法
全面掌握用Python进行爬虫抓取以及数据清洗与分析的方法,轻松实现高效数据处理 本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。 用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。
书名:用Python写网络爬虫
定价:45.00元
作者:[澳]理查德 劳森(Richard Lawson)
出版社:人民邮电出版社
出版日期:2016-08-01
ISBN:9787115431790
作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站。《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。《用Python写网络爬虫》介绍了如下内容:通过跟踪链接来爬取网站;使用lxml从页面中抽取数据;构建线程爬虫来并行爬取页面;将下载的内容进行缓存,以降低带宽消耗;解析依赖于的网站;与表单和会话进行交互;解决受保护页面的验证码问题;对AJAX调用进行逆向工程;使用Scrapy创建高级爬虫。本书读者对象本书是为想要构建可靠的数据爬取解决方案的开发人员写作的,本书假定读者具有一定的Python编程经验。当然,具备其他编程语言开发经验的读者也可以阅读本书,并理解书中涉及的概念和原理。
目录
目录第1章 网络爬虫简介11.1 网络爬虫何时有用 11.2 网络爬虫是否合法 21.3 背景调研 31.3.1 检查robots.txt 31.3.2 检查网站地图 41.3.3 估算网站大小 51.3.4 识别网站所用技术 71.3.5 寻找网站所有者 71.4 编写个网络爬虫 81.4.1 下载网页 91.4.2 网站地图爬虫 121.4.3 ID遍历爬虫 131.4.4 链接爬虫 151.5 本章小结 22第2章 数据抓取 232.1 分析网页 232.2 三种网页抓取方法 262.2.1 正则表达式 262.2.2 Beautiful Soup 282.2.3 Lxml 302.2.4 性能对比 322.2.5 结论 352.2.6 为链接爬虫添加抓取回调 352.3 本章小结 38第3章 下载缓存 393.1 为链接爬虫添加缓存支持 393.2 磁盘缓存 423.2.1 实现 443.2.2 缓存测试 463.2.3 节省磁盘空间 463.2.4 清理过期数据 473.2.5 缺点 483.3 数据库缓存 493.3.1 NoSQL是什么 503.3.2 安装MongoDB 503.3.3 MongoDB概述 503.3.4 MongoDB缓存实现 523.3.5 压缩 543.3.6 缓存测试 543.4 本章小结 55第4章 并发下载 574.1 0个网页 574.2 串行爬虫 604.3 多线程爬虫 604.3.1 线程和进程如何工作 614.3.2 实现 614.3.3 多进程爬虫 634.4 性能 674.5 本章小结 68第5章 动态内容 695.1 页示例 695.2 对页进行逆向工程 725.3 渲染页 775.3.1 PyQt还是PySide 785.3.2 执行 785.3.3 使用WebKit与网站交互 805.3.4 Selenium 855.4 本章小结 88第6章 表单交互 896.1 登录表单 906.2
内容提要
基本信息
书名:Python数据抓取技术与实战
定价:49.00元
作者:潘庆和 编著
出版社:电子工业出版社
出版日期:2016-08-01
ISBN:9787121298844
字数:4000
页码:256
版次:1
装帧:平装
开本:16开
商品重量:
编辑推荐
如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。
目录
目 录
第1章 Python基础1
1�保� Python安装1
1�保� 安装pip 6
1�保� 如何查看帮助7
1�保� 个程序10
1�保� 文件操作25
1�保� 循环28
1�保� 异常30
1�保� 元组30
1�保� 列表32
1�保保� 字典36
1�保保� 集合38
1�保保� 随机数39
1�保保� enumerate的使用40
1�保保� 第二个例子41
第2章 字符串解析46
2�保� 常用函数46
2�保� 正则表达式50
2�保� BeautifulSoup 55
2�保� json结构62
第3章 单机数据抓取77
3�保� 单机顺序抓取77
3�保� requests 107
3�保� 并发和并行抓取117
第4章 分布式数据抓取137
4�保� RPC的使用138
4�保� Celery系统145
第5章 全能的Selenium 159
Ⅴ
5�保� Selenium单机159
5�保� Selenium分布式抓取178
5�保� Linux无图形界面使用Selenium 188
第6章 神秘的Tor 191
6�保� 抓取时IP封锁的问题191
6�保� Tor的安装与使用192
6�保� Tor多线程197
6�保� Tor与Selenium结合205
第7章 抓取常见问题210
7�保� Flash 210
7�保� 桌面程序211
7�保� U盘213
7�保� 二级三级页面214
7�保� 图片的处理214
7�保� App数据抓取214
第8章 监控框架221
8�保� 框架说明223
8�保� 监控系统实例225
第9章 拥抱大数据229
9�保� Hadoop生态圈229
9�保� Cloudera环境搭建231
内容提要
如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。
评分
评分
评分
评分
评分
评分
评分
评分
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有