发表于2024-11-23
本书重点阐释自动化数据抓取和分析技术,适用于初中级用户。作者以简洁的代码、详细的讲解以及真实的案例,分析了大数据在社会科学领域的运用。作者尽可能回避晦涩的术语和高深的理论,通过非常实用的组件探讨很多有趣的实际问题。这种深入浅出的讲解方式有利于我们快速上手,在循序渐进中学习,并能把学到的技术应用到实际研究项目中。
本书特色:
提供关于网络抓取和文本挖掘的实用指南,既适合R的初学者,也适合有经验的用户。
讲解互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等)。
探索查询网络文档和数据集的基本技术(XPath及正则表达式),以及从动态HTML采集信息的技术。
提出数据抓取和管理的实用工作流,包括从选择正确的方法到优化代码以及维护抓取程序。
以案例分析为特色,每种技术都辅以详细的案例解析。
提供大量练习题,帮助读者深入学习与总结每项技术。
本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
本书共17章,第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识,内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱,其中第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
2.3.6 标题标签、
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 下载 mobi pdf epub txt 电子书 格式 2024
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 下载 mobi epub pdf 电子书基于R语言的自动数据收集:网络抓取和文本挖掘实用指南
评分还能来得及看哈哈
评分赶上两百减一百还是比较划算的,屯着慢慢看
评分希望能有时间好好好看看这些书,学习学习
评分专业必备书籍,送货速度快
评分书收到了,挺好的,以后需要还来!
评分专业需要,学习应用工具很有用。还可以。
评分还行吧 比较实用吧
评分正版,值得购买学习
基于R语言的自动数据收集:网络抓取和文本挖掘实用指南 mobi epub pdf txt 电子书 格式下载 2024