大数据时代,数据科学研究与分析日益重要。本书独树一帜,教你利用灵活的命令行工具成为高效多产的数据科学家。
为此,作者开发了数据科学工具箱,一个包含80多个命令行工具的安装简单的虚拟环境,能在Windows、OS X和Linux操作系统上运行。你将学会如何结合使用这些小而强大的命令行工具,快速地获取、清洗、探索和建模数据。
通过阅读本书,你会明白为什么命令行是一种灵活、可伸缩、易扩展的技术。即使你已经能够使用Python或R得心应手地处理数据,利用命令行也将大大改进你的数据科学工作流。
《命令行中的数据科学》集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。
Jeroen Janssens,爱思唯尔(世界领先的科技及医学出版公司)首席数据科学家,曾是纽约YPlan公司高级数据科学家。专门从事机器学习、异常检测和数据可视化。在荷兰马斯特里赫特大学获得人工智能硕士学位,在荷兰蒂尔堡大学获得机器学习博士学位。他热衷于创建数据科学的开源工具。
王晓伟,毕业于国防科学技术大学,获计算机科学与技术专业博士学位。研究兴趣为海量数据管理与挖掘。
刘峰,百度LBS位置大数据部资深研发工程师,新加坡南洋理工大学计算机工程系博士,研究领域包括机器学习、神经网络、数据挖掘等。2010年加入百度,主要从事大数据分析和挖掘方面的工作,近年来专注于网络定位、智能交通等LBS大数据的挖掘和机器学习应用。
★“命令行体现了Unix‘简单工具’的理念,即每个工具完成一项工作,然后巧妙地连接在一起。Jeroen很专业地讨论了怎样将这个理念引入数据科学工作,展示了为什么命令行不仅能够进行简单的文件输入/输出,还是数据操作、探索,甚至建模的利器。”
——Chris H. Wiggins,《纽约时报》首席数据科学家,哥伦比亚大学应用物理学与应用数学系副教授
★“这本书讲解了如何将常见的数据科学任务集成到一个连贯的工作流,涵盖了分解问题和组合方案的策略。”
——John D. Cook,知名应用数学、统计及软件开发咨询顾问
数据科学是个激动人心却又非常年轻的领域。不幸的是,许多个人和公司,总是认为需要利用新技术才能解决数据科学提出的问题。实际上,正如本书所揭示的,许多问题使用命令行就能解决,而且有时候效率要高得多。
大约5 年前,在攻读博士学位期间,我逐步从使用微软Windows 转为使用GUN/Linux。刚开始我有点谨小慎微,因此同时安装了这两个操作系统(也就是双系统启动)。后来,在这两个系统之间切换的需求越来越少,有时我甚至对Arch Linux 修修补补,能从零开始自己定制操作系统。这时能用的只有命令行,而且想做什么完全随心所欲。很快,我就对使用命令行得心应手。最终,由于业余时间越来越宝贵,我决定使用名为Ubuntu 的GNU/Linux 发行版,因为它易于使用并且有庞大的社区。尽管如此,命令行仍然是我完成绝大部分工作的不二选择。
实际上,我后来认识到,命令行不单可以用于安装软件、配置系统以及搜索文件。于是我开始学习诸如cut、sort 和sed 这些命令行工具。这些工具都是将数据作为输入,对数据进行处理,然后打印结果。Ubuntu 自带了相当多这样的工具。当明白可以将这些小工具结合起来使用时,我就对它入迷了。
当我拿到博士学位,成为一名数据科学家时,我想充分利用这种方法来做数据科学工作。
幸亏有几个新的开源命令行工具,包括scrape、jq 和json2csv,我甚至能够使用命令行来完成抓取网站以及处理大量JSON 数据这样的任务。2013 年9 月,我写了一篇名为“数据科学的7 个命令行工具”的博客文章(http://jeroenjanssens.com/2013/09/19/seven-commandline-tools-for-data-science.html)。让我吃惊的是,这篇文章获得很大反响。后来许多人向我推荐其他命令行工具,于是我开始考虑是否可以将这篇文章扩充成书。令人高兴的是,10个月之后,在许多才华横溢的人的帮助下(参见“致谢”),本书得以付梓。
分享这段个人经历不仅是想介绍本书的由来,更是希望你知道我也是需要学习命令行的。使用命令行与使用图形化用户界面迥然不同,刚开始可能是令人生畏的。但是,既然我能够学会它,你当然也没问题。不管你目前使用的是什么操作系统,也不管你现在是以什么方式做数据科学的工作,读完本书,你也能够利用命令行的强大能力。即使你已经熟悉命令行,或者甚至已经打算学习shell 脚本,你仍然可能在书中发现一些有趣技巧或命令行工具,能用于未来的数据科学项目。
从本书可以学到的
书中将对大量数据进行获取、清洗、探索以及建模。我们不会过多介绍如何完成这些数据科学任务,因为对于诸如应该何时及用什么进行统计检验,或者怎样才能将数据可视化做到最好,很容易找到大量参考资料。本书致力于实用性,旨在通过教你用命令行执行数据科学任务,使你更加高效和多产。
尽管书中讨论了80 多个命令行工具,但这些工具本身并不是最重要的。有些命令行工具存在已久,有些则是新近出现,并且可能最终会被更好的工具所取代。甚至在你阅读本书的时候,有的命令行工具正在创建之中。在过去的10 个月里,我就已经发现了许多奇妙的命令行工具。遗憾的是,有的工具被发现的时间太晚,无法包含在本书中。总之,命令行工具的新陈代谢是常态。
用工具、管道和数据进行工作的思想才是最重要的。多数命令行工具只做一项任务,并且做得很好。这符合Unix 的理念,这种理念在书中许多地方都有体现。一旦熟悉了命令行,并且学会了如何将命令行工具结合起来,你就学会了一项非常宝贵的技能。如果还能创建新的工具,那你就出类拔萃了。
……
我是一个热衷于探索各种新技术的独立开发者,我的工作常常需要处理各种类型的数据,从日志文件到API接口返回的数据,再到数据库中的信息。虽然我习惯了使用各种编程语言和库来处理数据,但总感觉在效率和灵活性上还有提升的空间。当我在一个技术论坛上看到有人推荐《命令行中的数据科学》这本书时,我立刻被它的“命令行”这一核心概念吸引住了。我深知,掌握强大的命令行工具,能够极大地提升工作效率,甚至可以让我做出一些图形界面工具难以实现的操作。我非常期待书中能够提供一些关于如何用命令行进行高效的数据挖掘和模式识别的技巧,比如如何利用shell脚本和Python的结合来自动化复杂的数据分析任务。我也希望书中能够深入讲解一些命令行下的数据存储和查询工具,例如SQLite的命令行接口,或者如何使用命令行工具来管理和查询NoSQL数据库。此外,我希望书中能够分享一些关于如何利用命令行进行数据质量检查和数据验证的方法,这对于保证数据分析的可靠性至关重要。这本书的出现,让我看到了在命令行这个“黑箱”里施展数据科学的无限可能。
评分作为一名计算机科学专业的学生,我对数据科学一直抱有浓厚的兴趣,但学校的课程设置往往侧重于理论,对于实际操作的讲解相对较少。我经常在网上搜索学习资源,但发现很多教程都过于碎片化,难以形成完整的知识体系。当我在书店看到《命令行中的数据科学》这本书时,我的眼睛瞬间亮了。这本书的标题直接点出了我的学习痛点——我一直想掌握在命令行环境中进行数据科学的能力,但缺乏系统的指导。我希望这本书能够从最基础的命令行操作讲起,循序渐进地引导我进入数据科学的世界。例如,我希望能学习如何使用grep、awk、sed等工具来处理文本数据,如何使用wget、curl来获取网络数据,以及如何使用git来进行代码版本管理。更重要的是,我希望这本书能够将这些命令行工具与数据科学的实际应用结合起来,比如如何用命令行工具进行数据预处理、特征工程,甚至是构建和评估机器学习模型。如果书中能提供一些实际项目,让我能够跟着操作,那就再好不过了。我希望通过这本书,能够建立起一个扎实的命令行数据科学基础,为我未来的学习和职业发展打下坚实的基础。
评分我是一名对数据可视化充满热情的爱好者,平日里喜欢用各种工具来探索数据背后的故事。虽然我熟悉一些主流的可视化库,但我总觉得缺乏一种“原生”的、从源头到最终呈现的完整掌控感。当我偶然翻阅到《命令行中的数据科学》这本书时,我仿佛看到了一个新的世界。《命令行》这个关键词,让我联想到的是一种简洁、高效、直接的表达方式,这与我追求的数据可视化理念不谋而合。我希望这本书能够带领我探索如何在命令行环境中生成各种精美的数据图表,例如使用gnuplot、matplotlib的命令行接口,甚至是一些更小众但功能强大的命令行可视化工具。我特别希望能学习到如何将数据处理与可视化流程无缝衔接,例如通过管道操作,将命令行处理后的数据直接输入到可视化工具中,实现“流水线式”的数据探索。此外,我希望书中能介绍一些如何利用命令行工具来制作交互式图表或者动态可视化内容的方法,这对我来说将是一个巨大的惊喜。我期待这本书能让我掌握在命令行中创造出令人惊叹的数据视觉表达。
评分这本书的封面设计很吸引人,简洁而有力量,让我立刻对接下来的内容产生了好奇。我一直对数据科学领域很感兴趣,但苦于没有系统性的学习途径,常常在各种零散的教程和博客之间迷失方向。这本书的出现,仿佛是一盏明灯,照亮了我前行的道路。我尤其期待书中关于“命令行”的讲解,因为在我看来,熟练掌握命令行工具是进行高效数据处理和分析的关键。我曾经在处理大规模数据集时,因为不熟悉命令行操作而效率低下,走了不少弯路。这本书是否能帮助我一举攻克这个难关,成为我的得力助手,我对此充满期待。我希望书中能提供一些实用的案例,让我能够学以致用,将理论知识转化为实际技能。同时,我也希望这本书能涵盖数据科学的入门到进阶的各个方面,从数据获取、清洗、探索性分析,到模型构建、评估和部署,都能有详尽的介绍。如果书中还能涉及到一些常用的数据科学库和框架,例如Pandas、NumPy、Scikit-learn等,并且以命令行的方式来展示如何使用它们,那就更完美了。我希望这本书能让我告别繁琐的图形界面操作,直接在终端里挥洒自如,成为一名更优秀的数据科学家。
评分我是一位有一定数据分析基础的从业者,平日里接触到的更多是基于GUI的分析工具,虽然能解决部分问题,但总觉得不够灵活,面对复杂场景时显得力不从心。最近了解到“命令行中的数据科学”这本书,非常 intrigued,它提出的“命令行”这一角度,让我看到了数据科学实践的另一种可能性。我一直认为,深入理解底层工具和操作逻辑,对于提升专业能力至关重要。我相信,通过这本书的学习,我能够更深入地理解数据处理的每一个环节,甚至能够编写更精细化的脚本来自动化重复性工作。我希望书中能够提供一些高级的命令行技巧,例如管道操作、正则表达式、以及如何结合shell脚本来构建复杂的数据分析流程。我尤其关心书中是否会讲解如何利用命令行工具进行高效的数据可视化,比如使用gnuplot或者matplotlib的命令行接口。此外,对于大数据处理方面,如果书中能介绍一些基于命令行的分布式计算框架(如Spark的命令行接口),那我将受益匪浅。我期待这本书能够帮助我突破当前的技术瓶颈,解锁更高效、更灵活的数据科学工作方式。
评分很实用的一本书
评分非常推荐的一本书,入门很值得
评分纸张厚实,印刷精美。
评分挺不错的吧,就是图灵的书有点贵
评分现在计算机书的书价有点夸装了,这本100多页竟然定价快50,要不是搞活动,估计不会买了...
评分图解机器学习图解机器学习
评分现在计算机书的书价有点夸装了,这本100多页竟然定价快50,要不是搞活动,估计不会买了...
评分非常有用
评分很不错,讲的很细致,是一本好书
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有