强化数据与分析暑期工作坊

在密集数据和分析夏季研讨会(奥兰多,2018年6月4日至7日)上,Esperanza Huerta和我将在Spark和Python中展示数据争吵,这是一个中级研讨会。本次研讨会将使用基于云的Jupyter笔记本和Apache Spark,重点关注数据整理——构成数据科学工作80%的分析和转换活动。这个工作坊是面向教授具有基本编程背景的商科学生的教师的。

在研讨会中,我们将使用Databricks分析平台的基于云的社区版本,其中包括Apache Spark和Jupyter笔记本。这是一个基于网络的平台,可以在课堂上免费使用,教授大数据和数据分析。Jupyter notebook和Apache Spark是当今数据科学领域最热门的两个工具,因为它们能够将代码、输出和文档以笔记本格式组合在一起,从而在探索数据时可以轻松地进行实验和迭代。

我们将使用来自usasppending .gov的数据集,这是一个政府网站,它保存了十多年来与美国政府合同有关的交易数据。我们将使用从美国消费网站下载的JSON和CSV数据。研讨会参与者将通过usasppending API直接下载JSON数据到他们的笔记本电脑。合同数据(通过API以CSV格式提供)将被下载、压缩并存储在AWS上,因此参与者将能够直接从AWS将数据加载到他们的笔记本电脑中。这将使我们能够分析2015年和2017年的合同数据(我们将使用每年第四季度的大约100万份合同)。虽然我们仍将在会议上使用Wi-Fi连接到Jupyter笔记本,但如果由于所有研讨会和与会者的缘故,网络处于沉重的负载下,这种方法消除了下载和上传数据的需要。如果网络连接有限,也可以在教室环境中使用类似的方法。

以下是如何注册Databricks社区帐户的说明。请在研讨会前注册一个帐户。在研讨会之前,将在下面发布一个包含代码和标记(文档)的Jupyter笔记本。

 

Databricks社区版的Apache Spark和Jupyter笔记本-请在研讨会前注册

Databricks社区版:https://databricks.com/ce

注册过程很简单。Databricks将向您发送一封确认您的帐户的电子邮件,当您点击电子邮件中的链接时,它将带您进入您的Databricks帐户。请随意使用它或在其中闲逛,当您完成后,退出。关于如何注册一个帐户和导入我们将在研讨会中使用的笔记本的书面说明:注册一个Databricks帐户

工作坊Jupyter笔记本-请下载

会议笔记本:workshop.zip

从上面的链接下载workshop.zip文件并解压缩,或者从Dropbox文件夹中下载本研讨会的笔记本(如果您参加了研讨会,您收到了一封电子邮件)。在大多数mac电脑上,该文件会自动解压缩。在PC上打开文件夹,将文件拖出。解压缩文件后,笔记本被命名为workshop ipynb。

上述创建Databricks帐户的说明还包括导入笔记本。同样的说明也在Dropbox文件夹中。

Jupyter笔记本是JSON文档,所以这是一个小文件。由于笔记本中预先填充了代码,因此您不需要具备JSON、Python、SQL或Spark方面的任何经验。如果你有,那很好,但这个研讨会只需要你有一台笔记本电脑和互联网接入(会议提供无线网络)。在研讨会中,我们将介绍笔记本正在做什么,迭代和更改一些代码并创建可视化。你将在Databricks社区账户上运行你的笔记本,所以一定要注册一个如上所述的免费账户。

当你在研讨会上计算你的笔记本时,我们会做一些改变,但如果你想看看一个版本会是什么样子,点击这个链接。Jupyter笔记本的一个特性是,您可以共享工作的只读版本,并决定何时更新共享版本。您还可以将笔记本发布为HTML文件,然后将其加载为网页。