AoM大数据研讨会

如果你参加了研讨会，我期待在会议上见到你！

在AoM大数据会议上（萨里大学，2018年4月18日至20日），我将展示一个实践研讨会：为数据驱动研究争论大数据：与Apache Spark和Jupyter笔记本的实践。在本次研讨会中，我们将使用Jupyter笔记本来运行Apache Spark并分析半结构化数据。

以下是如何注册Databricks分析平台的基于云的社区版本的说明，其中包括Apache Spark和Jupyter笔记本。

我们将使用usasppending .gov网站上的数据集，其中包括十多年前美国政府合同的数据。我们将使用JSON和CSV数据从他们的网站下载。一些JSON数据将通过USASpending API直接下载到笔记本电脑（在AWS上的Databricks社区版本下运行），其他数据将在AWS上下载、压缩和存储，因此笔记本电脑将能够直接与AWS通信以加载数据。这将使我们能够分析2015年至2017年各机构的数据和合同数据（我们将使用每年第四季度的约100万份合同）。虽然我们仍将在会议上使用Wi-Fi，但如果由于所有研讨会和与会者的网络负载过重，这将消除下载和上传数据的需要。

在研讨会结束时，我们将讨论Yelp提供的另一个数据集，作为他们数据集挑战的一部分，我将其用于信息系统商科学生的课程。

在接下来的一周，我将发布关于下载预填充的Jupyter笔记本的说明，我们将使用它作为研讨会的起点。

Databricks社区版的Apache Spark和Jupyter笔记本-请在研讨会前注册：

Databricks社区版：https://databricks.com/ce

注册过程很简单。Databricks将向您发送一封确认您的帐户的电子邮件，当您点击电子邮件中的链接时，它将带您进入您的Databricks帐户。请随意使用它或在其中闲逛，当您完成后，退出。

如何注册的书面说明：注册Databricks

Jupyter笔记本:

会议笔记本：workshop.zip

从上面的链接下载workshop.zip文件并解压缩。在大多数mac电脑上，该文件会自动解压缩。在PC上打开文件夹，将文件拖出。解压缩文件后，笔记本被命名为workshop ipynb。

Jupyter笔记本是JSON文档，所以这是一个小文件。由于笔记本中预先填充了代码，因此您不需要具备JSON、Python、SQL或Spark方面的任何经验。如果你有，那很好，但这个研讨会只需要你有一台笔记本电脑和互联网接入（会议提供无线网络）。在研讨会中，我们将介绍笔记本正在做什么，迭代和更改一些代码和可视化。你将在Databricks社区账户上运行你的笔记本，所以一定要注册一个如上所述的免费账户。

当你在研讨会上计算你的笔记本时，我们会做一些改变，但如果你想看看一个版本会是什么样子，点击这个链接。Jupyter笔记本的一个特性是，您可以共享工作的只读版本，并决定何时更新共享版本。

即使你没有提前下载，笔记本只包含JSON格式的代码和标记，所以它们是小文件，即使在Wi-Fi上也应该能正常工作。

Yelp数据集挑战赛（第11轮）：https://www.yelp.com/dataset

如果你对在课堂上使用的数据集感兴趣，我建议你看看Yelp数据集挑战。它目前在第11轮，他们在春季和秋季学期开始时发布了一个新版本（至少根据BET9九州体育会员登录州立大学的学术日历）。

斯科特·詹森

网站导航

AoM大数据研讨会

Databricks社区版的Apache Spark和Jupyter笔记本-请在研讨会前注册：

九州体育链接和资源

信息

大学

快速链接

联系我们