AoM大数据研讨会
如果你参加了研讨会,我期待在会议上见到你!
在AoM大数据会议上(萨里大学,2018年4月18日至20日),我将展示一个实践研讨会:为数据驱动研究争论大数据:与Apache Spark和Jupyter笔记本的实践。在本次研讨会中,我们将使用Jupyter笔记本来运行Apache Spark并分析半结构化数据。
以下是如何注册Databricks分析平台的基于云的社区版本的说明,其中包括Apache Spark和Jupyter笔记本。
我们将使用usasppending .gov网站上的数据集,其中包括十多年前美国政府合同的数据。我们将使用JSON和CSV数据从他们的网站下载。一些JSON数据将通过USASpending API直接下载到笔记本电脑(在AWS上的Databricks社区版本下运行),其他数据将在AWS上下载、压缩和存储,因此笔记本电脑将能够直接与AWS通信以加载数据。这将使我们能够分析2015年至2017年各机构的数据和合同数据(我们将使用每年第四季度的约100万份合同)。虽然我们仍将在会议上使用Wi-Fi,但如果由于所有研讨会和与会者的网络负载过重,这将消除下载和上传数据的需要。
在研讨会结束时,我们将讨论Yelp提供的另一个数据集,作为他们数据集挑战的一部分,我将其用于信息系统商科学生的课程。
在接下来的一周,我将发布关于下载预填充的Jupyter笔记本的说明,我们将使用它作为研讨会的起点。
Databricks社区版的Apache Spark和Jupyter笔记本-请在研讨会前注册:
Databricks社区版:https://databricks.com/ce
注册过程很简单。Databricks将向您发送一封确认您的帐户的电子邮件,当您点击电子邮件中的链接时,它将带您进入您的Databricks帐户。请随意使用它或在其中闲逛,当您完成后,退出。
如何注册的书面说明:注册Databricks
Jupyter笔记本:
会议笔记本:workshop.zip
从上面的链接下载workshop.zip文件并解压缩。在大多数mac电脑上,该文件会自动解压缩。在PC上打开文件夹,将文件拖出。解压缩文件后,笔记本被命名为workshop ipynb。
Jupyter笔记本是JSON文档,所以这是一个小文件。由于笔记本中预先填充了代码,因此您不需要具备JSON、Python、SQL或Spark方面的任何经验。如果你有,那很好,但这个研讨会只需要你有一台笔记本电脑和互联网接入(会议提供无线网络)。在研讨会中,我们将介绍笔记本正在做什么,迭代和更改一些代码和可视化。你将在Databricks社区账户上运行你的笔记本,所以一定要注册一个如上所述的免费账户。
当你在研讨会上计算你的笔记本时,我们会做一些改变,但如果你想看看一个版本会是什么样子,点击这个链接。Jupyter笔记本的一个特性是,您可以共享工作的只读版本,并决定何时更新共享版本。
即使你没有提前下载,笔记本只包含JSON格式的代码和标记,所以它们是小文件,即使在Wi-Fi上也应该能正常工作。
Yelp数据集挑战赛(第11轮):https://www.yelp.com/dataset
如果你对在课堂上使用的数据集感兴趣,我建议你看看Yelp数据集挑战。它目前在第11轮,他们在春季和秋季学期开始时发布了一个新版本(至少根据BET9九州体育会员登录州立大学的学术日历)。