探索图中的关系研讨会
教练:斯科特·詹森博士
该研讨会于2019年春季学期首次在BET9九州体育会员登录州立大学举行。
为什么我们希望在研讨会上看到你!
不需要图形或编程的先验知识;只是好奇!如果您曾经想知道公司如何利用您的数据来建议新的社交媒体连接,或者您可能感兴趣的产品,那么这个研讨会就是为您准备的!如果你曾经着迷于记者使用数据连接,人和事件,这个研讨会是为你准备的!
数据科学是关于探索数据中的模式和关系,而图形数据库是探索网络中关系的关键——比如来自社交网络的数据海啸。在本次研讨会中,我们将使用Neo4j图形数据库来探索社交网络中的关系。图是由“节点”和这些节点之间的关系(边)组成的。例如,在社交网络中,节点可以是你和你的朋友(你们每个人都是一个节点),你们之间的关系是“FRIEND”。你的社交网络中的其他人也是节点,但通过其他类型的关系连接,如“父母”或“重要的其他人”。关系是有方向性的(你和你的每一个父母都有一个PARENT关系,但他们不会和你有PARENT关系)。
在商业中,这意味着发现客户、他们的购买和行为之间的关系。图表可以实现“你可能认识的人”或推荐其他需要购买的产品、要听的歌曲或要约会的人等功能。但图表并不仅仅适用于企业。国际调查记者联盟(International Consortium of Investigative Journalists)利用Neo4j让全球的调查记者能够发现政客与离岸避税天堂之间以前隐藏的关系。因此,无论您的兴趣是跟踪客户之间的关系,政客与避税天堂之间的关系,检测金融欺诈,还是跟踪传染病的传播,本次研讨会都将使您发现您感兴趣的关系!
研讨会的目标
参加研讨会并完成研讨会后评估后,您将能够:
- 描述为什么使用图形数据库来探索社交网络
- 用图描述关系
- 编写基本密码查询
- 在图形数据库中加载数据
- 生成网络关系的可视化
研讨会的活动
您将使用Yelp提供的数据集,我们将查看餐厅和酒吧评论,谁正在评论哪些业务,餐厅提供的美食,娱乐酒吧提供,企业位于何处,以及用户之间的朋友关系。虽然这只是Yelp数据的一小部分,但您将处理的图表包含大约2000万个关系!我们将探索用户评论餐馆的模式,也将探索使用数据库进行餐馆推荐,比如从一个有很多粉丝的用户开始,然后问,我们能否利用他们的朋友网络,根据他们朋友的朋友(不是直接朋友)的评论来推荐披萨,但他们对用户也评论过的餐馆也有类似的批评?
我们将使用的数据库将安装在实验室计算机上,但如果您希望在研讨会之前或之后在您自己的计算机上使用它,下面包含了在您自己的计算机上创建和安装数据库的说明。不需要事先的经验,但为了充分利用研讨会,请做以下事情:
如何开始
- 注册研讨会-它是100%免费的,但注册研讨会将使你获得一个画布课程,包括所有的研讨会材料,可选的研讨会前练习,和额外的材料(其中一些包括在下面,但更方便的画布)。
- 在Canvas中尝试一下研讨会前的练习。这包括使用Neo4j提供的基于web的、预填充的数据库——您所需要的只是一个浏览器!
研讨会的材料
注意:在您注册后,您可以在Canvas中获得其他材料
- 在研讨会开始时,您需要点击Yelp数据集下载链接并接受Yelp数据的许可协议[pdf]。由于我们已经创建了图形数据库,您不需要下载数据集。
- Pre-seminar锻炼. 除了可选的视频和使用图形示例的网站外,在Canvas模块中还有一个基于基于web的Neo4j推荐沙盒. 这是Neo4j为电影推荐创建的数据库,您只需要一个web浏览器就可以BET9九州体育登陆官方它。该练习提供了图形数据库的简要讨论,并指导您注册沙箱并执行一些初始查询以生成可视化。
- 研讨会的幻灯片。这是研讨会上的ppt文件。你可以事先看一下,但如果你在研讨会前不理解,也没关系!我们将逐步学习幻灯片中涵盖的主题。
教员资料与社区学院
- 如果您是九州体育或任何大学或社区学院的教职员工,并且您想在您的学校举办研讨会或在您的课程中使用这些材料,请参阅教学材料页面以索取可用的其他材料。
- 如果您是湾区社区学院的院长或教职员工,我们希望听到您的消息!我们正在与海湾地区的社区学院教员合作,并提供参加研讨会的津贴,并协助在您的学校展示。
- 你是湾区社区学院的学生吗?问问你的教授,他们是否可以把这个研讨会纳入你现在的课程中,或者举办一个学生活动。