bus4118d -大数据
bus4118d,大数据
本课程作为管理信息系统选修的目的管理信息系统浓度。在过去,它也被算作商业分析专业的选修课,但一定要和你在杰克·霍兰德学生成功中心的导师核实,以确保它会算在你的专业中。2021年秋季课程有两个部分:
第一节:
课程编号:43278上课时间:周二和周四12:30pm - 1:45pm混合:在线(周二)和面对面(周四)地点(周四):BBC 103
第二节:
课程编号:43279上课时间:周二和周四下午2:15 - 3:30混合:在线(周二)和面对面(周四)地点(周四):BBC 103
有关详细的教学大纲和每周时间表,请参阅Canvas课程格式:该课程非常实用,使用大数据工具来整理,分析和可视化Yelp数据集。我们将讨论公司如何处理数据纠纷(与大数据合作)、数据项目框架、公司如何使用大数据、道德和隐私问题(CCPA于今年生效)以及数据可视化。
因为这门课需要动手操作,所以你需要一台电脑。如果你没有笔记本电脑或台式机,你可以从大学里借来一台(我们将在Canvas中讨论,其他学生过去也这样做过)。
由于我们这学期是混合的,一些动手练习将会有视频来指导你完成练习。当我们面对面的时候,我们会在课堂上做这些。练习和实验的目的是让每个人都能快速和舒适地使用这些工具,因为你将在一个团队项目中使用它们。如果你学过BUS4 92(编程导论——使用Python)和BUS4 112(数据库),这两门课程都会有帮助。在预定的上课时间里,我们将进行讨论、练习和小组会议。课堂讲课将被录下来,你需要在上课前看一遍。在最初的几周后,每个小组将选择一个项目问题,我们将交替进行几周的课堂讨论和几周的我与每个小组讨论他们的进展。课堂讨论必须出席。对于团队会议,你需要在我们会议当天(周二或周四)与你的团队在线,并为团队讨论做出贡献。我们将在学期初组成小组。你的团队将一起回答Yelp提供的真实世界数据集的潜在商业问题,然后应用我们在课堂上学到的框架以及大数据工具来回答这个问题。因为一开始你不知道问题的答案,所以你的评分取决于你如何应用这个过程,如何记录你的工作,如何识别数据中的问题,以及你是否对你的数据感到好奇——而不是得到一个具体的结果。该团队将负责整个学期的可交付成果,每个团队在学期结束时展示他们的成果。为了鼓励每个人都为自己的团队做出贡献,我们的团队可交付成绩的一部分是基于你对团队的贡献。每个可交付成果都需要团队讨论团队成员的贡献。根据团队的评估,导师将分配团队分数——根据你的贡献,你的得分可能比团队的总得分多或少。课程目标与描述:数据科学是当前工业领域的热门话题,大数据是数据科学的燃料。早年,数据科学家通常是来自硬科学(如天体物理学)的博士,但数据科学越来越多地成为一项团队运动。本课程的目的是让您为数据科学方面做好准备,这些方面消耗了团队的大部分努力,并为您提供可以帮助您进入这个令人兴奋的领域的技能。
在许多行业中,数据科学家每天80%的时间都花在处理数据上。这包括获取数据、格式化数据、转换数据和分析数据——通过提出问题来理解数据。开发复杂模型的“性感”方面只是工作的一小部分,然后能够可视化并将结果传达给高层管理人员是企业从分析中获得任何价值所必需的。在本课程中,我们将重点关注使用Yelp提供的数据集的数据争论方面,您将询问数据问题,使用笔记本界面在Apache Spark中进行数据争论。这些工具都是基于web的,Spark和Jupyter笔记本都是大数据和数据科学领域最热门的工具。然后,您的团队将使用嵌入到笔记本中的Tableau创建可视化。
DJ Patil是美国政府(奥巴马政府)的第一位首席数据科学家,他总结了数据争论的重要性,他说:“优秀的数据科学家深刻地理解,繁重的清理和准备工作不会阻碍问题的解决:它本身就是问题。”
目标是让每个团队创建一个笔记本,团队成员可以讨论并向招聘人员展示,如果他们对成为数据分析师或从事与数据相关的职业感兴趣。你的团队创建的笔记本和可视化可以发布,展示,并与招聘人员共享,你可以在你的网站或LinkedIn个人资料中包含链接。记住,你需要做的是令人兴奋但艰苦的工作,创造一个你理解并引以为傲的团队项目。如果你不了解你的团队项目,无论你的团队做得多么好,招聘人员都不会对你留下深刻的印象。
Yelp的数据可用于学术用途,新的数据集于2021年3月发布。去年夏天,Yelp还发布了一个与企业如何应对COVID危机相关的补充数据集,我们也可能会使用这些数据。当前数据集包含评论、企业、用户、提示(迷你评论)和用户签到的数据。每次Yelp发布一个新版本的数据集,它都会增长。我们将使用的版本覆盖了美国8个都会区的16万家企业。目前的版本总共有超过800万条评论。该领域的工具还在不断发展,但我们将使用以下工具:Apache Spark:目前增长最快的大数据工具之一,它由Databricks托管在亚马逊的AWS上,使用目前在数据科学家中很流行的Jupyter笔记本。Databricks是由伯克利AMPLab的成员创建的,他们开发并开源了Apache Spark。Tableau:最流行的可视化工具之一,以前的学生发现招聘人员需要这种技能。教科书和材料:我们将使用许多书籍中的章节,这些书籍可以通过Safari在线数据库从马丁路德金图书馆在线获得。这使我们能够从一些优秀的书籍中选择章节免费使用感谢马丁·路德·金图书馆。本课程的书籍和资料费用为0美元,但需要花费大量时间。先决条件:bus492,商业编程入门,和bus4112,数据库管理系统都是本课程的有用知识,但不是必需的。练习将引导您一步一步地学习这些工具。我们也会有几节课,在那里我们会对你可能在那些课程中更详细地涵盖的主题进行实践复习。
好奇心比特定的技术技能更有价值。