数据争论研讨会
我为什么要参加这个研讨会?
本课程将为您提供数据科学中一项基本技能的基础:数据整理。数据科学家分析从多个来源收集的大量数据,并为分析做好准备。数据科学家编写计算机程序来获取数据并转换数据。
这个研讨会可以让你获得作为数据管理员的实践经验。数据整理员可以执行数据科学系统的前两个步骤:数据输入(步骤1)和数据清理和转换(步骤2)。这两个步骤一起也被称为提取、转换和加载(ETL)。
做一个数据管理员不是一件小事。数据科学家大约80%的时间都花在处理数据上。数据科学系统依赖于数据管理员的出色工作。
对于本研讨会和其他研讨会,使用的编程语言是Python。我们将使用基本的Python和pandas (Python包)。
目标
完成本课程后,您应该能够:
- 列出不同的数据来源和数据分类
- 描述数据科学系统和数据争用
- 解释、修改和创建基本的Python程序来使用pandas处理数据。
研讨会的结构
本次研讨会分为三个部分。要获得数字徽章,您需要完成所有三个部分:研讨会前、现场研讨会和研讨会后。
您可以完成研讨会的某些部分,只完成现场研讨会,或者只完成研讨会的前期或后期,但要获得数字徽章,您必须完成所有三个部分。
研讨会的描述
在现场研讨会中,我们将在谷歌实验室中使用pandas来解释、执行和跟踪基本的Python程序。在完成现场研讨会后,你应该能够解释、修改、创建和执行基本的Python程序:
- 接收来自键盘和文本文件的数据输入,并将数据输出到屏幕和文本文件
- 使用基本数据类型(字符串、整数、浮点数和布尔值)
- 使用列表
- 导入CSV和pandas
- 使用pandas来识别和纠正简单的数据异常
- 从Spotify获取数据
研讨会的材料
本页所列的资料是供学生使用的。如果您是教师,请联系leslie.albert@sjsu.edu请求BET9九州体育登陆官方教师材料。
研讨会前模块包括:
现场讲座资料
现场研讨会模块包括:
- 数据争论演示文稿的pdf格式
- Wrangling Spotify数据演示的pdf格式
- 争论预算数据:现场研讨会中示例使用的指南、数据和程序(在Jupyter笔记本中)。
- 整理充电站数据:在Jupyter笔记本中创建python程序来清理充电站数据的指南和数据。这些程序的解决方案将在课后模块中提供。
- 争吵Spotify数据:木星笔记本中的叙述和程序从Spotify争吵数据。
研讨会后模块包括:
- 现场研讨会期间提供的充电站数据解决方案
- 资源,以重申您对pandas功能的了解
- 参考资料,以重申您对api功能的了解
- 其他学习和练习熊猫的资源,以及Spotify的数据
- 实践测试
- 获得数字徽章的最后测试
完成研讨会后的工作需要多长时间?
课后作业将在3小时内完成,为期末考试做准备。但是,我们鼓励你多练习。你练习得越多,你就会觉得编程越舒服。
你应该为期末考试额外分配一个小时。这个测试可以在30分钟内解决,但你可能需要一个小时。