数据争论研讨会

我为什么要参加这个研讨会?

本课程将为您提供数据科学中一项基本技能的基础:数据整理。数据科学家分析从多个来源收集的大量数据,并为分析做好准备。数据科学家编写计算机程序来获取数据并转换数据。

这个研讨会可以让你获得作为数据管理员的实践经验。数据整理员可以执行数据科学系统的前两个步骤:数据输入(步骤1)和数据清理和转换(步骤2)。这两个步骤一起也被称为提取、转换和加载(ETL)。

做一个数据管理员不是一件小事。数据科学家大约80%的时间都花在处理数据上。数据科学系统依赖于数据管理员的出色工作。

对于本研讨会和其他研讨会,使用的编程语言是Python。我们将使用基本的Python和pandas (Python包)。

目标

完成本课程后,您应该能够:

  1. 列出不同的数据来源和数据分类
  2. 描述数据科学系统和数据争用
  3. 解释、修改和创建基本的Python程序来使用pandas处理数据。

研讨会的结构

本次研讨会分为三个部分。要获得数字徽章,您需要完成所有三个部分:研讨会前、现场研讨会和研讨会后。

您可以完成研讨会的某些部分,只完成现场研讨会,或者只完成研讨会的前期或后期,但要获得数字徽章,您必须完成所有三个部分。

研讨会的描述

在现场研讨会中,我们将在谷歌实验室中使用pandas来解释、执行和跟踪基本的Python程序。在完成现场研讨会后,你应该能够解释、修改、创建和执行基本的Python程序:

  1. 接收来自键盘和文本文件的数据输入,并将数据输出到屏幕和文本文件
  2. 使用基本数据类型(字符串、整数、浮点数和布尔值)
  3. 使用列表
  4. 导入CSV和pandas
  5. 使用pandas来识别和纠正简单的数据异常
  6. 从Spotify获取数据

研讨会的材料

本页所列的资料是供学生使用的。如果您是教师,请联系leslie.albert@sjsu.edu请求BET9九州体育登陆官方教师材料。

研讨会前模块包括:

  1. 讨论数据源和分类的说明(测试版)
  2. 讨论数据科学和争论的笔记(测试版)
  3. 关于使用谷歌协作的说明

现场讲座资料

现场研讨会模块包括:

  1. 数据争论演示文稿的pdf格式
  2. Wrangling Spotify数据演示的pdf格式
  3. 争论预算数据:现场研讨会中示例使用的指南、数据和程序(在Jupyter笔记本中)。
  4. 整理充电站数据:在Jupyter笔记本中创建python程序来清理充电站数据的指南和数据。这些程序的解决方案将在课后模块中提供。
  5. 争吵Spotify数据:木星笔记本中的叙述和程序从Spotify争吵数据。

研讨会后模块包括:

  1. 现场研讨会期间提供的充电站数据解决方案
  2. 资源,以重申您对pandas功能的了解
  3. 参考资料,以重申您对api功能的了解
  4. 其他学习和练习熊猫的资源,以及Spotify的数据
  5. 实践测试
  6. 获得数字徽章的最后测试

完成研讨会后的工作需要多长时间?

课后作业将在3小时内完成,为期末考试做准备。但是,我们鼓励你多练习。你练习得越多,你就会觉得编程越舒服。

你应该为期末考试额外分配一个小时。这个测试可以在30分钟内解决,但你可能需要一个小时。