数据科学机器学习导论研讨会
教练:Subhankar Dhar博士
我为什么要参加这个研讨会?
大多数数据科学问题都是通过机器学习来解决的。该研讨会由一系列模块组成,旨在通过课外课程向学生在学术生涯早期介绍机器学习概念,以提供急需的机器学习技能。每个研讨会都包括可选的教程前材料,这些材料提供了对主题的良好介绍,一个具有最少Python知识的动手教程,以及一个可以完成的教程后作业,以证明他们的新技能。每个模块将被设计为一个独立的单元练习和动手实验室,以获得现实世界的经验。
计算机编程的先验知识将是有用的,但不是必需的。数据科学专业人员在当今行业中需求量很大,本次研讨会将对您的职业生涯有所帮助。
研讨会的目标
本次研讨会将涵盖机器学习的入门概念,包括监督学习和无监督学习。通过参加这个研讨会,你会
- 学习和应用基本的机器学习概念来解决数据科学中的现实问题
- 应用ML工具和各种Python库来获得实际编程经验
- 了解机器学习所需的技能和一步一步的过程
- 了解各种机器学习技术及其应用,分析回归和分类问题
- 学习监督学习,线性回归分析使用Python库- Numpy, Pandas, Sklearn
- 学习无监督学习,在Python中使用K-Means聚类解决分类问题
- 使用常用的损失函数分析机器学习模型的准确性
研讨会的结构
本次研讨会分为三个部分:研讨会前、现场研讨会和研讨会后。通过成功完成课后作业,您可以获得一个数字徽章来证明您的技能。
研讨会的描述
研讨会介绍了机器学习的基本概念,并深入探讨了解决数据科学问题所需的不同技术。它还涵盖了重要的主题,如监督学习,无监督学习以及相关的计算机编程基础知识,以及对现实世界数据集的动手分析。它由几个使用Jupyter Notebook和常用Python库开发的示例组成。研讨会将有几个实验练习以获得实践经验。
研讨会的材料
Pre-seminar
下面的网站给你很好的介绍了机器学习:入门机器学习
我们将使用谷歌collaborative collaborative是一个免费的Jupyter笔记本环境,不需要设置,完全在云中运行。你所需要的只是上网和一个浏览器。使用collaboratory,您可以编写和执行代码,保存和共享您的分析,并BET9九州体育登陆官方强大的计算资源,所有这些都可以从浏览器免费获得。
研讨会:
在Canvas研讨会之前将提供幻灯片
数据集:
1. 我们将使用sklearn Python模块中提供的Boston Housing数据。
- 该数据集有506行和14列。
- 这是波士顿各个地方的房价。
- 此外,该数据集还提供了诸如犯罪率(CRIM)、城镇非零售业务区域(INDUS)、房主年龄(age)、每间住宅房间(RM)和许多其他属性等信息。
2. 下载购物中心客户数据集
- Mall数据集是一个未标记的数据集。
- 由于没有输出变量,所以我们对数据进行聚类以找到某种模式。
- 在这里,问题是根据客户的年收入和消费习惯来细分客户,并应用新的营销策略来迎合Mall的特定细分客户。