简介

已完成

毫不奇怪的是,数据科学家这一角色主要是探索和分析数据。 尽管数据分析的最终结果可能是报表或机器学习模型,但数据科学家的工作是从数据开始的,Python 是数据科学家用于处理数据的最常用编程语言。

在几十年的开源开发后,Python 通过强大的统计和数值库提供丰富的功能:

  • NumPy 和 Pandas 简化了数据分析和操作
  • Matplotlib 提供引人注目的数据可视化效果
  • Scikit-learn 提供简单有效的预测性数据分析
  • TensorFlow 和 PyTorch 提供机器学习和深度学习功能

示例方案

通常,数据分析项目旨在建立对特定场景的见解或检验假设。

例如,假设一位大学教授收集有关学生的数据,包括上课的次数、学习的时间以及期末考试的最终成绩。 然后,该教授可对数据进行分析,以确定学生的学习量与他们取得的最终成绩之间是否存在关系。 教授可能会使用这些数据来测试假设:只有学习最少小时数的学生才有望达到及格分数。

与学生成绩相关的上课和学习时间示意图。

我们将执行哪些操作?

在本培训模块中,我们将从教授的角度探讨和分析虚构大学课堂的成绩数据。 我们将使用 Jupyter 笔记本和几个 Python 工具及库来清理数据集,应用统计技术来测试有关数据的几个假设,并将数据可视化以确定变量之间的关系。