利用 NumPy 和 Pandas 浏览数据

已完成

数据科学家可以使用各种工具和技术来浏览、直观呈现和操作数据。 数据科学家处理数据最常用的方法之一是使用 Python 语言和一些特定的数据处理包。

什么是 NumPy?

NumPy 是一个 Python 库,提供与 MATLAB 和 R 等数学工具相当的功能。尽管 NumPy 大大简化了用户体验,但它还提供了全面的数学函数。

什么是 Pandas?

Pandas 是一个极其热门的 Python 库,用于数据分析和操作。 Pandas 对于 Python 而言就像一个电子表格应用程序,提供适用于数据表的易于使用的功能。

Pandas DF 示意图。

探索 Jupyter 笔记本中的数据

Jupyter Notebook 是使用 Web 浏览器运行基本脚本的一种常用方式。 通常,这些笔记本都是单个网页,分解为在服务器上(而不是本地计算机)上执行的文本部分和代码部分。 通过在服务器上的 Jupyter Notebook 中运行代码,你可以快速开始,而无需在本地计算机上安装 Python 或其他工具。

测试假设

数据探索和分析通常是一个迭代过程,数据科学家在其中进行数据采样,并执行以下任务来分析数据和检验假设:

  • 清理数据以处理错误、缺失值和其他问题。
  • 应用统计技术来更好地理解数据,更好地了解如何期望样本代表真实世界的总体数据(允许随机变化)。
  • 直观呈现数据来确定变量之间的关系,在机器学习项目中,识别可能预测标签的特征。
  • 修正假设并重复该过程。