利用 NumPy 和 Pandas 浏览数据
数据科学家可以使用各种工具和技术来浏览、直观呈现和操作数据。 数据科学家处理数据最常用的方法之一是使用 Python 语言和一些特定的数据处理包。
什么是 NumPy?
NumPy 是一个 Python 库,提供与 MATLAB 和 R 等数学工具相当的功能。尽管 NumPy 大大简化了用户体验,但它还提供了全面的数学函数。
什么是 Pandas?
Pandas 是一个极其热门的 Python 库,用于数据分析和操作。 Pandas 对于 Python 而言就像一个电子表格应用程序,提供适用于数据表的易于使用的功能。
探索 Jupyter 笔记本中的数据
Jupyter Notebook 是使用 Web 浏览器运行基本脚本的一种常用方式。 通常,这些笔记本都是单个网页,分解为在服务器上(而不是本地计算机)上执行的文本部分和代码部分。 通过在服务器上的 Jupyter Notebook 中运行代码,你可以快速开始,而无需在本地计算机上安装 Python 或其他工具。
测试假设
数据探索和分析通常是一个迭代过程,数据科学家在其中进行数据采样,并执行以下任务来分析数据和检验假设:
- 清理数据以处理错误、缺失值和其他问题。
- 应用统计技术来更好地理解数据,更好地了解如何期望样本代表真实世界的总体数据(允许随机变化)。
- 直观呈现数据来确定变量之间的关系,在机器学习项目中,识别可能预测标签的特征。
- 修正假设并重复该过程。