Introdução
O aprendizado de máquina obtém seu poder preditivo dos dados que o moldam. Para criar modelos eficazes, você deve entender os dados que usa.
Aqui, exploramos como humanos e computadores categorizam, armazenam e interpretam dados. Examinamos o que torna um bom conjunto de dados e como corrigir problemas em nossos dados disponíveis. Também praticamos a exploração de novos dados e vemos como o pensamento profundo sobre um conjunto de dados pode nos ajudar a construir melhores modelos preditivos.
Cenário: a última viagem do Titanic
Como um arqueólogo marinho ansioso, você tem um interesse excepcionalmente grande em desastres marítimos. Tarde da noite, enquanto clica entre imagens de ossos de baleia e pergaminhos antigos sobre a Atlântida, você encontra um conjunto de dados público que lista passageiros e tripulantes conhecidos da primeira e última viagem do Titanic. Atraído pelo equilíbrio entre o destino e o acaso, você se pergunta, quais fatores determinaram a sobrevivência de um passageiro do Titanic? Os dados deste período são algo incompletos. Muitas informações para certos passageiros são desconhecidas. Você deve encontrar maneiras de corrigir esses dados antes de poder analisá-los completamente.
Pré-requisitos
- Alguma familiaridade com conceitos de aprendizado de máquina (como modelos e custo) ajuda, mas não é necessária.
Objetivos de aprendizagem
Neste módulo, irá:
- Visualize grandes conjuntos de dados com a Análise Exploratória de Dados (EDA).
- Limpe os erros de um conjunto de dados.
- Preveja valores desconhecidos com dados numéricos e categóricos.