Introdução

Concluído

O aprendizado de máquina obtém seu poder preditivo dos dados que o moldam. Para criar modelos eficazes, você deve entender os dados que usa.

Aqui, exploramos como humanos e computadores categorizam, armazenam e interpretam dados. Examinamos o que faz um bom conjunto de dados e como corrigir problemas em nossos dados disponíveis. Também praticamos a exploração de novos dados e vemos como o pensamento profundo sobre um conjunto de dados pode nos ajudar a criar modelos preditivos melhores.

Cenário: a última viagem do Titanic

Como um ávido arqueólogo marinho, você tem um interesse incomum em desastres de marítimos. Tarde da noite, enquanto clica entre imagens de ossos de baleia e pergaminhos antigos sobre Atlântida, você encontra um conjunto de dados público que lista os passageiros conhecidos e a tripulação da primeira e última viagem do Titanic. Atraído pelo equilíbrio entre o destino e o acaso, você se pergunta: quais fatores determinaram a sobrevivência de um passageiro do Titanic? Os dados desse período estão meio incompletos. Muitas informações sobre alguns passageiros são desconhecidas. Você precisa encontrar maneiras de corrigir esses dados antes de poder analisá-los completamente.

Pré-requisitos

  • Alguma familiaridade com os conceitos de aprendizado de máquina, como modelos e custo, ajuda, mas não é obrigatório.

Objetivos de aprendizagem

Neste módulo, você vai:

  • Visualizar grandes conjuntos de dados com a análise exploratória de dados (EDA).
  • Limpar os erros de um conjunto de dados.
  • Prever valores desconhecidos com dados numéricos e categóricos.