Exercício – Determinar as colunas a serem incluídas em um modelo de machine learning

Concluído

Para começar a treinar nosso modelo de machine learning, vamos começar ensinando ao computador quais partes dos dados examinar para fazer previsões. Sabemos que a coluna que queremos que o modelo preveja é a coluna "Lançado". Vamos extrair essa coluna e armazená-la em uma variável como uma lista de Y e N.

Limpeza de dados adicional

Em seguida, removeremos algumas das colunas que não são necessárias para fazer essa previsão. Colunas como "Nome" nos dão mais contexto sobre os dados, mas o nome de uma inicialização não indica se o clima fará com que o lançamento seja adiado. Neste módulo, nos concentraremos nas colunas de velocidade do vento, condições e precipitação.

Observação

Normalmente, não recomendamos nomes de variáveis como x e y, mas são normas usadas na ciência de dados para representar dados de entrada e saída. Esse uso vem da fundamentação em algoritmos matemáticos. Por exemplo, talvez você se lembre de fórmulas como y=mx+b.

Execute os comandos a seguir no Jupyter Notebook (arquivo .ipynb) criado no módulo anterior. Caso tenha concluído as etapas do módulo anterior há muito tempo, talvez você receba erros. Neste caso, reimporte as bibliotecas e os dados do módulo anterior, depois execute os seguintes comandos:

# First, we save the output we are interested in. In this case, "launch" yes and no's go into the output variable.
y = launch_data['Launched?']

# Removing the columns we are not interested in
launch_data.drop(['Name','Date','Time (East Coast)','Location','Launched?','Hist Ave Sea Level Pressure','Sea Level Pressure','Day Length','Notes','Hist Ave Visibility', 'Hist Ave Max Wind Speed'],axis=1, inplace=True)

# Saving the rest of the data as input data
X = launch_data

Agora você tem duas variáveis. A saída está em y e a entrada está em X. Você pode obter uma visão geral dos dados de entrada examinando as colunas na variável X recém-criada:

# List of variables that our machine learning algorithm is going to look at:
X.columns

Os dados de entrada de X representam o clima em um determinado dia. Nesse caso, não estamos preocupados com a data ou a hora. Em vez de obtermos a data ou a hora, queremos que o perfil meteorológico desse dia indique se um lançamento deve ou não ocorrer.