Exercício – Determinar as colunas a serem incluídas em um modelo de machine learning
Para começar a treinar nosso modelo de machine learning, vamos começar ensinando ao computador quais partes dos dados examinar para fazer previsões. Sabemos que a coluna que queremos que o modelo preveja é a coluna "Lançado". Vamos extrair essa coluna e armazená-la em uma variável como uma lista de Y
e N
.
Limpeza de dados adicional
Em seguida, removeremos algumas das colunas que não são necessárias para fazer essa previsão. Colunas como "Nome" nos dão mais contexto sobre os dados, mas o nome de uma inicialização não indica se o clima fará com que o lançamento seja adiado. Neste módulo, nos concentraremos nas colunas de velocidade do vento, condições e precipitação.
Observação
Normalmente, não recomendamos nomes de variáveis como x
e y
, mas são normas usadas na ciência de dados para representar dados de entrada e saída. Esse uso vem da fundamentação em algoritmos matemáticos. Por exemplo, talvez você se lembre de fórmulas como y=mx+b.
Execute os comandos a seguir no Jupyter Notebook (arquivo .ipynb) criado no módulo anterior. Caso tenha concluído as etapas do módulo anterior há muito tempo, talvez você receba erros. Neste caso, reimporte as bibliotecas e os dados do módulo anterior, depois execute os seguintes comandos:
# First, we save the output we are interested in. In this case, "launch" yes and no's go into the output variable.
y = launch_data['Launched?']
# Removing the columns we are not interested in
launch_data.drop(['Name','Date','Time (East Coast)','Location','Launched?','Hist Ave Sea Level Pressure','Sea Level Pressure','Day Length','Notes','Hist Ave Visibility', 'Hist Ave Max Wind Speed'],axis=1, inplace=True)
# Saving the rest of the data as input data
X = launch_data
Agora você tem duas variáveis. A saída está em y
e a entrada está em X
. Você pode obter uma visão geral dos dados de entrada examinando as colunas na variável X
recém-criada:
# List of variables that our machine learning algorithm is going to look at:
X.columns
Os dados de entrada de X
representam o clima em um determinado dia. Nesse caso, não estamos preocupados com a data ou a hora. Em vez de obtermos a data ou a hora, queremos que o perfil meteorológico desse dia indique se um lançamento deve ou não ocorrer.