URGENTE, POR FAVOOOOOOOR, ME AJUDA
Elabore um relatório de análise da base de dados dos sobreviventes do Titanic.
Soluções para a tarefa
Resposta:
A abordagem didática para os dados de treino foi selecionada para facilitar a compreensão e conduzir a narrativa do Storytelling de forma contínua e profunda.
Fase de limpeza dos dados: Nesta etapa utilizei métodos randômicos, interquartil, mediana e outros para preencher dados faltantes (NaNs) após entendimento de cada feature.
Foi possível gerar novas features para extrair insgihts significantes com REGEX / Funções Lambda.
Compreensão estatística dos dados: Distribuição Gaussiana, P_Values, etc.
Análise exploratória com plots enfatizando as particularidades do dataset (Inseri um pouco da história do Titanic pois alguns fatos me chamaram muita atenção).
Feature Selection com diversos métodos (CHI2 / Regressão Logística, etc) para encontrar as melhores variáveis.
Execução com diversos algoritmos na base de treino já normalizada. Assim, determinamos sobre melhor algoritmo e features.
Escolha dos melhores hiperparâmetros com GridSearch e divisão de forma estratificada.
Verificação da acurácia na base de treino!
Explicação: