Blog

Postado em em 26 de setembro de 2022

Curso de Ciência de Dados Aula5 – Importância do Tratamento de Dados

Hoje no Curso de Ciência de Dados Aula5 vou te mostrar a importância do tratamento de dados dentro do nosso projeto!

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Curso de Ciência de Dados Aula5

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Curso Básico de Ciência de Dados

Sabia que é possível melhorar a acurácia de um modelo fazendo o tratamento de dados? Hoje eu vou te mostrar como fazer isso!

Na última aula nós vimos como avaliar os modelos de classificação, e hoje vamos ver como fazer para melhorar os parâmetros com o tratamento de dados!

Tratamento de Dados em Python

Antes de iniciar vou colocar aqui o que fizemos na última aula tanto para a nossa base de treino quanto para a base de teste.

Relembrando o que foi feito na última aula
Relembrando o que foi feito na última aula

Aqui nós já vamos começar o tratamento de dados. Vamos iniciar retirando colunas com alta cardinalidade e eliminando também a coluna Cabin pela alta cardinalidade e quantidade de valores vazios.

Etapa 1 - Iniciando o tratamento de dados
Etapa 1 – Iniciando o tratamento de dados

Vamos tirar essas colunas, pois com uma alta cardinalidade o nosso modelo vai estar mais decorando do que de fato aprendendo.

Para o próximo passo você deve lembrar que temos algumas informações onde a idade é vazia, então também precisamos fazer o tratamento.

Inserindo a média de idade nos valores de idades vazios
Inserindo a média de idade nos valores de idades vazios

Antes de excluir as linhas vazias da nossa base de dados vamos calcular a média das idades e atribuir esse valor onde temos as informações de idades vazias.

Isso é interessante, pois dessa forma vamos ter mais informações para trabalhar. Nesse caso a média é uma boa métrica para inserir esses dados, mas é possível quando você tenha dados muito altos pode ser que a mediana seja mais adequada.

Por isso é bom que você entenda bem os conceitos estatísticos para fazer essas substituições de forma que consiga trabalhar bem com esses dados.

Por fim nós vamos apagar as linhas com valores vazios e vamos eliminar as informações do tipo object, como já fizemos em aulas anteriores.

Vamos agora verificar as informações que nós temos e podemos fazer novamente a avaliação do modelo.

Verificando as informações
Verificando as informações

Lembrando que todos os códigos para avaliação estão no final do código, então se clicar no link Avaliando o modelo você já vai direto para a parte final.

Você pode até anotar essas informações para ir verificando se o tratamento de dados está ou não melhorando suas métricas.

Registrando os resultados de acurácia, precisão e recall para cada modelo
Registrando os resultados de acurácia, precisão e recall para cada modelo

Dá só uma olhada como esse tratamento de dados melhorou algumas dessas métricas, é claro que não vamos conseguir melhorar tudo, mas podemos continuar fazendo nossas análises e utilizar o melhor modelo de acordo com a necessidade.

Como nos modelos nós só conseguimos analisar informações numéricas nós vamos inserir a informação de gênero na nossa base de dados, só que para isso vamos ter que transformar isso em números.

Então vamos utilizar a estrutura if para verificar se é “male” (masculino) e se for vamos atribuir 1, caso contrário vamos atribuir 0.

Assim conseguimos colocar na nossa base essas informações de gênero para analisarmos.

Curso de Ciência de Dados Aula5
Etapa 2 – Incluindo informação de gênero na base de dados

Feitos isso podemos fazer os mesmos tratamentos da etapa 1 e depois podemos avaliar os modelos com esses dados dessa maneira.

Curso de Ciência de Dados Aula5
Repetindo os tratamentos da etapa 1

Para a terceira etapa nós vamos inserir a informação do porto de embarque dentro da base de dados, e aqui como não exista uma relação entre os valores vamos utilizar o One Hot Encoding.

OBS: Lembrando que todos os links estão dentro do arquivo, então você pode acessar as documentações caso tenha alguma dúvida!

Com isso vamos gerar 3 colunas, uma para cada porto, onde cada porto vai ser representado por uma dessas colunas, então só vamos ter o valor 1 em uma dessas colunas, nunca mais de um ao mesmo tempo.

Curso de Ciência de Dados Aula5
Tratando os dados

Depois podemos novamente avaliar os modelos com esses dados.

Para a última etapa nós vamos retirar algumas colunas da base para fazer nossas análises e verificar os resultados.

Curso de Ciência de Dados Aula5
Etapa 4 – Retirando as colunas da base de dados

Claro que você vai analisar todas as etapas, pode até ir registrando os resultados de acurácia, precisão e recall para cada um dos modelos de classificação.

Registro total de todas as métricas
Registro total de todas as métricas

Com isso nós temos que a etapa 4 levou a uma acurácia de 95%, uma precisão de 93% e um recall de 94%. Então se o cliente queria algo acima de 90% nós já podemos parar por aqui.

Você vai notar que cada etapa vai ter um resultado diferente, então você pode ir fazendo o seu tratamento até chegar nos valores que foram estipulados.

Veja que já tivemos uma precisão de 94% com outro tratamento de dados, por isso que vai depender do que você precisa para o projeto para não ter que ficar fazendo esses tratamentos infinitamente.

Se a precisão de 90% já é suficiente poderíamos já ter parado onde temos 94%, mas é importante que você entenda que pode ir fazendo diferentes tipos de tratamentos para obter diferentes resultados, até chegar no seu objetivo!

Aqui você nota que o nosso modelo inicial era de 58% de acurácia e nós conseguimos chegar em um modelo com 95% de acurácia.

Com isso você nota o quão importante é o tratamento de dados para melhorar o nosso modelo de classificação.

Conclusão – Curso de Ciência de Dados Aula5

Nessa aula eu te mostrei a importância do tratamento de dados dentro de um projeto de ciência de dados. E é exatamente isso o que um cientista de dados vai fazer.

Vai fazer tratamentos de dados, trazer novos algoritmos para poder chegar no que lhe foi proposto. E você notou que apenas com o tratamento de dados conseguimos sair de 58% de acurácia no modelo inicial para 95% de acurácia no modelo final!

Hashtag Treinamentos

Para acessar outras publicações de Ciência de Dados, clique aqui!


Quer aprender mais sobre Python com um minicurso básico gratuito?

Quer receber um minicurso 100% gratuito de Excel? Preencha seu e-mail abaixo!