Postado em

Ciência de Dados

em 25 de julho de 2022

Avaliação de Modelo de Classificação – Aprendizado de Máquina

Hoje vamos fazer uma avaliação de modelo de classificação no Python para saber qual melhor modelo para usar no nosso projeto!

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Avaliando um Modelo de Classificação

Agora que você já sabe como limpar sua base de dados (data cleaning) e resolver o problema de variáveis categóricas, chegou o momento para fazer a avaliação de modelo de classificação.

A ideia então é avaliar qual o melhor modelo, qual devemos utilizar para o nosso projeto de ciência de dados.

Avaliando Modelo de Classificação

O primeiro ponto muito importante é que você não avalie o modelo utilizando os mesmos dados que foram utilizados para criar o modelo.

Por esse motivo é que separamos as bases de dados em treino e teste. Isso é importante para que o seu modelo não decore os dados (overfitting).

Dessa forma o seu modelo não vai conseguir prever o que precisa para novos dados, vai conseguir apenas para a base de dados que utilizou para sua criação.

Importando e analisando os dados

No arquivo para download nós temos as bases de treino e teste, então já podemos importá-las utilizando o pandas.

Em seguida podemos verificar a relação entre os dados. E para fazer a separação desses dados nós vamos utilizar dois modelos.

Vamos utilizar a Regressão Logística e a Árvore de Decisão, e no final nós vamos verificar qual desses modelos é o melhor para fazer essa separação.

Modelo de Regressão Logística

Aqui temos o resultado para a Regressão Logística.

Modelo de Árvore de Decisão

E aqui temos o resultado para a Árvore de Decisão. Agora para avaliar esses modelos nós vamos utilizar a matriz de confusão, pois além de mostrar o quanto acertamos, mas onde estamos acertando.

Matriz de confusão

Aqui se levarmos em consideração um exemplo de um cliente em um banco que quer pegar um crédito por exemplo, analisando apenas os erros.

Se o cliente é negativo a ideia é não dar crédito a ele, pois pode ser que ele não pague, mas pode acontecer do nosso modelo classificar esse cliente como positivo.

Então nesse caso ele é um falso positivo, pois é um cliente ruim, mas o modelo classificou como um bom pagador.

Agora podemos ter o contrário, podemos ter um bom cliente que foi classificado como um mau pagador, então ele não vai ter o seu crédito liberado.

Analisando esses dois casos você já deve ter notado que o falso positivo nesse caso é muito pior, pois estamos dando crédito a uma pessoa que pode não pagar.

OBS: Lembrando que esse é um exemplo de problema, em cada problema que tiver pode ser uma análise diferente e pode ter outra análise que acaba sendo pior, então isso vai variar de caso a caso.

Matrizes de confusão dos dois modelos

Aqui nós já temos uma análise da matriz confusão de cada um desses modelos, então para a regressão logística nós tivemos apenas 1 falso positivo, ou seja, ele era negativo e o nosso modelo o classificou como positivo.

Já no modelo da árvore de decisão tivemos 2 falsos positivos e 1 falso negativo, então já tivemos 3 classificações erradas nesse modelo.

Calculando a acurácia dos modelos

Aqui nós vamos fazer o cálculo da acurácia de cada um dos modelos utilizando o acuracy_score.

IMPORTANTE: Vale lembrar que os arquivos estão disponíveis para download e dentro do arquivo você pode acessar os links das documentações de cada ferramenta, então pode ler tranquilamente para entender tudo!

Nesse caso você já nota que a acurácia da nossa Regressão Logística é maior, mas ainda vamos fazer outras análises.

Calculando a precisão dos modelos

Aqui vamos verificar a precisão para avaliar os modelos, com isso podemos verificar o percentual de acerto da nossa classificação.

Nessa análise de precisão você nota que a Regressão Logística também teve o melhor desempenho.

Agora para nossa última análise vamos utilizar o recall

Calculando o recall dos modelos

Na precisão o positivo do modelo é o mais importante, mas no recall o positivo dos dados é que é o mais importante, então teremos uma leve mudança no nosso cálculo agora considerando os falsos negativos.

Novamente notamos que a Regressão Logística teve um desempenho melhor. Então já é possível notar que em todos os casos esse modelo foi melhor, então entre os dois modelos utilizados esse seria o modelo a ser utilizado para o nosso projeto.

Conclusão – Avaliação de Modelo de Classificação

Nessa aula eu quis te mostrar como avaliar um modelo de classificação para que você consiga escolher o melhor modelo para o seu projeto de ciência de dados.

É claro que se você precisar de uma precisão específica você vai ter que ir testando outros modelos até chegar no resultado ideal, mas para o nosso exemplo já temos uma precisão muito boa com a Regressão Logística!

Hashtag Treinamentos

Para acessar outras publicações de Ciência de Dados, clique aqui!

Quer aprender mais sobre Python com um minicurso gratuito?

Heitor Catunda

Expert em conteúdos da Hashtag Treinamentos. Auxilia na criação de conteúdos de variados temas voltados para aqueles que acompanham nossos canais.

Blog

Avaliação de Modelo de Classificação – Aprendizado de Máquina

Avaliando um Modelo de Classificação

Avaliando Modelo de Classificação

Conclusão – Avaliação de Modelo de Classificação

Hashtag Treinamentos

Categorias

Posts recentes