Blog

Postado em em 11 de agosto de 2022

Avaliando Erros em Modelos de Regressão – Machine Learning

Hoje vamos estar avaliando erros em modelos de regressão para melhorar sua base de conhecimento em aprendizado de máquinas.

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Avaliando Erros em Modelos de Regressão

Hoje nós vamos fazer uma avaliação de erros em modelos de regressão para complementar a sua base de informação para ciência de dados.

Essa base é importante, pois esse conhecimento vai te ajudar nos seus projetos futuros de aprendizado de máquina e ciência de dados.

Avaliando erro na Regressão Linear

Nós vimos que ao avaliar o erro de classificação, podemos determinar se acertamos ou erramos um determinado valor.

E depois para verificar a acurácia bastava dividir um valor pelo outro.

Erro no modelo de classificação
Erro no modelo de classificação

Para a regressão, além de verificarmos se acertamos ou não, temos que verificar o quanto estamos errando, e isso é muito importante.

Avaliação do quanto estamos errando
Avaliação do quanto estamos errando

Nesse exemplo aqui temos dois modelos, e os dois passam por dois pontos. Isso quer dizer que os dois modelos acertam para dois pontos.

Então teríamos 2 modelos iguais, já que os dois modelos acertam 2 em 4 casos. Só que na regressão vamos analisar o quanto esse modelo está errando.

Nesse exemplo simples você consegue notar que o primeiro exemplo tem um erro menor em relação ao segundo.

Só que em um exemplo real a visualização não é tão simples assim, então vamos ter que fazer essas análises para verificar também o quanto estamos errando e não só a quantidade de acertos e erros.

Então para isso vamos precisar de uma forma para calcular o erro e exibi-lo numericamente para que possamos fazer essa avaliação.

Você vai notar que tanto em um modelo de regressão quanto de árvore de decisão nós vamos ter um score.

Esse score será a nossa primeira forma para avaliar o nosso modelo. Mas o que é esse score?

Cálculo do score - Coeficiente de Determinação
Cálculo do score – Coeficiente de Determinação

Esse score seria o coeficiente de determinação, que é dado por essa fórmula, onde vamos avaliar as informações que temos com as informações do modelo (previsão).

Essa análise é feita com a média, pois é um cálculo simples e nós vamos querer sempre que o nosso resultado seja melhor do que a média.

Cálculo do score para regressão linear e árvore de decisão
Cálculo do score para regressão linear e árvore de decisão

Aqui nós vamos utilizar tanto a regressão quanto a árvore de decisão para verificar o melhor modelo.

O R² não é a melhor maneira para fazer essas análises, pois é utilizado dentro da regressão e quando temos poucas informações pode acabar tendo um overfitting dos dados.

Avaliando Erros em Modelos de Regressão
Verificando os valores dos dois modelos

Se você der uma olhada nesse exemplo, a nossa árvore de decisão encontrou valores muito precisos, então pode ter ocorrido um overfitting, ou seja, o modelo decorou os valores e acaba sendo excelente para esse caso.

Mas para outros casos pode ser que não funcione muito bem, por isso a necessidade de separar os dados em treino e teste.

Como esse modelo não tem erros nós vamos avaliar o erro da regressão linear então.

Avaliando Erros em Modelos de Regressão
Cálculo do erro médio absoluto

Vamos fazer a análise do erro médio absoluto. Ele vai medir a distância entre cada um dos pontos.

Avaliando Erros em Modelos de Regressão
Cálculo do Erro Médio Absoluto passo a passo

Aqui temos o cálculo de uma forma mais detalhada para que fique mais fácil o entendimento, então vamos pegar a variação de cada ponto em módulo e depois dividir pela quantidade de informações que analisamos.

Então no final vamos ter exatamente o valor que vimos no início.

Caso você queira fazer o tratamento de outliers, que são valores bem fora do padrão é elevar essa métrica ao quadrado, ou seja, podemos utilizar o erro quadrático médio.

Isso quer dizer que vai elevar esse erro que acabamos de calcular ao quadrado, assim você dará mais peso ao outlier se ele existir!

Conclusão – Avaliando Erros em Modelos de Regressão

Nessa aula nós fizemos uma análise em modelos de regressão para que você tenha mais conhecimento de como definir qual o melhor modelos que se ajusta aos dados.

Isso é importante, pois em exemplos simples é fácil visualizar isso como nós mostramos, quando temos 4 pontos, mas em um caso real nós vamos ter diversas variáveis.

Nesse caso nós vamos aplicar os modelos e podemos utilizar o erro médio absoluto para verificar qual deles é melhor e comparar com o que a empresa utiliza atualmente.

Hashtag Treinamentos

Para acessar outras publicações de Ciência de Dados, clique aqui!


Quer aprender mais sobre Python com um minicurso básico gratuito?

Quer sair do zero no Python e virar uma referência na sua empresa? Inscreva-se agora mesmo no Python Impressionador