Hoje vamos estar avaliando erros em modelos de regressão para melhorar sua base de conhecimento em aprendizado de máquinas.
Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!
Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:
Hoje nós vamos fazer uma avaliação de erros em modelos de regressão para complementar a sua base de informação para ciência de dados.
Essa base é importante, pois esse conhecimento vai te ajudar nos seus projetos futuros de aprendizado de máquina e ciência de dados.
Nós vimos que ao avaliar o erro de classificação, podemos determinar se acertamos ou erramos um determinado valor.
E depois para verificar a acurácia bastava dividir um valor pelo outro.
Para a regressão, além de verificarmos se acertamos ou não, temos que verificar o quanto estamos errando, e isso é muito importante.
Nesse exemplo aqui temos dois modelos, e os dois passam por dois pontos. Isso quer dizer que os dois modelos acertam para dois pontos.
Então teríamos 2 modelos iguais, já que os dois modelos acertam 2 em 4 casos. Só que na regressão vamos analisar o quanto esse modelo está errando.
Nesse exemplo simples você consegue notar que o primeiro exemplo tem um erro menor em relação ao segundo.
Só que em um exemplo real a visualização não é tão simples assim, então vamos ter que fazer essas análises para verificar também o quanto estamos errando e não só a quantidade de acertos e erros.
Então para isso vamos precisar de uma forma para calcular o erro e exibi-lo numericamente para que possamos fazer essa avaliação.
Você vai notar que tanto em um modelo de regressão quanto de árvore de decisão nós vamos ter um score.
Esse score será a nossa primeira forma para avaliar o nosso modelo. Mas o que é esse score?
Esse score seria o coeficiente de determinação, que é dado por essa fórmula, onde vamos avaliar as informações que temos com as informações do modelo (previsão).
Essa análise é feita com a média, pois é um cálculo simples e nós vamos querer sempre que o nosso resultado seja melhor do que a média.
Aqui nós vamos utilizar tanto a regressão quanto a árvore de decisão para verificar o melhor modelo.
O R² não é a melhor maneira para fazer essas análises, pois é utilizado dentro da regressão e quando temos poucas informações pode acabar tendo um overfitting dos dados.
Se você der uma olhada nesse exemplo, a nossa árvore de decisão encontrou valores muito precisos, então pode ter ocorrido um overfitting, ou seja, o modelo decorou os valores e acaba sendo excelente para esse caso.
Mas para outros casos pode ser que não funcione muito bem, por isso a necessidade de separar os dados em treino e teste.
Como esse modelo não tem erros nós vamos avaliar o erro da regressão linear então.
Vamos fazer a análise do erro médio absoluto. Ele vai medir a distância entre cada um dos pontos.
Aqui temos o cálculo de uma forma mais detalhada para que fique mais fácil o entendimento, então vamos pegar a variação de cada ponto em módulo e depois dividir pela quantidade de informações que analisamos.
Então no final vamos ter exatamente o valor que vimos no início.
Caso você queira fazer o tratamento de outliers, que são valores bem fora do padrão é elevar essa métrica ao quadrado, ou seja, podemos utilizar o erro quadrático médio.
Isso quer dizer que vai elevar esse erro que acabamos de calcular ao quadrado, assim você dará mais peso ao outlier se ele existir!
Nessa aula nós fizemos uma análise em modelos de regressão para que você tenha mais conhecimento de como definir qual o melhor modelos que se ajusta aos dados.
Isso é importante, pois em exemplos simples é fácil visualizar isso como nós mostramos, quando temos 4 pontos, mas em um caso real nós vamos ter diversas variáveis.
Nesse caso nós vamos aplicar os modelos e podemos utilizar o erro médio absoluto para verificar qual deles é melhor e comparar com o que a empresa utiliza atualmente.
Para acessar outras publicações de Ciência de Dados, clique aqui!
Expert em conteúdos da Hashtag Treinamentos. Auxilia na criação de conteúdos de variados temas voltados para aqueles que acompanham nossos canais.