Blog

Postado em em 21 de maio de 2022

Projeto de Machine Learning – Passo a Passo

Nessa aula eu quero te mostrar o passo a passo de um projeto de machine learning para que você consiga criar seu projeto!

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Projeto de Machine Learning no Python

Hoje nós vamos abordar um projeto de machine learning no Python, então vamos mostrar um passo a passo do que será necessário para construção desse projeto.

Para isso nós vamos utilizar algumas bibliotecas já conhecidas e vamos fazer a criação do modelo de machine learning.

Projeto de Machine Learning

A ideia é te mostrar o passo a passo que a gente percorre em um projeto desses para que você consiga entender todas as etapas e o que vai precisar fazer!

Para esse projeto nós vamos fazer uma análise dos preços das casas de Melbourne (que é uma cidade) e já temos uma base de dados com algumas informações.

A ideia é criar um modelo para prever os preços dessas casas. Esse projeto pode ser para uma pessoa ou empresa que compra e vende casas.

Então dessa forma pode avaliar quais os preços de venda que estão adequados para a venda e caso queira comprar vai saber se o preço está dentro da faixa aceitável ou já está acima dos valores praticados.

Importação de bibliotecas e base de dados
Importação de bibliotecas e base de dados

Inicialmente nós vamos iniciar com a importação das bibliotecas: biblioteca pandas, biblioteca matplotlib, biblioteca seaborn e o pandas profiling.

Em seguida vamos importar a base de dados (que está disponível para download assim como os códigos que vamos utilizar).

No segundo arquivo disponível nós temos a análise feita com o pandas profiling, para que você possa visualizar o resumo dessa base de dados.

Assim você vai poder fazer algumas análises de forma rápida já com esse resumo. Caso você ainda tenha dúvidas em relação ao machine learning, nós temos uma publicação sobre uma estimativa de vendas que pode te auxiliar.

Tratamento da base de dados removendo colunas e informações nulas
Tratamento da base de dados removendo colunas e informações nulas

Dentro do nosso resumo nós podemos ver algumas informações que podem não se úteis nesse primeiro momento para essa nossa análise.

Por esse motivo nós vamos excluir as colunas que possuem alta cardinalidade e vamos excluir também as colunas que possuem mais de 20% dos valores nulos.

Você vai notar que dentro do resumo existem colunas com quase 50% das informações nulas.

IMPORTANTE: Sempre que você for excluir uma coluna é muito importante que você saiba o impacto que isso vai fazer para a sua análise, pois nem sempre você vai utilizar os mesmos parâmetros, então em alguns casos pode ser que isso atrapalhe a sua análise.

Lembrando que como estamos em um projeto é muito importante que você visualize os dados e veja o que vai ser útil e o que vai atrapalhar nas suas análises.

A partir desse momento é que você vai conseguir excluir as colunas que não são necessárias para facilitar o processo.

Depois de remover as colunas e visualizar os dados para entender a sua base nós vamos verificar a correlação entre as variáveis.

Correlação entre as variáveis
Correlação entre as variáveis

Aqui nós vamos ter a correlação entre essas variáveis utilizando o seaborn para criação do gráfico.

Quanto mais próximo de 1 as informações vão crescer na mesma proporção, caso seja mais próximo de -1 vão crescer na proporção inversa.

Agora quanto mais próximo de 0 significa que não temos relação entre as duas variáveis.

Escolhendo as informações com os maiores valores de correlação
Escolhendo as informações com os maiores valores de correlação

Isso quer dizer que não vamos utilizar nesse exemplo aas variáveis de texto, até porque teríamos que fazer essa conversão para número para que pudéssemos de fato ter uma correlação entre elas.

Verificando os dados da base tratada
Verificando os dados da base tratada

Aqui estamos fazendo mais uma verificação na nossa base com os dados que vamos utilizar e na coluna Car (carro) nós temos alguns valores vazios, e como fizemos no início, aqui também vamos eliminar esses valores vazios.

Começando a criação do modelo de Machine Learning
Começando a criação do modelo de Machine Learning

Dentro do sklearn nós conseguimos obter o model selection, que vai auxiliar nessa parte de dividir seus dados em treino e teste.

Caso queira mais detalhes sobre isso nós temos uma aula sobre algoritmo de classificação no Python que pode te auxiliar.

Feito isso nós vamos escolher o modelo a ser utilizado, então inicialmente vamos começar com a Regressão Linear.

Modelo de regressão linear
Modelo de regressão linear

São passos bem simples, mas não vamos entrar em muitos detalhes desse modelo. No gráfico gerado você vai notar que as informações estão concentradas em uma única parte do gráfico.

Isso quer dizer que os valores não estão corretos, portanto, o modelo não foi bom. Mas além da parte visual nós podemos avaliar esse modelo de outra forma.

Podemos analisar o erro quadrático médio e o R quadrado.

Projeto de Machine Learning
Calculando os erros do modelo

Agora para a comparação nós geralmente fazemos em relação a outros modelos, por isso vamos utilizar a regressão linear novamente, só que agora utilizando a base de dados sem remover nenhuma das colunas.

Projeto de Machine Learning
Calculando os erros do modelo utilizando todos os dados

Aqui você já nota que esse modelo já está muito mais perto de 1 do que o valor de 0,3 que tivemos no primeiro modelo.

Então aqui já estamos muito mais perto dos valores reais do que o nosso modelo inicial.

Para ter uma última comparação nós vamos utilizar o modelo Árvore de Decisão.

Projeto de Machine Learning
Modelo de árvore de decisão

Para esse modelo temos um resultado ainda melhor, então esse seria o melhor modelo para o nosso projeto!

Projeto de Machine Learning
Resumo dos modelos testados

No final nós temos um resumo para que você consiga visualizar os resultados de cada um dos modelos.

Nesse caso o melhor modelo seria de fato a Árvore de Decisão!

Conclusão

Nessa aula eu te mostrei o passo a passo de um projeto de machine learning para que você entenda quais passos seguir para chegar no seu resultado.

E claro, tivemos o resumo da base de dados para auxiliar, fizemos o tratamento da base de dados de acordo com a nossa necessidade.

Por fim fizemos alguns testes com os modelos de regressão linear e árvore de decisão para fazer a comparação e verificar qual deles é o melhor modelo para esse projeto.

Hashtag Treinamentos

Para acessar outras publicações de Ciência de Dados, clique aqui!


Quer aprender mais sobre Python com um minicurso gratuito?


Vire uma referência no Mercado de Trabalho por causa do Power BI!

Quer saber como? Inscreva-se no Intensivão de Power BI! É gratuito!