Blog

Postado em em 24 de outubro de 2022

Ciência de Dados em Uma Aula – Saia do Zero em Apenas Uma Aula!

Hoje eu quero que você saia do zero em ciência de dados em uma aula, isso mesmo, uma aula para você aprender como criar um projeto!

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Ciência de Dados em Uma Aula

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Ciência de Dados em Uma Aula

Quer aprender ciência de dados em uma aula? Hoje eu quero que você dê seus primeiros passos em ciência de dados e entenda que isso não é um bicho de 7 cabeças!

Vamos dividir essa aula nas principais etapas de um projeto de ciência de dados, assim fica mais fácil para você entender como funciona e saber qual parte tem mais dificuldade ou até que gosta mais!

Saia do Zero em Ciência de Dados

Você vai notar que em um projeto de ciência de dados não vamos chegar de cara resolvendo um problema, primeiro vamos fazer a definição do problema, entender e tratar os dados…

São algumas etapas que temos que passar para chegar nessa resolução, então vamos as principais etapas de um projeto de ciência de dados:

Antes de começar é importante falar que aqui nós vamos utilizar o editor de Python Jupyter, então se você não tem, recomendo que utilize o mesmo que vamos usar para que consiga visualizar os resultados da mesma forma.

Para isso basta clicar aqui, pois temos uma publicação que ensina o passo a passo para instalação do Pacote Anaconda que contém esse editor de Python.

Preparado para aprender ciência de dados em uma aula? Então vamos à aula!

DEFINIÇÃO DO PROBLEMA

O que é definir um problema? Nada mais é do que descobrir o que queremos responder, qual o nosso objetivo, como vamos usar os dados, descobrir o valor de um imóvel no futuro, classificar um produto, saber qual a classificação de um cliente baseado no seu histórico…

Podemos fazer diversas previsões, classificações, pode até criar um algoritmo de recomendação como o Netflix faz para te recomendar filmes/séries…

Então temos uma infinidade de possibilidades dentro de ciência de dados!

Definição do problema
Ciência de Dados em Uma Aula

OBS: Essas informações são muito importantes, pois é a partir delas que você vai criar o seu projeto, então tudo precisa estar alinhado para que não tenha problemas ao terminar o projeto!

Essa é a definição do problema, e logo na parte superior do arquivo você vai ver que temos o nosso problema.

Prevendo o preço do aluguel
Ciência de Dados em Uma Aula

A ideia é prever o preço do aluguel em São Paulo. Nessa aula eu vou te mostrar como nós vamos fazer isso com ciência de dados!

Depois que definimos o problema e sabemos qual é o problema a ser resolvido nós vamos passar para o entendimento e tratamento de dados!

ENTENDIMENTO E TRATAMENTO DE DADOS

Vamos utilizar o pandas para nos ajudar em todas essas etapas de entendimento dos dados. Pode dar uma olhada no site: https://pandas.pydata.org/

Sugestão de conteúdo (Aula 2 do Curso Básico de Ciência de Dados – Conceitos do Pandas): https://www.youtube.com/watch?v=ngTMLkXWMIc&t=75s

Para esse problema, vamos usar a seguinte base de dados:

https://www.kaggle.com/datasets/dantebarros/transformed-data-from-quinto-andars-platform

Nós precisamos entender os dados disponíveis para que seja possível fazer o tratamento de dados da maneira correta e para que possamos trazer a solução adequada.

O pandas é que a biblioteca que vamos utilizar para tratamento de análise de dados é uma biblioteca muito utilizada nessa área e nós já deixamos disponíveis tanto a introdução ao pandas quanto o link da aula do curso básico para que você possa se aprofundar no assunto.

Lembrando que uma biblioteca nada mais é do que um conjunto de códigos que alguém já criou e disponibilizou para facilitar algumas atividades sem que você precise criar isso do zero.

Então pode ler arquivos, visualizar linhas, fazer cálculos, criar gráficos…

IMPORTANTE: Você pode sempre procurar pelas documentações das bibliotecas que estiver utilizando, que sempre vai encontrar todo o passo a passo de como ela funciona, como iniciar a biblioteca, o que precisa fazer para instalar e muito mais!

Sabendo de tudo isso nós podemos dar início ao nosso tratamento de dados!

Visualizando a base de dados
Visualizando a base de dados

Aqui nós temos a importação da biblioteca, utilizamos o import para trazer essa biblioteca para dentro do nosso código para que possamos utilizar as funções dela.

OBS: Ao importar a biblioteca nós colocamos o texto “as pd” para facilitar o uso da biblioteca, assim sempre que formos utilizar algum comando não vamos precisar escrever por exemplo pandas.read_csv, vamos poder escrever pd.read_csv. Isso vai acelerar a escrita do seu código!

Em seguida nós vamos utilizar um comando dessa biblioteca, que é o pd.read_csv para ler um arquivo no formato csv.

No terceiro bloco de código vamos utilizar o comando base.head, que é para mostrar as informações iniciais da nossa base, pois foi assim que chamamos as informação ao ler os dados do arquivo.

Nesse caso vamos ver apenas as 3 primeiras informações da base de dados para que você já consiga entender com quais informações estamos lidando.

Feito isso nós vamos verificar as informações dessa base de dados.

Verificando as informações da base de dados
Verificando as informações da base de dados

Com o comando .info() nós conseguimos visualizar a quantidade de valores não nulos e o tipo de informação que temos em cada coluna.

Isso é importante, pois dependendo das informações que vamos trabalhar vamos ter que verificar se elas estão de fato formatadas da maneira correta, até para que as operações e os tratamentos sejam feitos de forma correta.

Vimos que algumas colunas possuem valores nulos, então podemos utilizar base.isnull().sum() para somar todos os valores nulos, assim fica mais fácil visualizar quantos valores nulos nós temos.

Verificando as informações nulas na base
Verificando as informações nulas na base

É importante fazer essa verificação, pois podemos ou descartar essas informações ou preenchê-las de alguma forma.

Isso é necessário para que tanto o tratamento quanto análise dos dados sejam com informações de fato. Então temos que verificar como vamos proceder com esse tipo de informação.

Por isso que é importante entender a sua base de dados e entender o motivo dessas informações serem nulas.

Filtrando os valores nulos
Filtrando os valores nulos

Veja que agora vamos filtrar as informações onde somente a informação do condomínio é nula, assim podemos analisar melhor do que se trata.

Como temos os links dos anúncios, nada melhor do que acessar um deles para fazer essa verificação.

Verificando um anúncio
Verificando um anúncio

Com isso você já entende que de fato esses anúncios não possuem condomínio, então podemos substituir essas informações por 0.

Filtrando os registros nulos
Filtrando os registros nulos

Vamos então filtrar apenas as informações em que o valor de condomínio é nulo.

Selecionando a coluna de condomínio
Selecionando a coluna de condomínio e substituindo o valor por 0

Por fim vamos selecionar apenas essa coluna, que possui os valores nulos e vamos substituir essas informações por 0, pois o valor do condomínio não existe, então é zero.

Verificando novamente os valores nulos da base de dados
Verificando novamente os valores nulos da base de dados

Agora verificando as informações vazias, temos apenas 8 em relação ao iptu, então vamos repetir o procedimento para verificar essas informações.

Ao acessar um dos anúncios foi possível ver que ele nem existia mais, então o que nós podemos fazer é verificar quantas informações vazias temos e depois excluir essas linhas sem valor.

Verificando as informações de iptu nulas
Verificando as informações de iptu nulas

Você vai notar que agora temos uma quantidade menor de linhas, pois excluímos algumas informações.

Para finalizar você pode fazer a verificação novamente para garantir que não temos mais informações vazias dentro da nossa base de dados.

Essa parte inicial é muito importante, pois vamos tratar os dados e deixar toda a base de dados pronta para ser utilizada sem informações vazias ou inúteis.

Então é muito importante que você faça sempre essa parte, pois isso vai afetar diretamente no seu resultado, se começa a jogar informações vazias e informações com formato errado o seu projeto provavelmente não vai prever os resultados como deveria e você vai ter todo um trabalho desperdiçado.

Analisando a primeira coluna da base de dados
Analisando a primeira coluna da base de dados

Para finalizar essa parte nós vamos verificar que a nossa primeira coluna é uma coluna que contém a url de todos os anúncios, mas para o nosso modelo isso não vai ser importante, pois a ideia é prever o preço do aluguel e as informações dos anúncios já estão na nossa base!

ANÁLISE EXPLORATÓRIA DE DADOS

Agora nós vamos para a parte para explorar a nossa base de dados, mas ainda vamos continuar utilizando a biblioteca do pandas.

Aqui temos uma sugestão desse tema em vídeo, caso queira se aprofundar um pouco mais no assunto e entender melhor do que se trata:

Ciência de Dados em Uma Aula
Analisando as informações estatística da base de dados
Analisando as informações estatística da base de dados

Aqui nós podemos começar utilizando o comando .describe, que vai trazer um resumo estatístico dessas informações.

Vou agora te mostrar como fazer esses cálculos de média, desvio padrão, mínimo e máximo.

Como fazer os cálculos dentro do Python
Como fazer os cálculos dentro do Python

Você vai notar que basicamente no último bloco de código é que temos todas as informações para esse cálculo, então vamos colocar o nome da base, depois o nome da coluna e por fim qual a métrica que vamos utilizar.

Lembrando que aqui os comandos são em inglês, então as abreviações também serão em inglês!

O que são os 50% na estatística da base de dados
O que são os 50% na estatística da base de dados

Temos a informação de 50% dentro do nosso resumo estatístico, e o que significa isso? Aqui nós temos uma linha marcando o mínimo, a mediana e o máximo.

Esses 50% querem dizer que 50% dos valores da nossa base de dados (em aluguel, pois é o que estamos analisando) estão entre o valor mínimo e a mediana, enquanto os outros 50% estão entre a mediana e o valor máximo.

Então aqui você já consegue notar que além do valor 1950 aparecer mais vezes (que é a mediana) a metade dos valores que temos de aluguel está entre 500 e 1950 reais.

Análise dos valores de 25% e 75%
Análise dos valores de 25% e 75%

Os valores de 25% e 75% vão ser da mesma maneira, então podemos dividir esse intervalo em 4 e você vai notar que a quantidade de alugueis entre 500 e 2735 aparece muito mais do que os alugueis com valores acima de 2375.

Então temos apenas 25% dos alugueis na faixa de valor acima dos 2375 reais, isso quer dizer que a maior parte está abaixo desse valor.

Para melhorar um pouco da visualização da quantidade de alugueis em uma faixa, nós podemos utilizar um histograma, nesse caso já melhorado para deixar ainda mais visível os resultados.

Gráfico melhorado do histograma
Gráfico melhorado do histograma

Você nota que de fato o valor que mais aparece está pouco antes de 2000, que é exatamente a nossa mediana de 1950.

Analisando as 10 propriedades mais caras
Analisando as 10 propriedades mais caras

Aqui nós vamos visualizar as 10 propriedades com os maiores valores de aluguel em ordem decrescente. Assim você consegue entender o motivo desses aluguéis serem maiores.

Mas veja só um fato interessante que ainda precisamos tratar nessa etapa, você notou que temos informações duplicadas nessas 10 informações que estamos analisando?

Isso quer dizer que vamos ter que fazer um novo tratamento na nossa base de dados para remover as informações duplicadas.

Removendo as informações duplicadas
Removendo as informações duplicadas

Inicialmente nós vamos verificar quantos valores nós temos duplicados na base de dados. Sabendo disso já podemos excluir essas informações e voltar para nossa análise dos 10 maiores aluguéis!

Visualizando novamente as propriedades mais caras (sem valores duplicados)
Visualizando novamente as propriedades mais caras (sem valores duplicados)

Agora tendo essas informações nós podemos verificar se existe uma relação entre a metragem com o aluguel e se existe relação entre a quantidade de quartos e o aluguel.

Gráfico para visualizar melhor as informações
Gráfico para visualizar melhor as informações

Além do pandas para a construção de gráficos nós podemos utilizar tanto o matplotlib quanto o seaborn, que são bibliotecas gráficas.

Isso quer dizer que vamos ter mais recursos para a construção desses gráficos deixando a nossa visualização ainda melhor.

Usando o boxplot para outra visualização
Usando o boxplot para outra visualização

Aqui vamos verificar a média de aluguel entre propriedades próximas e distantes do metrô.

OBS: Caso tenha dificuldades em entender esse gráfico boxplot, nós temos uma publicação de Estatística para Ciência de Dados que explica com mais detalhes, basta clicar aqui para acessar essa publicação.

Agora imagine que você queira avaliar o bairro em relação ao aluguel.

Visualizando gráfico de aluguel por bairro
Visualizando gráfico de aluguel por bairro

Você vai notar que vamos ter diferentes formas e diferentes gráficos para fazer essas avaliações e tudo isso é levado em consideração, até porque a ideia aqui é prever o valor do aluguel, então já estamos verificando quais as informações que mais vão interferir no valor.

Feito isso podemos fazer outras análises, como verificar qual é a quantidade de registros em cada um dos bairros.

Quantidade de registros em cada bairro
Quantidade de registros em cada bairro

Aqui você vai notar que temos bairros com muito mais registros do que outros, isso também pode afetar nas suas análises.

Dentro do tratamento de dados, nós podemos inserir informações dentro dessa base caso seja necessário.

Incluindo a informação de região
Incluindo a informação de região

Nesse caso estamos lendo um arquivo em Excel com informações de bairros e regiões, em seguida estamos acrescentando essas informações dentro da nossa base de dados.

Então agora temos uma informação de bairro e região ao final da nossa base de dados, então é mais uma análise que podemos fazer, se a região afeta o valor do aluguel.

OBS: Veja que era algo que não estava na nossa base de dados, mas conseguimos colocar isso sem prejudicar em nada nossa análise, na verdade podemos até fazer uma nova análise por conta disso.

Sempre que adicionamos novos dados é importante garantir que não temos valores vazios, então vamos novamente verificar se temos dentro da coluna de região que acabamos de inserir, algum valor nulo.

Filtrando valores onde a região é nula
Filtrando valores onde a região é nula

De fato, temos alguns registros vazios. Agora vamos verificar se dentro da base que utilizamos para adicionar esses dados se temos a região Vila Maria, que é a região que ficou com informações nulas.

Verificando se existe a região na base de dados que importamos
Verificando se existe a região na base de dados que importamos

Aqui você consegue notar que temos essa informação dentro da base de dados que trouxemos as outras informações, mas por algum motivo ela não foi preenchida.

Ajustando a região corrigindo o nome do bairro
Ajustando a região corrigindo o nome do bairro

Vamos repetir o procedimento de trazer apenas as informações do nome do bairro, em seguida vamos substituir dentre esses registros a informação de região para Norte.

Depois vamos corrigir o nome dentro da nossa base de dados, pois o nome que temos está “Vila Maria ”. Se você notar temos um espaço em branco depois do nome do bairro.

Isso gerou o nosso problema, pois pesquisamos exatamente por esse nome, e como não tivemos uma correspondência desses dois nomes essa informação foi deixada como nula.

IMPORTANTE: Quando temos informações de texto é muito importante verificar que elas estão corretas, se não tem espaços, se não tem caracteres que possam trazer problemas, ou até mesmo um erro de digitação.

Por fim verificamos novamente se temos informações nulas, mas desse vez não temos nenhuma!

Visualizando o aluguel por região
Visualizando o aluguel por região

Agora podemos traçar um gráfico por região para facilitar um pouco a visualização e análise dos dados ao invés de olhar bairro por bairro que pode acabar dificultando.

Como temos novas informações, podemos fazer novas análises como falei anteriormente, então podemos verificar novamente a questão da metragem em relação as regiões.

Verificando a relação entre o aluguel e a metragem em diferentes regiões
Verificando a relação entre o aluguel e a metragem em diferentes regiões

Não vamos focar nisso agora, mas saiba que é possível criar gráficos mais elaborados, inclusive plotar todas as regiões em um único gráfico.

Gráfico com todas as regiões juntas
Gráfico com todas as regiões juntas

OBS: Temos o código dentro do arquivo disponível para download! Inclusive com um gráfico com todas as regiões separadas em um único plot.

Vamos verificar a correlação entre as variáveis, lembrando que no nosso post sobre Análise Exploratória temos alguns detalhes sobre como essa análise funciona e o que significam os resultados.

Além de colocar isso em forma de tabela, podemos deixar essa informação mais visual utilizando o seaborn. Com isso vamos criar um mapa de calor com essas informações.

Mapa de calor de correlações
Mapa de calor de correlações

Além disso podemos ver graficamente a relação entre algumas variáveis, assim fica mais fácil verificar a relação entre elas.

Gráfico de relação entre algumas variáveis
Gráfico de relação entre algumas variáveis

Vamos verificar agora o outlier do total. O outlier nada mais é do que um valor fora do comum, então naquele nosso gráfico bloxplot ele seria aqueles pontos. Que estão fora do máximo e do mínimo e fora das nossas caixas.

Verificando o outlier do total
Verificando o outlier do total

Nesse caso, podemos verificar que em uma ocorrência nós temos um valor de iptu de R$495.800,00, só que ao verificar no site, onde temos essas informações, vimos que o valor correto é de R$495,8.

Isso quer dizer que tivemos um erro na hora de passar esse resultado e o nosso total para essa unidade ficou com um valor muito alto, por isso já se tornou um outlier, porque estava fora do nosso padrão.

Lembrando que isso pode acontecer com mais dados, mas nesse caso tínhamos um valor muito absurdo.

TRATAMENTO DOS DADOS

Agora que já fizemos análise exploratória, vimos algumas análises possíveis, criamos até outras análises que não tínhamos inicialmente, podemos partir para o tratamento dos dados.

Verificando a taxa de serviço
Verificando a taxa de serviço

Vamos verificar tanto a taxa de serviço quanto a taxa de seguro de incêndio. Aqui nós temos um percentual do valor do aluguel. Isso quer dizer que essas duas taxas já estão inclusivas no valor do aluguel.

Apagando as informações desnecessárias
Apagando as informações desnecessárias

Então podemos excluir as duas colunas que acabamos de calcular assim como as colunas que contém a taxa de serviço e seguro incêndio.

Repetindo o mesmo procedimento para o iptu
Repetindo o mesmo procedimento para o iptu

Podemos fazer o mesmo cálculo para o IPTU, mas nesse caso vamos excluir apenas a coluna utilizada para fazer esse cálculo.

E por fim vamos excluir a coluna total, pois ela está somando as taxas de serviço e seguro incêndio duas vezes, pois já estão inclusas no aluguel e estão sendo somadas de forma separada.

Infelizmente alguns modelos não conseguem trabalhar com textos, então temos que transformar as colunas que possuem texto para que possamos trabalhar com essas informações.

Ciência de Dados em Uma Aula
Verificando as informações da base

Podemos então eliminar as duas colunas de bairro, pois tínhamos a primeira da própria base de dados e uma segunda que trouxemos na hora de trazer as regiões.

Podemos fazer o One Hot Encoding usando o .get_dummies() para transformar a coluna de região em novas colunas numéricas e o .concat() para unir essas colunas com a nossa base.

https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

https://pandas.pydata.org/docs/reference/api/pandas.concat.html

Ciência de Dados em Uma Aula
Transformando as informações de texto em número

A ideia aqui é basicamente criar uma coluna para cada região e inserir o valor 1 para a região que correspondente ao bairro.

Então em uma linha só vamos poder ter uma informação de bairro igual a 1, pois isso vai indicar de qual bairro é essa propriedade e assim tornamos nossa informação de região em um número.

Com o concat vamos juntar as informações na nossa base de dados e por fim podemos excluir as informações da coluna de região.

Ciência de Dados em Uma Aula
Concatenando as informações na base de dados

Assim não teremos mais informações de texto dentro da nossa base de dados!

DEFINIÇÃO DO MODELO

Agora que já ajustamos a nossa base de dados vamos entrar na definição do modelo. Vou deixar uma breve descrição que também está disponível no nosso arquivo, para que você saiba qual tipo de modelo vamos usar e também uma sugestão de conteúdo.

Para falar de algoritmos de Machine Learning, vamos usar outra biblioteca extremamente importante para Ciência de Dados: https://scikit-learn.org/stable/

Antes de tudo, precisamos pensar em qual problema queremos resolver. Sugestão de conteúdo: https://www.youtube.com/watch?v=kxWVXKgaVQ8&t=3s

Se temos exemplos, com resultados (rótulos / labels), do que queremos prever, estamos falando de aprendizado supervisionado.

Regressão: Prever um valor numérico contínuo

Exemplo: Prever o valor de uma casa, do aluguel, a quantidade de vendas,…

Classificação: Prever uma classe

Exemplo: Prever se a fruta é banana ou maçã, se uma transação é fraude, se a pessoa possui ou não uma doença,…

Se não temos os valores dos resultados e queremos apenas descobrir estruturas e padrões semelhantes, temos um problema de aprendizado não supervisionado.

Exemplo: Agrupar clientes, definir cesta de produtos, agrupar frutas sem saber qual é maçã ou banana,…

Antes de definir o modelo, precisamos separar os nossos dados em treino e teste. Essa etapa é extremamente importante, pois vamos precisar avaliar a qualidade do nosso modelo, e só conseguimos fazer isso utilizando os dados de teste.

A ideia é que você tenha uma base para treinar o seu modelo e outra para fazer o teste, pois se utilizarmos a mesma base é possível que o nosso modelo fique “viciado” e decore as informações. Então no final ele não vai trazer o resultado que queremos.

Ciência de Dados em Uma Aula
Separando a base em treino e teste

Aqui nós vamos fazer a separação das nossas variáveis, vamos utilizar o x para fazer a previsão, e a nossa variável alvo é o y, que é o valor que queremos prever.

Ciência de Dados em Uma Aula
Modelo de regressão linear

Feito isso podemos usar a base de treino para criar o nosso modelo utilizando diferentes algoritmos. Aqui vamos iniciar com a Regressão Linear.

Para cada modelo que criarmos, devemos analisar o erro desse modelo. Faremos isso utilizando os dados de teste.

Sugestão de conteúdo: https://www.youtube.com/watch?v=MhrLbpAmwfA

Para analisar erros, o próprio Scikit-Learn já oferece o metrics:

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics

Ciência de Dados em Uma Aula
Fazendo a previsão com o modelo e avaliando o erro

Aqui vamos fazer a análise do modelo de regressão para que você veja como o modelo de comporta em relação aos dados que temos.

Agora nós vamos comparar com outro modelo, que será o de árvore de decisão:

https://scikit-learn.org/stable/modules/tree.html#regression

Ciência de Dados em Uma Aula
Utilizando o modelo de árvore de decisão

Além disso podemos visualizar graficamente, para que você possa nota como esse modelo está se adequando aos dados.

Ciência de Dados em Uma Aula
Visualizando o modelo de forma gráfica

Podemos também avaliar outros erros, como o erro quadrático médio para comprar entre os dois modelos.

Ciência de Dados em Uma Aula
Avaliando o erro quadrático médio

Aqui nós vamos poder buscar novas formas de melhorar o modelo, voltando no processo de tratamento de dados, selecionando novos modelos, eliminando colunas, ajustando os hiper parâmetros…

Temos várias formas de fazer isso e temos como avaliar um modelo de classificação, assim você sabe se o modelo está bom ou não, em relação ao outro.

Alguns exemplos desses testes estão no arquivo que está disponível para download. Aqui vamos te mostrar se adicionarmos um novo algoritmo.

Ciência de Dados em Uma Aula
Adicionando um novo algoritmo (random forest)

Agora vamos fazer a comparação do modelo de regressão, árvore de decisão 1, árvore de decisão 2 (com diferentes parâmetros) e o random forest, que é esse último modelo.

Ciência de Dados em Uma Aula
Comparando todos os modelos

MODELO EM PRODUÇÃO

Agora nós vamos para a parte final da nossa aula, aqui vamos fazer o que chamamos de persistir o modelo, ou seja, vamos fazer com que ele funcione além do código.

Até porque você não vai querer que o seu cliente tenha que rodar todos esses códigos para ter o resultado que ele quer não é mesmo?

https://scikit-learn.org/stable/model_persistence.html?highlight=model+persistence

Sugestão de conteúdo: https://www.youtube.com/watch?v=eoOQLzYJ3sE&t=167s

Ciência de Dados em Uma Aula
Importando o dum do joblib

A ideia aqui é facilitar esse processo, pois como temos muitas informações isso demora para ser processado. Agora imagine que toda vez que quiser repetir o mesmo processo você tenha que esperar tudo processar?

Então agora que já fizemos isso, podemos exportar esse modelo para que qualquer pessoa possa utilizar sem precisar treinando e validando o modelo.

Mas agora como vamos utilizar esse modelo? Isso é fácil, eu vou te mostrar agora!

IMPORTANTE: Para o que eu vou te mostrar agora você vai utilizar o outro arquivo que também está disponível para download que é o Modelo_em_producao.

Ciência de Dados em Uma Aula
Importando a base que será analisada

Inicialmente vamos trazer a base que queremos para fazer a previsão, veja que agora estamos utilizando a base producao.csv.

Vale lembrar que todos os tratamentos que nós fizemos na base do modelo, vamos precisar fazer para essa base de produção.

Aqui já facilita um pouco, pois não temos as colunas com seguro incêndio, taxa de serviço e total. Então só vamos precisar fazer o tratamento dos bairros.

Ciência de Dados em Uma Aula
Ajustando as informações de região

Lembrando que aqui estamos utilizando o One Hot Encoding para transformar o texto das regiões em colunas com números, assim não vamos ter mais nenhum texto.

Além disso excluímos as duas colunas de bairro, pois não vamos utilizá-las, assim nossa base de dados está pronta só com informações numéricas.

Ciência de Dados em Uma Aula
Fazendo a previsão dos novos dados

Agora podemos recuperar o modelo que criamos e utilizar ele para fazer a previsão desses novos dados que acabamos de tratar.

Feito isso temos o nosso resultado da previsão de aluguel e já podemos exportar essas informações em um arquivo de Excel para entregar ao responsável!

Conclusão – Ciência de Dados em Uma Aula

Essa foi uma aula longa, eu sei, mas foi para te mostrar como sair do zero em Ciência de Dados em uma aula e para que você consiga ter uma noção de como é a construção de um projeto do início ao fim.

Então temos várias etapas até conseguir entregar o resultado para o cliente, mas você viu que não temos um único modelo correto, isso vai depender de cada caso, ou até mesmo nos resultados que o cliente quer.

As vezes ele quer um modelo mais preciso, então tudo isso vai depender da necessidade do cliente e vale ressaltar que isso já tem que ser ajustado no início do projeto, para que você não faça todo o trabalho para no final o cliente dizer que não está satisfeito.

Por isso é muito importante alinhar as expectativas, resultados para que a entrega seja feita de forma correta e sem problemas!

Hashtag Treinamentos

Para acessar outras publicações de Ciência de Dados, clique aqui!


Quer aprender mais sobre Python com um minicurso básico gratuito?

Quer sair do zero no Python e virar uma referência na sua empresa? Inscreva-se agora mesmo no Python Impressionador