Hoje eu quero te mostrar como fazer uma análise de dados rápida quando não tiver tempo utilizando o pandas profiling no Python!
Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!
Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:
Você provavelmente já teve alguma demanda que teve que fazer de forma muito rápida, pois não tinha tempo ou era algo urgente não é mesmo?
Isso acontece sempre no ambiente de trabalho e por esse motivo eu vou te mostrar como fazer uma análise rápida no Python!
A ideia dessa aula é te mostrar um resumo de base de dados com Pandas Profiling. Como falamos anteriormente é comum você ter algumas tarefas parecidas com essas.
As vezes por uma urgência, ou até mesmo por um atraso na entrega de um trabalho, então quero te mostrar como fazer o resumo de base de dados no Python de forma rápida utilizando o Pandas Profiling.
Documentação: https://pandas-profiling.ydata.ai/docs/master/index.html
As colunas desse dataset são:
Para o exemplo vamos utilizar o dataset do titanic para trabalhar com o Pandas Profiling.
OBS: Lembrando que o código, a base de dados e os resultados estão todos disponíveis para download. Então é bom que faça o download para que possa acompanhar e entender o que estamos fazendo.
O primeiro passo é fazer a instalação do pandas profiling se você ainda não tiver, pois é ele que vamos utilizar para fazer o resumo da base de dados.
Para fazer a instalação é simples, basta escrever pip install pandas-profiling no prompt do anaconda ou colocar o ! antes do código e escrevê-lo diretamente no Jupyter, que é o programa que estamos utilizando.
Você já deve saber que com o pandas conseguimos fazer algumas análises na base de dados.
# Importando as bibliotecas que vamos usar
import pandas as pd
from pandas_profiling import ProfileReport
# Importando e ajustando a base
base = pd.read_csv("Titanic-Dataset.csv")
base.columns = ["IDpassageiro","Sobrevivente","ClassePassagem","Nome","Genero","Idade","NrIrmaosConjuges","NrPaisFilhos","NrTicket","Tarifa","Cabine","PortoEmbarque"]
# Visualizando essa base
display(base)
Nessa parte foi feita a importação da base de dados e em seguida foi feito um ajuste nos nomes das colunas para facilitar o entendimento, pois a base original está em inglês.
Além dessas análises é possível utilizar o pandas profiling para poder criar esse profile.
profile = ProfileReport(base)
profile
Pode ser que no Jupyter a visualização não fique tão boa, então você pode utilizar o comando abaixo para criar um arquivo html com essas informações.
Vai criar uma arquivo que é uma página da internet com esses resumos, assim você vai conseguir visualizar de uma forma melhor todos os dados.
profile.to_file("meu_relatorio.html")
Você vai ter diversas informações de toda a sua base de dados em uma única página de forma muito rápida com esse comando.
Aqui é apenas a parte inicial dos dados, mas você tem bastante informação para analisar, temos inclusive diversos gráficos para análise!
Então em pouco tempo você conseguiu uma análise muito rápida de todas as informações da sua base de dados.
É possível que você não precise utilizar todas as informações que acabou de gerar, mas já vai ter uma grande quantidade de dados para análise sem precisar de muito esforço, então quando precisar de análises urgentes essa é uma maneira muito rápida de conseguir isso!
Essa foi uma aula rápida e direto ao ponto para te mostrar como criar uma análise de dados utilizando o Pandas Profiling no Python!
Então se tiver que entregar análises de dados urgentes que você não vai ter tempo hábil para criar, pode utilizar essa ferramenta que ela vai te gerar muitos dados para análise.
Pode não utilizar todos, mas vai ter informações suficientes para suas análises urgentes e isso ainda pode te salvar nessas ocasiões.
É claro que pode utilizar em outra situações, pois temos um resumo bem completo de todas as informações! Inclusive, você pode criar esse resumo para dar um olhada nas análises que ele traz, para quando precisar já ter uma noção do que vai ter!
Para acessar outras publicações de Ciência de Dados, clique aqui!
Expert em conteúdos da Hashtag Treinamentos. Auxilia na criação de conteúdos de variados temas voltados para aqueles que acompanham nossos canais.