Blog

Postado em em 9 de maio de 2022

Pandas Profiling no Python – Análise de Dados Rápida

Hoje eu quero te mostrar como fazer uma análise de dados rápida quando não tiver tempo utilizando o pandas profiling no Python!

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Análise de Dados em Poucos Minutos

Você provavelmente já teve alguma demanda que teve que fazer de forma muito rápida, pois não tinha tempo ou era algo urgente não é mesmo?

Isso acontece sempre no ambiente de trabalho e por esse motivo eu vou te mostrar como fazer uma análise rápida no Python!

Pandas Profiling no Python

A ideia dessa aula é te mostrar um resumo de base de dados com Pandas Profiling. Como falamos anteriormente é comum você ter algumas tarefas parecidas com essas.

As vezes por uma urgência, ou até mesmo por um atraso na entrega de um trabalho, então quero te mostrar como fazer o resumo de base de dados no Python de forma rápida utilizando o Pandas Profiling.

Documentação: https://pandas-profiling.ydata.ai/docs/master/index.html

As colunas desse dataset são:

  • Passenger ID: ID do passageiro (número único para cada um dos passageiros)
  • Survived: sobrevivente (0 = Não, 1 = Sim)
  • Pclass: Classe da passagem (1 = primeira classe, 2 = segunda classe, 3 = terceira classe)
  • Name: nome do passageiro
  • Sex: Gênero do passageiro
  • Age: Idade (em anos) do passageiro
  • SibSp: número de irmãos / cônjuges a bordo do Titanic
  • Parch: número de pais / filhos a bordo do Titanic
  • Ticket: número do ticket
  • Fare: tarifa da passagem
  • Cabin: número da cabine
  • Embarked: porto de embarque (C = Cherbourg, Q = Queenstown, S = Southampton)

Para o exemplo vamos utilizar o dataset do titanic para trabalhar com o Pandas Profiling.

OBS: Lembrando que o código, a base de dados e os resultados estão todos disponíveis para download. Então é bom que faça o download para que possa acompanhar e entender o que estamos fazendo.

O primeiro passo é fazer a instalação do pandas profiling se você ainda não tiver, pois é ele que vamos utilizar para fazer o resumo da base de dados.

Para fazer a instalação é simples, basta escrever pip install pandas-profiling no prompt do anaconda ou colocar o ! antes do código e escrevê-lo diretamente no Jupyter, que é o programa que estamos utilizando.

Você já deve saber que com o pandas conseguimos fazer algumas análises na base de dados.

# Importando as bibliotecas que vamos usar
import pandas as pd
from pandas_profiling import ProfileReport

# Importando e ajustando a base
base = pd.read_csv("Titanic-Dataset.csv")
base.columns = ["IDpassageiro","Sobrevivente","ClassePassagem","Nome","Genero","Idade","NrIrmaosConjuges","NrPaisFilhos","NrTicket","Tarifa","Cabine","PortoEmbarque"]

# Visualizando essa base
display(base)
Importando e analisando a base de dados

Nessa parte foi feita a importação da base de dados e em seguida foi feito um ajuste nos nomes das colunas para facilitar o entendimento, pois a base original está em inglês.

Além dessas análises é possível utilizar o pandas profiling para poder criar esse profile.

profile = ProfileReport(base)
profile
Pandas Profiling no Python

Pode ser que no Jupyter a visualização não fique tão boa, então você pode utilizar o comando abaixo para criar um arquivo html com essas informações.

Vai criar uma arquivo que é uma página da internet com esses resumos, assim você vai conseguir visualizar de uma forma melhor todos os dados.

profile.to_file("meu_relatorio.html")
Criando o arquivo em html com o resumo das informações

Você vai ter diversas informações de toda a sua base de dados em uma única página de forma muito rápida com esse comando.

Pandas Profiling no Python

Aqui é apenas a parte inicial dos dados, mas você tem bastante informação para analisar, temos inclusive diversos gráficos para análise!

Então em pouco tempo você conseguiu uma análise muito rápida de todas as informações da sua base de dados.

É possível que você não precise utilizar todas as informações que acabou de gerar, mas já vai ter uma grande quantidade de dados para análise sem precisar de muito esforço, então quando precisar de análises urgentes essa é uma maneira muito rápida de conseguir isso!

Conclusão do Pandas Profiling no Python

Essa foi uma aula rápida e direto ao ponto para te mostrar como criar uma análise de dados utilizando o Pandas Profiling no Python!

Então se tiver que entregar análises de dados urgentes que você não vai ter tempo hábil para criar, pode utilizar essa ferramenta que ela vai te gerar muitos dados para análise.

Pode não utilizar todos, mas vai ter informações suficientes para suas análises urgentes e isso ainda pode te salvar nessas ocasiões.

É claro que pode utilizar em outra situações, pois temos um resumo bem completo de todas as informações! Inclusive, você pode criar esse resumo para dar um olhada nas análises que ele traz, para quando precisar já ter uma noção do que vai ter!

Hashtag Treinamentos

Para acessar outras publicações de Ciência de Dados, clique aqui!


Quer aprender mais sobre Python com um minicurso básico gratuito?

Quer sair do zero no Python e virar uma referência na sua empresa? Inscreva-se agora mesmo no Python Impressionador