Blog

Postado em em 6 de março de 2023

Datasets para Começar seu Portfólio de Ciência de Dados!

Nessa aula eu quero te mostrar 6 datasets para começar seu portfólio de Ciência de Dados! Aprenda o que evidenciar em cada um!

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Você provavelmente já tentou praticar ou até mesmo criar um portfólio de projetos em Ciência de Dados, mas não tinha ideia de onde buscar bases de dados?

Vamos explorar 6 dos principais datasets para a criação do seu portfólio!

Então você vai ter datasets mais simples até datasets mais complexos para poder treinar e colocar no currículo, LinkedIn, github…

Os datasets que eu vou abordar nessa aula são: dataset iri (scikit-learn), dataset Fetch California Housing (scikit-learn), dataset Titanic, dataset de ocorrências aeronáuticas e dataset Airbnb.

Com eles você vai conseguir poder fazer diferentes abordagens e análises dessas informações.

Pode ficar tranquilo que na aula eu vou explicando cada uma das bases de dados e o que você pode fazer com cada uma delas!

Como eu consigo datasets para começar a criar meu portfólio?

datasets
datasets

Para criar um portifólio é necessário saber trabalhar tanto com bases mais simples, quanto com bases mais complexas.

Digo isso porque existem diferentes níveis de exigência para quem está pleiteando uma vaga de emprego, vão existir níveis mais básicos até vagas para um nível especializado.

datasets
datasets

A ideia aqui é, que para cada tipo de base que você possua no seu portifólio um tipo de habilidade seja mostrado para o empregador.

Bases mais simples vão mostrar sua habilidade em:

  • Mostrar conhecimento da base das bibliotecas (ex: importar bases no Pandas)
  • Explicar conceitos teóricos importantes em Ciências de Dados.
  • Apresentar detalhes de um método específico (ex: OneHotEncoder)

Bases mais simples geralmente são postados no:

alternativas mais comuns
alternativas mais comuns

Bases mais complexas:

  • Criar projetos completos, de ponta a ponta
  • Mais focado nas conclusões do projeto do que em explicar os métodos usados
  • Utilização de vários conhecimentos de forma conjunta e criação de um Storytelling do que foi feito.

Bases mais complexas geralmente são postados no:

alternativas mais comuns
alternativas mais comuns

Independente de qual base estivermos usando, alguns projetos SEMPRE podem ser feitos:

  • Apresentação dos primeiros passos na biblioteca de Python
  • Análise Exploratória da base
  • Visualização e apresentação dos dados
  • Se aprofundar em algum método para resolver determinado problema
  • Relacionar problemas de sua base com casos reais de empresas
  • Utilizar dados de sua base para apresentar conceitos estatísticos

DATASET IRIS – DO SCIKIT-LEARN

Datasets para Começar seu Portfólio
dataset iris

Vamos falar sobre o DATASET IRIS, um dos datasets mais simples que temos, embora seja simples, muitas análises podem ser feitas com ele e muitas estão disponíveis para consultas, como o modelo abaixo:

Datasets para Começar seu Portfólio
dataset iris – modelo

Iris_Dataset_EDA_N | Kaggle

Recomendo que olhem os projetos já feitos, assim você consegue absorver rapidamente muito conhecimento.

Mais sobre o DATASET IRIS:

Datasets para Começar seu Portfólio
possibilidades para o dataset iris

FETCH_CALIFORNIA_HOUSING, TAMBÉM DO SCIKIT-LEARN

Neste caso estamos falando de regressão, queremos prever valores contínuos.

Esta base está fornecendo algumas informações sobre as casas da Califórnia e queremos prever o preço das casas.

Datasets para Começar seu Portfólio
análise

Podemos fazer um gráfico comparando a renda mediana com o preço, quanto mais informações colocarmos no gráfico, mais visual ele se torna:

gráfico
gráfico

TITANIC – MACHINE LEARNING FROM DISASTER

Segue abaixo a ilustração do dataset Titanic:

base de dados
base de dados

O próprio Kaggle sugere esse dataset para quem está começando e incentiva que você escreva o seu código e o submeta para uma avaliação:

desafio
desafio

A vantagem desse dataset é que ele já foi feito por várias pessoas, então você tem muitos exemplos para estudar.

Obs. A ideia aqui é aprender com os exemplos e não copiá-los, se você quer mostrar que sabe fazer, precisa focar em seu próprio desafio.

Datasets para Começar seu Portfólio
possibilidades

DATASETS GOVERNAMENTAIS:

OCORRÊNCIAS AERONÁUTICAS NA AVIAÇÃO CIVIL BRASILEIRA

Datasets para Começar seu Portfólio
base de dados

O interessante neste dataset é que, na imagem acima temos a base principal, esta base está relacionando algumas colunas com outras bases, como mostra a imagem abaixo. Observe:

Datasets para Começar seu Portfólio
colunas e tabelas relacionadas

O mesmo ocorre em outras colunas, essa construção tem um formato muito parecido com o SQL.

Se você possui conhecimento em SQL esta é uma ótima oportunidade de mostrar esta habilidade!

relacionamentos
relacionamentos

Então você pode criar seu próprio banco de dados:

banco de dados
banco de dados

Pode relacionar as informações e apresentar graficamente:

representação gráfica
representação gráfica

Pode também fazer um tratamento com os dados:

tratamentos de dados
tratamentos de dados

Com isso você consegue se destacar mais, aproveitando essas chances para mostrando suas habilidades Afinal, o SQL é um tratamento necessário em quase todos os datasets reais.

Mais sobre DATASETS GOVERNAMENTAIS:

possibilidades
possibilidades

Usar bases do governo para demonstrar habilidades é muito promissor para seu portfólio, segue alguns sites para você começar:

Site
Site

https://dados.gov.br/home

Site
Site

https://data.gov/

Site
Site

https://open.canada.ca/en

CONJUNTO DE DADOS PÚBLICOS DE COMÉRCIO ELETRÔNICO BRASILEIRO

Neste novo modelo de dados públicos eu recomendo que você procure por assuntos que goste, existe uma gama muito grande de possibilidades…

Não tem porque não fazer o que tem mais haver com você, assim a chance de fazer um trabalho mais completo e robusto é maior, por conhecer do assunto.

Datasets para Começar seu Portfólio
Como fazer as buscas

Este é um dataset de compras, quando compramos produtos entregues por empresas parceiras, temos um banco de dados com informações de compra, se a entrega foi no prazo ou não, reclamações, etc.

Esse banco também integra colunas com outras tabelas e é possível mostrar seu conhecimento em SQL como no dataset anterior.

Datasets para Começar seu Portfólio
SQL

Exemplo:

Podemos relacionar o atraso na entrega com a avaliação média:

projeto
projeto

Neste gráfico é possível ver que, com o aumento do atraso na entrega, os níveis de insatisfação aumentam exponencialmente.

Mais sobre os conjuntos de dados públicos:

possibilidades
possibilidades

O sexto dataset é o AIRBNB – Rio de Janeiro

Dados reais disponibilizados pelas empresas em seu próprio site:

AIRBNB - Rio de Janeiro
AIRBNB – Rio de Janeiro

Agora é a sua vez! Escolha uma dessas bases e comece o seu portfólio!

Compartilhe seu trabalho e pesquise trabalhos de outras pessoas também, é dessa forma que mostramos e aperfeiçoamos o nosso conhecimento!

Conclusão – Datasets para Começar seu Portfólio

Nesta aula trouxe 6 datasets para começar seu portfólio em Ciências de Dados, essas bases vão de estruturas básicas até as mais avançadas.

Quando trabalhamos com estruturas mais básicas temos foco em demonstrar como conseguimos os resultados, em estruturas mais elaboradas podemos evidenciar as possibilidades que aquele resultado traz para a empresa.

Eu recomendo que você crie um portfólio com temas básicos e avançados, assim consegue demonstrar todo o seu conhecimento!

Eu fico por aqui pessoal! Espero que gostem e que este material te ajude a criar seus projetos! Abraço,

Hashtag Treinamentos

Para acessar outras publicações de Ciência de Dados, clique aqui!


Quer aprender mais sobre Python com um minicurso básico gratuito?