Nessa aula eu quero te mostrar 6 datasets para começar seu portfólio de Ciência de Dados! Aprenda o que evidenciar em cada um!
Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!
Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:
Você provavelmente já tentou praticar ou até mesmo criar um portfólio de projetos em Ciência de Dados, mas não tinha ideia de onde buscar bases de dados?
Vamos explorar 6 dos principais datasets para a criação do seu portfólio!
Então você vai ter datasets mais simples até datasets mais complexos para poder treinar e colocar no currículo, LinkedIn, github…
Os datasets que eu vou abordar nessa aula são: dataset iri (scikit-learn), dataset Fetch California Housing (scikit-learn), dataset Titanic, dataset de ocorrências aeronáuticas e dataset Airbnb.
Com eles você vai conseguir poder fazer diferentes abordagens e análises dessas informações.
Pode ficar tranquilo que na aula eu vou explicando cada uma das bases de dados e o que você pode fazer com cada uma delas!
Como eu consigo datasets para começar a criar meu portfólio?
Para criar um portifólio é necessário saber trabalhar tanto com bases mais simples, quanto com bases mais complexas.
Digo isso porque existem diferentes níveis de exigência para quem está pleiteando uma vaga de emprego, vão existir níveis mais básicos até vagas para um nível especializado.
A ideia aqui é, que para cada tipo de base que você possua no seu portifólio um tipo de habilidade seja mostrado para o empregador.
Bases mais simples vão mostrar sua habilidade em:
Bases mais simples geralmente são postados no:
Bases mais complexas:
Bases mais complexas geralmente são postados no:
Independente de qual base estivermos usando, alguns projetos SEMPRE podem ser feitos:
DATASET IRIS – DO SCIKIT-LEARN
Vamos falar sobre o DATASET IRIS, um dos datasets mais simples que temos, embora seja simples, muitas análises podem ser feitas com ele e muitas estão disponíveis para consultas, como o modelo abaixo:
Recomendo que olhem os projetos já feitos, assim você consegue absorver rapidamente muito conhecimento.
Mais sobre o DATASET IRIS:
FETCH_CALIFORNIA_HOUSING, TAMBÉM DO SCIKIT-LEARN
Neste caso estamos falando de regressão, queremos prever valores contínuos.
Esta base está fornecendo algumas informações sobre as casas da Califórnia e queremos prever o preço das casas.
Podemos fazer um gráfico comparando a renda mediana com o preço, quanto mais informações colocarmos no gráfico, mais visual ele se torna:
TITANIC – MACHINE LEARNING FROM DISASTER
Segue abaixo a ilustração do dataset Titanic:
O próprio Kaggle sugere esse dataset para quem está começando e incentiva que você escreva o seu código e o submeta para uma avaliação:
A vantagem desse dataset é que ele já foi feito por várias pessoas, então você tem muitos exemplos para estudar.
Obs. A ideia aqui é aprender com os exemplos e não copiá-los, se você quer mostrar que sabe fazer, precisa focar em seu próprio desafio.
DATASETS GOVERNAMENTAIS:
OCORRÊNCIAS AERONÁUTICAS NA AVIAÇÃO CIVIL BRASILEIRA
O interessante neste dataset é que, na imagem acima temos a base principal, esta base está relacionando algumas colunas com outras bases, como mostra a imagem abaixo. Observe:
O mesmo ocorre em outras colunas, essa construção tem um formato muito parecido com o SQL.
Se você possui conhecimento em SQL esta é uma ótima oportunidade de mostrar esta habilidade!
Então você pode criar seu próprio banco de dados:
Pode relacionar as informações e apresentar graficamente:
Pode também fazer um tratamento com os dados:
Com isso você consegue se destacar mais, aproveitando essas chances para mostrando suas habilidades Afinal, o SQL é um tratamento necessário em quase todos os datasets reais.
Mais sobre DATASETS GOVERNAMENTAIS:
Usar bases do governo para demonstrar habilidades é muito promissor para seu portfólio, segue alguns sites para você começar:
CONJUNTO DE DADOS PÚBLICOS DE COMÉRCIO ELETRÔNICO BRASILEIRO
Neste novo modelo de dados públicos eu recomendo que você procure por assuntos que goste, existe uma gama muito grande de possibilidades…
Não tem porque não fazer o que tem mais haver com você, assim a chance de fazer um trabalho mais completo e robusto é maior, por conhecer do assunto.
Este é um dataset de compras, quando compramos produtos entregues por empresas parceiras, temos um banco de dados com informações de compra, se a entrega foi no prazo ou não, reclamações, etc.
Esse banco também integra colunas com outras tabelas e é possível mostrar seu conhecimento em SQL como no dataset anterior.
Exemplo:
Podemos relacionar o atraso na entrega com a avaliação média:
Neste gráfico é possível ver que, com o aumento do atraso na entrega, os níveis de insatisfação aumentam exponencialmente.
Mais sobre os conjuntos de dados públicos:
O sexto dataset é o AIRBNB – Rio de Janeiro
Dados reais disponibilizados pelas empresas em seu próprio site:
Agora é a sua vez! Escolha uma dessas bases e comece o seu portfólio!
Compartilhe seu trabalho e pesquise trabalhos de outras pessoas também, é dessa forma que mostramos e aperfeiçoamos o nosso conhecimento!
Nesta aula trouxe 6 datasets para começar seu portfólio em Ciências de Dados, essas bases vão de estruturas básicas até as mais avançadas.
Quando trabalhamos com estruturas mais básicas temos foco em demonstrar como conseguimos os resultados, em estruturas mais elaboradas podemos evidenciar as possibilidades que aquele resultado traz para a empresa.
Eu recomendo que você crie um portfólio com temas básicos e avançados, assim consegue demonstrar todo o seu conhecimento!
Eu fico por aqui pessoal! Espero que gostem e que este material te ajude a criar seus projetos! Abraço,
Para acessar outras publicações de Ciência de Dados, clique aqui!
Expert em conteúdos da Hashtag Treinamentos. Auxilia na criação de conteúdos de variados temas voltados para aqueles que acompanham nossos canais.