Blog

Postado em em 7 de março de 2022

Introdução a Ciência de Dados – Primeiros Passos

Hoje eu quero te dar uma breve introdução a Ciência de Dados para que você possa entender e começar a criar seus projetos!

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Introdução a Ciência de Dados

Na aula de hoje nós vamos falar sobre ciência de dados no Python para que você possa dar seus primeiros passos!

Muitas pessoas acabam se perguntado o que é ciência de dados (ou o que é data Science no Python) e como isso funciona.

Essa aula vai ser exatamente para te passar essa introdução sobre esse assunto!

Ciência de Dados

Vou começar com uma breve definição do que seria ciência de dados para que fique mais fácil de entender.

São análises com forte base matemática/estatística que sejam realmente relevantes para o negócio e que sejam possíveis de serem feitas de forma escalável.

É muito importante entender esse conceito, pois se um desses 3 pontos destacados não for satisfeito você não vai conseguir criar um projeto para colocá-lo em prática.

Já imaginou você criando um projeto perfeito que é escalável, mas esse projeto é de estoque super completo, mas a sua aplicação é um projeto de vendas ou logística.

Já não faria tanto sentido, então você precisa desses pontos para que consiga aplicar o seu projeto!

Então podemos tirar desse conceito os 3 pilares da ciência de dados, que são: Matemática, Negócio e Tecnologia!

Você pode estar se perguntando, mas onde eu vou aplicar isso? Posso aplicar em qualquer área?

Ciência de dados está praticamente em tudo o que você faz, um exemplo é projeção de preços, sejam de ações, preço de vendas, bolsa de valores…

Abaixo vou te dar alguns exemplos para facilitar o seu entendimento de como a ciência de dados está em tudo!

Exemplos de ciência de dados
Exemplos de ciência de dados

Temos a projeção de preços que já falei, temos a clusterização, que é essa segmentação de clientes para definir ofertas em campanhas de marketing.

Recomendação seja no Instagram para mostrar uma foto ou conteúdo, seja no Netflix para a sugestão de um filme.

Os anúncios que você vê também são frutos da ciência de dados, pois estão sempre te analisando para verificar o que você está buscando, o que você gosta e com isso podem te oferecer produtos, viagens, entre outras coisas que estão mais próximas do seu gosto.

Pilares da ciência de dados
Pilares da ciência de dados

Aqui nós temos a relação entre esses 3 pilares e o que temos em cada uma delas. Então você vai notar que entre negócios e tecnologia nós temos softwares de análise de dados.

Você provavelmente já trabalhou com Excel ou Power BI para fazer esse tipo de análise de negócios.

Agora a relação entre todos esses pilares é que compõe o Data Science que é a ciência de dados, então é onde nós vamos juntar todos os 3 pilares para a construção de um projeto, sistema, programa…

Um ponto importante dentro da ciência de dados é que não vamos apenas replicar códigos e esperar por uma resposta perfeita.

A ideia é fazer uma análise do que está sendo feito, entender de fato qual o problema e como vamos resolver, levar em conta todas as possibilidades.

Dessa forma você não vai ter problemas, como mostra a imagem abaixo.

Cuidados que devem ser tomados
Cuidados que devem ser tomados

Podemos ter padrões que mal interpretados vão gerar conclusões erradas, trazendo uma produção muito grande de um produto, construção em massa de casas que não vão ser ocupadas, analisar um histórico de venda sem considerar outros fatores…

Tudo isso pode trazer sérias consequências e prejuízos para os negócios, por isso é muito importante como cientista de dados verificar todos esses elementos para fazer uma análise eficiente.

Por esse motivo é que os profissionais de data Science são muito requisitados, pois eles precisam de bastante conhecimento e experiência para resolver esses problemas.

A ideia agora é ter um passo a passo de ciência de dados que você possa seguir, para construir seus projetos.

Para isso nós vamos utilizar um framework de data mining, mas que é muito utilizada para data Science que é o CRIPS-DM (Cross Industry Standard Process for Data Mining).

Que na tradução seria um padrão de processo da indústria para mineração de informação.

Introdução a Ciência de Dados
Passos para a criação de um projeto

Essas são 6 etapas para a criação dos projetos em data Science que temos que passar para garantir que tudo vai funcionar corretamente.

Veja que já começamos com 2 partes muito importantes, entendimento do negócio e entendimento dos dados, então é muito importante conhecer os dados e saber com o que vamos trabalhar.

Entendendo o negócio
Entendendo o negócio

Aqui temos a divisão do entendimento do negócio, que é muito importante, pois não adianta nada você começar a criar um código sem saber o que precisa resolver ou achar que já sabe o que o cliente precisa.

Então é necessário definir qual é o problema a ser solucionado e fazer o alinhamento de expectativas.

Então por mais que o cliente fale que tem um problema x, você tem que analisar os dados e entender o negócio para saber se realmente esse é o problema ou se temos algo além disso.

Entendendo e preparando os dados
Entendendo e preparando os dados

Aqui temos que garantir que as informações que temos são suficientes, se os dados fornecidos vão trazer os resultados que queremos.

Talvez seja necessário buscar dados de outros lugares, seja em uma rede social ou até mesmo uma API para aquisição desses dados.

Análise e modelagem dos dados
Análise e modelagem dos dados

Depois de obter todos os dados necessários vamos para a parte de análise e modelagem desses dados.

Aqui é onde vamos ver as relações entre as informações, se precisamos de novas informações, se os dados estão completos.

Introdução a Ciência de Dados
Ciclo de análise e preparação dos dados

Esses dois processos vão ser cíclicos, pois vamos poder precisar de mais dados depois da análise, os dados podem não estar corretos ou não serem suficientes.

Então vamos ficar nesse ciclo até que tenhamos todos os dados e todas as análises completas.

Validação de modelo
Validação de modelo

Depois desse ciclo concluído nós vamos poder fazer a validação do nosso modelo com alguns testes utilizando valores teste e algumas bases de dados para essa validação.

Introdução a Ciência de Dados
Preparação e entrega dos resultados

E por fim nós vamos apresentar o projeto para que seja implementado caso tudo tenha saído conforme o esperado ou vamos voltar em alguma etapa para fazer algum ajuste.

E claro, não podemos de falar do que acontece depois da entrega do projeto não é mesmo?

Introdução a Ciência de Dados
Ciclo de melhoria, monitoramento e ajustes

Vamos ter a melhoria contínua do projeto, monitoramento e ajustes para que esteja sempre funcionando e sempre atualizado.

São esses os passos que nós vamos seguir para construir o nosso projeto de ciência de dados.

Então agora você já sabe o que é ciência de dados e já tem uma noção de como construir um projeto do zero até a entrega.

Introdução a Ciência de Dados
Passo a passo completo para a construção do projeto

Conclusão da Introdução a Ciência de Dados

Nessa aula eu te dei uma breve introdução do que é ciência de dados e quais os passos nós vamos seguir para a criação de um projeto de ciência de dados.

É muito importante que todas as partes sejam bem estudadas e executadas desde o primeiro passo até o último, assim você garante que o seu projeto vai evoluindo a cada etapa e evita ter que refazer alguma das partes.

Claro que isso pode ser necessário, mas é sempre bom evitar o retrabalho!

Hashtag Treinamentos

Para acessar outras publicações de Ciência de Dados, clique aqui!


Quer aprender mais sobre Python com um minicurso gratuito?


Quer aprender a construir um Dashboard em Excel do zero? Se inscreva gratuitamente na Jornada do Excel!