Blog

Postado em em 10 de abril de 2023

O que é ciência de dados?

Na aula de hoje vamos falar sobre o que é Ciência de Dados. Vou te explicar como funciona e como está o salário hoje no mercado de trabalho.

Caso prefira esse conteúdo no formato de vídeo-aula, assista aos vídeos abaixo ou acesse o nosso canal do YouTube!

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Fala Impressionadores! Você já sabe o que é Ciência de Dados? Tem dúvidas sobre o que faz Ciência de Dados? Então vem comigo que eu vou tirar algumas dúvidas sobre esse assunto.

Nesta aula, vou explicar não apenas o que é ciência de dados, mas também fornecer alguns exemplos de sua aplicação.

Primeiro, o que é Ciência de Dados? Para que você entenda o que é, como funciona, onde aplicamos, e onde podemos encontrar ciência de dados, vou dar um breve resumo sobre essas questões.

Vou falar também sobre Ciência de Dados e Big Data, explicar o que é Big Data que você já deve ter ouvido falar.

Também abordarei o papel do cientista de dados, do analista de dados e do engenheiro de dados, já que esses termos podem causar confusão para quem não está familiarizado com a área. Embora os nomes sejam semelhantes, há algumas diferenças fundamentais entre ciência de dados, análise de dados e engenharia de dados.

O que é ciência de dados?

A ciência de dados envolve o uso de métodos para extrair insights dos dados disponíveis em uma empresa.

O objetivo principal é descobrir o que aconteceu, por que aconteceu, prever o que vai acontecer e sugerir ações para ajudar a empresa a tomar decisões melhores.

Por exemplo, você pode prever quanto uma fábrica de refrigerantes precisa comprar de insumo com base na quantidade produzida e vendida de refrigerantes.

A Ciência de Dados está presente em praticamente tudo na sua vida, desde quando você faz uma compra e passa o cartão na maquininha, ali é a ciência de dados que decide se a sua transação vai ser aprovada ou não.

Ou quando você solicita um aumento de limite de crédito em um aplicativo de banco, as suas informações são enviadas para um modelo, construído por um cientista de dados, e esse modelo irá avaliar suas informações em segundos e decidir, para o seu caso, quanto seu limite pode ser.

Papel do Cientista de Dados

Um cientista de dados utiliza os dados disponíveis para ajudar a empresa a tomar decisões melhores. Além de explicar o que aconteceu, ele consegue estimar ou sugerir as melhores ações para o futuro.

É a ciência de dados que consegue decidir quais produtos vão te oferecer quais mensagens irão te mandar e quando isso será feito.

Isso pode estar presente em qualquer área, como análise de perfil do cliente pelo Nubank, recomendação personalizada no YouTube ou definição da melhor rota pelo Waze, entre outras áreas.

Agora, neste momento em que você está lendo essa aula, a ciência de dados também está presente escolhendo quais conteúdos vai te mostrar baseado no conteúdo dessa aula.

Às vezes falamos sobre o algoritmo do Instagram, e o algoritmo é exatamente a aplicação da Ciência de Dados. É assim que o Instagram sugere postagens para você e em qual ordem elas irão aparecer.

Carros autônomos

A ciência de dados também está presente em carros autônomos, quando conseguimos transformar em dados a distância do carro da frente, qual rua precisamos virar, a existência ou não de pedestres e até o caminho, então conseguimos utilizar ciência de Dados para dirigir um carro e também fazê-lo chegar mais rápido, levar passageiros sem motoristas e até mesmo para conseguir evitar acidentes.

Então a ciência de dados está desde uma simples transação até a possibilidade de carros autônomos que dirigem sem motorista.

Tá bom, mas o que faz a Ciência de Dados?

A definição ciência de dados é encontrar soluções para negócios utilizando as tecnologias disponíveis e as técnicas estatísticas que forem necessárias.

Então a Ciência de dados está exatamente nessa interseção desses três pilares:

  • pilar de negócios
  • pilar de tecnologia
  • pilar de matemática e estatística.

É importante enfatizar que ciência de dados é principalmente sobre encontrar soluções para os negócios. A tecnologia e a estatística são ferramentas que vamos utilizar para este fim, mas isso nunca pode estar acima do pilar do negócio, (o foco é sempre solucionar o problema).

O que é Ciência de Dados

Vamos dar um exemplo tangível, o que você analisa quando pede uma comida no IFood?

  • A loja está aberta? Sim ou Não?
  • Qual a pontuação da loja?
  • Qual o valor da comida?

A única diferença é que, quando falamos em ciência de dados, vamos fazer isso com muito mais dados, com muito mais informações e, claro, de uma forma escalável e irreplicável porque precisamos trazer muito mais dados e usar tecnologia estatística.

E quando eu falo de estatística, estou falando, por exemplo, em utilizar a média, estou falando em analisar a confiança dessa nota, ou seja, mais vale 1 nota 5 com 2 avaliações ou 1 nota 4,9 com 592 avaliações? O que que faz mais sentido? Tudo isso é ciência de dados!

Projeto de Ciência de Dados

Como cientistas de dados no começo do projeto vamos começar sempre fazendo perguntas para o negócio. Precisamos entender o que o negócio está fazendo para depois começar a parte de dados.

Muitas vezes nem o próprio cliente sabe do que precisa. Por isso o nosso papel é fazer essa investigação do defeito.

Aquisição dos Dados

Após entender o problema de forma clara aí, sim, vamos começar a analisar quais são os dados disponíveis e pensar como podemos fazer a aquisição desses dados, eles podem estar em:

  • Bancos de Dados
  • Excel
  • No computador de 1 pessoa
  • Em uma pasta ou até mesmo em redes sociais

Tudo isso precisamos planejar e pensar qual será a melhor maneira de fazer.

Tratamento dos Dados

Após coletar, teremos que tratar os dados, ou seja:

  • Vamos retirar valores vazios
  • Tratar valores errados
  • Eliminar informações desnecessárias, etc.

Modelagem

Vamos agora para a modelagem e análise exploratória dos dados:

  • Vamos ver o que tem naqueles dados.
  • Como podemos melhorar aquela informação
  • Como podemos organizar tudo que temos

Modelos de Aprendizagem

Agora vem a criação dos modelos de aprendizagem.

Estamos falando de algoritmo, de aprendizado de máquinas, de escolher parâmetros a avaliar a qualidade do que está sendo construído, tudo isso para encontrar a melhor forma de resolver o problema. Feito isso, a última e talvez mais importante etapa do processo é a comunicação dos resultados.

Vamos apresentar tudo o que construímos colocando o modelo em produção, isso é disponibilizar o modelo, colocar o modelo para outras pessoas utilizarem e acompanhar para ver está tudo certo e melhorando sempre que necessário.

Mas e se não estiver tudo ok?

Neste caso teremos que voltar lá para a primeira pergunta e entender novamente os problemas do negócio.

Por isso quero destacar que a parte de “entendimento do negócio” é muito importante. Porque se ela não for bem-feita, vamos ter que fazer todo esse processo de novo, o que pode demorar de 3 a 5 meses dependendo da extensão dos dados.

Ciências de Dados e Big Data

Big Data são basicamente dados em alto volume, gerados em alta velocidade e de grande variedade.

Dados em grande volume
Dados em grande volume

O Big Data foi realmente um diferencial para a popularização de ciência de dados porque mostrou que empresas que conseguiam utilizar ciência de dados estavam conseguindo monitorar e trabalhar com todos esses dados que estavam chegando em volume cada vez maior.

Já não era mais possível trabalhá-los com Excel ou outras ferramentas, com ciências de dados geramos resultados com diferenciais enormes, por exemplo, empresas que analisam os comentários para ver se uma campanha está indo bem ou não.

Com ciências de dados essas empresas conseguiram reagir com um tempo de resposta muito mais rápido.

Outro exemplo:

Empresas que tentavam descobrir quais foram os motivos do cliente abandonar o carrinho e conseguem reverter para uma compra dando sugestões e oferecendo novos produtos e descontos.

Inclusive podemos analisar onde o usuário mais clica para otimizar o site, podemos acompanhar o tempo que cada pessoa fica olhando cada uma das postagens do Instagram para poder determinar de qual conteúdo ela gosta e até mesmo relacionar a localização atual da pessoa com as preferências do usuário, e assim poder enviar promoções personalizadas.

Então vamos supor que você passou em frente a uma academia e você recebeu um anúncio daquela academia, você pode pensar, nossa, como sabem que estou aqui? Como ele sabe que acabei de passar em frente a esta academia?

O sistema recebe esse monte de informação, de localização, percurso, necessidades e gostos e juntando essas milhões de informações de diferentes origens com uma velocidade muito rápida é capaz de se organizar, construir oportunidades de negócio e dados para tomadas de decisão por parte das empresas que utilizam ciências de dados. É o que chamamos de Big Data.

Qual a diferença entre Ciência de Dados, Análise de Dados e Engenharia de Dados?

Em uma empresa que tem a área de dados pouco evoluída e estruturada, essas três funções podem acabar se confundindo e se misturando um pouco.

Mas não porque eles executam a mesma função, apenas porque se a empresa está iniciando essa área ela não irá contratar diversos funcionários para ela.

Mas vamos entender qual a atribuição para cada uma dessas funções.

O cientista de dados analisa milhões de dados para entender o que aconteceu e prever o que vai acontecer. Ele constrói modelos que auxiliam e realizam essas análises para ajudar a empresa a tomar decisões futuras.

O analista de dados foca em entender o que aconteceu com base nos dados disponíveis. Ele tira suas próprias conclusões com base na análise dos dados.

Já o engenheiro de dados é responsável pela infraestrutura dos dados. Ele organiza os sistemas e bancos de dados para tornar as informações mais acessíveis aos analistas e cientistas de dados.

As áreas relacionadas à ciência, análise e engenharia de dados são altamente valorizadas no mercado atualmente.

Quanto ganha um cientista de dados no Brasil?

análise de faixa salarial

Em média, o cientista de dados ganha R$8.710 por mês. Esse valor foi atualizado em 26 de março de 2023.

Mas, quer dizer que eu vou começar ganhando esse valor?

Não, você pode começar na faixa de R$4.000 e ir até o máximo, a faixa de R$15.000, dependendo da experiência que adquirir e local onde trabalhar.

Ou seja, a pessoa que ganha menos, está ali mais ou menos em R$4.000, e a pessoa que ganha mais está em aproximadamente R$15.000.

Aqui, temos uma distribuição dos dados bem mais próximos a R$4.000, ou seja, tem mais pessoas ganhando R$4.000, que seria mais ou menos no meio, do que quem está ganhando R$15.000. Mas se compararmos com o salário-mínimo, é um salário relativamente alto em relação a outros cargos que temos no Brasil.

Podemos considerar outras remunerações como participação nos lucros, alcance de metas, e então a média vai para R$5.400. Essa é a informação disponível para salário de cientista de dados no Brasil.

É bom sempre ter essa informação atualizada, porque se uma vaga está propondo menos que R$4.000, você já pode pensar em negociar seu salário.

Conclusão – O que é Ciência de Dados

Nesta aula espero ter conseguido passar uma visão geral sobre o que é ser Cientista de dados, sobre o que é essa profissão e como ela funciona.

Mostramos diversos exemplos de como a Ciências de dados é importante e também que hoje o mercado é aquecido e não tem profissionais suficientes para trabalhar.

Os dados sobre o salário foram obtidos no site Glassdoor, fica aqui uma dica de sempre estar acompanhando esses valores no site, é bom para saber analisar o justo para cada oportunidade que aparecer.

Eu fico por aqui! Espero ter ajudado! Até breve.

Hashtag Treinamentos

Para acessar outras publicações de Ciência de Dados, clique aqui!


Quer aprender mais sobre Python com um minicurso básico gratuito?

Quer sair do zero no Python e virar uma referência na sua empresa? Inscreva-se agora mesmo no Python Impressionador