Vou te mostrar como remover dados duplicados no Power BI de forma muito fácil e intuitiva utilizando o Editor de Consultas!
Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!
Para receber a planilha que usamos na aula no seu e-mail, preencha:
Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!
Para receber a planilha que usamos na aula no seu e-mail, preencha:
Já se deparou com uma base de dados cheia de dados repetidas que você não precisa deles?
Isso é algo muito comum, mas vamos solucionar com a remoção de dados duplicados.
Outra situação que já deve ter presenciado é ter uma base de dados cheia de informações de uma mesma pessoa ou categoria e precisa juntar essas informações para resumir sem precisar analisar diversas linhas com a mesma informação.
Pois é, isso também é possível de se fazer dentro do Power BI. Continua com a gente que vamos mostrar passo a passo cada uma dessas ferramentas.
É uma função para que o usuário consiga eliminar as informações repetidas. Nesta aula vamos trazer dois exemplos para mostrar o uso dessa ferramenta.
Você pode estar se perguntando… Por que isso é importante?
É muito importante para que nas suas análises não tenham informações erradas. Já imaginou mostrando um relatório para o seu chefe que passou a semana desenvolvendo e mostrar dados repetidos dentro da análise?
Não teria um resultado positivo, sendo preciso garantir que não temos informações repetidas.
Essa função possibilita agrupar as informações como se fosse a tabela dinâmica no Excel, ou seja, podemos agrupar os dados para resumir todos os dados evitando a repetição das informações.
Por que essa função é importante?
Porque é possível reduzir a quantidade de informações que temos na planilha, principalmente se a planilha for muito grande.
Então podemos diminuir a quantidade de informações e diminuir o tamanho da planilha.
Vamos aprender como utilizar essas funções nos próximos tópicos.
Essa ferramenta é muito simples de utilizar, quer ver?
1º passo: Importar os dados para dentro do Power Query;
2º passo: Selecionar a coluna em que os dados duplicados serão removidos;
OBS: Essa parte é muito importante, pois dependendo da coluna selecionada o resultado pode não ser o esperado, porque o programa vai remover os duplicados baseado na coluna selecionada.
3º passo: Ir até a guia Página Inicial;
4º passo: Selecionar a opção Remover Linhas (pode ser que essa opção esteja dentro da opção Reduzir Linhas.
5º passo: Selecionar a opção Remover Duplicatas.
Pronto, viu como é fácil?
Agora as informações duplicadas foram todas removidas.
Vamos contextualizar o porquê precisamos além de remover duplicatas, manter o último registro.
A planilha que vamos usar agora é uma planilha de cobranças, nela temos todas as parcelas dos clientes e todas as tentativas de cobrança com ou sem sucesso.
Vamos supor que a parcela número 6 de um determinado cliente tenha sido cobrada 3 vezes e só tenha sido paga na última…
Neste caso vamos ter na nossa tabela 3 registro de uma mesma parcela, precisamos remover as duplicatas e permanecer com o último registro, que representa o status mais recente daquela compra.
Vamos abrir o Power BI e trazer esta planilha de Excel para o ambiente do Power Query. Precisamos definir quais informações serão levadas em consideração para que a linha seja excluída.
Por exemplo, podemos excluir se o código da transação, o número da parcela e o curso comprado forem iguais… neste caso excluímos as duplicatas.
Para selecionar mais de uma coluna mantenha pressionado o control no seu teclado e selecione as três colunas mais relevantes -> colunas do código da compra, número da parcela e o curso, com as colunas selecionadas -> vá à guia página inicial -> remover linhas -> remover duplicatas.
O resultado que vamos encontrar não é o que queremos, isso porque, por padrão o Power BI remove sempre as últimas linhas deixando a primeira transação.
Precisamos da mais atual, ou seja, a última linha repetida…
Como resolver isso?
Uma alternativa que pensei para resolver este problema foi criar uma coluna com o índice de cada linha, depois inverter a ordem da coluna, invertendo assim as informações da tabela, dessa forma o último resultado seria o primeiro, porque praticamente estamos colocando a tabela de ponta cabeça…
O problema que surgiu após esta tentativa é que o Power BI processa as informações na ordem em que vieram da tabela do Excel, então mesmo invertendo a tabela, ainda assim, ele iria manter a primeira transação…
Mas, e se houver um modo de fazer com que o Power BI reprocesse e reclassifique as informações da planilha após invertê-la? É possível?
Sim, e para isso vamos primeiro criar nossa coluna de índice -> na guia Adicionar Coluna -> clique em Coluna de Índice -> Clique na seta e escolha a opção começando a partir do número 1 -> De 1. Após isso clique na nova coluna índice com o botão direito do mouse e mude a classificação para a ordem decrescente.
TABLE.BUFFER – Função para o Power BI reclassificar os dados:
A última ação que realizamos na planilha foi classificar as linhas em ordem decrescente na coluna índice, certo? Clique sobre esta ação na área de Etapas Aplicadas e copie o endereço que vai aparecer na barra.
Este endereço é o que vamos colocar dentro da função TABLE.BUFFER:
= TABLE.BUFFER (Table.Sort(#”Índice Adicionado1″,{{“Índice.1”, Order.Descending}}))
Feito isso dê enter, a princípio pode parecer que nada mudou, mas, na verdade, o Power BI já reclassificou e reconsiderou a ordem da tabela…
Agora você já pode remover as duplicatas, fechar e aplicar as mudanças, que o Power BI vai eliminar as duplicatas e manter a última ação de cobrança como precisamos!
Vamos prosseguir para o agrupamento de dados no próximo tópico.
Essa é outra ferramenta que é fácil de utilizar, no entanto, podemos fazer algumas alterações para configurar o tipo de agrupamento.
Vamos ao passo a passo desse agrupamento:
1º passo: Selecionar a coluna com as informações a serem agrupadas;
2º passo: Selecionar a opção Agrupar por, dentro da guia Página Inicial;
3º passo: Selecionar o tipo avançado, as informações que serão agrupadas, o nome da nova coluna, qual operação será feita e qual a coluna em que será aplicada essa operação.
Neste caso estamos agrupando as informações de 5 colunas e vamos criar uma coluna de faturamento com a soma dos valores das parcelas.
E está feita a alteração da tabela somente com essas colunas selecionadas e a coluna nova escolhida com a soma.
Viu como foi fácil? Bem simples e rápido de fazer!
Foi difícil aprender essas duas ferramentas importantes do programa?
São ferramentas simples, mas são muito importantes para a modelagem de dados dentro do Power BI.
Até mesmo na quantidade de informações guardadas no arquivo conseguimos reduzir bastante para deixar somente o que é necessário e evitar deixar o programa pesado com dados que não serão utilizados.
O que acha de colocar de incluir esses procedimentos em suas planilhas para otimizar e melhorar a visualização das suas informações?
Para acessar outras publicações de Power BI, clique aqui!
Sócio fundador e especialista em Python da Hashtag Treinamentos. Criador do Método Impressionador para ensinar pessoas comuns a crescerem na carreira e se destacarem na empresa usando o Python.