Blog

Postado em em 9 de janeiro de 2023

A Ciência Além dos Dados – Ética em Data Science

Você sabe o que um ótimo cientista de dados precisa aprender em primeiro lugar? Hoje vamos falar sobre a ciência além dos dados!

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Fala Impressionadores! Na aula de hoje vou falar de ciência além dos dados, sobre ética em Data Science (ética em ciência de dados).

Esse é um assunto muito importante! Para falar sobre ética em ciências de dados vou utilizar como base alguns exemplos do livro Algoritmos de Destruição em Massa de Cathy O’Neil.

A Ciência Além dos Dados
Algoritmos de Destruição em Massa de Cathy O’Neil

Como o livro traz situações em quem a Ciências de Dados foi usada de forma positiva e negativa, nos deixa com uma ótima reflexão sobre a ética que devemos ter.

Vou abordar o exemplo de melhorar o desempenho das escolas, de testes de personalidade e das eleições nos Estados Unidos.

Nós devemos ter cuidado com essas dicas que vou dar na hora de criar em ciência de dados!

A primeira dica é para a seleção de dados, em seguida falo sobre o ajuste dos modelos, que às vezes são feitos pelas próprias empresas, por fim, uma dica muito importante “esteja sempre atento”!

Para essa última dica temos como exemplo o dataset Load Boston que possui um problema ético e pode acabar gerando vários problemas e discussões.

Então é muito importante não só escolher os dados, mas estudar cada uma dessas informações.

Vamos precisar de todas as informações? São necessárias? São éticas?

Estamos cada vez ganhando mais conhecimento e mais “poder” para utilizar os dados conforme o que desejamos.

A Ciência Além dos Dados
Dados

A Ciência Além dos Dados:

Modelo – Ferramenta de avaliação de professores (IMPACT)

Um dos exemplos do livro trata de uma escola em Washington que estava penhorando a média das avaliações.

O governo resolveu incrementar um projeto chamado IMPACT para avaliar os professores.

O IMPACT avaliava os professores com base na nota dos alunos em suas respectivas matérias, avaliando como professores bons ou ruins.

Melhor desempenho
Melhor desempenho
Modelo de avaliação
Modelo de avaliação
Modelo de avaliação
Modelo de avaliação

O livro conta o caso de uma das professoras (Sarah) que foi avaliada como ruim pelo sistema.

A Ciência Além dos Dados
Avaliação da Sarah

Sara teve um feedback ruim pelo sistema mesmo tendo pessoalmente um feedback muito bom entre colegas, pais e alunos.

feedback ótimo entre colegas
feedback ótimo entre colegas

Mesmo assim teve uma péssima avaliação no sistema, o que resultou na sua demissão.

A Ciência Além dos Dados
demissão

Saindo dessa escola, Sarah conseguiu recolocação em uma escola da rede particular e foi novamente reconhecida como uma professora excelente com ótimos feedbacks de pais, colegas e alunos.

A Ciência Além dos Dados
Recolocada – professora excelente

Nesta escola Sarah se destacou porque não havia apenas um programa de avaliação, havia também equipes de diretores e professores que avaliavam se o modelo de avaliação estava funcionando de forma correta.

Na escola pública, com uma equipe menor, sem pessoas para verificar o sistema e com um grupo muito maior de professores para avaliar, o sistema não recebeu os feedbacks necessários para compor sua conclusão.

A Ciência Além dos Dados
Sistema sem feedback

As informações positivas do trabalho de Sarah não foram passadas ou consideradas pelo sistema.

A Ciência Além dos Dados
sistemas estatísticos precisam de feedback

O caso de Sarah deixa claro que sistemas estatísticos precisam de feedback!

É necessário avaliar se aquele sistema está avaliando de forma justa, afinal seus resultados vão influenciar diretamente na vida de pessoas como a Sarah.

Poderia haver opções de ajustes e até investimentos por um sistema mais detalhado que considerasse o retorno dos alunos, pais e professores sobre o trabalho de Sarah.

Ao invés disso, uma ótima profissional perdeu seu emprego de forma injusta e a escola perdeu uma ótima profissional.

Da mesma forma oportunidades de negócios ou de reestruturação podem ser perdidas se após montar e aplicar o modelo ele não receber feedbacks que digam se o resultado gerado está ou não sendo absurdo.

Nossa responsabilidade como Cientistas de dados é colocar hipóteses, testar essas hipóteses, verificar a validade delas e sempre buscar hipóteses melhores de forma que o modelo esteja sempre em constante otimização!

Testes com modelos como o que avaliou a Sarah muitas vezes são obscuros, o usuário não sabe o que esta sendo considerado pelo modelo e por isso acaba se tornando refém dele.

Como o funcionário não sabe o que aconteceu, ele não pode questionar o resultado.

“O computador aprendeu com os humanos a discriminar, e realizou esse trabalho com uma eficiência de tirar o fôlego”

Pessoas entrevistadas hoje podem com o tempo se desenvolver e mudarem sua linha de raciocínio e feedback. O modelo, sem ajustes, permanece com a mesma regra endurecida por anos.

Exemplo positivo – Xerox:

A Ciência Além dos Dados
Xerox

A empresa percebeu que considerar para a contratação o endereço, localização, score de crédito e outros, era discriminatório com pessoas que moravam em bairros pobres. Isso impedia a empresa de dar oportunidades justas.

Percebendo isso, a Xerox modificou o sistema de avaliação, deixando de excluir bons candidatos somente por morarem longe.

Muitas empresas nos Estados Unidos avaliavam inclusive o Score de crédito do candidato, uma ação que perpetuava a pobreza!

As pessoas que estavam endividadas tinha mais dificuldade de se inserir no mercado de trabalho do que as que estavam estabilizadas financeiramente.

No livro fala inclusive de experimentos em que os nomes eram avaliados, se parecessem nomes americanos o modelo dava preferência a essas pessoas.

Estes cuidados éticos devem ser tomados em todas as escalas e modelos, a fim de beneficiar toda a sociedade!

Modelo – Eleições:

Neste exemplo nossa intenção não é falar sobre política e sim mostrar que os dados influenciam na política desde 1968.

Eleições
Eleições

Em 1968 Nixon usou os dados para perceber as principais dificuldades de cada região, com isso ele separou o público e fez um discurso específico para cada grupo com os problemas que mais teriam impacto sobre a vida daquelas pessoas.

Ele também fez o envio de malas diretas para cada grupo conforme os dados, se aproximando mais dos eleitores.

A Ciência Além dos Dados
Eleições – campanhas

Tudo isso já era feito desde 1968.

Em 2010 uma campanha para incentivar os eleitores a votar foi feita via Facebook.

Nesta experiência conseguiram perceber que somente o fato de saber que amigos haviam clicado em “eu votei” influenciou as pessoas a votarem também.

Aumento na participação das eleições
Aumento na participação das eleições

Após 2 anos foi feito uma experiência que confirmou que receber notícias postadas por amigos sobre política aumentou o interesse no assunto e a porcentagem de votos foi de 64% para 67%.

Aumento na participação das eleições
Aumento na participação das eleições

Todos esses exemplos tirados do livro Algoritmos de Destruição em Massa nos fazem entender que dependendo da informação que priorizamos ou como é mostrada pode influenciar diretamente no humor das pessoas.

Devemos nos preocupar como esses dados chegam as pessoas, se tem algum gatilho, se efetivamente é para o bem da sociedade na totalidade!

Gatilho
Gatilho

3 Dicas rápidas!

Avaliações ultrapassadas
Avaliações ultrapassadas

Se fossemos fazer um modelo de banco de dados antigamente, provavelmente os candidatos ideais seriam homens ricos, isso porque eram os que tinham acesso à faculdade.

Temos que entender que este resultado não se refere as pessoas boas, mas sim as únicas pessoas que tinham condições de participar da seleção naquela época.

Não devemos mais utilizar estes resultados e sim selecionar dados melhores para o modelo.

Selecionando melhores dados
Selecionando melhores dados

Embora possa existir uma correlação entre pessoas formadas e gênero, nós não devemos usar a coluna de gênero como critério, se fizermos isso só vamos propagar e fortalecer os preconceitos e defasagens da sociedade.

Precisamos entender que, antigamente, cada indivíduo propagava padrões em pequena escala, mas hoje, com os modelos e sistemas, corremos o risco de padrões negativos serem reproduzidos em larga escala!

Nosso objetivo principal, para além de otimizações e desempenho, é ter responsabilidade com a ética nos nossos trabalhos.

A Ciência Além dos Dados
modelos podem ser simples

Outra dica importante é que os modelos podem ser simples!

Selecione as variáveis de forma objetiva evitando um excesso de dados que além de serem desnecessários aumentam o risco de problemas.

Devemos nos perguntar:

Será que o nosso modelo está propagando algum viés que já estava nos dados e eu não percebi?

Meu modelo está fazendo sentido?

Meu modelo está sendo justo?

Existe ética no que estou fazendo?

“Os pontos cegos de um modelo refletem o julgamento e prioridades dos seus criadores”

Modelos incentivam mudanças, boas ou ruins.
Modelos incentivam mudanças, boas ou ruins.

Ranking universitário criado pela Universidade U.S News:

Havia uma métrica que considerava o número de ex-alunos que faziam doações, basicamente se uma faculdade fosse mau no ranking o aluno reduzia a doação e a faculdade ia indo cada vez pior.

Este tipo de métrica prejudica a universidade, mesmo uma boa universidade ocasionalmente pode ir mau no ranking, mas a partir daí as doações caem, o número de alunos querendo entrar nela diminuem e os bons professores não a procuram mais.

Você diz que é ruim e torna a escola realmente pior, observe, essa métrica não está ajudando!

métrica ruim
métrica ruim

A métrica não era ruim apenas para a universidade, foi ruim para os alunos também porque ela não considerava o custo.

Para melhorar no ranking, as faculdades investiram mais dinheiro, o que custou aos alunos um aumento de 500% no empréstimo estudantil entre 1985 e 2013.

Observe como um modelo de ciências de dados gerou um agravante para milhares de alunos.

Outro problema desse modelo é que o salário dos alunos após formados eram pontuados no ranking da faculdade.

Isso gerou a perca do interesse da faculdade em cursos voltados a arte ou cursos sociais por terem um salário menor, porem estes cursos tem extrema importância social.

Para fechar esta aula vou dar um exemplo de um dataset que foi removido por motivos raciais.

Observe que na imagem abaixo existe um aviso sobre um problema ético.

problema ético
problema ético

E nesta imagem podemos ver a linha ontem temos uma contagem de proporção de negros por cidade.

problema ético
problema ético

Bom pessoal, encerro por aqui, embora esta aula não seja sobre algum código de ciências de dados é uma aula de alicerce para quem quer ser Cientista de dados.

Todo projeto deve ser, antes de tudo, um projeto ético! Devemos usar o projeto de maneira que diminua ou no mínimo não propagação padrões preconceitos, um modelo que faça uma análise justas e responsável, garantindo uma melhora para a sociedade.

Conclusão – A Ciência Além dos Dados

Você já ouviu falar em ética em ciências de dados? Entende a importância?

A maioria das pessoas utiliza hoje sistemas de bancos de dados, sistemas que geram resultados que impactam diretamente em suas vidas.

Na maior parte dos casos as pessoas confiam nos resultados sem questionar por que não entendem quais parâmetros estão sendo analisados.

Como cientistas de dados nós devemos assumir um compromisso em garantir a ética nos códigos e modelos, por este motivo fiz esta aula, para mostrar a importância da ética e as consequências de não se atentar a ela.

Nesta aula mostramos alguns exemplos de códigos, alguns bem-feitos e éticos e outros com problemas éticos e as sérias consequências geradas por eles.

Espero que tenham gostado da aula! Fiquem atentos! Até a próxima,

Hashtag Treinamentos

Para acessar outras publicações de Ciência de Dados, clique aqui!


Quer aprender mais sobre Python com um minicurso básico gratuito?

Quer sair do zero no Python e virar uma referência na sua empresa? Inscreva-se agora mesmo no Python Impressionador