Blog

Postado em em 21 de novembro de 2023

Pesquisar na Wikipedia com Python

Já imaginou pesquisar na Wikipedia com Python? Nesta aula, você aprenderá como fazer uma automação de pesquisa na Wikipedia.

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Pesquisar na Wikipedia com Python

Na aula de hoje, vou te mostrar como pesquisar na Wikipedia com Python! Isso mesmo, você aprenderá a realizar pesquisas completas na Wikipedia utilizando o Python.

Você verá como utilizar a biblioteca Wikipedia para Python, que permitirá realizar esse web scraping de forma mais eficiente.

Então, faça o download do material disponível e vamos aprender como construir essa automação que te possibilitará pesquisar na Wikipedia com Python!

Biblioteca Wikipedia no Python

Para realizarmos esse processo de web scraping na Wikipedia, precisamos instalar e utilizar a biblioteca Wikipedia para o Python.

Embora seja possível realizar todo o processo de web scraping utilizando o Selenium ou o BeautifulSoup, essa biblioteca foi desenvolvida especialmente para a Wikipedia, tornando esse procedimento muito mais eficiente e fácil ao utilizá-la.

Para instalá-la, basta executar o seguinte comando no terminal do seu editor de códigos:

pip install wikipedia

Feito isso, podemos importá-la para o nosso código:

import wikipedia

Configurando a Linguagem do Wikipedia

Após importarmos a biblioteca para o nosso código, o primeiro passo será utilizar a função set_lang para definir em qual site da Wikipedia estamos buscando extrair as informações, seja em português, inglês, ou em outro idioma.

Nesse caso, passamos como argumento para essa função a sigla referente aos idiomas disponíveis para a Wikipedia. Como queremos os resultados em português, vamos passar como argumento a sigla pt.

import wikipedia

wikipedia.set_lang("pt")

Com o idioma da Wikipedia definido, podemos de fato começar a fazer nossas buscas.

Pesquisar na Wikipedia com Python

Para começar a pesquisar na Wikipedia com Python, primeiro precisamos verificar se a busca que estamos tentando fazer existe na Wikipedia. Portanto, vamos definir a variável buscas, que receberá a função wikipedia.search().

import wikipedia

wikipedia.set_lang("pt")

buscas = wikipedia.search("Império Romano")
print(buscas)

A função search recebe como argumento a busca que você deseja fazer dentro do site da Wikipedia. Essa função retorna uma lista de strings, onde cada uma representa um artigo existente da Wikipedia relacionado ao tema pesquisado.

lista de strings com os arquivos

A partir dessa lista de artigos, é que vamos escolher qual o tema que queremos buscar de fato e criar a página de pesquisa utilizando a função wikipedia.page().

import wikipedia

wikipedia.set_lang("pt")

buscas = wikipedia.search("Império Romano")
print(buscas)

pagina = wikipedia.page(buscas[0])

Para essa função, poderíamos passar tanto o título do artigo que aparece na lista de buscas, como, por se tratar de uma lista, podemos passar o índice do artigo que queremos pesquisar que está contido na lista buscas.

Se printarmos essa pagina, veremos que ela é um objeto wikipediaPage.

pagina = wikipedia.page(buscas[0])
print(pagina)
objeto wikipediaPage

Esse objeto página possui diversos métodos e informações que podemos extrair de dentro dele, como o resumo (summary), o conteúdo da página (content) e as imagens da página (images).

Para visualizar cada uma dessas informações, vamos utilizar os métodos correspondentes e printar esses resultados.

import wikipedia

wikipedia.set_lang("pt")

buscas = wikipedia.search("Império Romano")
print(buscas)

pagina = wikipedia.page(buscas[0])

resumo = pagina.summary
conteudo = pagina.content
imagens = pagina.images

print(conteudo)
print("#" * 10)
print(resumo)
print("#" * 10)
print(imagens)

Cada um desses métodos trouxe para nós uma das informações que buscamos. Primeiro, temos o conteúdo da página sendo exibido de forma completa no terminal, seguido do resumo, e por fim, dos links para acessarmos as imagens.

Conteúdo da página
Resumo da página
Link das imagens

Você não precisa printar todas as informações de uma vez; você pode selecionar exibir apenas aquilo que é de seu interesse, como apenas o resumo, as imagens ou o conteúdo.

É possível também combinar essa biblioteca com outras bibliotecas em Python, como a wget para fazer download a partir dos links das imagens ou utilizar a regex para pegar apenas uma parte do texto do conteúdo, entre outras combinações possíveis.

Conclusão – Pesquisar na Wikipedia com Python

Na aula de hoje, mostrei como pesquisar na Wikipedia com Python! Você aprendeu a criar uma automação que permite fazer pesquisas completas na Wikipedia utilizando o Python.

Exploramos o uso da biblioteca Wikipedia para Python, que facilita o web scraping de forma mais eficiente.

Além disso, você teve uma ideia de como pode combinar essa biblioteca com outras para ampliar a utilidade e funcionalidades dessa ferramenta em Python.

Hashtag Treinamentos

Para acessar outras publicações de Python, clique aqui!


Quer aprender mais sobre Python com um minicurso básico gratuito?