Já imaginou pesquisar na Wikipedia com Python? Nesta aula, você aprenderá como fazer uma automação de pesquisa na Wikipedia.
Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!
Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:
Na aula de hoje, vou te mostrar como pesquisar na Wikipedia com Python! Isso mesmo, você aprenderá a realizar pesquisas completas na Wikipedia utilizando o Python.
Você verá como utilizar a biblioteca Wikipedia para Python, que permitirá realizar esse web scraping de forma mais eficiente.
Então, faça o download do material disponível e vamos aprender como construir essa automação que te possibilitará pesquisar na Wikipedia com Python!
Para realizarmos esse processo de web scraping na Wikipedia, precisamos instalar e utilizar a biblioteca Wikipedia para o Python.
Embora seja possível realizar todo o processo de web scraping utilizando o Selenium ou o BeautifulSoup, essa biblioteca foi desenvolvida especialmente para a Wikipedia, tornando esse procedimento muito mais eficiente e fácil ao utilizá-la.
Para instalá-la, basta executar o seguinte comando no terminal do seu editor de códigos:
pip install wikipedia
Feito isso, podemos importá-la para o nosso código:
import wikipedia
Após importarmos a biblioteca para o nosso código, o primeiro passo será utilizar a função set_lang para definir em qual site da Wikipedia estamos buscando extrair as informações, seja em português, inglês, ou em outro idioma.
Nesse caso, passamos como argumento para essa função a sigla referente aos idiomas disponíveis para a Wikipedia. Como queremos os resultados em português, vamos passar como argumento a sigla pt.
import wikipedia
wikipedia.set_lang("pt")
Com o idioma da Wikipedia definido, podemos de fato começar a fazer nossas buscas.
Para começar a pesquisar na Wikipedia com Python, primeiro precisamos verificar se a busca que estamos tentando fazer existe na Wikipedia. Portanto, vamos definir a variável buscas, que receberá a função wikipedia.search().
import wikipedia
wikipedia.set_lang("pt")
buscas = wikipedia.search("Império Romano")
print(buscas)
A função search recebe como argumento a busca que você deseja fazer dentro do site da Wikipedia. Essa função retorna uma lista de strings, onde cada uma representa um artigo existente da Wikipedia relacionado ao tema pesquisado.
A partir dessa lista de artigos, é que vamos escolher qual o tema que queremos buscar de fato e criar a página de pesquisa utilizando a função wikipedia.page().
import wikipedia
wikipedia.set_lang("pt")
buscas = wikipedia.search("Império Romano")
print(buscas)
pagina = wikipedia.page(buscas[0])
Para essa função, poderíamos passar tanto o título do artigo que aparece na lista de buscas, como, por se tratar de uma lista, podemos passar o índice do artigo que queremos pesquisar que está contido na lista buscas.
Se printarmos essa pagina, veremos que ela é um objeto wikipediaPage.
pagina = wikipedia.page(buscas[0])
print(pagina)
Esse objeto página possui diversos métodos e informações que podemos extrair de dentro dele, como o resumo (summary), o conteúdo da página (content) e as imagens da página (images).
Para visualizar cada uma dessas informações, vamos utilizar os métodos correspondentes e printar esses resultados.
import wikipedia
wikipedia.set_lang("pt")
buscas = wikipedia.search("Império Romano")
print(buscas)
pagina = wikipedia.page(buscas[0])
resumo = pagina.summary
conteudo = pagina.content
imagens = pagina.images
print(conteudo)
print("#" * 10)
print(resumo)
print("#" * 10)
print(imagens)
Cada um desses métodos trouxe para nós uma das informações que buscamos. Primeiro, temos o conteúdo da página sendo exibido de forma completa no terminal, seguido do resumo, e por fim, dos links para acessarmos as imagens.
Você não precisa printar todas as informações de uma vez; você pode selecionar exibir apenas aquilo que é de seu interesse, como apenas o resumo, as imagens ou o conteúdo.
É possível também combinar essa biblioteca com outras bibliotecas em Python, como a wget para fazer download a partir dos links das imagens ou utilizar a regex para pegar apenas uma parte do texto do conteúdo, entre outras combinações possíveis.
Na aula de hoje, mostrei como pesquisar na Wikipedia com Python! Você aprendeu a criar uma automação que permite fazer pesquisas completas na Wikipedia utilizando o Python.
Exploramos o uso da biblioteca Wikipedia para Python, que facilita o web scraping de forma mais eficiente.
Além disso, você teve uma ideia de como pode combinar essa biblioteca com outras para ampliar a utilidade e funcionalidades dessa ferramenta em Python.
Para acessar outras publicações de Python, clique aqui!
Expert em conteúdos da Hashtag Treinamentos. Auxilia na criação de conteúdos de variados temas voltados para aqueles que acompanham nossos canais.