Blog

Postado em em 14 de setembro de 2023

Como Transcrever Áudio com Python – OpenAI Whisper

Aprenda agora mesmo como transcrever áudio com Python utilizando a biblioteca OpenAI Whisper. Transforme qualquer áudio em texto de forma simples e eficiente!

Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!

Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:

Como Transcrever Áudio com Python – OpenAI Whisper

Nesta aula, irei te mostrar como transcrever áudio com Python. Você aprenderá a utilizar a biblioteca OpenAI Whisper para transformar áudios em texto através de um código simples e eficiente!

A vantagem dessa biblioteca é a sua capacidade de transcrever áudios de diversos tamanhos e em diferentes idiomas. É claro que que algumas transcrições podem apresentar erros, mas com certeza irá facilitar seu trabalho e automatizar processos.

No material disponível para download, você encontrará o gabarito com o código pronto para ser baixado e utilizado, mas durante esta aula eu vou te mostrar como construí-lo do zero!

Instalação da Biblioteca OpenAI

Para começarmos a construir nosso código, o primeiro passo é instalar a biblioteca OpenAI Whisper. Para isso, no terminal do seu editor de código, execute o seguinte comando:

pip install openai-whisper
Instalando a biblioteca

Instalação do FFmpeg

Para que a biblioteca OpenAI Whisper funcione corretamente é necessário ter o FFmpeg instalado em seu computador.

Você pode acessar o link disponível no material de download ou clicar aqui para acessar o site deles e baixar o programa. Ao acessar o site, clique no link indicado no passo 1 (Step 1).

Baixar o FFmpeg

Aguarde o download terminar e descompacte o arquivo zip que será baixado.

Arquivo descompactado

Feito isso, renomeie o arquivo para ffmpeg apenas.

Arquivo renomeado para ffmpeg

Recorte o arquivo e cole-o dentro do seu disco local (C:).

Movendo a pasta para o disco local

Aqui, basicamente, você está fazendo a instalação manual do programa. Após concluir essa etapa, será necessário adicionar o FFmpeg às suas variáveis de ambiente.

Abra o Prompt de Comando no seu computador como administrador e execute o seguinte comando:

setx /m PATH "C:\ffmpeg\bin;%PATH%"

Se tudo ocorrer corretamente, você receberá uma mensagem de êxito.

Mensagem de êxito

Após concluir essa etapa, feche e abra novamente o seu editor de código. Para verificar se o FFmpeg já está sendo reconhecido, você pode digitar ffmpeg no terminal do seu editor e deverá receber a seguinte mensagem:

Verificando a instalação no terminal do editor

Caso apareça que o ffmpeg não é um comando reconhecido, reinicie o seu computador e abra o editor novamente. O FFmpeg deve funcionar corretamente após isso.

Como transcrever áudio com Python – Código

Com tudo pronto, vamos aprender como transcrever áudio com Python. O código para esta aplicação é simples e rápido. Primeiro, precisamos importar a biblioteca whisper da OpenAI.

import whisper

Em seguida, vamos criar o nosso modelo, que é a inteligência artificial responsável por transcrever o áudio. Antes de escolher o modelo ideal, é recomendado consultar a tabela disponível na documentação da biblioteca.

Tabela de modelos

Essa tabela apresenta os diferentes tipos de modelo suportados pela biblioteca, seus parâmetros, velocidade e requisitos de memória RAM. Por exemplo, quanto menor o modelo (como o tiny), menor serão os requisitos do computador e mais rápido será o processo.

No nosso exemplo, utilizaremos o modelo base, que exige menos recursos do computador e tem um bom tempo de execução.

import whisper

modelo = whisper.load_model("base")

Após isso, precisamos apenas pedir para o modelo realizar a transcrição, passando para ele o nome do arquivo de áudio. Lembre-se de que o código e o arquivo devem estar na mesma pasta do seu computador.

import whisper

modelo = whisper.load_model("base")
modelo.transcribe("Gravando.m4a")
Arquivos na mesma pasta

Atenção: É importante que o áudio tenha uma boa qualidade para evitar interrupções ou erros na transcrição e execução do modelo.

Vamos armazenar a transcrição gerada pelo modelo em uma variável chamada resposta e vamos printá-la.

import whisper

modelo = whisper.load_model("base")
resposta = modelo.transcribe("Gravando.m4a")

print(resposta)

Ao executar o código, pode levar algum tempo para completar todo o procedimento, mas depois ele irá exibir o resultado.

Resposta completa do código

Observe que o código nos retorna um dicionário como resposta, onde a chave “text” contém o valor correspondente à transcrição do áudio. Então, caso você queira apenas exibir o texto, pode usar o seguinte comando.

import whisper

modelo = whisper.load_model("base")

resposta = modelo.transcribe("Gravando.m4a")

print(resposta["text"])
Apenas transcrição do texto

Se o áudio apresentar erros na transcrição, você pode testar outros modelos. Na documentação da biblioteca, você também pode verificar quais idiomas possuem uma margem de erro maior ou menor nas transcrições.

Conclusão – Como transcrever áudio com Python

Nessa aula, você aprendeu como transcrever áudio com Python utilizando a biblioteca OpenAI Whisper. Com poucas linhas de código, é possível transcrever áudio de diferentes tamanhos e em diferentes idiomas.

Algumas vezes você pode se deparar com erros na transcrição, mas a biblioteca oferece diversos modelos que você pode testar e adaptar de acordo com as suas necessidades.

No geral, com esse código, você poderá transcrever qualquer áudio e obter resultados satisfatórios, facilitando seu trabalho e até mesmo automatizando processos.

Caso queira aprender a criar um código para reconhecimento de fala, também temos esse material disponível para você aqui.

Hashtag Treinamentos

Para acessar outras publicações de Python, clique aqui!


Quer aprender mais sobre Python com um minicurso básico gratuito?

Quer sair do zero no Power BI e virar uma referência na sua empresa? Inscreva-se agora mesmo no Power BI Impressionador