Aprenda agora mesmo como transcrever áudio com Python utilizando a biblioteca OpenAI Whisper. Transforme qualquer áudio em texto de forma simples e eficiente!
Caso prefira esse conteúdo no formato de vídeo-aula, assista ao vídeo abaixo ou acesse o nosso canal do YouTube!
Para receber por e-mail o(s) arquivo(s) utilizados na aula, preencha:
Nesta aula, irei te mostrar como transcrever áudio com Python. Você aprenderá a utilizar a biblioteca OpenAI Whisper para transformar áudios em texto através de um código simples e eficiente!
A vantagem dessa biblioteca é a sua capacidade de transcrever áudios de diversos tamanhos e em diferentes idiomas. É claro que que algumas transcrições podem apresentar erros, mas com certeza irá facilitar seu trabalho e automatizar processos.
No material disponível para download, você encontrará o gabarito com o código pronto para ser baixado e utilizado, mas durante esta aula eu vou te mostrar como construí-lo do zero!
Para começarmos a construir nosso código, o primeiro passo é instalar a biblioteca OpenAI Whisper. Para isso, no terminal do seu editor de código, execute o seguinte comando:
pip install openai-whisper
Para que a biblioteca OpenAI Whisper funcione corretamente é necessário ter o FFmpeg instalado em seu computador.
Você pode acessar o link disponível no material de download ou clicar aqui para acessar o site deles e baixar o programa. Ao acessar o site, clique no link indicado no passo 1 (Step 1).
Aguarde o download terminar e descompacte o arquivo zip que será baixado.
Feito isso, renomeie o arquivo para ffmpeg apenas.
Recorte o arquivo e cole-o dentro do seu disco local (C:).
Aqui, basicamente, você está fazendo a instalação manual do programa. Após concluir essa etapa, será necessário adicionar o FFmpeg às suas variáveis de ambiente.
Abra o Prompt de Comando no seu computador como administrador e execute o seguinte comando:
setx /m PATH "C:\ffmpeg\bin;%PATH%"
Se tudo ocorrer corretamente, você receberá uma mensagem de êxito.
Após concluir essa etapa, feche e abra novamente o seu editor de código. Para verificar se o FFmpeg já está sendo reconhecido, você pode digitar ffmpeg no terminal do seu editor e deverá receber a seguinte mensagem:
Caso apareça que o ffmpeg não é um comando reconhecido, reinicie o seu computador e abra o editor novamente. O FFmpeg deve funcionar corretamente após isso.
Com tudo pronto, vamos aprender como transcrever áudio com Python. O código para esta aplicação é simples e rápido. Primeiro, precisamos importar a biblioteca whisper da OpenAI.
import whisper
Em seguida, vamos criar o nosso modelo, que é a inteligência artificial responsável por transcrever o áudio. Antes de escolher o modelo ideal, é recomendado consultar a tabela disponível na documentação da biblioteca.
Essa tabela apresenta os diferentes tipos de modelo suportados pela biblioteca, seus parâmetros, velocidade e requisitos de memória RAM. Por exemplo, quanto menor o modelo (como o tiny), menor serão os requisitos do computador e mais rápido será o processo.
No nosso exemplo, utilizaremos o modelo base, que exige menos recursos do computador e tem um bom tempo de execução.
import whisper
modelo = whisper.load_model("base")
Após isso, precisamos apenas pedir para o modelo realizar a transcrição, passando para ele o nome do arquivo de áudio. Lembre-se de que o código e o arquivo devem estar na mesma pasta do seu computador.
import whisper
modelo = whisper.load_model("base")
modelo.transcribe("Gravando.m4a")
Atenção: É importante que o áudio tenha uma boa qualidade para evitar interrupções ou erros na transcrição e execução do modelo.
Vamos armazenar a transcrição gerada pelo modelo em uma variável chamada resposta e vamos printá-la.
import whisper
modelo = whisper.load_model("base")
resposta = modelo.transcribe("Gravando.m4a")
print(resposta)
Ao executar o código, pode levar algum tempo para completar todo o procedimento, mas depois ele irá exibir o resultado.
Observe que o código nos retorna um dicionário como resposta, onde a chave “text” contém o valor correspondente à transcrição do áudio. Então, caso você queira apenas exibir o texto, pode usar o seguinte comando.
import whisper
modelo = whisper.load_model("base")
resposta = modelo.transcribe("Gravando.m4a")
print(resposta["text"])
Se o áudio apresentar erros na transcrição, você pode testar outros modelos. Na documentação da biblioteca, você também pode verificar quais idiomas possuem uma margem de erro maior ou menor nas transcrições.
Nessa aula, você aprendeu como transcrever áudio com Python utilizando a biblioteca OpenAI Whisper. Com poucas linhas de código, é possível transcrever áudio de diferentes tamanhos e em diferentes idiomas.
Algumas vezes você pode se deparar com erros na transcrição, mas a biblioteca oferece diversos modelos que você pode testar e adaptar de acordo com as suas necessidades.
No geral, com esse código, você poderá transcrever qualquer áudio e obter resultados satisfatórios, facilitando seu trabalho e até mesmo automatizando processos.
Caso queira aprender a criar um código para reconhecimento de fala, também temos esse material disponível para você aqui.
Para acessar outras publicações de Python, clique aqui!
Expert em conteúdos da Hashtag Treinamentos. Auxilia na criação de conteúdos de variados temas voltados para aqueles que acompanham nossos canais.