Python: Reconocimiento de voz en grandes archivos de audio

El reconocimiento de voz es el proceso de convertir audio en texto. Esto se usa comunmente en asistentes de voz como Alexa, Siri, entre otros. Python proporciona un API llamada SpeechRecognition para permitirnos convertir audio en texto para su posterior procesamiento. En este artículo, analizaremos la conversión de archivos de audio grandes o largos en texto utilizando la API SpeechRecognition en Python.

Procesando grandes archivos de audio

Cuando la entrada es un archivo de audio largo, la precisión del reconocimiento de voz disminuye. Además, la API de reconocimiento de voz de Google no puede reconocer archivos de audio largos con buena precisión. Por lo tanto, necesitamos procesar el archivo de audio en fragmentos más pequeños y luego alimentar estos fragmentos a la API. Hacer esto mejora la precisión y nos permite reconocer grandes archivos de audio.

Dividiendo el audio basado en el silencio

Una forma de procesar el archivo de audio es dividirlo en trozos de tamaño constante. Por ejemplo, podemos tomar un archivo de audio de 10 minutos de duración y dividirlo en 60 fragmentos de 10 segundos cada uno. Luego podemos alimentar estos fragmentos a la API y convertir la voz en texto concatenando los resultados de todos estos fragmentos. Este método es inexacto. Dividir el archivo de audio en trozos de tamaño constante podría interrumpir las oraciones intermedias y podríamos perder algunas palabras importantes en el proceso. Esto se debe a que el archivo de audio puede finalizar antes de que una palabra se diga por completo y Google no podrá reconocer palabras incompletas.

La otra forma es dividir el archivo de audio según el silencio. Los humanos hacen una pausa corta por un corto período de tiempo entre oraciones. Si podemos dividir el archivo de audio en fragmentos basados en estos silencios, entonces podemos procesar el archivo oración por oración y concatenarlos para obtener el resultado. Este enfoque es más preciso que el anterior porque nos cortamos oraciones intermedias y el fragmento de audio contendrá la oración completa sin interrupciones. De esta manera, no necesitamos dividirlo en trozos de longitud constante.

La desventaja de este método es que es díficil determinar la duración del silencio para dividir por que los diferentes usuarios hablan de manera diferente y algunos usuarios pueden hacer una pausa de 1 segundo entre oraciones, mientras que otros pueden hacer una pausa de solo 0.5 segundos.

1
2
Pydub: sudo pip3 install pydub
Speech recognition: sudo pip3 install SpeechRecognition

El código respectivo es:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
# importing libraries 
import speech_recognition as sr 
 
import os 
 
from pydub import AudioSegment 
from pydub.silence import split_on_silence 
 
# a function that splits the audio file into chunks 
# and applies speech recognition 
def silence_based_conversion(path = "alice-medium.wav"): 
 
 # open the audio file stored in 
 # the local system as a wav file. 
 song = AudioSegment.from_wav(path) 
 
 # open a file where we will concatenate 
 # and store the recognized text 
 fh = open("recognized.txt", "w+") 
 
 # split track where silence is 0.5 seconds 
 # or more and get chunks 
 chunks = split_on_silence(song, 
 # must be silent for at least 0.5 seconds 
 # or 500 ms. adjust this value based on user 
 # requirement. if the speaker stays silent for 
 # longer, increase this value. else, decrease it. 
 min_silence_len = 500, 
 
 # consider it silent if quieter than -16 dBFS 
 # adjust this per requirement 
 silence_thresh = -16
 ) 
 
 # create a directory to store the audio chunks. 
 try: 
 os.mkdir('audio_chunks') 
 except(FileExistsError): 
 pass
 
 # move into the directory to 
 # store the audio files. 
 os.chdir('audio_chunks') 
 
 i = 0
 # process each chunk 
 for chunk in chunks: 
 
 # Create 0.5 seconds silence chunk 
 chunk_silent = AudioSegment.silent(duration = 10) 
 
 # add 0.5 sec silence to beginning and 
 # end of audio chunk. This is done so that 
 # it doesn't seem abruptly sliced. 
 audio_chunk = chunk_silent + chunk + chunk_silent 
 
 # export audio chunk and save it in 
 # the current directory. 
 print("saving chunk{0}.wav".format(i)) 
 # specify the bitrate to be 192 k 
 audio_chunk.export("./chunk{0}.wav".format(i), bitrate ='192k', format ="wav") 
 
 # the name of the newly created chunk 
 filename = 'chunk'+str(i)+'.wav'
 
 print("Processing chunk "+str(i)) 
 
 # get the name of the newly created chunk 
 # in the AUDIO_FILE variable for later use. 
 file = filename 
 
 # create a speech recognition object 
 r = sr.Recognizer() 
 
 # recognize the chunk 
 with sr.AudioFile(file) as source: 
 # remove this if it is not working 
 # correctly. 
 r.adjust_for_ambient_noise(source) 
 audio_listened = r.listen(source) 
 
 try: 
 # try converting it to text 
 rec = r.recognize_google(audio_listened) 
 # write the output to the file. 
 fh.write(rec+". ") 
 
 # catch any errors. 
 except sr.UnknownValueError: 
 print("Could not understand audio") 
 
 except sr.RequestError as e: 
 print("Could not request results. check your internet connection") 
 
 i += 1
 
 os.chdir('..') 
 
 
if __name__ == '__main__': 
 
 print('Enter the audio file path') 
 
 path = input() 
 
 silence_based_conversion(path) 

La salida para el audio es:

1
2
3
4
5
6
7
recognized.txt:
 
The peacock is the national bird of India. They have colourful feathers, two legs and 
a small beak. They are famous for their dance. When a peacock dances it spreads its 
feathers like a fan. It has a long shiny dark blue neck. Peacocks are mostly found in 
the fields they are very beautiful birds. The females are known as 'Peahen1. Their 
feathers are used for making jackets, purses etc. We can see them in a zoo. 

Puede utilizar el audio alice-medium.wav.

Diseño Electrónico

domingo, 8 de noviembre de 2020