Com construir el transcriptor Python mitjançant Mozilla DeepSpeech

Bloc

Com construir el transcriptor Python mitjançant Mozilla DeepSpeech

Els assistents de veu són una de les tecnologies més actuals en aquest moment. Siri, Alexa, l'Assistent de Google tenen com a objectiu ajudar-vos a parlar amb ordinadors i no només a tocar i escriure. El reconeixement automatitzat de la parla (ASR) i la comprensió del llenguatge natural (NLU / NLP) són les tecnologies clau que ho permeten. Si sou un programador com jo, és possible que tingueu ganes d’obtenir una part de l’acció i piratejar alguna cosa. Esteu al lloc adequat; segueix llegint.

netflix.com/tv8 inici de sessió

Tot i que aquestes tecnologies són dures i la corba d’aprenentatge és forta, però cada vegada són més accessibles. El mes passat va llançar Mozilla DeepSpeech juntament amb models per a anglès dels EUA. Té models més petits i ràpids que mai, i fins i tot té un TensorFlow Lite model que funciona més ràpid que el temps real en un sol nucli d’un Raspberry Pi 4 . Hi ha diversos aspectes interessants, però ara mateix em centraré en la seva refrescant API senzilles per lots i flux a C, .NET, Java, JavaScript i Python per convertir la parla a text. Al final d’aquesta entrada de bloc, crearà un transcriptor de veu. No és broma :-)

#python #tensorflow # artificial-intelligence # voice-assistant # machine-learning

towardsdatascience.com

Com construir el transcriptor Python mitjançant Mozilla DeepSpeech

Apreneu a construir transcriptors d’àudio per a aplicacions de veu mitjançant API ASR de parla a text PyAudio i DeepSpeech en 66 línies de codi Python.