Desarrollo e implementación de un sistema de reconocimiento de comandos de voz basado en redes neuronales para la activación de dispositivos electrónicos

Martínez Benavides, John Jairo Y Unigarro Calpa, Edgar Alberto (2010) Desarrollo e implementación de un sistema de reconocimiento de comandos de voz basado en redes neuronales para la activación de dispositivos electrónicos. Project Report. Universidad De Nariño, Pasto.

Text
81743.pdf
Download (2MB)

Resumen

La idea central en desarrollo del presente trabajo es comprobar la factibilidad de construir un reconocedor de palabras aisladas de pequeño vocabulario en un dispositivo embebido y al mismo tiempo mostrar que es posible el uso de redes neuronales artificiales (ANN) dentro del reconocimiento automático de voz (ASR) en dispositivos embebidos. En la primera fase del desarrollo se implementó un reconocedor de dígitos mediante lenguaje de alto nivel para demostrar la validez de la aplicación de las ANN en el reconocimiento de voz, para tal fin se montaron tres algoritmos de reconocimiento diferentes, la aproximación clásica mediante modelos ocultos de Markov que afronta los problemas de modelado acústico y temporal en un simple algoritmo, un híbrido de ANN/HMM que divide los modelados en los dos algoritmos y finalmente un híbrido mediante redes neuronales y alineamiento de tiempo dinámico (DTW) que modela acústicamente mediante las ANN y temporalmente mediante el DTW. Se evidenció que este último superó en porcentaje de reconocimiento a los dos otros algoritmos. La implementación en dispositivo embebido se realizó en el eZDSP VC5505 USB Stick de Texas Instruments, una tarjeta que permite el procesamiento de señales de audio con buenas prestaciones y un costo razonable. La implementación reveló que la cantidad de operatoria requerida en la etapa de extracción de características acústicas de las señales de voz hace que sea muy complicado un procesamiento en tiempo real, pero a pesar de ello es posible si se trabaja con un dispositivo con muy alto desempeño. Al final del documento se expone la manera en que el porcentaje de reconocimiento se ve afectado por varios factores de implementación, por otra parte también se logra exhibir que la propiedad de generalización de la red neuronal bajo las condiciones del proyecto no es suficiente para afrontar el problema de independencia del locutor, aunque a pesar de ello, los resultados obtenidos fueron satisfactorios, ya que se demostró que el modelado permite la construcción de sistemas multiusuario.

Tipo de Elemento:	Monografía (Project Report)
Información Adicional:	Asesor: Msc. Darío Fernando Fajardo Fajardo
Palabras Clave:	Reconocedor, palabras aisladas, dispositivo embebido, redes neuronales, artificiales, voz
Asunto:	Q Ciencias > QA Mathematics Q Ciencias > QA Mathematics > QA75 Electronic computers. Computer science Q Ciencias > QA Mathematics > QA76 Computer software T Tecnología > T Technology (General)
Division:	Facultad de Ingeniería > Programa de Ingeniería Electrónica > Trabajos de grado
Depósito de Usuario:	Monitor Biblioteca 4 Quijano Guerrero
Fecha Deposito:	07 Dec 2023 15:36
Ultima Modificación:	07 Dec 2023 15:36
URI:	http://sired.udenar.edu.co/id/eprint/10495

Ver Elemento