Global ETD Search

Return to search

Sistema interactivo por voz para robot PR2

Ingeniero Civil Eléctrico / En el marco de la línea de investigación: Interacción Humano Robot, el lenguaje es un candidato natural para la interacción con máquinas y robots. En particular las tecnologías de procesamiento y transmisión voz juegan un rol fundamental en lo que respecta al reconocimiento automático de la voz o \gls{ASR}, ya que como concepto entrega la habilidad de escuchar al momento de interaccionar con un robot.\\
El objetivo principal de esta memoria es implementar una aplicación para comandar a un \gls{PR2} a través de instrucciones por voz, utilizando arquitectura cliente-servidor mediante un micrófono como elemento para muestrear la señal de audio o comando enunciado por el usuario. \\
En el desarollo de la aplicación se crea una interfaz de interacción con el usuario que permite grabar audio usando HTML5/CSS/JS. Para el funcionamiento de la aplicación la comunicación con todos los servidores se realiza a través de \textit{socket} TCP/IP y el procesamiento de la señal de audio se realiza utilizando KALDI, estado del arte en \gls{ASR}. Luego de obtener el resultado de la transcripción de la elocución grabada por el usuario, es analizada por el \textit{Robot \gls{PR2}} y entrega la respuesta del comando de voz mediante el \gls{TTS} Festival y ejecuta el movimiento correspondiente al requerimiento del usuario.\\
A partir esta investigación y el desarrollo de la aplicación se concluye que es posible comandar el \textit{Robot \gls{PR2}} de forma exitosa mediante la interfaz de interacción con el usuario. Dicha aplicación puede ser instalada en cualquier versión del sistema operativo Ubuntu. Utilizando un modo de conexión local para los servidores: ASR y WEB, se cumple el objetivo de realizar procesamiento en tiempo real. El sistema de reconocimiento de voz obtiene un 10\% de \gls{WER} cuando es probado con el mismo micrófono con el que se construye la base de datos, que corresponde a un conjunto de 4991 elocuciones de base de datos Latino-4k y 200 elocuciones grabadas en el Laboratorio de Procesamiento y Transmisión de Voz LPTV, todas a una frecuencia de 16~kHz y 16~bit.\\
El trabajo futuro considera la realización de una base de datos independiente del hablante y género. Considerar el efecto del canal en el \gls{ASR}: ambiente y micrófonos. Debido a la forma de construcción de la aplicación, ésta es escalable ,por lo que es factible complementar el diccionario utilizado en el \gls{ASR} y la personalización de los movimientos.

http://repositorio.uchile.cl/handle/2250/137814

Reconocimiento automático de la voz

Sistemas de procesamiento de la voz

Robótica

Identifer	oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/137814
Date	January 2015
Creators	Guerrero Díaz, Sebastián Adolfo
Contributors	Becerra Yoma, Néstor, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Eléctrica, Novoa Ilic, José, Azurdia Meza, César
Publisher	Universidad de Chile
Source Sets	Universidad de Chile
Language	Spanish
Detected Language	Spanish
Type	Tesis
Rights	Atribución-NoComercial-SinDerivadas 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0131 seconds

Sistema interactivo por voz para robot PR2

Description

Links & Downloads

Tags

Additional Fields