Return to search

Sistema interactivo por voz para robot PR2

Ingeniero Civil Eléctrico / En el marco de la línea de investigación: Interacción Humano Robot, el lenguaje es un candidato natural para la interacción con máquinas y robots. En particular las tecnologías de procesamiento y transmisión voz juegan un rol fundamental en lo que respecta al reconocimiento automático de la voz o \gls{ASR}, ya que como concepto entrega la habilidad de escuchar al momento de interaccionar con un robot.\\
El objetivo principal de esta memoria es implementar una aplicación para comandar a un \gls{PR2} a través de instrucciones por voz, utilizando arquitectura cliente-servidor mediante un micrófono como elemento para muestrear la señal de audio o comando enunciado por el usuario. \\
En el desarollo de la aplicación se crea una interfaz de interacción con el usuario que permite grabar audio usando HTML5/CSS/JS. Para el funcionamiento de la aplicación la comunicación con todos los servidores se realiza a través de \textit{socket} TCP/IP y el procesamiento de la señal de audio se realiza utilizando KALDI, estado del arte en \gls{ASR}. Luego de obtener el resultado de la transcripción de la elocución grabada por el usuario, es analizada por el \textit{Robot \gls{PR2}} y entrega la respuesta del comando de voz mediante el \gls{TTS} Festival y ejecuta el movimiento correspondiente al requerimiento del usuario.\\
A partir esta investigación y el desarrollo de la aplicación se concluye que es posible comandar el \textit{Robot \gls{PR2}} de forma exitosa mediante la interfaz de interacción con el usuario. Dicha aplicación puede ser instalada en cualquier versión del sistema operativo Ubuntu. Utilizando un modo de conexión local para los servidores: ASR y WEB, se cumple el objetivo de realizar procesamiento en tiempo real. El sistema de reconocimiento de voz obtiene un 10\% de \gls{WER} cuando es probado con el mismo micrófono con el que se construye la base de datos, que corresponde a un conjunto de 4991 elocuciones de base de datos Latino-4k y 200 elocuciones grabadas en el Laboratorio de Procesamiento y Transmisión de Voz LPTV, todas a una frecuencia de 16~kHz y 16~bit.\\
El trabajo futuro considera la realización de una base de datos independiente del hablante y género. Considerar el efecto del canal en el \gls{ASR}: ambiente y micrófonos. Debido a la forma de construcción de la aplicación, ésta es escalable ,por lo que es factible complementar el diccionario utilizado en el \gls{ASR} y la personalización de los movimientos.

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/137814
Date January 2015
CreatorsGuerrero Díaz, Sebastián Adolfo
ContributorsBecerra Yoma, Néstor, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Eléctrica, Novoa Ilic, José, Azurdia Meza, César
PublisherUniversidad de Chile
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis
RightsAtribución-NoComercial-SinDerivadas 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0131 seconds