Global ETD Search

1	Transformación escalar de la interfaz de operador en teleoperación asistida Muñoz Morgado, Luis Miguel 03 February 2012 (has links) Human-machine interaction in teleoperation, through the adequate user interface, allows achieving the level of intelligence necessary to execute complex tasks that cannot be executed by machines or robots alone neither directly by humans. H-R interaction techniques facilitate the execution of such tasks making them more efficient and effective through the improvement of their user interface. Humans have inherent motor limitations (such as physiological tremor) and perceptive limitations (mainly perception of distance and time), which can prevent them from operating smoothly and precisely enough for certain applications. Some studies have already tackled this problem and its effect on the human-machine interaction and teleoperated systems. There are psychomotor models that show that the human manipulation efficiency, in actions such as pointing an object, depends on several factors. Among these models, the most representative corresponds to Fitts’ Law, in which the execution time is a logarithmic function of the size and distance to the object. In teleoperation, and based on these models, a modification of the visual scale in the user’s interface has a direct effect on the task execution time and on the precision that can be achieved. The same occurs with a change in the amplitude of the movement executed by the human operator with respect to that performed by the system. Therefore, scaling the movement between master and slave has a significant effect on the efficiency and effectiveness executing a task. This research work is oriented to the design and development of a method conceived to improve effectiveness thanks to a larger visual and motor efficiency of the human-machine interface. The method is based on the modification of the information flow between human, machine and interface by means of the scaling of both, the human movements and the image of the visualized task. Operation time, hand movements and the need for visual attention can thus be reduced with this computerized assistance. The changes of scale adapt to the task, which positively affects its performance in terms of precision and speed. Therefore, the proposed methodology aims to link the human operator working space to the machine or robot working space through an interface that introduces two scaling processes. A first change of scale is applied between the movement produced by the human operator and the movement produced in the visual interface (for instance, movement of the robot end-effector that is visualized on the computer screen); and a second change oriented to scale the real space of the task over the visual space of the interface. These changes of scale should be adjusted to the objects of interest, which result in a modification of the spatial resolution according to the task to be performed and to the size, shape distance and speed of the objects. Such changes modify the information flow between human and machine according to the characteristics and limitations of both. / La interacció persona-màquina en teleoperació, a través de la interfície d’usuari, permet aconseguir el nivell d’intel•ligència necessari per executar en cooperació tasques complexes que no poden ser realitzades per màquines o robots per si sols o directament per les persones. Les tècniques d’interacció faciliten el desenvolupament d’aquestes tasques fent-les mes eficients i eficaces, mitjançant la millora de qualsevol sistema que incorpori una interfície d’usuari. Les persones posseeixen limitacions motores inherents a la naturalesa humana (com la tremolor fisiològica) i limitacions perceptives (com la percepció de la distància o el temps) que impedeixen realitzar una operació suficientment suau i precisa en certes aplicacions. Alguns estudis tracten aquest fenomen i el seu efecte en els sistemes persona-màquina i sistemes teleoperats. Existeixen models psicomotors que mostren que la eficiència de la manipulació humana en la selecció d’un objecte depèn de determinats factors. Entre aquests models, el més representatiu correspon a la Llei de Fitts, in on el temps d’execució es una funció logarítmica de la mida i la distancia al objecte. En teleoperació, i en base a aquests models psicomotors, es demostra que una modificació en l’escala visual de la interfície té un efecte directe en el temps d’execució d’una tasca i en la precisió assolible. El mateix succeeix amb un canvi en l’amplitud del moviment que realitza l’operador respecte al realitzat pel sistema, de manera que l’escalat del moviment entre mestre i esclau té un efecte significatiu en l’eficiència i eficàcia amb la que s’executa una tasca. Aquest treball d’investigació està orientat al disseny i desenvolupament d’un mètode concebut per millorar l’eficàcia gràcies a una major eficiència visual i motora de la interfície persona-màquina. El mètode es basa en la modificació del flux d’informació entre persona, màquina i interfície mitjançant l’escalat tant del moviment de la persona com de la imatge de la tasca visualitzada. El temps d’operació, els moviments de la mà de la persona i el grau d’atenció poden reduir-se amb aquesta assistència computeritzada. Els canvis d’escala s’adapten a la tasca, afectant positivament el rendiment en termes de precisió i rapidesa. Així doncs, la metodologia proposada està orientada a connectar l’espai de treball de la persona amb l’espai de treball de la màquina o robot a través de la interfície que introdueix dos processos d’escala. Un primer canvi d’escala s’aplica entre el moviment produït per l’operador i el produït a la interfície visual i un segon canvi està orientat a escalar l’espai real de la tasca sobre la interfície visual. Aquests canvis d’escala han de ser ajustats als objectes d’interès, resultant en una modificació de la resolució espacial d’acord amb la tasca a realitzar i la mida, forma, i velocitat dels objectes. Aquests canvis d’escala modifiquen el flux d’informació entre l’operador i la màquina d’acord amb les característiques i limitacions d’ambdós. / La interacción persona-máquina en teleoperación, a través de la interfaz de usuario, permite conseguir el nivel de inteligencia necesario para ejecutar en cooperación tareas complejas que no pueden ser realizadas por máquinas o robots por si solos o directamente por las personas. Las técnicas de interacción facilitan el desarrollo de dichas tareas haciéndolas más eficientes y eficaces, mediante la mejora de cualquier sistema que incorpore una interfaz de usuario. Las personas poseen limitaciones motoras inherentes a la naturaleza humana (como el temblor fisiológico) y limitaciones perceptivas (como la percepción de la distancia o el tiempo) que impiden realizar una operación suficientemente suave y precisa en ciertas aplicaciones. Algunos estudios tratan este fenómeno y su efecto en los sistemas persona-máquina y sistemas teleoperados. Existen modelos psicomotores que muestran que la eficiencia de la manipulación humana en la selección de un objeto depende de determinados factores. Entre estos modelos, el más representativo corresponde a la Ley de Fitts en donde el tiempo de ejecución es una función logarítmica del tamaño y la distancia al objeto. En teleoperación, y en base a estos modelos psicomotores, se demuestra que una modificación en la escala visual de la interfaz tiene un efecto directo en el tiempo de ejecución de una tarea y en la precisión alcanzable. Lo mismo ocurre con un cambio en la amplitud de movimiento que realiza el operador con respecto al realizado por el sistema, con lo que el escalado del movimiento entre maestro y esclavo tiene un efecto significativo en la eficiencia y eficacia con la que se ejecuta una tarea. Este trabajo de investigación está orientado al diseño y desarrollo de un método concebido para mejorar la eficacia gracias a una mayor eficiencia visual y motora de la interfaz persona-máquina. El método se basa en la modificación del flujo de información entre persona, máquina e interfaz mediante el escalado tanto del movimiento de la persona como de la imagen de la tarea visualizada. El tiempo de operación, los movimientos de la mano de la persona y el grado de atención pueden reducirse con esta asistencia computarizada. Los cambios de escala se adaptan a la tarea, afectando positivamente al rendimiento en términos de precisión y rapidez. Por lo tanto, la metodología propuesta está orientada a conectar el espacio de trabajo de la persona con el espacio de trabajo de la máquina o robot a través de la interfaz que introduce dos procesos de escala. Un primer cambio de escala se aplica entre el movimiento producido por el operador y el producido en la interfaz visual y un segundo cambio está orientado a escalar el espacio real de la tarea sobre la interfaz visual. Estos cambios de escala deben ser ajustados a los objetos de interés, resultando en una modificación de la resolución espacial acorde con la tarea a realizar y el tamaño, forma, distancia y velocidad de los objetos. Dichos cambios de escala modifican el flujo de información entre el operador y la máquina acordes con las características y limitaciones de ambos. Interacción persona-máquina Teleoperación Ley de fitts Funciones de escala Factores humanos 004
2	Aplicaciones de los autómatas transductores finitos con pesos (WFST) en la corrección simbólica en interfaces persona-máquina Navarro Cerdán, José Ramón 18 April 2016 (has links) [EN] In this thesis a real application related to the string correction process from an OCR classifier in a form digitizing task is presented. These strings come from a classifier with a given error ratio that implies that some characters in the string have been potentially misclassified, producing erroneous words. This raises the need to introduce some kind of postprocess to improve the strings. The implementation of such postprocess takes into account all the available evidence in a given moment. In the case proposed here, these evidences are the charactersrecognized by the classifier with their posterior probabilities, the confusion matrix between symbols and the language model finally accepted. Each evidence is modelled independently by means of a WFST and then combined by means of the composition operation into a single integrated automata. From this automata, the path that maximizes the probability is selected. This path is the string, that belongs to the language model, that is the nearest string to the OCR hypothesis according to the confusion matrix. The final system offers two different results: on the one hand the corrected string, on the other hand the transformation cost produced during the string correction. Additionally, it is proposed a general method of error estimation using the input string transformation cost that establishes a threshold in terms of the cost and the proposed end-user parameter: the acceptable final error. This thesis presents a method for estimating adaptive rejection threshold estimation that allows for a certain percentage of error in a lot of strings from one language (sample) that presents several advantages. On the one hand, it is independent from transformation cost postprocessing distribution of such samples. On the other hand, it allows the user to set the threshold for a familiar and advantageous manner, as is setting the desired rate of sampling error. For this, first, and for a given language, a model that estimates the probability of error associated with the acceptation of postprocessed strings with a given transformation cost is defined. Then, the procedure that performs the rejection threshold estimation adaptively in order to achieve predefined rate error for a test batch is presented. In addition, an approach to obtain the above model is proposed when there are no real and supervised OCR hypothesis in the learning stage. The chapter is accompanied by experiments whose results demonstrate the utility of the proposed method. Next, linking in somehow with the search for an increased productivity in a possible string validation task, of previously strings rejected by the system through the foregoing error estimation method, a method of multimodal and interactive human-computer interaction that composes the above information with the prefix introduced by the user, while the validation process occurs, making use, for this, of WFST and the automata composition operation. The search for the most likely string for each new interaction offered by the user, in the composed automata, presented here, shows a clear increase in productivity by requiring fewer keystrokes in obtaining the correct string. Finally, a tolerant fault multimodal and interactive interface, using also WFST, is shown by making the composition of different information sources together with an error model related with the possible confusion caused due to the arrangement of keys on a keyboard. The application shown in this case is related to the introduction of a destination into a GPS device where is considered both the information related to the next destinations to a specific place, such as the information related to the entered prefix and errors that may occur due to the arrangement of keys on the input device considered. / [ES] En esta tesis se presenta inicialmente una aplicación real de corrección de cadenas procedentes de un clasificador OCR en una tarea de digitalización de formularios. Estas cadenas, proceden de un clasificador con cierta probabilidad de error, lo que implica la posibilidad de que alguno de los caracteres pertenecientes a una palabra sea erróneo, produciendo finalmente palabras incorrectas. Esto plantea la necesidad de introducir algún tipo de postproceso que mejore dichas cadenas. Para implementar dicho postproceso, se tienen en cuenta todas las evidencias disponibles en un momento dado. En el caso propuesto aquí serán los caracteres reconocidos por el propio clasificador con su probabilidad a posteriori, la matriz de confusión entre símbolos y el modelo de lenguaje finalmente aceptado. Cada una de estas evidencias se modela de manera independiente en forma de un WFST. Una vez modeladas se fusionan mediante la operación de composición de autómatas en un único autómata integrado. A partir de este autómata, se selecciona el camino que maximiza la probabilidad y que corresponde con la cadena perteneciente al lenguaje más cercana a la hipótesis OCR según la matriz de confusión entre símbolos. El sistema final ofrecerá dos resultados diferentes: por una parte la cadena corregida y por otra el coste de transformación de dicha corrección. Por otra parte, se plantea un método general de estimación del error frente a un coste de transformación de las cadenas de entrada que permite establecer un umbral dinámico en función de dicho coste y un parámetro propuesto por el usuario final: el error final asumible. Para ello en esta tesis se presenta un método adaptativo de estimación del umbral de rechazo que permite estimarlo para obtener un determinado porcentaje de error en un lote de cadenas de un lenguaje (muestra) que presenta diversas ventajas. Por un lado, es independiente de la distribución de los costes de transformación de dichas muestras. Por otro lado, permite al usuario establecer el umbral de una manera familiar y ventajosa, como es fijando la tasa de error deseada de la muestra. Para todo ello, en primer lugar, y para un lenguaje dado, se define un modelo que estima la probabilidad de error asociada a aceptar cadenas con un coste de transformación determinado. A continuación, se expone el procedimiento que lleva a cabo la estimación del umbral de rechazo de manera adaptativa con el objetivo de alcanzar la tasa de error predefinida para un lote de test. Además, se propone una aproximación para la obtención del modelo anterior cuando no se dispone de hipótesis OCR reales y supervisadas en la etapa de aprendizaje. Seguidamente y enlazando en cierta forma con la búsqueda de un incremento de productividad en una posible validación de las cadenas, previamente rechazadas por el sistema a través del método de estimación del error anteriormente expuesto, se presenta un método de interacción persona-máquina multimodal e interactivo que fusiona la información anterior junto al prefijo introducido, por el propio usuario, durante dicho proceso de validación, haciendo uso para ello de los WFST y la operación de composición de autómatas. Para finalizar, se muestra otra interfaz multimodal e interactiva tolerante a fallos, mediante la fusión de diferentes fuentes de información junto a un modelo de error relacionado con las posibles confusiones producidas debido a la disposición de las teclas de un teclado. Para ello, se hace uso también de WFST para su modelado. La aplicación mostrada en este caso está relacionada con la introducción de un destino en un dispositivo GPS y en ella se considera, tanto la información de los destinos próximos a un lugar concreto, como la información relativa al prefijo introducido y los errores que pueden aparecer debido a la propia disposición de las teclas en el dispositivo de entrada. / [CA] En aquesta tesi es presenta inicialment una aplicació real de correcció de cadenes procedents d'un classificador OCR en una tasca de digitalització de formularis. Aquestes cadenes, procedeixen d'un classificador amb una determinada probabilitat d'error, la qual cosa implica la possibilitat de que algun dels caràcters que pertanyen a una paraula siga erroni, produint finalment paraules incorrectes. Això planteja la necessitat d'introduir algun tipus de postprocés que millore aquestes cadenes. Per implementar aquest postprocés, es tenen en compte totes les evidències disponibles en un moment donat. En el cas proposat ací, seran els caràcters reconeguts pel propi classificador amb la seua probabilitat a posteriori, la matriu de confusió entre símbols i el model de llenguatge finalment acceptat. Cadascuna d'aquestes evidències es modela de manera independent en forma d'un WFST. Una vegada modelades es fusionen mitjançant l'operació de composició d'autòmats en un únic autòmat integrat. A partir d'aquest autòmat, es selecciona el camí que fa màxima la probabilitat i que es correspon amb la cadena més propera a la hipòtesi OCR que pertany al llenguatge segons la matriu de confusió entre símbols. El sistema final oferirà dos resultats diferents: d'una banda la cadena corregida, i d'una altra, el cost de transformació d'aquesta correcció. D'una altra banda, es planteja un mètode general d'estimació de l'error front al cost de transformació de les cadenes d'entrada que permet establir un llindar dinàmic en funció d'aquest cost i un paràmetre proposat per l'usuari final: l'error final assumible. Per això en aquesta tesi es presenta un mètode adaptatiu d'estimació de rebuig, amb la finalitat d'obtindre un determinat percentatge d'error en un lot de cadenes d'un llenguatge (mostra) que presenta diversos avantatges. D'una banda és independent de la distribució dels costos de transformació de les mostres esmentades. D'altra banda, permet l'usuari establir el llindar d'una manera familiar i avantatjosa, com és fixant la tasa d'error desitjada per la mostra. Per tot això, en primer lloc, i donat un llenguatge, es defineix un model que estima la probabilitat d'error associada a acceptar cadenes amb un cost de transformació determinat. A continuació, s'exposa el procediment que du a terme l'estimació del llindar de rebuig de manera adaptativa amb l'objectiu de arribar a la tasa d'error predefinida per a un lot de test. A més a més, es proposa una aproximació per a obtindre el model anterior quant no es disposa d'hipòtesi OCR reals i supervisades a l'etapa d'aprenentatge. Seguidament, i enllaçant amb la recerca d'un increment en la productivitat en una possible validació de cadenes prèviament rebutjades pel sistema a través del mètode d'estimació de l'error anteriorment exposat, es presenta un mètode d'interacció persona-màquina multimodal i interactiu que fusiona la informació anterior, juntament amb el prefix introduït pel propi usuari durant l'esmentat procés de validació, fent ús dels WFST i l'operació de composició d'autòmats. La recerca de la cadena més probable, en cada nova interacció oferida per l'usuari ens mostra un clar increment de la productivitat, al requerir un nombre menor de pulsacions de teclat per obtindre la cadena correcta. Per finalitzar, es mostra una altra interfície multimodal i interactiva tolerant a errades, mitjançant la fusió de diferents fonts d'informació juntament a un model d'error relacionat amb les possibles confusions produïdes a causa de la disposició de les lletres d'un teclat. En aquest cas es fa ús també dels WFST en el seu modelat. L'aplicació mostrada en aquest cas està relacionada amb la introducció d'una destinació en un dispositiu GPS i en aquesta es considera tant la informació pròxima a un lloc concret, com la informació relativa al prefix introduït, junt als errors que poden aparèixer a causa de la pròpia dispos / Navarro Cerdán, JR. (2016). Aplicaciones de los autómatas transductores finitos con pesos (WFST) en la corrección simbólica en interfaces persona-máquina [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/62688 Interacción persona-máquina Composición de autómatas Postproceso OCR Modelos de lenguaje Umbral de rechazo adaptativo Curva error vs. coste Curva acumulada error vs. coste. LENGUAJES Y SISTEMAS INFORMATICOS

Search results

Transformación escalar de la interfaz de operador en teleoperación asistida

Aplicaciones de los autómatas transductores finitos con pesos (WFST) en la corrección simbólica en interfaces persona-máquina