Global ETD Search

91	Mejora del streaming de vídeo en DASH con codificación de bitrate variable mediante el algoritmo Look Ahead y mecanismos de coordinación para la reproducción, y propuesta de nuevas métricas para la evaluación de la QoE Belda Ortega, Román 19 July 2021 (has links) [ES] Esta tesis presenta diversas propuestas encaminadas a mejorar la transmisión de vídeo a través del estándar DASH (Dynamic Adaptive Streaming over HTTP). Este trabajo de investigación estudia el protocolo de transmisión DASH y sus características. A la vez, plantea la codificación con calidad constante y bitrate variable como modo de codificación del contenido de vídeo más indicado para la transmisión de contenido bajo demanda mediante el estándar DASH. Derivado de la propuesta de utilización del modo de codificación de calidad constante, cobra mayor importancia el papel que juegan los algoritmos de adaptación en la experiencia de los usuarios al consumir el contenido multimedia. En este sentido, esta tesis presenta un algoritmo de adaptación denominado Look Ahead el cual, sin modificar el estándar, permite utilizar la información de los tamaños de los segmentos de vídeo incluida en los contenedores multimedia para evitar tomar decisiones de adaptación que desemboquen en paradas no deseadas en la reproducción de contenido multimedia. Con el objetivo de evaluar las posibles mejoras del algoritmo de adaptación presentado, se proponen tres modelos de evaluación objetiva de la QoE. Los modelos propuestos permiten predecir de forma sencilla la QoE que tendrían los usuarios de forma objetiva, utilizando parámetros conocidos como el bitrate medio, el PSNR (Peak Signal-to-Noise Ratio) y el valor de VMAF (Video Multimethod Assessment Fusion). Todos ellos aplicados a cada segmento. Finalmente, se estudia el comportamiento de DASH en entornos Wi-Fi con alta densidad de usuarios. En este contexto, se producen un número elevado de paradas en la reproducción por una mala estimación de la tasa de transferencia disponible debida al patrón ON/OFF de descarga de DASH y a la variabilidad del acceso al medio de Wi-Fi. Para paliar esta situación, se propone un servicio de coordinación basado en la tecnología SAND (MPEG's Server and Network Assisted DASH) que proporciona una estimación de la tasa de transferencia basada en la información del estado de los players de los clientes. / [CA] Aquesta tesi presenta diverses propostes encaminades a millorar la transmissió de vídeo a través de l'estàndard DASH (Dynamic Adaptive Streaming over HTTP). Aquest treball de recerca estudia el protocol de transmissió DASH i les seves característiques. Alhora, planteja la codificació amb qualitat constant i bitrate variable com a manera de codificació del contingut de vídeo més indicada per a la transmissió de contingut sota demanda mitjançant l'estàndard DASH. Derivat de la proposta d'utilització de la manera de codificació de qualitat constant, cobra major importància el paper que juguen els algorismes d'adaptació en l'experiència dels usuaris en consumir el contingut. En aquest sentit, aquesta tesi presenta un algoritme d'adaptació denominat Look Ahead el qual, sense modificar l'estàndard, permet utilitzar la informació de les grandàries dels segments de vídeo inclosa en els contenidors multimèdia per a evitar prendre decisions d'adaptació que desemboquin en una parada indesitjada en la reproducció de contingut multimèdia. Amb l'objectiu d'avaluar les possibles millores de l'algoritme d'adaptació presentat, es proposen tres models d'avaluació objectiva de la QoE. Els models proposats permeten predir de manera senzilla la QoE que tindrien els usuaris de manera objectiva, utilitzant paràmetres coneguts com el bitrate mitjà, el PSNR (Peak Signal-to-Noise Ratio) i el valor de VMAF (Video Multimethod Assessment Fusion). Tots ells aplicats a cada segment. Finalment, s'estudia el comportament de DASH en entorns Wi-Fi amb alta densitat d'usuaris. En aquest context es produeixen un nombre elevat de parades en la reproducció per una mala estimació de la taxa de transferència disponible deguda al patró ON/OFF de descàrrega de DASH i a la variabilitat de l'accés al mitjà de Wi-Fi. Per a pal·liar aquesta situació, es proposa un servei de coordinació basat en la tecnologia SAND (MPEG's Server and Network Assisted DASH) que proporciona una estimació de la taxa de transferència basada en la informació de l'estat dels players dels clients. / [EN] This thesis presents several proposals aimed at improving video transmission through the DASH (Dynamic Adaptive Streaming over HTTP) standard. This research work studies the DASH transmission protocol and its characteristics. At the same time, this work proposes the use of encoding with constant quality and variable bitrate as the most suitable video content encoding mode for on-demand content transmission through the DASH standard. Based on the proposal to use the constant quality encoding mode, the role played by adaptation algorithms in the user experience when consuming multimedia content becomes more important. In this sense, this thesis presents an adaptation algorithm called Look Ahead which, without modifying the standard, allows the use of the information on the sizes of the video segments included in the multimedia containers to avoid making adaptation decisions that lead to undesirable stalls during the playback of multimedia content. In order to evaluate the improvements of the presented adaptation algorithm, three models of objective QoE evaluation are proposed. These models allow to predict in a simple way the QoE that users would have in an objective way, using well-known parameters such as the average bitrate, the PSNR (Peak Signal-to-Noise Ratio) and the VMAF (Video Multimethod Assessment Fusion). All of them applied to each segment. Finally, the DASH behavior in Wi-Fi environments with high user density is analyzed. In this context, there could be a high number of stalls in the playback because of a bad estimation of the available transfer rate due to the ON/OFF pattern of DASH download and to the variability of the access to the Wi-Fi environment. To relieve this situation, a coordination service based on SAND (MPEG's Server and Network Assisted DASH) is proposed, which provides an estimation of the transfer rate based on the information of the state of the clients' players. / Belda Ortega, R. (2021). Mejora del streaming de vídeo en DASH con codificación de bitrate variable mediante el algoritmo Look Ahead y mecanismos de coordinación para la reproducción, y propuesta de nuevas métricas para la evaluación de la QoE [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/169467 Transmisión de datos Calidad de Experiencia (QoE) Proporción máxima de señal a ruido Quality of experience Adaptive BitRate Streaming Vídeo Wi-Fi Video streaming Server and network assisted DASH (SAND) Peak signal-to-noise ratio (PSNR) INGENIERIA TELEMATICA
92	Aplicaciones de los autómatas transductores finitos con pesos (WFST) en la corrección simbólica en interfaces persona-máquina Navarro Cerdán, José Ramón 18 April 2016 (has links) [EN] In this thesis a real application related to the string correction process from an OCR classifier in a form digitizing task is presented. These strings come from a classifier with a given error ratio that implies that some characters in the string have been potentially misclassified, producing erroneous words. This raises the need to introduce some kind of postprocess to improve the strings. The implementation of such postprocess takes into account all the available evidence in a given moment. In the case proposed here, these evidences are the charactersrecognized by the classifier with their posterior probabilities, the confusion matrix between symbols and the language model finally accepted. Each evidence is modelled independently by means of a WFST and then combined by means of the composition operation into a single integrated automata. From this automata, the path that maximizes the probability is selected. This path is the string, that belongs to the language model, that is the nearest string to the OCR hypothesis according to the confusion matrix. The final system offers two different results: on the one hand the corrected string, on the other hand the transformation cost produced during the string correction. Additionally, it is proposed a general method of error estimation using the input string transformation cost that establishes a threshold in terms of the cost and the proposed end-user parameter: the acceptable final error. This thesis presents a method for estimating adaptive rejection threshold estimation that allows for a certain percentage of error in a lot of strings from one language (sample) that presents several advantages. On the one hand, it is independent from transformation cost postprocessing distribution of such samples. On the other hand, it allows the user to set the threshold for a familiar and advantageous manner, as is setting the desired rate of sampling error. For this, first, and for a given language, a model that estimates the probability of error associated with the acceptation of postprocessed strings with a given transformation cost is defined. Then, the procedure that performs the rejection threshold estimation adaptively in order to achieve predefined rate error for a test batch is presented. In addition, an approach to obtain the above model is proposed when there are no real and supervised OCR hypothesis in the learning stage. The chapter is accompanied by experiments whose results demonstrate the utility of the proposed method. Next, linking in somehow with the search for an increased productivity in a possible string validation task, of previously strings rejected by the system through the foregoing error estimation method, a method of multimodal and interactive human-computer interaction that composes the above information with the prefix introduced by the user, while the validation process occurs, making use, for this, of WFST and the automata composition operation. The search for the most likely string for each new interaction offered by the user, in the composed automata, presented here, shows a clear increase in productivity by requiring fewer keystrokes in obtaining the correct string. Finally, a tolerant fault multimodal and interactive interface, using also WFST, is shown by making the composition of different information sources together with an error model related with the possible confusion caused due to the arrangement of keys on a keyboard. The application shown in this case is related to the introduction of a destination into a GPS device where is considered both the information related to the next destinations to a specific place, such as the information related to the entered prefix and errors that may occur due to the arrangement of keys on the input device considered. / [ES] En esta tesis se presenta inicialmente una aplicación real de corrección de cadenas procedentes de un clasificador OCR en una tarea de digitalización de formularios. Estas cadenas, proceden de un clasificador con cierta probabilidad de error, lo que implica la posibilidad de que alguno de los caracteres pertenecientes a una palabra sea erróneo, produciendo finalmente palabras incorrectas. Esto plantea la necesidad de introducir algún tipo de postproceso que mejore dichas cadenas. Para implementar dicho postproceso, se tienen en cuenta todas las evidencias disponibles en un momento dado. En el caso propuesto aquí serán los caracteres reconocidos por el propio clasificador con su probabilidad a posteriori, la matriz de confusión entre símbolos y el modelo de lenguaje finalmente aceptado. Cada una de estas evidencias se modela de manera independiente en forma de un WFST. Una vez modeladas se fusionan mediante la operación de composición de autómatas en un único autómata integrado. A partir de este autómata, se selecciona el camino que maximiza la probabilidad y que corresponde con la cadena perteneciente al lenguaje más cercana a la hipótesis OCR según la matriz de confusión entre símbolos. El sistema final ofrecerá dos resultados diferentes: por una parte la cadena corregida y por otra el coste de transformación de dicha corrección. Por otra parte, se plantea un método general de estimación del error frente a un coste de transformación de las cadenas de entrada que permite establecer un umbral dinámico en función de dicho coste y un parámetro propuesto por el usuario final: el error final asumible. Para ello en esta tesis se presenta un método adaptativo de estimación del umbral de rechazo que permite estimarlo para obtener un determinado porcentaje de error en un lote de cadenas de un lenguaje (muestra) que presenta diversas ventajas. Por un lado, es independiente de la distribución de los costes de transformación de dichas muestras. Por otro lado, permite al usuario establecer el umbral de una manera familiar y ventajosa, como es fijando la tasa de error deseada de la muestra. Para todo ello, en primer lugar, y para un lenguaje dado, se define un modelo que estima la probabilidad de error asociada a aceptar cadenas con un coste de transformación determinado. A continuación, se expone el procedimiento que lleva a cabo la estimación del umbral de rechazo de manera adaptativa con el objetivo de alcanzar la tasa de error predefinida para un lote de test. Además, se propone una aproximación para la obtención del modelo anterior cuando no se dispone de hipótesis OCR reales y supervisadas en la etapa de aprendizaje. Seguidamente y enlazando en cierta forma con la búsqueda de un incremento de productividad en una posible validación de las cadenas, previamente rechazadas por el sistema a través del método de estimación del error anteriormente expuesto, se presenta un método de interacción persona-máquina multimodal e interactivo que fusiona la información anterior junto al prefijo introducido, por el propio usuario, durante dicho proceso de validación, haciendo uso para ello de los WFST y la operación de composición de autómatas. Para finalizar, se muestra otra interfaz multimodal e interactiva tolerante a fallos, mediante la fusión de diferentes fuentes de información junto a un modelo de error relacionado con las posibles confusiones producidas debido a la disposición de las teclas de un teclado. Para ello, se hace uso también de WFST para su modelado. La aplicación mostrada en este caso está relacionada con la introducción de un destino en un dispositivo GPS y en ella se considera, tanto la información de los destinos próximos a un lugar concreto, como la información relativa al prefijo introducido y los errores que pueden aparecer debido a la propia disposición de las teclas en el dispositivo de entrada. / [CA] En aquesta tesi es presenta inicialment una aplicació real de correcció de cadenes procedents d'un classificador OCR en una tasca de digitalització de formularis. Aquestes cadenes, procedeixen d'un classificador amb una determinada probabilitat d'error, la qual cosa implica la possibilitat de que algun dels caràcters que pertanyen a una paraula siga erroni, produint finalment paraules incorrectes. Això planteja la necessitat d'introduir algun tipus de postprocés que millore aquestes cadenes. Per implementar aquest postprocés, es tenen en compte totes les evidències disponibles en un moment donat. En el cas proposat ací, seran els caràcters reconeguts pel propi classificador amb la seua probabilitat a posteriori, la matriu de confusió entre símbols i el model de llenguatge finalment acceptat. Cadascuna d'aquestes evidències es modela de manera independent en forma d'un WFST. Una vegada modelades es fusionen mitjançant l'operació de composició d'autòmats en un únic autòmat integrat. A partir d'aquest autòmat, es selecciona el camí que fa màxima la probabilitat i que es correspon amb la cadena més propera a la hipòtesi OCR que pertany al llenguatge segons la matriu de confusió entre símbols. El sistema final oferirà dos resultats diferents: d'una banda la cadena corregida, i d'una altra, el cost de transformació d'aquesta correcció. D'una altra banda, es planteja un mètode general d'estimació de l'error front al cost de transformació de les cadenes d'entrada que permet establir un llindar dinàmic en funció d'aquest cost i un paràmetre proposat per l'usuari final: l'error final assumible. Per això en aquesta tesi es presenta un mètode adaptatiu d'estimació de rebuig, amb la finalitat d'obtindre un determinat percentatge d'error en un lot de cadenes d'un llenguatge (mostra) que presenta diversos avantatges. D'una banda és independent de la distribució dels costos de transformació de les mostres esmentades. D'altra banda, permet l'usuari establir el llindar d'una manera familiar i avantatjosa, com és fixant la tasa d'error desitjada per la mostra. Per tot això, en primer lloc, i donat un llenguatge, es defineix un model que estima la probabilitat d'error associada a acceptar cadenes amb un cost de transformació determinat. A continuació, s'exposa el procediment que du a terme l'estimació del llindar de rebuig de manera adaptativa amb l'objectiu de arribar a la tasa d'error predefinida per a un lot de test. A més a més, es proposa una aproximació per a obtindre el model anterior quant no es disposa d'hipòtesi OCR reals i supervisades a l'etapa d'aprenentatge. Seguidament, i enllaçant amb la recerca d'un increment en la productivitat en una possible validació de cadenes prèviament rebutjades pel sistema a través del mètode d'estimació de l'error anteriorment exposat, es presenta un mètode d'interacció persona-màquina multimodal i interactiu que fusiona la informació anterior, juntament amb el prefix introduït pel propi usuari durant l'esmentat procés de validació, fent ús dels WFST i l'operació de composició d'autòmats. La recerca de la cadena més probable, en cada nova interacció oferida per l'usuari ens mostra un clar increment de la productivitat, al requerir un nombre menor de pulsacions de teclat per obtindre la cadena correcta. Per finalitzar, es mostra una altra interfície multimodal i interactiva tolerant a errades, mitjançant la fusió de diferents fonts d'informació juntament a un model d'error relacionat amb les possibles confusions produïdes a causa de la disposició de les lletres d'un teclat. En aquest cas es fa ús també dels WFST en el seu modelat. L'aplicació mostrada en aquest cas està relacionada amb la introducció d'una destinació en un dispositiu GPS i en aquesta es considera tant la informació pròxima a un lloc concret, com la informació relativa al prefix introduït, junt als errors que poden aparèixer a causa de la pròpia dispos / Navarro Cerdán, JR. (2016). Aplicaciones de los autómatas transductores finitos con pesos (WFST) en la corrección simbólica en interfaces persona-máquina [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/62688 Interacción persona-máquina Composición de autómatas Postproceso OCR Modelos de lenguaje Umbral de rechazo adaptativo Curva error vs. coste Curva acumulada error vs. coste. LENGUAJES Y SISTEMAS INFORMATICOS
93	Sensores virtuales para procesos con medidas escasas y retardos temporales Peñarrocha Alós, Ignacio 22 December 2008 (has links) En este trabajo se aborda el problema de controlar un proceso cuya salida se muestrea de forma irregular. Para ello se propone utilizar un predictor que estima las salidas del proceso en instantes regulares de tiempo más un controlador convencional que calcula la acción de control a partir de las estimaciones del predictor (técnica conocida como control inferencial). La predicción consiste en estimar las variables de salida que se desean controlar a partir de las mediciones realizadas con diversos sensores utilizando para ello un modelo matemático del proceso. El filtro de Kalman permite hacer la predicción de forma óptima si las perturbaciones tienen una distribución gaussiana de media cero, pero con el inconveniente de requerir un elevado coste computacional cuando se utilizan diferentes sensores con retardos temporales variantes. En este trabajo se propone una estrategia de predicción alternativa de bajo coste computacional cuyo diseño se basa en el conocimiento de la disponibilidad de mediciones y de los retardos (del proceso, del sistema de medición o del sistema de transmisión de datos) y de la naturaleza de las perturbaciones. Los predictores propuestos minimizan el error de predicción frente al muestreo aleatorio con retardos variantes, perturbaciones, ruido de medida, error de modelado, retardos en la acción de control e incertidumbre en los tiempos de medición. Las diferentes estrategias de diseño que se proponen se clasifican según el tipo de información que se dispone de las perturbaciones y del coste computacional requerido. Se han planteado los diseños para sistemas monovariables, multivariables, lineales y no lineales. Asimismo, también se ha elaborado una forma más eficiente de incluir mediciones escasas con retardo en el filtro de Kalman, con el objetivo de reducir el coste computacional de la predicción. En este trabajo se demuestra que los sistemas de control inferencial que utilizan los predictores propuestos cumplen con el principio de sep / Peñarrocha Alós, I. (2006). Sensores virtuales para procesos con medidas escasas y retardos temporales [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/3882 Medidas escasas Muestreo aleatorio Muestreo no convencional Pérdida de datos Convergencia de lyapunov Retardos variantes en el tiempo Postproceado de muestras Predicción de salidas Sensores virtuales Sistemas de control basados en red Mediciones distribuidas Fusión sensorial Observadores Scarce measurements Random sampling Unconventional sampling Missing-data Sensor fusion Time-varying sampling period Observers Networked control systems Virtual sensors Distributed measurements Output prediction Sample post-processing Time-varying delays Minear matrix inequalities Lyapunov convergence INGENIERIA DE SISTEMAS Y AUTOMATICA 331102 - Ingeniería de control

Page generated in 0.0282 seconds