Global ETD Search

Return to search

Statistical approaches for natural language modelling and monotone statistical machine translation

Esta tesis reune algunas contribuciones al reconocimiento de formas estadístico y, más especícamente, a varias tareas del procesamiento del lenguaje natural. Varias técnicas estadísticas bien conocidas se revisan en esta tesis, a saber: estimación paramétrica, diseño de la función de pérdida y modelado estadístico. Estas técnicas se aplican a varias tareas del procesamiento del lenguajes natural tales como clasicación de documentos, modelado del lenguaje natural
y traducción automática estadística.
En relación con la estimación paramétrica, abordamos el problema del suavizado proponiendo una nueva técnica de estimación por máxima verosimilitud con dominio restringido (CDMLEa ). La técnica CDMLE evita la necesidad de la etapa de suavizado que propicia la pérdida de las propiedades del estimador máximo verosímil. Esta técnica se aplica a clasicación de documentos mediante el clasificador Naive Bayes. Más tarde, la técnica CDMLE se extiende a la estimación por máxima verosimilitud por leaving-one-out aplicandola al suavizado de modelos de lenguaje. Los resultados obtenidos en varias tareas de modelado del lenguaje natural, muestran una mejora en términos de perplejidad.
En a la función de pérdida, se estudia cuidadosamente el diseño de funciones de pérdida diferentes a la 0-1. El estudio se centra en aquellas funciones de pérdida que reteniendo una complejidad de decodificación similar a la función 0-1, proporcionan una mayor flexibilidad. Analizamos y presentamos varias funciones de pérdida en varias tareas de traducción automática y con varios modelos de traducción. También, analizamos algunas reglas de traducción que destacan por causas prácticas tales como la regla de traducción directa; y, así mismo, profundizamos en la comprensión de los modelos log-lineares, que son de hecho, casos particulares de funciones de pérdida.
Finalmente, se proponen varios modelos de traducción monótonos basados en técnicas de modelado estadístico . / Andrés Ferrer, J. (2010). Statistical approaches for natural language modelling and monotone statistical machine translation [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/7109

Inteligencia artificial

Karush-kuhn-tucker

Natural language processing

Statistical pattern recognition

Hidden semi-markov models

Finite state transducers

Statistial machine translation

Log-linear models

Maximum likelihood estimation

Hidden markov models

Reconocimiento de formas

LENGUAJES Y SISTEMAS INFORMATICOS

Identifer	oai:union.ndltd.org:upv.es/oai:riunet.upv.es:10251/7109
Date	11 February 2010
Creators	Andrés Ferrer, Jesús
Contributors	Juan Císcar, Alfonso, Casacuberta Nolla, Francisco, Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació
Publisher	Universitat Politècnica de València
Source Sets	Universitat Politècnica de València
Language	English
Detected Language	Spanish
Type	info:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/acceptedVersion
Source	Riunet
Rights	http://rightsstatements.org/vocab/InC/1.0/, info:eu-repo/semantics/openAccess

Page generated in 0.0136 seconds

Statistical approaches for natural language modelling and monotone statistical machine translation

Description

Links & Downloads

Tags

Additional Fields