1 |
Part-of-speech Tagging: A Machine Learning Approach based on Decision TreesMàrquez, Lluís 21 July 1999 (has links)
The study and application of general Machine Learning (ML) algorithms to theclassical ambiguity problems in the area of Natural Language Processing (NLP) isa currently very active area of research. This trend is sometimes called NaturalLanguage Learning. Within this framework, the present work explores the applicationof a concrete machine-learning technique, namely decision-tree induction, toa very basic NLP problem, namely part-of-speech disambiguation (POS tagging).Its main contributions fall in the NLP field, while topics appearing are addressedfrom the artificial intelligence perspective, rather from a linguistic point of view.A relevant property of the system we propose is the clear separation betweenthe acquisition of the language model and its application within a concrete disambiguationalgorithm, with the aim of constructing two components which are asindependent as possible. Such an approach has many advantages. For instance, thelanguage models obtained can be easily adapted into previously existing taggingformalisms; the two modules can be improved and extended separately; etc.As a first step, we have experimentally proven that decision trees (DT) providea flexible (by allowing a rich feature representation), efficient and compact wayfor acquiring, representing and accessing the information about POS ambiguities.In addition to that, DTs provide proper estimations of conditional probabilities fortags and words in their particular contexts. Additional machine learning techniques,based on the combination of classifiers, have been applied to address some particularweaknesses of our tree-based approach, and to further improve the accuracy in themost difficult cases.As a second step, the acquired models have been used to construct simple,accurate and effective taggers, based on diiferent paradigms. In particular, wepresent three different taggers that include the tree-based models: RTT, STT, andRELAX, which have shown different properties regarding speed, flexibility, accuracy,etc. The idea is that the particular user needs and environment will define whichis the most appropriate tagger in each situation. Although we have observed slightdifferences, the accuracy results for the three taggers, tested on the WSJ test benchcorpus, are uniformly very high, and, if not better, they are at least as good asthose of a number of current taggers based on automatic acquisition (a qualitativecomparison with the most relevant current work is also reported.Additionally, our approach has been adapted to annotate a general Spanishcorpus, with the particular limitation of learning from small training sets. A newtechnique, based on tagger combination and bootstrapping, has been proposed toaddress this problem and to improve accuracy. Experimental results showed thatvery high accuracy is possible for Spanish tagging, with a relatively low manualeffort. Additionally, the success in this real application has confirmed the validity of our approach, and the validity of the previously presented portability argumentin favour of automatically acquired taggers.
|
2 |
Language learning tasks ans automatic analysis of learner language : connecting FLTL and NPL in the design of ICALL materials supporting effective use in real-life instructionQuixal Martínez, Martí 20 December 2012 (has links)
Esta investigación se encuentra en la encrucijada entre el Procesamiento del Lenguaje Natural y el Aprendizaje y Enseñanza de Lenguas Extranjeras y, en concreto, dentro del área denominada Aprendizaje de Lenguas Asistido por Ordenador con Inteliencia Artificial (en inglés, Intelligent Computer-Assisted Language Learning, abreviado ICALL).
Nuestra investigación se centra en el diseño, la implemenación en entornos reales de materiales de ICALL para proveer a los estudiantes de lenguas extranjeras, y especialmente de inglés, de materiales que incorporen funcionalidades de corrección y evaluación automáticas de las respuestas.
En esta tesis defendemos que, para que la integración de materiales de ICALL sea
exitosa, hay que tener en cuenta por igual los requisitos pedagógicos y los computacionales
ya en la fase de diseño de los materiales. Nuestros objetivos principales son dos.
Por un lado, queremos integrar en el proceso de diseño de materiales tanto los principios
fundamentales de la Adquisición de Segundas Lenguas y el Aprendizaje y Enseñanza de
Lenguas Extranjeras como los principios fundamentales del modelado lingüístico. Por otro
lado, queremos facilitar la integración o de los materiales de ICALL en contextos de instrucción
reales, en contraste con los contextos de instrucción de investigación o de laboratorio, para
capacitar a los docentes con la metodología y la tecnología necesarias para que puedan
crear materiales de ICALL autónomamente.
Para conseguir el primer objetivo, proponemos un proceso de diseño de materiales
de ICALL que combina los principios básicos de la Enseñanza de Lenguas basado en
Tareas y el Diseño de Tests basado en Tareas con el tipo de especificaciones requeridas
por las herramientas de Procesamiento del Lenguaje Natural. Exploramos la relación entre los requisitos pedagógicos y computacionales desde tres puntos de vista: (i) las características formales de las actividades para el aprendizaje de lenguas extranjeras, (ii) la complejidad y la variabilidad de la lengua de los estudiantes, y (iii) la viabilidad de aplicar técnicas computacionales para el análisis y evaluación automáticas de las
respuestas.
Para lograr el segundo objetivo, proponemos una estrategia de evaluación automática
que permite a los y las docentes adaptar los recursos lingüísticos computacionales necesarios
para corregir automáticamente las actividades de ICALL sin la necesidad de aprender
a programar. Para probar la viabilidad de la propuesta presentamos un experimento en
que la aplicamos y la evaluamos en entornos de aprendizaje reales con docentes y aprendices
de educación secundaria.
Con esta tesis hacemos una contribuciones metodológicas y empíricas en el campo del ICALL,
con una aproximación innovadora en el diseño de materiales que pone énfasis en la
naturaleza multidisciplinar e iterativa del proceso. Los resultados que presentamos revelan
el potencial de la caracteritzación de tareas de aprendizaje conjugando la perspectiva
el Aprendizaje y Enseñanza de Lenguas Extranjeras y la de la Lingüística Computacional
como un instrumento clave para describir formalmente las actividades de aprendizaje.
Esta caracteritzación permite identificar los materiales de ICALL que sean
a la vez pedagógicamente relevantes y computacionalmente viables.
Los resultados demuestran que con la estrategia propuesta los y las docentes pueden
caracterizar, crear y utilizar materiales de ICALL dentro de su programa de instrucción,
y que el software computacional subyacente proporciona el procesamiento automático requerido con una calidad aceptable para el uso en contextos de instrucción reales. El
software y la metodología propuestos resultan cruciales para la investigación y la práctica
del ICALL: los docentes son capaces de diseñar actividades para los estudiantes sin
depender de un experto en Procesamiento del Lenguaje Natural. Finalmente, los resultados
también demuestran que los y las docentes valoran la experimentación muy positivamente
en la medida en que les permite integrar nuevas tecnologías en el aula, al tiempo les permite
comprender mejor la naturaleza de su tarea docente. Adem'as, los resultados
demuestran que los estudiantes se sienten motivados por el hecho de poder utilizar una
tecnología que permite una evaluación inmediata y personalizada de su actividad
de aprendizaje.
|
3 |
Un model pel tractament de la informació temporal en un sistema de comprensió automàtica de notíciesCastell Ariño, Núria 23 November 1989 (has links)
El trabajo realizado consiste en estudiar un conjunto de problemas relacionados con el tratamiento del lenguaje escrito (textos narrativos). se ha tomado, como punto central de la investigación, la información temporal:Como se expresa en el texto, como se interpreta, como ayuda al proceso de comprensión del texto y como se representa en un sistema de conocimiento.Se ha diseñado un prototipo (COTEM), basado en la investigación realizada. Escogiendo las noticias de periódico como muestra de textos narrativos.Utilizando un formalismo basado en francés, se ha implementado una base de conocimiento en la que se representan los elementos del dominio, el conocimiento lingüístico y el conocimiento general, con la inclusión de un modelo del tiempo. las instancias de elementos temporales y las relaciones entre ellas se crean y mantienen aparte en el sistema temporal.La expresión lingüística del tiempo se ha estudiado a dos niveles. a nivel de frase, proponemos una clasificación de las expresiones temporales, los patrones E-R-S para los tiempos verbales en castellano y la combinación de las expresiones temporales con los patrones verbales. a nivel de discurso, las noticias son clasificadas según su estructura narrativa y hemos definido relaciones entre estos tipos estructurales, los lexemas verbales y los tiempos verbales.El sistema temporal diseñado es independiente del dominio y consta de una red de elementos temporales de diferentes tipos (punto, intervalo cadena) conectada con un calendario. Aporta la novedad, entre otras, de distinguir entre elementos temporales cerrados y abiertos según si tienen o no, respectivamente, relación con elementos de calendario. Ello permite que el algoritmo de propagación de relaciones temporales sea más eficiente.El prototipo implementado trata las noticias a partir de una representación semántica del texto. Las noticias son interpretadas y su información es incorporada a todo el sistema.
|
4 |
On distributing the analysis process of a broad-coverage unification-based grammar of spanishMarimon Felipe, Montserrat 28 March 2003 (has links)
This thesis describes research into the development and deployment of engineered large-scale unification-based grammar to provide more robust and efficient deep grammatical analysis of linguistic expressions in real-world applications, while maintaining the accuracy of the grammar (i.e. percentage of input sentences that receive the correct analysis) and keeping its precision up to a reasonable level (i.e. percentage of input sentences that received no superfluous analysis).In tacking the efficiency problem, our approach has been to prune the search space of the parser by integrating shallow and deep processing. We propose and implement a NLP system which integrates a Part-of-Speech (PoS) tagger and chunker as a pre-processing module of broad-coverage nification-based grammar of Spanish. This allows us to release the arser from certain tasks that may be efficiently and reliably dealt with by these computationally less expensive processing techniques. On the one hand, by integrating the morpho-syntactic information delivered by the PoS tagger, we reduce the number of morpho-syntactic ambiguities of the linguistic expression to be analyzed. On the other hand, by integrating chunk mark-ups delivered by the partial parser, we do notonly avoid generating irrelevant constituents which are not to contribute to the final parse tree, but we also provide part of the structure that the analysis component has to compute, thus, avoiding a duplication of efforts.In addition, we want our system to be able to maintain the accuracy of the high-level grammar. In the integrated architecture we propose, we keep the ambiguities which can not be reliably solved by the PoS tagger to be dealt with by the linguistic components of the grammar performing deep analysis.Besides improving the efficiency of the overall analysis process and maintaining the accuracy of the grammar, our system provides both structural and lexical robustness to the high-level processing. Structural robustness is obtained by integrating into the linguistic components of the high-level grammar the structures which have already been parsed by the chunker such that they do not need to be re-built by phrase structure rules. This allows us to extend the coverage of the grammar to deal with very low frequent constructions whose treatment would increase drastically the parsing search space and would create spurious ambiguity. To provide lexical robustness to the system, we have implemented default lexical entries. Default lexical entries are lexical entry templates that are activated when the system can not find a particular lexical entry to apply. Here, the integration of the tagger, which supplies the PoS information to the linguistic processing modules of our system, allows us to increase robustness while avoiding increase in morphological ambiguity. Better precision is achieved by extending the PoS tags of our external lexicon so that they include syntactic information, for instance subcategorization information.
|
5 |
Using an ontology for guiding natural language interaction with knowledge based systemsGatius, Marta 15 January 2001 (has links)
Des dels anys 80, els sistemes basats en el coneixement, programes que utilitzen una gran quantitat de informació per modelar situacions i resoldre problemes, han adquirit gran importància en el camp industrial, financer i científic. La complexitat d'aquests sistemes fa que el seu ús presenti més dificultats que altres aplicacions informàtiques. La comunicació entre els sistemes basats en el coneixement i l'usuari presenta, doncs, nous reptes. Tot i que el llenguate natural es especialment apropiat per comunicar-se amb aquests sistemes, són pocs els que incorporen interfícies en llenguatge natural. Els motius principals són els problemes d'eficiència que presenta el processament del llenguatge natural i l'elevat cost de desenvolupar les bases de coneixement (conceptual i lingüístic) necessàries per a cada aplicació. L'objectiu d'aquesta tesi és millorar la comunicació en llenguatge natural amb els sistemes basats en el coneixement. Aquesta recerca s'ha centrat en el disseny d'una representació reutilitzable dels diferents tipus de coneixement involucrats en aquesta comunicació, que permetir de generar de forma automàtica la interfície més adequada per a cada aplicació. S'ha desenvolupat un sistema, GISE (Generador de Interfaces a Sistemas Expertos), que genera interfícies en llenguatge natural per diferents tipus d'aplicacions. Aquest sistema adapta automàticament les bases de coneixement lingüístic generals als requeriments d'una aplicació concreta, obtenint la gramàtica més apropiada. El disseny del sistema està basat en una representació reutilitzable i modular dels diferents tipus de coneixement necessaris en la comunicació en llenguatge natural. Aquesta informació consisteix en els conceptes de l'aplicació, les tasques de comunicació, el coneixement lingüístic i les relacions generals entre el coneixement conceptual i la seva realització lingüística. Tres bases de coneixement s'han dissenyat per representar aquesta informació: la ontologia conceptual, la ontologia lingüística i un conjunt de relges de producció. El coneixement conceptual s'ha representat en la ontologia conceptual. Aquest coneixement inclou aspectes sobre el domini i la funcionalitat. Tota la informació necessària per modelar l'aplicació i tots els possibles actes de comunicació estan representats en la ontologia conceptual. La complexitat dels sistemes basats en el coneixement fa necessària una representació formal i explícita de la seva funcionalitat i domini.El coneixement lingüístic general necessari per expressar en llenguatge natural les possibles tasques del sistema es representen en la ontologia lingüística.La informació que permet relacionar el coneixement lingüístic general a una aplicació concreta per tal d'obtenir la gramàtica més adequada es representada mitjançant un conjunt de regles de producció.L'organització modular dels diferents tipus de coneixement que intervenen en la comunicació facilita l'adaptació del sistema a diferents tipus d'aplicacions i usuaris.Les gramàtiques generades pel sistema GISE utilitzen un llenguatge alhora ric i precís, adaptat a l'aplicació. La interfície del sistema incorpora un sistema de finestres que guia a l'usuari a introduir les opcions en llenguatge natural que el sistema reconeix.GISE s'ha aplicat a diferents sistemes: a SIREDOJ, un sistema expert en lleis i a un sistema que dóna informació sobre trens. / Since the 1980's, knowledge based systems (KBSs), programs that use knowledge to model situations and solve problems, have spread throughout industry, finance and science. Human communication with these systems deals with complex concepts and relationships that are not present in other software applications. Allthough the natural language (NL) is especially appropriate for expressing these concepts, there are not many KBSs incorporating NL interfaces. The main reasons for this are problems of efficiency in NLI performance, lack of adequacy to the communication needs of the applications and the high cost of developing and maintaining them.The aim of this thesis is to study how the communication process and engineering features can be improved in NL interaction with KBSs. This study has been focused on the efficient and reusable representation of the knowledge involved in NL communication with KBSs. GISE (Generador de Interfaces a Sistemas Expertos), a system supporting NL communication with KBSs has been developed. This system adapts the general linguistic resources to application requirements in order to automatically obtain application-restricted grammars. The main issue of the system design is a separate and reusable representation of all types of knowledge involved in communication with KBSs. This knowledge consists of the application knowledge appearing in the communication, the tasks of communication, the linguistic knowledge supporting their expression and the general relationships between conceptual knowledge and its linguistic realization. Three general bases were designed to represent all this knowledge : the Conceptual Ontology (CO), the Linguistic Ontology (LO) and a set of control rules.Conceptual knowledge is represented in the CO. This conceptual knowledge includes domain and functionality issues. All knowledge required to model the applications as well as the description of all possible communication acts is provided in the CO. The CO is the skeleton for anchoring the domain and the functionality of the applications. The complexity of KBS performance makes a formal and explicit representation of their domain and functionality necessary. The general linguistic knowledge needed to cover the expression in NL of the tasks the system performs is represented by means of the LO and a set containing all possible realizations of the application terms. The LO is domain and application independent. The control information to relate the general linguistic knowledge to conceptual application knowledge in order to generate the application-restricted grammars is represented by a set of production rules. The modular organization of the relevant knowledge into separate data structures provides great flexibility for adapting the system to different types of applications and users.The grammars generated by GISE use expressive and precise language tuned to the application and adapted to the evolution of the communicative process. A menu-system to guide the user in introducing the NL is integrated into the GISE interface. GISE has been applied to a couple of applications: SIREDOJ, an ES in law and a railway communication system.
|
6 |
Acquiring information extraction patterns from unannotated corporaCatalà Roig, Neus 14 July 2003 (has links)
Information Extraction (IE) can be defined as the task of automatically extracting preespecified kind of information from a text document. The extracted information is encoded in the required format and then can be used, for example, for text summarization or as accurate index to retrieve new documents.The main issue when building IE systems is how to obtain the knowledge needed to identify relevant information in a document. Today, IE systems are commonly based on extraction rules or IE patterns to represent the kind of information to be extracted. Most approaches to IE pattern acquisition require expert human intervention in many steps of the acquisition process. This dissertation presents a novel method for acquiring IE patterns, Essence, that significantly reduces the need for human intervention. The method is based on ELA, a specifically designed learning algorithm for acquiring IE patterns from unannotated corpora.The distinctive features of Essence and ELA are that 1) they permit the automatic acquisition of IE patterns from unrestricted and untagged text representative of the domain, due to 2) their ability to identify regularities around semantically relevant concept-words for the IE task by 3) using non-domain-specific lexical knowledge tools such as WordNet and 4) restricting the human intervention to defining the task, and validating and typifying the set of IE patterns obtained.Since Essence does not require a corpus annotated with the type of information to be extracted and it does makes use of a general purpose ontology and widely applied syntactic tools, it reduces the expert effort required to build an IE system and therefore also reduces the effort of porting the method to any domain.In order to Essence be validated we conducted a set of experiments to test the performance of the method. We used Essence to generate IE patterns for a MUC-like task. Nevertheless, the evaluation procedure for MUC competitions does not provide a sound evaluation of IE systems, especially of learning systems. For this reason, we conducted an exhaustive set of experiments to further test the abilities of Essence.The results of these experiments indicate that the proposed method is able to learn effective IE patterns.
|
7 |
Representación de las entradas verbales en una base de conocimiento léxico: diátesis y semántica léxica.Taulé Delor, Mariona 04 December 1995 (has links)
El creciente interés en el contenido y en la organización de las entradas léxicas desde una perspectiva teórica, unido a la necesidad desde un punto de vista computacional (o del Procesamiento del Lenguaje Natural) de disponer de léxicos de tamaño "real" ha situado el componente léxico en el centro de atención de muchas investigaciones en lingüística.En las teorías lingüísticas actuales existe una tendencia generalizada a asignar un papel central dentro de la teoría al componente léxico, ya que muchas de las generalizaciones lingüísticas que antes se expresaban en el componente sintáctico, en la actualidad se consideran que tienen una dimensión léxica. El componente léxico contiene en general especificaciones sobre el conocimiento fonológico, morfológico, sintáctico y semántico de las unidades léxicas, convirtiéndose de este modo en un componente básico a partir del cual se proyecta la mayoría de información lingüística. En este sentido, el léxico ya no se concibe como una mera lista de entrada con información asociada, sino como un componente complejo y estructurado.Este nuevo enfoque permite la reducción de las reglas sintagmáticas y consecuentemente la simplificación de la gramática, pero, por otro lado, la cantidad y complejidad de información especificada en este nivel puede comportar también la aparición de información redundante así como crear además problemas de control. Se hace necesario, por lo tanto, no sólo decidir qué tipo de información deben contener las entradas léxicas, sino también cómo estructurar toda esta información con el fin de evitar redundancia y captar las similitudes entre clases de palabras que se comportan de igual forma.La presente investigación se centra, por lo tanto, en la definición y posterior representación de las entradas verbales en una Base de Conocimiento Léxico y, en concreto, en la organización y formalización de la información sintáctica y semántica y la manera en que dicha información interactúa.Se examina de forma específica el nivel de Semántica Compositiva o "VRQS" (Pustejovsky 1991), en el que se indican los componentes semánticos básicos para la descripci6n del significado léxico verbal y la manera en que dichos componentes se saturan o realizan léxicamente (de manera argumental. Morfológica o sobreentendida). La "VRQS" es, en definitiva, una propuesta de organización léxica, en la que los verbos se clasifican en distintas clases semánticas en función del tipo de componentes de significado y la saturación léxica que éstos presentan.El tipo de información incluida en la "VRQS", y especialmente aquélla que hace referencia a la saturación de los componentes semánticos, se encuentra en clara correspondencia con las alternancias de diátesis del verbo. De esta manera, se observa que ciertos componentes semánticos se relacionan estrechamente con alternancias de diátesis concretas y que cada tipo de saturación léxica tiene consecuencias distintas a nivel sintáctico y de la Estructura Argumental.La "VRQS" (acrónimo de la expresión inglesa "Verbal Relativized Quality Structure") permite explicar, por lo tanto, cómo un mismo predicado verbal puede expresar de diferentes maneras sus argumentos; es decir, puede aparecer en Estructuras Argumentales alternativas. En este sentido, se argumenta que cada clase o subclase semántica verbal participa en un conjunto determinado de alternancias de diátesis y, en consecuencia, dichas alternancias pueden ser útiles también como criterio metodológico para clasificar los verbos semánticamente (Levin 1991).Se propone una clasificación de las alternancias de diátesis basada en los distintos cambios producidos, es decir, según las modificaciones que puedan efectuarse en la forma del verbo, en la realización de sus argumentos o bien en la interpretación semántica de éstos. Básicamente se establecen cuatro grandes clases de alternancias: transitivas, intransitivas, oblicuas y pronominales.Dichas alternancias de diátesis se representan en la Base de Conocimiento mediante reglas léxicas.El resultado final es una propuesta de clasificación verbal en términos de los componentes semánticos más destacados del tipo de saturación léxica que éstos presentan y de las alternancias de diátesis que exhiben.El trabajo se ha centrado básicamente en el estudio de tres clases semánticas concretas: verbos de cocción, ingestión y movimiento. La selección de estas clases verbales se ha realizado teniendo en cuenta que se trata de una muestra suficientemente representativa y amplia para poder ilustrar tanto la descomposición del significado en componentes semánticos como el tratamiento de las alternancias de diátesis.La presente investigación trata de ser una contribución al desarrollo de léxicos computacionales para sistemas de Procesamiento del Lenguaje Natural, pero también contiene un componente fundamental de investigación lingüística básica al tratar ampliamente y en profundidad cuestiones tan críticas como la interrelación entre la sintaxis y la semántica, el papel de cada una de ellas en el estudio del lenguaje y una propuesta clara de esta última como el componente determinante de la gramática de una lengua.En consecuencia, gran parte del interés en lingüística (computacional) se ha centrado, por un lado, en la definición y estructuración del contenido de las entradas léxicas y, por el otro, en el desarrollo de lenguajes para la representación del conocimiento léxico que eviten la redundancia de la información y que resuelvan problemas de control y consistencia de los datos especificados a este nivel (bases de conocimiento, representación mediante estructuras tipificadas de rasgos, lenguajes de unificación, mecanismos de herencia, reglas léxicas, etc.)Desde una perspectiva computacional, la necesidad de disponer de léxicos de tamaño "real" para aplicaciones de Procesamiento del Lenguaje Natural ha convenido la adquisición automática o semiautomática de conocimiento léxico y su posterior representación en uno de los intereses fundamentales de la lingüística y en especial de la lexicografía computacional.El presente trabajo se enmarca en esta línea de investigación, el objetivo fundamental del cual es la representación de las entradas léxicas verbales en una Base de Conocimiento Léxico. El proyecto ACQUILEX ha proporcionado el marco adecuado para la realización de esta investigación, facilitando la metodología y herramientas necesarias para la consecución de los objetivos trazados.Dentro del componente léxico, las entradas verbales adquieren un protagonismo extraordinario por considerar el verbo como el núcleo léxico, ya sea de manera explícita o implícita, de la oración. Es decir, el verbo es el que proporciona o proyecta las propiedades, fundamentalmente sintácticas pero también semánticas, de las oraciones en las que aparece. En nuestra metodología, la especificación de la información sintáctica y semántica está estrechamente relacionada y no se puede concebir de manera aislada. / The main aim of this work is to represent verbal lexical entries in a Lexical Knowledge Base. We focus on the definition and organization of the syntactic and semantic information and, mainly, the way these two kinds of information are related. We start from the hypothesis that verbal lexical meaning is the sum of different levels of semantic description: Argumental Structure, Event Structure, Selectional Restrictions and Compositional Semantics. We develop the Compositional Semantic level or "VRQS" (Verbal Relativized Qualia Structure). This level includes the decomposition of the meaning into semantic components and also the way they are saturated in Spanish. We present three different types of saturation -argumental, morphological and "understood¬" - and we show how these sorts of saturation have different syntactic consequences. The sort of information specified in "VRQS" and especially that referring to the lexical saturation of the semantic components is closely related to the diatheses alternations of verbs. In this sense, we find that some semantic components are related to specific diatheses alternations and each sort of lexical saturations has different consequences at the syntactic level and also in the Argument Structures. Thus, it is claimed that every verbal semantic class takes part in a specific set of diatheses and consequently they are also very useful as a method to classify verbs semantically.
|
8 |
Coreferència: Teoria, anotació, resolució i avaluacióRecasens Potau, Marta 03 December 2010 (has links)
Les relacions de coreferència s'estableixen entre expressions lingüístiques que es refereixen a una mateixa persona, objecte o esdeveniment. Resoldre-les és una part integral de la comprensió del discurs ja que permet als usuaris de la llengua connectar les parts del discurs que contenen informació sobre una mateixa entitat. En conseqüència, la resolució de la coreferència ha estat un focus d'atenció destacat del processament del llenguatge natural, on té una tasca pròpia. Tanmateix, malgrat la gran quantitat de recerca existent, els resultats dels sistemes actuals de resolució de la coreferència no han assolit un nivell satisfactori.La tesi es divideix en dos grans blocs. En el primer, examino tres aspectes diferents però estretament relacionats de la tasca de resolució de la coreferència: (i) l'anotació de relacions de coreferència en grans corpus electrònics, (ii) el desenvolupament de sistemes de resolució de la coreferència basats en aprenentatge automàtic i (iii) la qualificació i avaluació dels sistemes de coreferència. En el transcurs d'aquesta investigació, es fa evident que la tasca de coreferència presenta una sèrie de problemes de base que constitueixen veritables obstacles per a la seva correcta resolució. Per això, la meva aportació principal és una anàlisi crítica i alhora constructiva de diferents aspectes de la tasca de coreferència que finalment condueix, en el segon bloc de la tesi, al replantejament del concepte mateix de "coreferència". En primer lloc, l'anotació amb coreferència dels corpus AnCora del castellà i el català posa al descobert que el concepte de "referencialitat" no està clarament delimitat i que algunes relacions observades en dades d'ús real no encaixen dins la visió de la coreferència entesa en termes dicotòmics. Això dificulta assolir un alt grau d'acord entre els anotadors d'aquesta tasca.En segon lloc, els experiments realitzats sobre la contribució de més de quaranta-cinc trets d'aprenentage automàtic a la resolució de la coreferència mostren que és més petita que l'esperada. La interacció complexa que es dóna entre els diversos factors així com el fet que el coneixement pragmàtic i del món no es deixa representar sistemàticament en forma de trets d'aprenentatge de parells de mencions són indicadors que la manera en què actualment s'aplica l'aprenentatge automàtic pot no ser especialment idònia per a la tasca. Per això, considero que el millor model per adreçar el problema de la coreferència correspon als sistemes basats en entitats com CISTELL, que permet no només emmagatzemar informació de "dins" del text sinó també recollir coneixement general i del món de "fora" del text.En tercer lloc, es demostra l'existència de diversos factors que qüestionen la manera en què actualment s'avaluen els sistemes de resolució de la coreferència. Es tracta de variacions en la definició de la tasca, l'extracció de mencions a partir de l'estàndard de referència o predites automàticament, i el desacord entre els rànquings de sistemes donats per les mètriques d'avaluació més utilitzades (MUC, B3, CEAF). La desigualtat entre el nombre d'entitats unàries i el nombre d'entitats de múltiples mencions explica el biaix de les mesures o bé cap a un dèficit o bé cap a un excés de "clusters". La mesura BLANC que proposo, una implementació modificada de l'índex de Rand, corregeix aquest desequilibri.Finalment, la segona part de la tesi arriba a la conclusió que l'abandó de la visió tradicional i dicotòmica de la coreferència és el primer pas per anar més enllà de l'estat de l'art. Amb aquest objectiu s'introdueix la noció de "quasi-identitat" i s'ubica en un model de la coreferència entesa com a contínuum. Es postulen tres operacions de categorització -l'especificació, el reenfocament i la neutralització- que regeixen els canvis de granularitat que les entitats discursives experimenten a mesura que avança el discurs. / Coreference relations, as commonly defined, occur between linguistic expressions that refer to the same person, object or event. Resolving them is an integral part of discourse comprehension by allowing language users to connect the pieces of discourse information concerning the same entity. Consequently, coreference resolution has become a major focus of attention in natural language processing as its own task. Despite the wealth of existing research, current performance of coreference resolution systems has not reached a satisfactory level.The thesis is broadly divided into two parts. In the first part, I examine three separate but closely related aspects of the coreference resolution task, namely (i) the encoding of coreference relations in large electronic corpora, (ii) the development of learning-based coreference resolution systems, and (iii) the scoring and evaluation of coreference systems. Throughout this research, insight is gained into foundational problems in the coreference resolution task that pose obstacles to its feasibility. Hence, my main contribution resides in a critical but constructive analysis of various aspects of the coreference task that, in the second part of the thesis, leads to rethink the concept of 'coreference' itself.
|
9 |
Digui: a flexibe dialogue system for guiding the user interaction to guiding the user interaction to acces web servicesGonzález Bermúdez, Meritxell 22 October 2010 (has links)
Current dialogue systems can handle friendly and collaborative communication that supports diverse types
of interactions, such as menus in which the user is asked to choose an option, form filling in which the user
is asked for specific information, commands for expressing users' orders, and complex questions that can
even reference previously evoked entities. Consequently, dialogue systems seem to be useful for
accessing different types of applications. In particular, spoken dialogue systems are appropriate for
devices that do not allow web browsing, such as telephones, or the use of hands, such as vehicle GPS.
Practical dialogue systems are mostly adapted to the functionality of the specific application they access,
specially those incorporating speech, since voice technology still presents recognition problems in open
domains. Because the adaptation of those DS to new applications is expensive and has to be done by
experts, many studies have focused on the problem of developing dialogue systems that can be used for
different applications and languages. Most relevant of those systems use domain and dialogue models,
and have reusable domain-independent components. However the cost of adapting those systems to other
types of applications is still high, specially in mixed-initiative systems, in which the dialogue initiative can be
taken either by the user or the system.
The work in this thesis is particularly concerned with dialogue systems for guiding the user to access web
services. The huge amount of web information increase the need of communication systems adaptable to
different types of users, languages, services and channels. For this reason, dialogue systems can improve
the usability and accessibility of web contents.
We have developed a multilingual mixed-initiative dialogue system for guiding the user when accessing
web contents. To facilitate the adaptation of the dialogue system to new services and languages, the main
functions of the system (language processing, dialogue control and task management) is performed by
independent modules). The dialogue system developed consist of four independent general modules
(Language Understanding, Language Generator, Dialogue Manager and Task Manager) as well as two
knowledge structure accessible by all these modules (dialogue context and domain description).
Application and language-dependent resources are incorporated in separated data structures. In order to
minimize the need for application and language-restricted data we propose the use of separated general
bases for representing linguistic, application and domain knowledge.
In order to achieve a friendly communication, the dialogue management module follows a formal dialogue
model, based on the information state model, that uses of a rich representation of the dialogue context.
The dialogue manager modules also incorporates an independent submodule to adapt the dialogue
strategies, according to how well the communication is progressing. This component uses a conversation
model (obtained from a previously analysed corpus of dialogues) to determine the degree of the system
initiative in the next intervention considering several features on how well the conversation is doing. / Els sistemes de diàleg permeten establir una conversa agradable i participativa, en la que es poden donar
diferents tipus d'iteracions, com ara menús amb els que es presenta a l'usuari un conjunt d'opcions per a
que n'esculli una, comandaments per expressar ordres, preguntes molt concretes i també preguntes
complexes que poden fer referència a entitats prèviament evocades. Precisament perquè els sistemes de
diàleg permeten diversos tipus d'iteracions, són adequats per facilitar l'accés de l'usuari a aplicacions
diferents. A més, els sistemes de diàleg accessibles mitjançant la veu són molt apropiats per accessoris
ens els que no es poden utilitzar les mans, com ara el telèfon o els aparells de GPS instal·lats als vehicles.
La majoria de sistemes de diàleg que s'han desenvolupat s'han adaptat a una aplicació concreta, ja que el
seu funcionament millora molt quan la cobertura del llenguatge es limita al necessari per expressar un
conjunt de tasques determinades. El problema dels sistemes de diàleg desenvolupats per una aplicació
concreta és que no són fàcilment adaptables a d'altres, el treball a realitzar és costòs i l'han de realitzar
experts. Per a superar aquesta limitació s'han realitzats molts treballs de recerca centrats en el
desenvolupament de sistemes de diàleg fàcilment adaptables a diverses aplicacions i llengües. Els treballs
més rellevants en aquesta línia proposen l'ús de models de diàleg i del domini i la organització del sistema
de diàleg en mòduls generals independents, reutilitzables per diferents aplicacions. Tot i que aquestes
propostes redueixen el cost l'adaptació dels sistemes de diàleg a noves aplicacions, no s'elimina, menys
quan es tracta de sistemes on la iniciativa de la comunicació és mixta, pot ser tant del sistema com de
l'usuari.
El treball d'aquesta tesi està centrat en els sistemes de diàleg per guiar als usuaris quan accedeixen a la
serveis i continguts disponibles a la web. Hem desenvolupat un sistema de diàleg multilingüe d'iniciativa
mixta per guiar a l'usuari quan accedeix als continguts de la web. Per facilitar la adaptació del sistema a
nou serveis i noves llengües, les diferents tasques del sistema (processament del llenguatge, gestió del
diàleg i accés a l'aplicació) són realitzades per mòduls independents. El sistema de diàleg desenvolupat
consisteix en quatre mòduls independents que controlen les quatre tasques principals ( comprensió de la
intervenció de l'usuari, generació de resposta, gestió del diàleg i gestió de tasques de l'aplicació) i dues
estructures de dades accessibles per aquests mòduls (context del diàleg i descripció del domini). Els
quatre mòduls generals del sistema utilitzen estructures dades dependents de l'aplicació (servei) i de la
llengua. Amb la finalitat de facilitar la incorporació d'aquestes estructures de dades necessàries per cada
nova aplicació proposem la utilització d'estructures de dades generals per representar el coneixement
conceptual de l'aplicació i el seu domini, així com el coneixement lingüístic.
Per tal de poder assolir una conversa agradable el gestor de diàleg incorpora un model de diàleg formal,
basat en el model de l'estat de la informació, que es caracteritza per utilitzar una representació rica del
context. El gestor de diàleg també incorpora un submòdul independent per adaptar les estratègies de
diàleg considerant els possibles problemes que apareixen a la conversa. Aquest component utilitza un
model de conversa ( desenvolupat a partir de l'anàlisi d'un corpus de diàlegs obtinguts en interaccions
prèvies amb el sistema) per determinar el nivell d'iniciativa que ha de mostrar el sistema per respondre. En
aquest model es consideren diferents dades relacionades amb la comunicació (per exemple, si s'ha entès
perfectament la última intervenció de l'usuari, si ha demanat ajuda,...).
|
10 |
Unsupervised learning of relation detection patternsGonzàlez Pellicer, Edgar 01 June 2012 (has links)
L'extracció d'informació és l'àrea del processament de llenguatge natural l'objectiu de la qual és l'obtenir dades
estructurades a partir de la informació rellevant continguda en fragments textuals.
L'extracció d'informació requereix una quantitat considerable de coneixement lingüístic. La especificitat d'aquest
coneixement suposa un inconvenient de cara a la portabilitat dels sistemes, ja que un canvi d'idioma, domini o estil té un
cost en termes d'esforç humà. Durant dècades, s'han aplicat tècniques d'aprenentatge automàtic per tal de superar aquest
coll d'ampolla de portabilitat, reduint progressivament la supervisió humana involucrada. Tanmateix, a mida que augmenta
la disponibilitat de grans col·leccions de documents, esdevenen necessàries aproximacions completament nosupervisades
per tal d'explotar el coneixement que hi ha en elles.
La proposta d'aquesta tesi és la d'incorporar tècniques de clustering a l'adquisició de patrons per a extracció d'informació,
per tal de reduir encara més els elements de supervisió involucrats en el procés En particular, el treball se centra en el
problema de la detecció de relacions. L'assoliment d'aquest objectiu final ha requerit, en primer lloc, el considerar les
diferents estratègies en què aquesta combinació es podia dur a terme; en segon lloc, el desenvolupar o adaptar algorismes
de clustering adequats a les nostres necessitats; i en tercer lloc, el disseny de procediments d'adquisició de patrons que
incorporessin la informació de clustering.
Al final d'aquesta tesi, havíem estat capaços de desenvolupar i implementar una aproximació per a l'aprenentatge de
patrons per a detecció de relacions que, utilitzant tècniques de clustering i un mínim de supervisió humana, és competitiu i
fins i tot supera altres aproximacions comparables en l'estat de l'art. / Information extraction is the natural language processing area whose goal is to obtain structured data from the relevant
information contained in textual fragments.
Information extraction requires a significant amount of linguistic knowledge. The specificity of such knowledge supposes a
drawback on the portability of the systems, as a change of language, domain or style demands a costly human effort.
Machine learning techniques have been applied for decades so as to overcome this portability bottleneck¿progressively
reducing the amount of involved human supervision. However, as the availability of large document collections increases,
completely unsupervised approaches become necessary in order to mine the knowledge contained in them.
The proposal of this thesis is to incorporate clustering techniques into pattern learning for information extraction, in order to
further reduce the elements of supervision involved in the process. In particular, the work focuses on the problem of relation
detection. The achievement of this ultimate goal has required, first, considering the different strategies in which this
combination could be carried out; second, developing or adapting clustering algorithms suitable to our needs; and third,
devising pattern learning procedures which incorporated clustering information.
By the end of this thesis, we had been able to develop and implement an approach for learning of relation detection patterns
which, using clustering techniques and minimal human supervision, is competitive and even outperforms other comparable
approaches in the state of the art.
|
Page generated in 0.06 seconds