Spelling suggestions: "subject:"linguística computacional"" "subject:"linguística omputacional""
61 |
Designing tactile vocabularies for human-computer interaction / Projetando vocabulários táteis para interação humano-computadorOliveira, Victor Adriel de Jesus January 2014 (has links)
Esta dissertação apresenta um estudo sobre linguagens táteis em interação humanocomputador e uma nova abordagem de prefixação vibrotátil. Nós pretendemos analisar como as escolhas feitas durante o processo de concepção de vocabulários táteis afetam o desempenho do usuário em uma tarefa interativa. Por isso desenvolvemos e testamos diferentes conjuntos de sinais táteis para suporte à navegação em ambientes virtuais. Isso nos levou a esboçar o conceito de Padrão Tátil Modificador para comunicação vibrotátil que foi testado por meio de experimentos com usuários. Na avaliação dos vocabulários táteis construídos com padrões modificadores foram considerados os efeitos de estimulação multisensorial, fatores relacionados ao processamento de seqüências táteis e o mascaramento causado pela exibição de múltiplos estímulos ao mesmo tempo. Resultados mostram que os participantes que usaram vocabulários construídos com padrões modificadores obtiveram desempenho melhor na tarefa de navegação. Esse e outros resultados relacionados à percepção, aprendizagem e interpretação dos nossos vocabulários atestam a validade do uso de modificadores na construção de linguagens táteis. As conclusões extraídas deste trabalho se mostram úteis no auxílio à concepção de interfaces táteis que sejam usáveis e que demandem expressividade de seus vocabulários. / This thesis presents a study about tactile languages in human-computer interaction and a novel approach for vibrotactile prefixation. We intended to analyse how the choices made during the design process of tactile vocabularies would affect the user performance on an interactive task. Therefore, we have designed and tested different sets of tactile signals for aid navigation in virtual environments. It leaded us to fashion the concept of Modifier Tactile Pattern for vibrotactile communication which was tested through user experiments. In the assessment of the modifier-based vocabularies we attempted to effects of multisensory stimulation, factors related to the processing of tactile sequences and masking caused by multiple stimuli delivered in a same time. Results show that those participants who used modifier-based vocabularies performed better the navigation task. That and others results related to perception, learning and interpretation of our tactile vocabularies show the validity of the use of modifiers on tactile languages. The statements made from this work will be useful for designing usable tactile interfaces that demand expressive vocabularies.
|
62 |
Modelagem de contextos para aprendizado automático aplicado à análise morfossintática / Modeling contexts for automatic learning applied to morphosyntactic analysisFábio Natanael Kepler 28 May 2010 (has links)
A etiquetagem morfossintática envolve atribuir às palavras de uma sentença suas classes morfossintáticas de acordo com os contextos em que elas aparecem. Cadeias de Markov de Tamanho Variável (VLMCs, do inglês \"Variable-Length Markov Chains\") oferecem uma forma de modelar contextos maiores que trigramas sem sofrer demais com a esparsidade de dados e a complexidade do espaço de estados. Mesmo assim, duas palavras do português apresentam um alto grau de ambiguidade: \'que\' e \'a\'. O número de erros na etiquetagem dessas palavras corresponde a um quarto do total de erros cometidos por um etiquetador baseado em VLMCs. Além disso, essas palavras parecem apresentar dois diferentes tipos de ambiguidade: um dependendo de contexto não local e outro de contexto direito. Exploramos maneiras de expandir o modelo baseado em VLMCs através do uso de diferentes modelos e métodos, a fim de atacar esses problemas. As abordagens mostraram variado grau de sucesso, com um método em particular (aprendizado guiado) se mostrando capaz de resolver boa parte da ambiguidade de \'a\'. Discutimos razões para isso acontecer. Com relação a \'que\', ao longo desta tese propusemos e testamos diversos métodos de aprendizado de informação contextual para tentar desambiguá-lo. Mostramos como, em todos eles, o nível de ambiguidade de \'que\' permanece praticamente constante. / Part-of-speech tagging involves assigning to words in a sentence their part-of-speech class based on the contexts they appear in. Variable-Length Markov Chains (VLMCs) offer a way of modeling contexts longer than trigrams without suffering too much from data sparsity and state space complexity. Even so, two words in Portuguese show a high degree of ambiguity: \'que\' and \'a\'. The number of errors tagging these words corresponds to a quarter of the total errors made by a VLMC-based tagger. Moreover, these words seem to show two different types of ambiguity: one depending on non-local context and one on right context. We searched ways of expanding the VLMC-based model with a number of different models and methods in order to tackle these issues. The approaches showed variable degrees of success, with one particular method (Guided Learning) solving much of the ambiguity of \'a\'. We explore reasons why this happened. Rega rding \'que\', throughout this thesis we propose and test various methods for learning contextual information in order to try to disambiguate it. We show how, in all of them, the level of ambiguity shown by \'que\' remains practically c onstant.
|
63 |
Aperfeiçoamento de um tradutor automático Português-Inglês: tempos verbais / Development of a Portuguese-to-English machine translation system: tensesSilva, Lucia Helena Rozario da 03 August 2010 (has links)
Esta dissertação apresenta o aperfeiçoamento de um sistema de tradução automática português-inglês. Nosso objetivo principal é criar regras de transferência estrutural entre o par de línguas português e inglês e avaliar, através do uso da métrica de avaliação METEOR, o desempenho do sistema. Para isto, utilizamos um corpus teste criado especialmente para esta pesquisa. Tendo como ponto de partida a relevância de uma correta tradução para os tempos verbais de uma sentença, este trabalho priorizou a criação de regras que tratassem a transferência entre os tempos verbais do português brasileiro para o inglês americano. Devido ao fato de os verbos em português estarem distribuídos por três conjugações, criamos um corpus para cada uma dessas conjugações. O objetivo da criação desses corpora é verificar a aplicação das regras de transferência estrutural entre os tempos verbais em todas as três classes de conjugação. Após a criação dos corpora, mapeamos os tempos verbais em português no modo indicativo, subjuntivo e imperativo para os tempos verbais do inglês. Em seguida, iniciamos a construção das regras de transferência estrutural entre os tempos verbais mapeados. Ao final da construção das regras, submetemos os corpora obedecendo as três classes de conjugação à métrica de avaliação automática METEOR. Os resultados da avaliação do sistema após a inserção das regras apresentaram uma regressão quando comparado a avaliação do sistema no estágio inicial da pesquisa. Detectamos, através de análises dos resultados, que a métrica de avaliação automática METEOR não foi sensível às modificações feitas no sistema, embora as regras criadas sigam a gramática tradicional da língua portuguesa e estejam sendo aplicadas a todas as três classes de conjugação. Apresentamos em detalhes o conjunto de regras sintáticas e os corpora utilizados neste estudo, e que acreditamos serem de utilidade geral para quaisquer sistemas de tradução automática entre o português brasileiro e o inglês americano. Outra contribuição deste trabalho está em discutir os valores apresentados pela métrica METEOR e sugerir que novos ajustes sejam feitos a esses parâmetros utilizados pela métrica. / This dissertation presents the development of a Portuguese-to-English Machine Translation system. Our main objective is creating structural transfer rules between this pair of languages, and evaluate the performance of the system using the METEOR evaluation metric. Therefore, we developed a corpus to enable this study. Taking translation relevance as a starting point, we focused on verbal tenses and developed rules that dealt with transfer between verbal tenses from the Brazilian Portuguese to US English. Due to the fact that verbs in Portuguese are distributed in three conjugations, we created one corpus for each of these conjugations. The objective was to verify the application of structural transfer rules between verbal tenses in each conjugation class in isolation. After creating these corpora, we mapped the Portuguese verbal tenses in the indicative, subjunctive and imperative modes to English. Next, we constructed structural transfer rules to these mapped verbal tenses. After constructing these rules, we evaluated our corpora using the METEOR evaluation metric. The results of this evaluation showed lack of improvement after the insertion of these transfer rules, when compared to the initial stage of the system. We detected that the METEOR evaluation metric was not sensible to these modi_cations made to the system, even though they were linguistically sound and were being applied correctly to the sentences. We introduce in details the set of transfer rules and corpora used in this study, and we believe they are general enough to be useful in any rule-based Portuguese-to-English Machine Translation system. Another contribution of this work lies in the discussion of the results presented by the METEOR metric. We suggest adjustments to be made to its parameters, in order to make it more sensible to sentences variation such as those introduced by our rules.
|
64 |
Desambiguação automática de substantivos em corpus do português brasileiro / Word sense disambiguation in Brazilian Portuguese corpusSilva, Viviane Santos da 19 August 2016 (has links)
O fenômeno da ambiguidade lexical foi o tópico central desta pesquisa, especialmente no que diz respeito às relações entre acepções de formas gráficas ambíguas e aos padrões de distribuição de acepções de palavras polissêmicas na língua, isto é, de palavras cujas acepções são semanticamente relacionadas. Este trabalho situa-se como uma proposta de interface entre explorações computacionais da ambiguidade lexical, especificamente de processamento de linguagem natural, e investigações de cunho teórico sobre o fenômeno do significado lexical. Partimos das noções de polissemia e de homonímia como correspondentes, respectivamente, ao caso de uma palavra com múltiplas acepções relacionadas e ao de duas (ou mais) palavras cujas formas gráficas coincidem, mas que apresentam acepções não relacionadas sincronicamente. Como objetivo último deste estudo, pretendia-se confirmar se as palavras mais polissêmicas teriam acepções menos uniformemente distribuídas no corpus, apresentando acepções predominantes, que ocorreriam com maior frequência. Para analisar esses aspectos, implementamos um algoritmo de desambiguação lexical, uma versão adaptada do algoritmo de Lesk (Lesk, 1986; Jurafsky & Martin, 2000), escolhido com base nos recursos linguísticos disponíveis para o português. Tendo como hipótese a noção de que palavras mais frequentes na língua tenderiam a ser mais polissêmicas, selecionamos do corpus (Mac-Morpho) aquelas com maiores ocorrências. Considerando-se o interesse em palavras de conteúdo e em casos de ambiguidade mais estritamente em nível semântico, optamos por realizar os testes apresentados neste trabalho apenas para substantivos. Os resultados obtidos com o algoritmo de desambiguação que implementamos superaram o método baseline baseado na heurística da acepção mais frequente: obtivemos 63% de acertos contra 50% do baseline para o total dos dados desambiguados. Esses resultados foram obtidos através do procedimento de desambiguação de pseudo-palavras (formadas ao acaso), utilizado em casos em que não se tem à disposição corpora semanticamente anotados. No entanto, em razão da dependência de inventários fixos de acepções oriundos de dicionários, pesquisamos maneiras alternativas de categorizar as acepções de uma palavra. Tomando como base o trabalho de Sproat & VanSanten (2001), implementamos um método que permite atribuir valores numéricos que atestam o quanto uma palavra se afastou da monossemia dentro de um determinado corpus. Essa medida, cunhada pelos autores do trabalho original como índice de polissemia, baseia-se no agrupamento de palavras co-ocorrentes à palavra-alvo da desambiguação de acordo com suas similaridades contextuais. Propusemos, neste trabalho, o uso de uma segunda medida, mencionada pelos autores apenas como um exemplo das aplicações potenciais do método a serem exploradas: a clusterização de co-ocorrentes com base em similaridades de contextos de uso. Essa segunda medida é obtida de forma que se possa verificar a proximidade entre acepções e a quantidade de acepções que uma palavra exibe no corpus. Alguns aspectos apontados nos resultados indicam o potencial do método de clusterização: os agrupamentos de co-ocorrentes obtidos são ponderados, ressaltando os grupos mais proeminentes de vizinhos da palavra-alvo; o fato de que os agrupamentos aproximam-se uns dos outros por medidas de similaridade contextual, o que pode servir para distinguir tendências homonímicas ou polissêmicas. Como exemplo, temos os clusters obtidos para a palavra produção: um relativo à ideia de produção literária e outro relativo à de produção agrícola. Esses dois clusters apresentaram distanciamento considerável, situando-se na faixa do que seria considerado um caso de polissemia, e apresentaram ambos pesos significativos, isto é, foram compostos por palavras mais relevantes. Identificamos três fatores principais que limitaram as análises a partir dos dados obtidos: o viés político-jornalístico do corpus que utilizamos (Mac-Morpho) e a necessidade de serem feitos mais testes variando os parâmetros de seleção de coocorrentes, uma vez que os parâmetros que utilizamos devem variar para outros corpora e, especialmente, pelo fato de termos realizados poucos testes para definir quais valores utilizaríamos para esses parâmetro, que são decisivos para a quantidade de palavras co-ocorrentes relevantes para os contextos de uso da palavra-alvo. Considerando-se tanto as vantagens quanto as limitações que observamos a partir dos resultados da clusterização, planejamos delinear um método sincrônico (que prescinde da documentação histórica das palavras) e computacional que permita distinguir casos de polissemia e de homonímia de forma mais sistemática e abrangendo uma maior quantidade de dados. Entendemos que um método dessa natureza pode ser de grade valia para os estudos do significado no nível lexical, permitindo o estabelecimento de um método objetivo e baseado em dados de uso da língua que vão além de exemplos pontuais. / The phenomenon of lexical ambiguity was the central topic of this research, especially with regard to relations between meanings of ambiguous graphic forms, and to patterns of distribution of the meanings of polysemous words in the language, that is, of words whose meanings are semantically related. This work is set on the interface between computational explorations of lexical ambiguity, specifically natural language processing, and theoretical investigations on the nature of research on the lexical meaning phenomenon. We assume the notions of polysemy and homonymy as corresponding, respectively, to the case of a word with multiple related meanings, and two (or more) words whose graphic forms coincide, but have unrelated meanings. The ultimate goal of this study was to confirm that the most polysemous words have meanings less evenly distributed in the corpus, with predominant meanings which occur more frequently. To examine these aspects, we implemented a word sense disambiguation algorithm, an adapted version of Lesk algorithm (Lesk, 1986; Jurafsky & Martin, 2000), chosen on the basis of the availability of language resources in Portuguese. From the hypothesis that the most frequent words in the language tend to be more polysemic, we selected from the corpus (Mac-Morpho) those words with the highest number occurrences. Considering our interest in content words and in cases of ambiguity more strictly to the semantic level, we decided to conduct the tests presented in this research only for nouns. The results obtained with the disambiguation algorithm implemented surpassed those of the baseline method based on the heuristics of the most frequent sense: we obtained 63% accuracy against 50% of baseline for all the disambiguated data. These results were obtained with the disambiguation procedure of pseudowords (formed at random), which used in cases where semantically annotated corpora are not available. However, due to the dependence of this disambiguation method on fixed inventories of meanings from dictionaries, we searched for alternative ways of categorizing the meanings of a word. Based on the work of Sproat & VanSanten (2001), we implemented a method for assigning numerical values that indicate how much one word is away from monosemy within a certain corpus. This measure, named by the authors of the original work as polysemy index, groups co-occurring words of the target noun according to their contextual similarities. We proposed in this paper the use of a second measure, mentioned by the authors as an example of the potential applications of the method to be explored: the clustering of the co-occurrent words based on their similarities of contexts of use. This second measurement is obtained so as to show the closeness of meanings and the amount of meanings that a word displays in the corpus. Some aspects pointed out in the results indicate the potential of the clustering method: the obtained co-occurring clusters are weighted, highlighting the most prominent groups of neighbors of the target word; the fact that the clusters aproximate from each other to each other on the basis of contextual similarity measures, which can be used to distinguish homonymic from polysemic trends. As an example, we have the clusters obtained for the word production, one referring to the idea of literary production, and the other referring to the notion of agricultural production. These two clusters exhibited considerable distance, standing in the range of what would be considered a case of polysemy, and both showed significant weights, that is, were composed of significant and distintictive words. We identified three main factors that have limited the analysis of the data: the political-journalistic bias of the corpus we use (Mac-Morpho) and the need for further testing by varying the selection parameters of relevant cooccurent words, since the parameters used shall vary for other corpora, and especially because of the fact that we conducted only a few tests to determine the values for these parameters, which are decisive for the amount of relevant co-occurring words for the target word. Considering both the advantages and the limitations we observe from the results of the clusterization method, we plan to design a synchronous (which dispenses with the historical documentation of the words) and, computational method to distinguish cases of polysemy and homonymy more systematically and covering a larger amount of data. We understand that a method of this nature can be invaluable for studies of the meaning on the lexical level, allowing the establishment of an objective method based on language usage data and, that goes beyond specific examples.
|
65 |
Estruturação do conhecimento e relações semânticas: uma ontologia para o domínio da naonociência e nanotecnologiaKasama, Deni Yuzo [UNESP] 20 February 2009 (has links) (PDF)
Made available in DSpace on 2014-06-11T19:22:19Z (GMT). No. of bitstreams: 0
Previous issue date: 2009-02-20Bitstream added on 2014-06-13T19:27:30Z : No. of bitstreams: 1
kasama_dy_me_sjrp.pdf: 2392559 bytes, checksum: 97410d6af14f5587b05c598ca84a15f0 (MD5) / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / O Processamento de Língua Natural (ou PLN) tem sido objeto de estudo de pesquisadores das mais diversas áreas do conhecimento. O léxico é, sem sombra de dúvida, elemento essencial para o tratamento automático de dados lingüísticos, sendo a sua análise semântica fator crucial para um efetivo processamento computacional que, não raro, encontra barreiras em questões ligadas a uma representação semântica eficaz e que permita ser representada em linguagem de máquina. Na Terminologia, esse tratamento semântico favorece o estabelecimento de relações existentes entre unidades lexicais especializadas, e determina a elaboração de definições terminológicas coerentes e representativas ao campo de especialidade ao qual pertencem. Nesse sentido, propomos neste trabalho traçar uma estrutura conceitual do domínio da Nanociência e Nanotecnologia, em língua portuguesa do Brasil, visando a criação do que modernamente se conhece por ontologias, cujos preceitos nortearam o desenvolvimento desta pesquisa. Aliada a essas práticas, encontra-se a importância da adoção de um modelo que permita representar formalmente as relações semânticas existentes entre os diversos termos que compõem essa área técnico-científica. A busca por essas unidades lexicais especializadas e suas relações deu-se em um córpus formado por textos de tipologia diversa, com o auxílio de ferramentas computacionais – de extração semiautomática de termos e um processador de córpus. A modelagem do domínio em questão e sua representação em uma linguagem corrente e atual (a saber, a linguagem OWL) fez-se com o auxílio da ferramenta Protégé. Defende-se neste trabalho a necessidade, cada vez mais crescente, da adoção de métodos eficazes para o delineamento de estruturas conceituais a fim de executar tarefas computacionais utilizando informação lingüística. Espera-se ainda... / Natural Language Processing (or NLP) has been an object of study by researchers from different fields of knowledge. Lexicon is undoubtedly an essential element for the automatic processing of language data, and its semantic analysis is a crucial factor for an effective computational processing that as often as not finds barriers in matters concerning a productive semantic representation in machine language. In terminology, this semantic treatment favors the establishment of relations between specialized lexical units and determines the development of consistent terminological definitions that may represent the field of expertise to which they belong. Accordingly, what we propose in this work is to provide a conceptual structure of the specialized subject field of Nanoscience and Nanotechnology, in Brazilian Portuguese language, aimed at creating the modernly so-called ontologies, whose principles guided the development of this research. In addition to such practices, it is important to adopt a model which allows a formal representation of the semantic relations between the terms in this domain. The specialized lexical units and the semantic relations were extracted semiautomatically from a corpus, compiled with different types of texts, using a term extractor and a corpus processor. The modeling of the area concerned and its representation in a current language (i.e., OWL language) was possible with the aid of Protégé tool. We support in this work the increasing need to adopt effective methods for the design of conceptual structures in order to carry computational tasks using linguistic information. We hope that this work will strengthen the dialogue between linguists, computational and information scientists.
|
66 |
Distinção de grupos linguísticos através de desempenho da linguagem / Distinction of linguistic groups through linguistic performanceWilkens, Rodrigo Souza January 2016 (has links)
A aquisição e o desempenho de linguagem humana é um processo pelo qual todas as pessoas passam. No entanto, esse processo não é completamente entendido, o que gera amplo espaço para pesquisa nessa área. Além disso, mesmo após o processo de aquisição da linguagem pela criança estar completo, ainda não há garantia de domínio da língua em suas diferentes modalidades, especialmente de leitura e escrita. Recentemente, em 2016, divulgou-se que 49,3% dos estudantes brasileiros não possuem proficiência de compreensão de leitura plena em português. Isso é particularmente importante ao considerarmos a quantidade de textos disponíveis, mas não acessíveis a pessoas com diferentes tipos de problemas de proficiência na língua. Sob o ponto de vista computacional, há estudos que visam modelar os processos de aquisição da linguagem e medir o nível do falante, leitor ou redator. Em vista disso, neste trabalho propomos uma abordagem computacional independente de idioma para modelar o nível de desenvolvimento linguístico de diferentes tipos de usuários da língua, de crianças e adultos, sendo a nossa proposta fortemente baseada em características linguísticas. Essas características são dependentes de corpora orais transcritos, no segmento de crianças, e de corpora escritos, no segmento de adultos. Para alcançar esse modelo abrangente, são considerados como objetivos a identificação de atributos e valores que diferenciam os níveis de desenvolvimento da linguagem do indivíduo, assim como o desenvolvimento de um modelo capaz de indicá-los. Para a identificação dos atributos, utilizamos métodos baseados em estatística, como o teste de hipóteses e divergência de distribuição. A fim de comprovar a abrangência da abordagem, realizamos experimentos com os corpora que espelham diferentes etapas do desenvolvimento da linguagem humana: (1) etapa de aquisição da linguagem oral de pela criança e (2) etapa pós aquisição, através da percepção de complexidade da linguagem escrita. Como resultados, obtivemos um grande conjunto anotado de dados sobre aquisição e desempenho de linguagem que podem contribuir para outros estudos. Assim como um perfil de atributos para os vários níveis de desenvolvimento. Também destacamos como resultados, os modelos computacionais que identificam textos quanto ao nível de desenvolvimento de linguagem. Em especial, o são resultados do trabalho o modelo de identificação de palavras complexas, que ultrapassou o estado da arte para o corpus estudado, e o modelo de identificação de idade de crianças que ultrapassou os baselines utilizados, incluindo uma medida clássica de desenvolvimento linguístico. / Language acquisition and language performance is a process by which all the people experience. However, this process is not completely understood, which creates room for research in this area. Moreover, even after the acquisition process by a child is completed, there is still no guarantee of language proficiency in different modalities, specially reading and writing. Recently, in 2016, OECD/PIAAC released that 49,3% of Brazilian students do not have written and read proficiency in Portuguese. This is more important when we take into account the large number of available text, but they are not accessible by people with different types of language proficiency issues. In computational point of view, there are some studies which aim to model the language acquisition process and measure the speaker level. For that, we propose an computational approach independent of language to model language development level of different types of language users, children and adults. In that sense our proposal is highly based on linguistics features. Those features dependents of transcript oral corpora from children and adults. To achieve this model, we considered aim to identify attributes and values able to differentiate between leves of development by an individual, as well the desenvolvimento of a model able to indicate them. The attribute identification are based on statistical methods such as hypothesis testing and divergence distribution. Aiming to validate our approach, we performed experiments with the corpora that reflect at different stages of development of human language: (1) oral language acquisition by a child and (2) post-acquisition stage, through the perception of difficulty of written language. With this work, we obtained a large corpus of annotated language acquisition data that can contribute to the acquisition of other studies. We also build an attribute profile of the development levels. From all of our results we highlight the computer models that identify texts and language development level. In particular, the complex word identification model that exceeded the state of the art for the studied corpus, and the children age identifier model, who exceeded the baselines, including a classic measure of language development.
|
67 |
Desambiguação automática de substantivos em corpus do português brasileiro / Word sense disambiguation in Brazilian Portuguese corpusViviane Santos da Silva 19 August 2016 (has links)
O fenômeno da ambiguidade lexical foi o tópico central desta pesquisa, especialmente no que diz respeito às relações entre acepções de formas gráficas ambíguas e aos padrões de distribuição de acepções de palavras polissêmicas na língua, isto é, de palavras cujas acepções são semanticamente relacionadas. Este trabalho situa-se como uma proposta de interface entre explorações computacionais da ambiguidade lexical, especificamente de processamento de linguagem natural, e investigações de cunho teórico sobre o fenômeno do significado lexical. Partimos das noções de polissemia e de homonímia como correspondentes, respectivamente, ao caso de uma palavra com múltiplas acepções relacionadas e ao de duas (ou mais) palavras cujas formas gráficas coincidem, mas que apresentam acepções não relacionadas sincronicamente. Como objetivo último deste estudo, pretendia-se confirmar se as palavras mais polissêmicas teriam acepções menos uniformemente distribuídas no corpus, apresentando acepções predominantes, que ocorreriam com maior frequência. Para analisar esses aspectos, implementamos um algoritmo de desambiguação lexical, uma versão adaptada do algoritmo de Lesk (Lesk, 1986; Jurafsky & Martin, 2000), escolhido com base nos recursos linguísticos disponíveis para o português. Tendo como hipótese a noção de que palavras mais frequentes na língua tenderiam a ser mais polissêmicas, selecionamos do corpus (Mac-Morpho) aquelas com maiores ocorrências. Considerando-se o interesse em palavras de conteúdo e em casos de ambiguidade mais estritamente em nível semântico, optamos por realizar os testes apresentados neste trabalho apenas para substantivos. Os resultados obtidos com o algoritmo de desambiguação que implementamos superaram o método baseline baseado na heurística da acepção mais frequente: obtivemos 63% de acertos contra 50% do baseline para o total dos dados desambiguados. Esses resultados foram obtidos através do procedimento de desambiguação de pseudo-palavras (formadas ao acaso), utilizado em casos em que não se tem à disposição corpora semanticamente anotados. No entanto, em razão da dependência de inventários fixos de acepções oriundos de dicionários, pesquisamos maneiras alternativas de categorizar as acepções de uma palavra. Tomando como base o trabalho de Sproat & VanSanten (2001), implementamos um método que permite atribuir valores numéricos que atestam o quanto uma palavra se afastou da monossemia dentro de um determinado corpus. Essa medida, cunhada pelos autores do trabalho original como índice de polissemia, baseia-se no agrupamento de palavras co-ocorrentes à palavra-alvo da desambiguação de acordo com suas similaridades contextuais. Propusemos, neste trabalho, o uso de uma segunda medida, mencionada pelos autores apenas como um exemplo das aplicações potenciais do método a serem exploradas: a clusterização de co-ocorrentes com base em similaridades de contextos de uso. Essa segunda medida é obtida de forma que se possa verificar a proximidade entre acepções e a quantidade de acepções que uma palavra exibe no corpus. Alguns aspectos apontados nos resultados indicam o potencial do método de clusterização: os agrupamentos de co-ocorrentes obtidos são ponderados, ressaltando os grupos mais proeminentes de vizinhos da palavra-alvo; o fato de que os agrupamentos aproximam-se uns dos outros por medidas de similaridade contextual, o que pode servir para distinguir tendências homonímicas ou polissêmicas. Como exemplo, temos os clusters obtidos para a palavra produção: um relativo à ideia de produção literária e outro relativo à de produção agrícola. Esses dois clusters apresentaram distanciamento considerável, situando-se na faixa do que seria considerado um caso de polissemia, e apresentaram ambos pesos significativos, isto é, foram compostos por palavras mais relevantes. Identificamos três fatores principais que limitaram as análises a partir dos dados obtidos: o viés político-jornalístico do corpus que utilizamos (Mac-Morpho) e a necessidade de serem feitos mais testes variando os parâmetros de seleção de coocorrentes, uma vez que os parâmetros que utilizamos devem variar para outros corpora e, especialmente, pelo fato de termos realizados poucos testes para definir quais valores utilizaríamos para esses parâmetro, que são decisivos para a quantidade de palavras co-ocorrentes relevantes para os contextos de uso da palavra-alvo. Considerando-se tanto as vantagens quanto as limitações que observamos a partir dos resultados da clusterização, planejamos delinear um método sincrônico (que prescinde da documentação histórica das palavras) e computacional que permita distinguir casos de polissemia e de homonímia de forma mais sistemática e abrangendo uma maior quantidade de dados. Entendemos que um método dessa natureza pode ser de grade valia para os estudos do significado no nível lexical, permitindo o estabelecimento de um método objetivo e baseado em dados de uso da língua que vão além de exemplos pontuais. / The phenomenon of lexical ambiguity was the central topic of this research, especially with regard to relations between meanings of ambiguous graphic forms, and to patterns of distribution of the meanings of polysemous words in the language, that is, of words whose meanings are semantically related. This work is set on the interface between computational explorations of lexical ambiguity, specifically natural language processing, and theoretical investigations on the nature of research on the lexical meaning phenomenon. We assume the notions of polysemy and homonymy as corresponding, respectively, to the case of a word with multiple related meanings, and two (or more) words whose graphic forms coincide, but have unrelated meanings. The ultimate goal of this study was to confirm that the most polysemous words have meanings less evenly distributed in the corpus, with predominant meanings which occur more frequently. To examine these aspects, we implemented a word sense disambiguation algorithm, an adapted version of Lesk algorithm (Lesk, 1986; Jurafsky & Martin, 2000), chosen on the basis of the availability of language resources in Portuguese. From the hypothesis that the most frequent words in the language tend to be more polysemic, we selected from the corpus (Mac-Morpho) those words with the highest number occurrences. Considering our interest in content words and in cases of ambiguity more strictly to the semantic level, we decided to conduct the tests presented in this research only for nouns. The results obtained with the disambiguation algorithm implemented surpassed those of the baseline method based on the heuristics of the most frequent sense: we obtained 63% accuracy against 50% of baseline for all the disambiguated data. These results were obtained with the disambiguation procedure of pseudowords (formed at random), which used in cases where semantically annotated corpora are not available. However, due to the dependence of this disambiguation method on fixed inventories of meanings from dictionaries, we searched for alternative ways of categorizing the meanings of a word. Based on the work of Sproat & VanSanten (2001), we implemented a method for assigning numerical values that indicate how much one word is away from monosemy within a certain corpus. This measure, named by the authors of the original work as polysemy index, groups co-occurring words of the target noun according to their contextual similarities. We proposed in this paper the use of a second measure, mentioned by the authors as an example of the potential applications of the method to be explored: the clustering of the co-occurrent words based on their similarities of contexts of use. This second measurement is obtained so as to show the closeness of meanings and the amount of meanings that a word displays in the corpus. Some aspects pointed out in the results indicate the potential of the clustering method: the obtained co-occurring clusters are weighted, highlighting the most prominent groups of neighbors of the target word; the fact that the clusters aproximate from each other to each other on the basis of contextual similarity measures, which can be used to distinguish homonymic from polysemic trends. As an example, we have the clusters obtained for the word production, one referring to the idea of literary production, and the other referring to the notion of agricultural production. These two clusters exhibited considerable distance, standing in the range of what would be considered a case of polysemy, and both showed significant weights, that is, were composed of significant and distintictive words. We identified three main factors that have limited the analysis of the data: the political-journalistic bias of the corpus we use (Mac-Morpho) and the need for further testing by varying the selection parameters of relevant cooccurent words, since the parameters used shall vary for other corpora, and especially because of the fact that we conducted only a few tests to determine the values for these parameters, which are decisive for the amount of relevant co-occurring words for the target word. Considering both the advantages and the limitations we observe from the results of the clusterization method, we plan to design a synchronous (which dispenses with the historical documentation of the words) and, computational method to distinguish cases of polysemy and homonymy more systematically and covering a larger amount of data. We understand that a method of this nature can be invaluable for studies of the meaning on the lexical level, allowing the establishment of an objective method based on language usage data and, that goes beyond specific examples.
|
68 |
Reconhecimento semântico através de redes neurais artificiais / Semantic recognition through artificial neural netsMuller, Daniel Nehme January 1996 (has links)
Um dos grandes desafios atuais da computação e ultrapassar o abismo existente entre o homem e a maquina. Para tanto, o desafio passa a ser a formalização de estados mentais e sua modelagem computacional. Isso e necessário, uma vez que o homem somente conseguira comunicar-se com uma maquina quando esta puder dar e receber informações sem que o homem precise aprender uma forma especial de comunicação. É necessário, portanto, que a maquina aprenda a comunicar-se como o homem. Neste sentido, o estudo da linguagem torna-se uma porta aberta para criar uma computação que se adapte ao homem e, ao mesmo tempo favoreça pesquisas que visem uma melhor compreensão do funcionamento do cérebro, da linguagem e do aprendizado do próprio homem. O presente trabalho mostra que o computador possui um potencial de comunicação ainda inexplorado. Por este motivo, em estudos anteriores procurou-se a verificação do atual estagio de modelagem de comunicação homem-máquina em comparação a evolução da linguagem humana. Constatou-se, então, que a maquina pode chegar a uma efetiva comunicação com o homem embora jamais espontânea. como se vê na ficção científica. O que e possível e a auto-organização pelo computador de sinais provenientes de seu meio, visando a realização de determinadas tarefas. Esses sinais do meio em que esta o computador são exatamente o que justifica suas ações, o que da significado ao que lhe e transmitido, assim como o que ocorre no homem. Para que se modele o reconhecimento semantico de frases necessário que se encontre uma forma de codificar os sinais do meio para que estes, acompanhando a frase, permitam o reconhecimento de seu significado. Porem, como o objetivo deste trabalho e a implementação do reconhecimento semântico e não a recepção de sinais, optou-se por uma codificação representativa dos sinais externos. Esta codificação permite que, através da tecnologia das Redes Neurais Artificiais, seja possível a implementação de relações semânticas entre palavras e entre frases, permitindo a classificação para posterior reconhecimento. A implementação computacional realizada permite o reconhecimento de frases, mesmo com alteração de palavras e numero de palavras. O protótipo aqui apresentado mostra que, mesmo com uma estrutura extremamente mais simples que outros sistemas de reconhecimento de língua natural, é possível uma adequada identificação de frases. / One of the great challenges of computation nowadays is to cross the abyss between man and machine. Thus, the challenge becomes the formalization of mental states and its computational modelling. This is necessary since man will only get to communicate with a machine when this machine is able to give and receive information without man needs to learn a special way to communicate. Therefore, it is necessary that the machine learns to communicate with man. In this sense, the study of the language becomes an open door in order to create a computation that may be adapted to man. and, at the same time, may help researches which aim at a better comprehension of the brain functioning of the language and of man's learning. This work shows that the computer has a potential for communication that has not been explored yet. For this reason, in prior studies we tried to verify the present stage of man-machine communication modelling in comparison with the human language evolution. We verified, then, that the machine can reach an effective communication with man, but never spontaneous, as we see in scientific fiction (Sci-Fi). What can be possible is the self-organization by computer of signals deriving from its own environment, aiming at realization of specifics tasks. Those signals of the computer environment are exactly what justifies its actions. what gives meaning to what is transmitted to it in the same way that happens with man. In order to mould the Semantic Recognition of phrases it is necessary to find out a way of codifying the signals of the environment so that these signals. accompanying a phrase, may permit recognition of its meaning. However, as the purpose of this work is the implementation of the Semantic Recognition, and not the reception of signals, we have opted for a representative codification of external signals. This codification allows that, through the Artificial Neural Nets technology, the implementation of semantic relations among words and phrases may be possible, permitting the classification for posterior recognition. The computational implementation realized permits the recognition of phrases, even with alteration of words and number of words. The prototype presented here shows that, even with one structure extremely simpler than other systems of Natural Language Recognition, an adequate identification of phrases is possible.
|
69 |
Reconhecimento semântico através de redes neurais artificiais / Semantic recognition through artificial neural netsMuller, Daniel Nehme January 1996 (has links)
Um dos grandes desafios atuais da computação e ultrapassar o abismo existente entre o homem e a maquina. Para tanto, o desafio passa a ser a formalização de estados mentais e sua modelagem computacional. Isso e necessário, uma vez que o homem somente conseguira comunicar-se com uma maquina quando esta puder dar e receber informações sem que o homem precise aprender uma forma especial de comunicação. É necessário, portanto, que a maquina aprenda a comunicar-se como o homem. Neste sentido, o estudo da linguagem torna-se uma porta aberta para criar uma computação que se adapte ao homem e, ao mesmo tempo favoreça pesquisas que visem uma melhor compreensão do funcionamento do cérebro, da linguagem e do aprendizado do próprio homem. O presente trabalho mostra que o computador possui um potencial de comunicação ainda inexplorado. Por este motivo, em estudos anteriores procurou-se a verificação do atual estagio de modelagem de comunicação homem-máquina em comparação a evolução da linguagem humana. Constatou-se, então, que a maquina pode chegar a uma efetiva comunicação com o homem embora jamais espontânea. como se vê na ficção científica. O que e possível e a auto-organização pelo computador de sinais provenientes de seu meio, visando a realização de determinadas tarefas. Esses sinais do meio em que esta o computador são exatamente o que justifica suas ações, o que da significado ao que lhe e transmitido, assim como o que ocorre no homem. Para que se modele o reconhecimento semantico de frases necessário que se encontre uma forma de codificar os sinais do meio para que estes, acompanhando a frase, permitam o reconhecimento de seu significado. Porem, como o objetivo deste trabalho e a implementação do reconhecimento semântico e não a recepção de sinais, optou-se por uma codificação representativa dos sinais externos. Esta codificação permite que, através da tecnologia das Redes Neurais Artificiais, seja possível a implementação de relações semânticas entre palavras e entre frases, permitindo a classificação para posterior reconhecimento. A implementação computacional realizada permite o reconhecimento de frases, mesmo com alteração de palavras e numero de palavras. O protótipo aqui apresentado mostra que, mesmo com uma estrutura extremamente mais simples que outros sistemas de reconhecimento de língua natural, é possível uma adequada identificação de frases. / One of the great challenges of computation nowadays is to cross the abyss between man and machine. Thus, the challenge becomes the formalization of mental states and its computational modelling. This is necessary since man will only get to communicate with a machine when this machine is able to give and receive information without man needs to learn a special way to communicate. Therefore, it is necessary that the machine learns to communicate with man. In this sense, the study of the language becomes an open door in order to create a computation that may be adapted to man. and, at the same time, may help researches which aim at a better comprehension of the brain functioning of the language and of man's learning. This work shows that the computer has a potential for communication that has not been explored yet. For this reason, in prior studies we tried to verify the present stage of man-machine communication modelling in comparison with the human language evolution. We verified, then, that the machine can reach an effective communication with man, but never spontaneous, as we see in scientific fiction (Sci-Fi). What can be possible is the self-organization by computer of signals deriving from its own environment, aiming at realization of specifics tasks. Those signals of the computer environment are exactly what justifies its actions. what gives meaning to what is transmitted to it in the same way that happens with man. In order to mould the Semantic Recognition of phrases it is necessary to find out a way of codifying the signals of the environment so that these signals. accompanying a phrase, may permit recognition of its meaning. However, as the purpose of this work is the implementation of the Semantic Recognition, and not the reception of signals, we have opted for a representative codification of external signals. This codification allows that, through the Artificial Neural Nets technology, the implementation of semantic relations among words and phrases may be possible, permitting the classification for posterior recognition. The computational implementation realized permits the recognition of phrases, even with alteration of words and number of words. The prototype presented here shows that, even with one structure extremely simpler than other systems of Natural Language Recognition, an adequate identification of phrases is possible.
|
70 |
Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento / Text alignmentSchreiner, Paulo January 2010 (has links)
O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho. / Lexical alignment is an essential task for modern empirical machine translation techniques. The unsupervised generative approach is being replaced by a supervised, discriminative one that considerably facilitates the inclusion of linguistic knowledge from several sources. Given this context, the present work describes a series of discriminative lexical aligners that incorporate post-processing heuristics with the goal of improving the quality of the alignments of multiword expressions, which is one of the major challanges in natural language processing today. The evaluation is conducted using a gold-standard obtained from a movie subtitle parallel corpus. The aligners proposed show an alignment quality that is superior both to our baseline and to a state-of-the-art generative aligner (Giza++), for the general case as well as for the expressions that are the focus of this work.
|
Page generated in 0.0934 seconds