Global ETD Search

21	Linguística e computação em diálogo para análise de textos e criação de atividades de leitura em língua inglesa / Dialogue between linguistics and computing to analyze texts and create reading activities in English José Lopes Moreira Filho 06 May 2015 (has links) A coleta e a exploração de corpora para a criação de atividades é um tema cada vez mais recorrente, uma vez que a prática visa a garantir materiais de ensino que privilegiam a língua em uso. A disponibilidade de instrumentação computacional para análise de corpora é enorme, assim como o seu potencial para o ensino de línguas. Apesar dos benefícios, o uso desses recursos ainda não é uma realidade para a maioria dos professores, principalmente fora do contexto acadêmico. Nesta tese, desenvolve-se um sistema de análise de textos e corpora e de criação automática de atividades de leitura e ensino de léxico-gramática em língua inglesa, com base na investigação das possibilidades de construção e exploração de corpora da Linguística de Corpus em diálogo com métodos e ferramentas de trabalho das áreas do Processamento de Línguas Naturais e Aprendizado de Máquina. Os objetivos da pesquisa estão relacionados a um estudo inicial que teve como produto final um software desktop para a preparação semiautomática de atividades de leitura em inglês, segundo o conceito de atividade-padrão, para facilitar a produção de materiais baseados em corpora. A proposta da tese concentra-se na automatização das análises linguísticas para a criação automática de atividades de ensino. Para tanto, a linguagem de programação Python, com a biblioteca Natural Language Toolkit (NLTK), foi utilizada na construção de módulos de análise de texto e corpora. Os principais corpora foram: a. o corpus de referência British National Corpus (BNC); b. o corpus de referência Floresta Sinta(c)tica do NLTK; c. o corpus de referência MacMorpho do NLTK; d. um corpus de estudo/treinamento com 135 textos de anúncios de emprego em inglês da Internet; e. um corpus de estudo/treinamento com 771 textos de divulgação científica das revistas eletrônicas Scientific American e NewScientist. A partir das análises automáticas programadas, foram criados modelos em XML, que extraem informações de texto e corpus para a criação de atividades. Uma interface gráfica foi desenhada para implementação do sistema, por meio das linguagens PHP, JavaScript, HTML e CSS, e disponibilizada online para a avaliação de possíveis usuários finais. A análise das avaliações mostrou-se positiva tanto em relação a aspectos da interface quanto a informações geradas pelo sistema. Os resultados obtidos no trabalho são significativos, pois sugerem que o sistema proposto, que permite a automatização de análises de texto e corpora para a criação automática de atividades didáticas de leitura e ensino de léxico-gramática em língua inglesa, apresenta um diferencial em relação a ferramentas disponíveis para análise de textos: fornece análises mais apuradas para a tarefa de elaboração de atividades didáticas, quando comparado, por exemplo, a programas como concordanciadores. Dentre as contribuições do trabalho, destacam-se o percurso do desenvolvimento do sistema como parte integrante da pesquisa, o diálogo entre as Humanidades a Linguística e a Língua Inglesa e as Ciências Exatas a Computação, com o Processamento de Línguas Naturais e o Aprendizado de Máquina , e a automatização de tarefas de análise de textos para fins de criação de materiais pedagógicos para o ensino de línguas. / Collecting and analyzing corpora in order to create activities is a topic that has risen by leaps and bounds, since practice is aimed at ensuring that the teaching material is focused on the language currently in use. There is a great amount of computer devices available for corpora analysis, and its potential for teaching languages is evident. Even though they present huge benefits, most of the teachers do not take advantage of these resources yet, chiefly when they do not take part in the academic environment. Through this thesis, a system for analysis of text and corpora and automatic creation of reading and English lexical-grammar teaching activities is developed, based on the investigation of possible ways of collecting and analyzing corpora from Corpus Linguistics, in partnership with methods and working tools related to Natural Language Processing and Machine Learning. The purpose for this research is related to an initial study that resulted in a desktop software that semi-automatically prepares reading activities in English, based on the standard-activity concept, in order to facilitate the creation of corpora-based material. This thesis puts forward the automatization of linguistic analyses so that teaching activities may be created automatically. For this purpose, the programming language Python, together with the Natural Language Toolkit (NLTK) library, was used for the creation of text-analysis and corpora modules. The main corpora used were: a. British National Corpus (BNC) reference corpus; b. Floresta Sinta(c)tica reference corpus from NLTK; c. MacMorpho reference corpus from NLTK; d. a study/training corpus with 135 texts of job announcements in English taken from the Internet; e. a study/training corpus with 771 texts of scientific disclosure of the following e-magazines: Scientific American and NewScientist. As from the scheduled automatic analyses, some XML models were created; they gather information about texts and corpus in order to create activities. A graphic interface was designed with the purpose of implementing the system by means of PHP, JavaScript, HTML and CSS languages and made available online, so that it could be evaluated by potential final users. The evaluations analysis had a positive outcome, both in relation to interface aspects and information provided by the system. The outcome of this work is meaningful, since this new system, which allows for the automatization of text and corpora analyses in order to create reading and English lexical-grammar activities, has a differential with regard to the tools available to analyze texts: it allows for more accurate analyses for the task of creating teaching activities, when it is compared, for instance, to softwares such as the concordance ones. Among the contributions to this work, it is important to highlight the system development process as an integral part of the research, the dialog between the Humanities Linguistics and English language and the Exact Sciences Computing, with the Natural Language Processing and the Machine Learning , as well as the automatization of text-analysis tasks in order to create teaching material for language teaching. Aprendizado de máquina Ensino de línguas Leitura Linguística de corpus Processamento de línguas naturais Corpus linguistics Language teaching Machine learning Natural language processing Reading
22	"Métodos para análise discursiva automática" / Methods for Automatic Discourse Analysis Thiago Alexandre Salgueiro Pardo 04 August 2005 (has links) Pesquisas em Lingüística e Lingüística Computacional têm comprovado há tempos que um texto é mais do que uma simples seqüência de sentenças justapostas. Um texto possui uma estrutura subjacente altamente elaborada que relaciona todo o seu conteúdo, atribuindo-lhe coerência. A essa estrutura dá-se o nome de estrutura discursiva, sendo ela objeto de estudo da área de pesquisa conhecida como Análise de Discurso. Diante da grande utilidade desse conhecimento para diversas aplicações de Processamento de Línguas Naturais, por exemplo, sumarização automática de textos e resolução de anáforas, a análise discursiva automática tem recebido muita atenção. Para o português do Brasil, em particular, há poucos recursos e pesquisas nessa área de pesquisa. Neste cenário, esta tese de doutorado visa a investigar, desenvolver e implementar métodos para análise discursiva automática, adotando como principal teoria discursiva a Rhetorical Structure Theory, uma das teorias mais difundidas atualmente. A partir da anotação retórica e da análise de um corpus de textos científicos da Computação, produziu-se o primeiro analisador retórico automático para a língua portuguesa do Brasil, chamado DiZer (DIscourse analyZER), além de uma grande quantidade de conhecimento discursivo. Apresentam-se modelos estatísticos inéditos para o reconhecimento de relações discursivas baseados em unidades de conteúdo de crescente complexidade, abordando palavras, conceitos e estruturas argumentais. Em relação a este último item, é apresentado um modelo para o aprendizado não supervisionado das estruturas argumentais dos verbos, o qual foi aplicado para os 1.500 verbos mais freqüentes do inglês, resultando em um repositório chamado ArgBank. O DiZer e os modelos propostos são avaliados, produzindo resultados satisfatórios. / Researches in Linguistics and Computational Linguistics have shown that a text is more than a simple sequence of juxtaposed sentences. Every text contains a highly elaborated underlying structure that relates its content, attributing coherence to the text. This structure is called discourse structure and is the object of study in the research area known as Discourse Analysis. Given the usefulness of this kind of knowledge for several Natural Language Processing tasks, e.g., automatic text summarization and anaphora resolution, automatic discourse analysis became a very important research topic. For Brazilian Portuguese, in particular, there are few resources and researches about it. In this scenario, this thesis aims at investigating, developing and implementing methods for automatic discourse analysis, following the Rhetorical Structure Theory mainly, one of the most used discourse theories nowadays. Based on the rhetorical annotation and analysis of a corpus of scientific texts from Computers domain, the first rhetorical analyzer for Brazilian Portuguese, called DiZer (DIscourse analyZER), was produced, together with a big amount of discourse knowledge. Novel statistical models for detecting discourse relations are presented, based on content units of increasing complexity, namely, words, concepts and argument structures. About the latter, a model for unsupervised learning of verb argument structures is presented, being applied to the 1.500 most frequent English verbs, resulting in a repository called ArgBank. DiZer and the proposed models are evaluated, producing satisfactory results. análise discursiva inteligência artificial lingüística computacional processamento de línguas naturais artificial intelligence computational linguistics discourse analysis natural language processing
23	Desenvolvimento de técnicas baseadas em redes complexas para sumarização extrativa de textos / Development of techniques based on complex networks for extractive text summarization Antiqueira, Lucas 27 February 2007 (has links) A Sumarização Automática de Textos tem considerável importância nas tarefas de localização e utilização de conteúdo relevante em meio à quantidade enorme de informação disponível atualmente em meio digital. Nessa área, procura-se desenvolver técnicas que possibilitem obter o conteúdo mais relevante de documentos, de maneira condensada, sem alterar seu significado original, e com mínima intervenção humana. O objetivo deste trabalho de mestrado foi investigar de que maneira conceitos desenvolvidos na área de Redes Complexas podem ser aplicados à Sumarização Automática de Textos, mais especificamente à sumarização extrativa. Embora grande parte das pesquisas em sumarização tenha se voltado para a utilização de técnicas extrativas, ainda é possível melhorar o nível de informatividade dos extratos gerados automaticamente. Neste trabalho, textos foram representados como redes, das quais foram extraídas medidas tradicionalmente utilizadas na caracterização de redes complexas (por exemplo, coeficiente de aglomeração, grau hierárquico e índice de localidade), com o intuito de fornecer subsídios à seleção das sentenças mais significativas de um texto. Essas redes são formadas pelas sentenças (representadas pelos vértices) de um determinado texto, juntamente com as repetições (representadas pelas arestas) de substantivos entre sentenças após lematização. Cada método de sumarização proposto foi aplicado no córpus TeMário, de textos jornalísticos em português, e em córpus das conferências DUC, de textos jornalísticos em inglês. A avaliação desse estudo foi feita por meio da realização de quatro experimentos, fazendo-se uso de métodos de avaliação automática (Rouge-1 e Precisão/Cobertura de sentenças) e comparando-se os resultados com os de outros sistemas de sumarização extrativa. Os melhores sumarizadores propostos referem-se aos seguintes conceitos: d-anel, grau, k-núcleo e caminho mínimo. Foram obtidos resultados comparáveis aos dos melhores métodos de sumarização já propostos para o português, enquanto que, para o inglês, os resultados são menos expressivos. / Automatic Text Summarization has considerably importance in tasks such as finding and using relevant content in the enormous amount of information available nowadays in digital media. The focus in this field is on the development of techniques that allow someone to obtain the most relevant content of documents, in a condensed way, preserving the original meaning and with little (or even none) human help. The purpose of this MSc project was to investigate a way of applying concepts borrowed from the studies of Complex Networks to the Automatic Text Summarization field, specifically to the task of extractive summarization. Although the majority of works in summarization have focused on extractive techniques, it is still possible to obtain better levels of informativity in extracts automatically generated. In this work, texts were represented as networks, from which the most significant sentences were selected through the use of ranking algorithms. Such networks are obtained from a text in the following manner: the sentences are represented as nodes, and an edge between two nodes is created if there is at least one repetition of a noun in both sentences, after the lemmatization step. Measurements typically employed in the characterization of complex networks, such as clustering coefficient, hierarchical degree and locality index, were used on the basis of the process of node (sentence) selection in order to build an extract. Each summarization technique proposed was applied to the TeMário corpus, which comprises newspaper articles in Portuguese, and to the DUC corpora, which comprises newspaper articles in English. Four evaluation experiments were carried out, by means of automatic evaluation measurements (Rouge-1 and sentence Precision/Recall) and comparison with the results obtained by other extractive summarization systems. The best summarizers are the ones based on the following concepts: d-ring, degree, k-core and shortest path. Performances comparable to the best summarization systems for Portuguese were achieved, whilst the results are less significant for English. Artificial Intelligence Automatic Summarization Complex Networks Inteligência Artificial Natural Language Processing Processamento de Línguas Naturais Redes Complexas Sumarização Automática
24	Desenvolvimento de técnicas baseadas em redes complexas para sumarização extrativa de textos / Development of techniques based on complex networks for extractive text summarization Lucas Antiqueira 27 February 2007 (has links) A Sumarização Automática de Textos tem considerável importância nas tarefas de localização e utilização de conteúdo relevante em meio à quantidade enorme de informação disponível atualmente em meio digital. Nessa área, procura-se desenvolver técnicas que possibilitem obter o conteúdo mais relevante de documentos, de maneira condensada, sem alterar seu significado original, e com mínima intervenção humana. O objetivo deste trabalho de mestrado foi investigar de que maneira conceitos desenvolvidos na área de Redes Complexas podem ser aplicados à Sumarização Automática de Textos, mais especificamente à sumarização extrativa. Embora grande parte das pesquisas em sumarização tenha se voltado para a utilização de técnicas extrativas, ainda é possível melhorar o nível de informatividade dos extratos gerados automaticamente. Neste trabalho, textos foram representados como redes, das quais foram extraídas medidas tradicionalmente utilizadas na caracterização de redes complexas (por exemplo, coeficiente de aglomeração, grau hierárquico e índice de localidade), com o intuito de fornecer subsídios à seleção das sentenças mais significativas de um texto. Essas redes são formadas pelas sentenças (representadas pelos vértices) de um determinado texto, juntamente com as repetições (representadas pelas arestas) de substantivos entre sentenças após lematização. Cada método de sumarização proposto foi aplicado no córpus TeMário, de textos jornalísticos em português, e em córpus das conferências DUC, de textos jornalísticos em inglês. A avaliação desse estudo foi feita por meio da realização de quatro experimentos, fazendo-se uso de métodos de avaliação automática (Rouge-1 e Precisão/Cobertura de sentenças) e comparando-se os resultados com os de outros sistemas de sumarização extrativa. Os melhores sumarizadores propostos referem-se aos seguintes conceitos: d-anel, grau, k-núcleo e caminho mínimo. Foram obtidos resultados comparáveis aos dos melhores métodos de sumarização já propostos para o português, enquanto que, para o inglês, os resultados são menos expressivos. / Automatic Text Summarization has considerably importance in tasks such as finding and using relevant content in the enormous amount of information available nowadays in digital media. The focus in this field is on the development of techniques that allow someone to obtain the most relevant content of documents, in a condensed way, preserving the original meaning and with little (or even none) human help. The purpose of this MSc project was to investigate a way of applying concepts borrowed from the studies of Complex Networks to the Automatic Text Summarization field, specifically to the task of extractive summarization. Although the majority of works in summarization have focused on extractive techniques, it is still possible to obtain better levels of informativity in extracts automatically generated. In this work, texts were represented as networks, from which the most significant sentences were selected through the use of ranking algorithms. Such networks are obtained from a text in the following manner: the sentences are represented as nodes, and an edge between two nodes is created if there is at least one repetition of a noun in both sentences, after the lemmatization step. Measurements typically employed in the characterization of complex networks, such as clustering coefficient, hierarchical degree and locality index, were used on the basis of the process of node (sentence) selection in order to build an extract. Each summarization technique proposed was applied to the TeMário corpus, which comprises newspaper articles in Portuguese, and to the DUC corpora, which comprises newspaper articles in English. Four evaluation experiments were carried out, by means of automatic evaluation measurements (Rouge-1 and sentence Precision/Recall) and comparison with the results obtained by other extractive summarization systems. The best summarizers are the ones based on the following concepts: d-ring, degree, k-core and shortest path. Performances comparable to the best summarization systems for Portuguese were achieved, whilst the results are less significant for English. Inteligência Artificial Processamento de Línguas Naturais Redes Complexas Sumarização Automática Artificial Intelligence Automatic Summarization Complex Networks Natural Language Processing
25	Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado / Co-reference resolution in multiples documents through unsupervised learning Jefferson Fontinele da Silva 05 May 2011 (has links) Um dos problemas encontrados em sistemas de Processamento de Línguas Naturais (PLN) é a dificuldade de se identificar que elementos textuais referem-se à mesma entidade. Esse fenômeno, no qual o conjunto de elementos textuais remete a uma mesma entidade, é denominado de correferência. Sistemas de resolução de correferência podem melhorar o desempenho de diversas aplicações do PLN, como: sumarização, extração de informação, sistemas de perguntas e respostas. Recentemente, pesquisas em PLN têm explorado a possibilidade de identificar os elementos correferentes em múltiplos documentos. Neste contexto, este trabalho tem como foco o desenvolvimento de um método aprendizado não supervisionado para resolução de correferência em múltiplos documentos, utilizando como língua-alvo o português. Não se conhece, até o momento, nenhum sistema com essa finalidade para o português. Os resultados dos experimentos feitos com o sistema sugerem que o método desenvolvido é superior a métodos baseados em concordância de cadeias de caracteres / One of the problems found in Natural Language Processing (NLP) systems is the difficulty of identifying textual elements that refer to the same entity. This phenomenon, in which the set of textual elements refers to a single entity, is called coreference. Coreference resolution systems can improve the performance of various NLP applications, such as automatic summarization, information extraction systems, question answering systems. Recently, research in NLP has explored the possibility of identifying the coreferent elements in multiple documents. In this context, this work focuses on the development of an unsupervised method for coreference resolution in multiple documents, using Portuguese as the target language. Until now, it is not known any system for this purpose for the Portuguese. The results of the experiments with the system suggest that the developed method is superior to methods based on string matching Aprendizado não supervisionado Correferência Múltiplos documentos Processamento de línguas naturais Coreference Multiple documents Natural language processing Unsupervised learning
26	Estudo comparativo do fenômeno de nasalização em línguas da família Tupi-Guaraní (Tronco Tupi) MIRANDA, Camille Cardoso 26 April 2018 (has links) Submitted by Rejane Coelho (rejanecoelho@ufpa.br) on 2018-05-07T14:24:23Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_EstudoComparativoFenomeno.pdf: 2892333 bytes, checksum: dce1d7aec393ad20d8fcb6fa4d4058db (MD5) / Approved for entry into archive by Rejane Coelho (rejanecoelho@ufpa.br) on 2018-05-11T16:59:41Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_EstudoComparativoFenomeno.pdf: 2892333 bytes, checksum: dce1d7aec393ad20d8fcb6fa4d4058db (MD5) / Made available in DSpace on 2018-05-11T16:59:41Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_EstudoComparativoFenomeno.pdf: 2892333 bytes, checksum: dce1d7aec393ad20d8fcb6fa4d4058db (MD5) Previous issue date: 2018-04-26 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Este trabalho objetiva descrever os padrões do fenômeno de nasalização em línguas indígenas da família Tupí-Guaraní, tronco Tupí. Foram analisadas 27 línguas que compõem esta família: Mbyá, Kaiowá, Guaraní-Paraguaio, Guaraní-Antigo, Nhandewa, Tapieté (Ramo I); Sirionó (Ramo II); Nheengatú, Tupinambá (Ramo III), Tembé, Parakanã, Suruí-Tocantins, Avá-Canoeiro, Tapirapé (Ramo IV); Anambé, Araweté, Asuriní do Xingu (Ramo V); Kayabi, Apiaká, Tenharím, Uru-Eu-Uau-Uau (Ramo VI), Kamayurá (Ramo VII), Guajá, Ka'apor, Zo'e, Emerillon e Wayampi, (Ramo VIII). Para averiguação do processo de nasalidade em línguas Tupí-Guaraní utilizamos como pressuposto teórico principal a abordagem tipológica de Walker (1998) para verificar e compreender, a partir de uma hierarquia tipológica de harmonia nasal, segmentos que podem se comportar tanto como gatilhos ou alvos do espalhamento nasal. O estudo também utiliza as considerações de Ohala (1981, 1993) e Cohn (1990, 1993) para examinar o processo de nasalização como efeito fonético e não fonológico. Em relação aos segmentos que são gatilhos, ou seja, aqueles iniciam o processo de nasalidade, foram vistos que consoante nasal (N) e vogal nasal (Ṽ) são fontes de nasalidade predominantes em quase todas as línguas. Contudo, em Suruí-Tocantins, Parakanã, Tembé e Apiaká (Ramo IV e VI), apenas foi verificada nasalidade sendo desencadeada por N, já em Sirionó (Ramo II) e Tapirapé (Ramo IV) a nasalidade é condicionada apenas por Ṽ. Para os segmentos alvos, as línguas foram classificadas em quatro tipos diferentes, conforme a escala implicacional de harmonia nasal de Walker. A língua Sirionó (Ramo II), e as línguas dos Ramos IV e VI tendem a ter vogais sendo predominantemente nasalizadas (tipo 1), enquanto Tupinambá, Nheengatú, Anambé, Araweté e Asuriní do Xingu, Ka'apor and Zo'e (Ramos III, IV e VIII) têm vogais + glides sofrendo a nasalização (tipo 2). A língua Kamayurá pertencente ao Ramo VII exibe vogais + glides + líquidas sendo afetadas pelo processo de nasalidade; o mesmo ocorre com a língua Guajá (Ramo VIII). As línguas do Ramo I (com exceção de Tapieté), Wayampi e Emerillon (Ramo VIII) exibem o tipo (5), em que todos os segmentos são afetados pela harmonia nasal. O estudo também examinou segmentos que são bloqueadores do processo de nasalidade. As línguas que apresentam segmentos bloqueadores (especialmente as obstruintes surdas) são: Tapieté (Ramo I); Tupinambá, Nheengatú (Ramo III); Avá-Canoeiro (Ramo IV); Anambé, Araweté e Asuriní do Xingu (Ramo V); Kayabi, Apiaká (Ramo VI); Kamayurá (Ramo VII); Guajá, Ka'apor e Zo'e (Ramo VIII). Já as outras línguas apresentam obstruintes surdas sendo transparentes ao processo de nasalidade. A direcionalidade do espalhamento é predominantemente regressiva, embora possa ter também o espalhamento progressivo ou bidirecional, esses dois últimos são bastante frequentes em processos morfofonológicos. O domínio da nasalidade é dois tipos: Local, quando é N e a palavra quando é Ṽ. Em suma, o trabalhou compreende-se em diversas etapas que auxiliaram na averiguação do fenômeno de nasalização nas línguas Tupí-Guaraní. A abordagem apresentada neste estudo é tipológica, uma vez que utiliza de métodos translinguísticos para verificar, entre as línguas investigadas, padrões semelhantes e diferentes relacionados ao tema em questão. Assim, a pesquisa realizada nessa dissertação buscou ampliar cada vez mais informações importantes sobre o processo de nasalização nessas línguas. Espera-se que essa pesquisa possa contribuir para análises futuras referentes à tipologia fonológica em línguas indígenas brasileiras. / This work aims to describe the patterns of nasalization phenomena in indigenous languages of Tupí-Guaraní subgroup of the Tupian family: Mbyá, Kaiowá, Paraguayan Guaraní, Old-Guaraní, Nhandewa, Tapieté (Branch I); Sirionó (Branch II); Nheengatú, Tupinambá (Branch III), Tembé, Parakanã, Suruí-Tocantins, Avá-Canoeiro, Tapirapé (Branch IV); Anambé, Araweté, Asuriní of the Xingu (Branch V); Kayabi, Apiaká, Tenharím, Uru-Eu-Uau-Uau (Branch VI), Kamayurá (Branch VII) and Guajá, Ka'apor, Zo'e, Wayampi and Emerillon (Branch VIII). To investigate the nasalization processes in Tupí-Guaraní languages, we adopt the typological approach by Walker (1998) to verify and comprehend, from the typological hierarchy of nasal harmony, segments that can be triggers and targets of nasal spreading. The study also uses the considerations of Ohala (1981, 1993) and Cohn (1990, 1993) to examine nasalization processes as a phonetic effect and not as a phonological process. With regard to the segments that are the triggers, i.e, those that begin the nasalization process, we see that nasal consonants (N) and nasal vowels (Ṽ) are the sources of nasality predominant in almost all languages. However, in Suruí-Tocantins, Parakanã, Tembé, and Apiaká (Branch IV and VI), only nasalization triggered for N was found. In Sirionó (Branch II) and Tapirapé (Branch IV), the nasalization is triggered only by Ṽ. For the targets segments, the languages were classified into four different types according to the implicational scale of walker’s nasal harmony. The language Sirionó (Branch II), and the languages of the branches IV and VI tend to have vowels being predominantly nasalized (Type 1), while the languages Tupinambá, Nheengatú, Anambé, Araweté, Asuriní of the Xingu, Ka'apor and Zo'e (branches III, V and VIII) have vowels + glides undergo nasalization (Type 2). The Kamayurá language belonging to branch VII has vowels + glides + liquids being affected by the nasalization process, and the same occurs with the Guajá language (Branch VIII). The languages of Branch I (with exception of Tapieté), Wayampi and Emerillon (Branch VIII) exhibit the type 5, in which all the segments are affects by nasal harmony. The study also examined segments that are blockers of the nasalization process. The languages that present blocker segments (especially the voiceless obstruents) are: Tapieté (Branch I), Tupinambá, Nheengatú (Branch III), Avá-Canoeiro (Branch IV), Anambé, Araweté, Asuriní of the Xingu (Branch V), Kayabi, Apiaká (Branch VI), Kamayurá (Branch VII), Guajá, Ka'apor and Zo'e (Branch VIII). Already the other languages present voiceless obstruents being transparent to the nasalization process. The directionality of spreading is predominantly regressive, although it may have also progressive or bidirectional spreading; these two last are quite often in morphological process. The domain of nasalization is two types: local, when is N and the word when is Ṽ. In summary, the work follows several steps that help in the investigation of nasalization phenomena in the Tupí-Guaraní languages. The approach in this study is typological since it uses crosslinguistic methods to check, among the languages investigated, similarities and differences in patterns related to the subject in question. Thus, the research carried out in this dissertation seeks to provide important information about nasalization processes in these languages. We expect that this research may promote future analyses regarding the phonological typology of the indigenous languages of Brazil. Língua tupí-guarani - Fonética Tipologia fonológica Nasalização ESTUDOS LINGUÍSTICOS
27	Língua e identidade Apurinã: estudos baseados em relatos contemporâneos / Pupўkarypekawa athe (Nós somos índios) COSTA, Patrícia do Nascimento da 11 March 2016 (has links) Submitted by Rejane Coelho (rejanecoelho@ufpa.br) on 2018-05-15T13:30:35Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_LínguaIdentidadeApurinã.pdf: 3594628 bytes, checksum: 082a6975168c62d57df2449e14621465 (MD5) / Approved for entry into archive by Rejane Coelho (rejanecoelho@ufpa.br) on 2018-05-15T13:31:31Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_LínguaIdentidadeApurinã.pdf: 3594628 bytes, checksum: 082a6975168c62d57df2449e14621465 (MD5) / Made available in DSpace on 2018-05-15T13:31:31Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_LínguaIdentidadeApurinã.pdf: 3594628 bytes, checksum: 082a6975168c62d57df2449e14621465 (MD5) Previous issue date: 2016-03-11 / O objetivo desta pesquisa é examinar elementos da língua Apurinã (Aruák) que demonstrem traços da cultura do seu povo, como aspectos sobre o modo de vida, a visão de mundo, os conhecimentos e valores tradicionais e o envolvimento com valores externos às suas experiências de vida. Nesse sentido, apontamos características do uso da língua reveladores da identidade dos Apurinã, que vivem próximos aos afluentes do rio Purus, região sudeste do estado do Amazonas, Brasil. Os procedimentos metodológicos utilizados envolvem levantamento bibliográfico sobre os estudos de identidade e os referenciais que relacionam tais estudos aos pressupostos teóricos da linguística, além da análise dos dados que foram coletados em viagens de campo, realizadas nos meses de abril e dezembro de 2015. Também foram consultados trabalhos sobre a língua Apurinã, realizados pelo professor doutor Sidney da Silva Facundes, da Universidade Federal do Pará, e de seus alunos ao longo de mais de vinte anos em pesquisas. A presente investigação faz-se relevante por agregar informações, levantar questões e propor respostas relacionadas aos estudos sobre a língua Apurinã de forma a revelar, a partir de dados linguísticos, aspectos relativos à cultura e aos costumes. Além da contribuição acadêmica, esta pesquisa também se justifica por integrar, junto a outros elementos, um conjunto de informações capazes de corroborar a legitimação deste povo, sua cultura e seu direito de existir socialmente. Os traços da identidade Apurinã evidenciados neste estudo são descritos, principalmente, na perspectiva da sua relação com os seres da natureza. / The main objective of this research is to examine the language elements Apurinã (Aruák) showing traces of the culture of its people, such as aspects of their way of life, worldview, knowledge and traditional values and engagement with external values to their experiences life. In this sense, we point out features of the use of language revealing the identity of Apurinã who live near the banks of the Purus River, southeast region of the state of Amazonas, Brazil. The methodological procedures used involve review of the literature on the identity studies and references that relate such studies to the theoretical assumptions of linguistics, as well as analysis of data collected in field research, in April and December 2015 were also found work on Apurinã language, carried out by professor Sidney da Silva Facundes, from the Federal University of Pará, and his students for over twenty years of investigation. This research is done by adding relevant information, questions and answers to studies on the language Apurinã that may reveal, from linguistic data, aspects of the culture and customs. In addition to the academic contribution, this research is also justified in part, together with other elements, as a set of information to corroborate the legitimacy of the people, their culture and their right to exist socially. Furthermore, Apurinã identity traits highlighted here are described primarily in terms of their relationship with the beings of nature. Língua apurinã - Amazonas Antropologia linguística Linguagem e línguas ESTUDOS LINGUÍSTICOS
28	Um sistema baseado em conhecimento com interface em língua natural para o ensino de transformações geométricas Miranda, Gina Magali Horvath 20 May 2009 (has links) Made available in DSpace on 2016-04-27T16:58:53Z (GMT). No. of bitstreams: 1 Gina Magali Horvath Miranda.pdf: 13959367 bytes, checksum: 51898507e2b8817368b6662941298d4b (MD5) Previous issue date: 2009-05-20 / Conselho Nacional de Desenvolvimento Científico e Tecnológico / Our research subject is to develop a computational tool using NLP methods (Natural Language Processing) and insert didactics sequences on the field of Transformational Geometry on that tool, using as support the Theory of Didactical Situations in Mathematics, by Guy Brousseau and Registers of the Semiotics Representation, by Raymond Duval. The technological advances and the increasing interest in technology by the students make a perfect scenery to build a tool to help the proccess of teaching and learning in the context of mathematical education. The research is going to be developed based on the didactics engeneering principles, which one of its functions is to analyze didactics situations in the Theory of Didactical Situations in Mathematics. To develop the computational system we used ontological semantics, which supports, among others, applications such as translation and information extraction. We do not believe that the simple use of a computational tool can provide the learning, but that tool, associated with activities carefully constructed and supported by theories such as Brousseau s and Duval s, whose dedicate to the study of phenomena that intervene with the process of teaching and learning of the mathematics, we observe that our hypothesis is viable, since the students, whose did not possess knowledge of straight line segment, at the end of the use of the tool and appropriate didactics sequences were capable of giving the correct order to a demonstration from phrases already written / Esta pesquisa teve como objetivo desenvolver uma ferramenta computacional, utilizando técnicas de PLN (Processamento de Línguas Naturais) e inserir nesta ferramenta sequências didáticas no campo da Geometria das Transformações, empregando-se como embasamento a Teoria das Situações Didáticas de Guy Brousseau e os Registros de Representação Semiótica de Raymond Duval. Os avanços tecnológicos e o interesse cada vez maior por parte dos alunos pela tecnologia formam, ao que tudo indica, um cenário ideal dentro desse processo de construir uma ferramenta que possa ser utilizada como instrumento de ajuda no ensino e na aprendizagem no contexto da Educação Matemática. A pesquisa foi desenvolvida, usando os princípios da engenharia didática, nos quais uma das funções é analisar situações dentro do quadro teórico da didática matemática. Para desenvolver o sistema computacional, usou-se a semântica ontológica, que suporta aplicações como traduções e extração da informação entre outras. Acredita-se que a simples utilização de uma ferramenta computacional não possa proporcionar o aprendizado, mas, associada a atividades cuidadosamente construídas e apoiadas em teorias, como as de Brousseau e Duval que se dedicam a estudar fenômenos que interferem no processo de ensino e de aprendizagem da Matemática, observou-se que esta hipótese é viável, visto que os alunos que não possuíam conhecimento de segmento de reta, ao final do uso da ferramenta e suas sequências didáticas foram capazes de dar encadeamento necessário a uma demonstração a partir de frases já redigidas Processamento de línguas naturais Geometria das transformações Matematica -- Estudo e ensino Transformacoes (Matematica) Natural language processing Transformational geometry
29	Formação de gentílicos a partir de topônimos : proposta de geração automática Antunes, Roger Alfredo de Marci Rodrigues 17 February 2017 (has links) Submitted by Ronildo Prado (ronisp@ufscar.br) on 2017-08-21T18:50:20Z No. of bitstreams: 1 DissRARMA.pdf: 5470332 bytes, checksum: e56022e54a0fe99cc8ca45fc74f7e424 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-21T18:50:28Z (GMT) No. of bitstreams: 1 DissRARMA.pdf: 5470332 bytes, checksum: e56022e54a0fe99cc8ca45fc74f7e424 (MD5) / Approved for entry into archive by Ronildo Prado (ronisp@ufscar.br) on 2017-08-21T18:50:34Z (GMT) No. of bitstreams: 1 DissRARMA.pdf: 5470332 bytes, checksum: e56022e54a0fe99cc8ca45fc74f7e424 (MD5) / Made available in DSpace on 2017-08-21T18:50:41Z (GMT). No. of bitstreams: 1 DissRARMA.pdf: 5470332 bytes, checksum: e56022e54a0fe99cc8ca45fc74f7e424 (MD5) Previous issue date: 2017-02-17 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / It is a common habit to use the adjective of the city name to indicate people’s origin, however the formulating rules of the adjective has been rarely discussed in the literature. The main objective of this work is to describe the gentile adjectives, which originate from the place names called toponyms. Using specific morphological rules of combination and proposing the formal representation of their regularities we can formulate the basis for a computational system, which can automatically generate the gentiles from their place names. The system proposed here is founded on the methodological principles of Dias-da-Silva (1996) - with respect to the three-phase methodology of the Natural language processing (NLP) - and the theoretical assumptions in the works of Borba (1998), Biderman (2001), Dick (2007) Jurafsky (2009) and Sandmann (1992, 1997). The corpus consists of 5,570 municipalities’ names (toponyms) and their respective gentiles, extracted in a form of a list from the database of the Instituto Brasileiro de Geografia e Estatística (IBGE). It was observed that only from a small set of recurrent unities, such as suffixes and ends of lexical entities, it is possible to extract patterns which can be subsequently used to formulate combination rules for automatic word processing. During this work, the issue of computational representation stands out and proves natural language complexity. Although natural languages can be in principle automatically processed using computers, their inherent features may deviate from the formulated rules and make the processing more intricate. Nonetheless, the results show that it is possible to automatize 52% of the generation of gentiles from the municipal toponyms. Conclusively the inherent opacity of the Portuguese does not allow direct processing of all of the language toponyms. / Utilizam-se diariamente nomes de cidades e adjetivos que indicam as pessoas que nasceram ou vivem nessas cidades, mas raramente se reflete sobre as regras de formação dessas palavras. O presente trabalho tem como objetivo descrever os adjetivos pátrios, ou gentílicos, que advêm dos nomes dos lugares - topônimos -, por meio de regras de combinação morfológicas específicas e propor a representação formal das suas regularidades com intuito de servir de base para um sistema computacional capaz de gerar automaticamente os gentílicos a partir dos seus topônimos. Tomou-se como orientação os princípios metodológicos de Dias-da-Silva (1996) - no que concerne à metodologia trifásica do PLN -, e os pressupostos teóricos nos trabalhos de Borba (1998), Biderman (2001), Dick (2007), Jurafsky (2009) e Sandmann (1992, 1997). O corpus da pesquisa consiste na lista dos topônimos de 5.570 municípios e seus respectivos gentílicos, extraídos do banco de dados do Instituto Brasileiro de Geografia e Estatística (IBGE). Com esta pesquisa, foi possível observar que somente a partir das menores unidades recorrentes, como os sufixos e as extremidades finais das unidades léxicas, podem-se extrair padrões para a formulação de regras de combinação para um processamento automático. Além disso, a problemática da representação computacional evidencia a complexidade das línguas naturais, que embora sejam passíveis de processamento automático, são opacas e, desta maneira, sempre haverá questões inerentes a elas que dificultam essa tarefa. Ainda assim, os resultados mostraram que é possível automatizar a geração de gentílicos a partir de topônimos em 52% do total, o que já é um número razoável, considerando a opacidade inerente à língua natural mencionada. Gentílico Toponímia Morfologia lexical Processos de formação de palavras Linguística computacional Processamento de línguas naturais Gentile Toponymy Lexical morphology Computational linguistics Natural language processing LINGUISTICA, LETRAS E ARTES::LINGUISTICA
30	Enfrentamento do problema das divergências de tradução por um sistema de tradução automática: um exercício exploratório Oliveira, Mirna Fernanda de [UNESP] 25 April 2006 (has links) (PDF) Made available in DSpace on 2014-06-11T19:32:47Z (GMT). No. of bitstreams: 0 Previous issue date: 2006-04-25Bitstream added on 2014-06-13T20:43:58Z : No. of bitstreams: 1 oliveira_mf_dr_ararafcl.pdf: 631650 bytes, checksum: fa4233637c661c5e993adcc08801d158 (MD5) / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / O objetivo desta tese é desenvolver um estudo lingüístico-computacional exploratório de um problema específico que deve ser enfrentado por sistemas de tradução automática: o problema da divergências de tradução quer de natureza sintática quer de natureza léxico-semântica que se verificam entre pares de sentenças de línguas naturais diferentes. Para isso, fundamenta-se na metodologia de pesquisa interdisciplinar em PLN (Processamento Automático de Línguas Naturais) de Dias-da-Silva (1996, 1998 e 2003) e na teoria lingüístico-computacional subjacente ao sistema de tradução automática UNITRAN de Dorr (1993), que, por sua vez é subsidiado pela teoria sintática dos princípios e Parâmetros de Chomsky (1981) e pela teoria semântica das Estruturas conceituais de Jackendoff (1990). Como contribuição, a tese descreve a composição e o funcionamento do UNITRAN, desenhado para dar conta de parte do problema posto pelas divergências de tradução e ilustra a possibilidade de inclusão do português nesse sistema através do exame de alguns tipos de divergências que se verificam entre frases do inglês e do português. / This dissertation aims to develop an exploratory linguistic and computational study of an especific type of problem that must be faced by machine translation systems: the problem of translation divergences, whether syntactic or lexical-semantic ones that can be verified between distinct natural language sentence. In order to achieve this aim, this work is based on the interdisciplinary research metodology of the NLP (Natural Language Processing) field developed by Dias-da-Silva (1996, 1998 & 2003) and on the linguistic computacional theory behind UNITRAN, a machine translation systemdeveloped by Dorr (1993), a system that is on its turned based on Chomsky's syntactic theory of Government and Binding (1981) and Jackendoff's semantic theory of Conceptual Structures (1990). As a contribution to the field of NLP, this dissertation describes the machinery of UNITRAN, designed to deal with part of the problem of translation divergencies, and it illustrates the possibility of including Brazilian Portuguese language in the system through the investigation of certain kinds of divergences that can be found between English and Brazilian Portuguese senteces. Linguística Traduções - Processos eletrônicos Tradução automática Translation NLP (Natural Language Processing) Linguistic computacional theory Machine translation system

Search results