Spelling suggestions: "subject:"lingüística processamento dde dados"" "subject:"lingüística processamento dee dados""
1 |
Um sistema computacional para verificação do nível de compreensão de textos em linguagem natural / Jaime Wojciechowski ; orientador, Bráulio Coelho Ávila, co-orientador, Edson Emilio ScalabrinWojciechowski, Jaime January 2003 (has links)
Dissertação (mestrado) - Pontifícia Universidade Católica do Paraná, Curitiba, 2003 / Inclui bibliografias / Este trabalho tem como objetivo a concepção e implementação de um sistema capaz de realizar a compreensão de textos em linguagem natural. O sistema irá receber textos de um determinado assunto e avaliar computacionalmente o nível de compreensão do mesmo. / The purpose of this work is the conception and implementation of a software which will be able to accomplish an automatic understanding of texts in natural language. The software will receive texts about a certain subject and will automatically evaluate t
|
2 |
Estudo e validação de teorias do domínio lingüístico com vistas à melhoria do tratamento de cadeias de co-referência em Sumarização Automática.Carbonel, Thiago Ianez 21 August 2007 (has links)
Made available in DSpace on 2016-06-02T20:24:59Z (GMT). No. of bitstreams: 1
DissTIC.pdf: 1727948 bytes, checksum: fd1e13beaba58ee4b0a4f9d4b5d19687 (MD5)
Previous issue date: 2007-08-21 / Universidade Federal de Sao Carlos / The work presented in the dissertation focuses on the study and validation of linguistic
theories so as to improve reference cohesion in Automatic Summarization systems, which
with the advent of the Internet have received increasing attention due to the urge to manage
the huge amounts of on-line textual information that become available each day.
In this dissertation we evaluate Seno (2005) s Veins Theory-based proposal and prototype,
and present a reimplementation with distinct features based on the analysis of a corpus
annotated with rhetoric (RST) and referential information. In addition, we report on the
first validation effort for Portuguese for Veins Theory s Conjecture 1 (C1), which
constrains anaphora resolution given the rhetoric structure of texts and whose applicability
to Automatic Summarization interests us. As a methodological novelty, we put forth the
Non-Trivial Precision, a more realistic estimator of C1 s predictive power. / O trabalho apresentado nesta dissertação tem como foco o estudo e validação de teorias
lingüísticas com vistas à melhoria dos sistemas de Sumarização Automática, ramo da
Lingüística Computacional que, com o advento da internet, tem recebido grande atenção
nos últimos tempos, pois a quantidade de informação on-line é enorme e os leitores têm
cada vez menos tempo para apreender o máximo desta informação.
Nesta dissertação, avaliamos o protótipo de AS baseado na Teoria das Veias proposto por
Seno (2005) e apresentamos uma reimplementação com características distintas, baseada
em análise de córpus um córpus anotado com informação retórica (RST) e referencial.
Como inovação metodológica, formulamos a Precisão Não-Trivial, um estimador mais
realista para o poder preditivo da C1.
|
3 |
Um processo para a geração de recursos lingüísticos aplicáveis em ferramentas de auxílio à escrita científica.Marquiafável, Vanessa Silva 29 March 2007 (has links)
Made available in DSpace on 2016-06-02T20:24:59Z (GMT). No. of bitstreams: 1
DissVSM.pdf: 4419849 bytes, checksum: a1cef53968c5829a753427d39a957525 (MD5)
Previous issue date: 2007-03-29 / Financiadora de Estudos e Projetos / Within the context of academic research, English is the lingua franca for various
scientific disciplines. It is also widely acknowledged that producing an acceptable academic
text is anything but a simple and easy task. This is particularly more acute if the author is a
novice researcher and English is not his/her first language. One possible solution to minimize
this difficulty is the use of writing tools to assist novice researchers during different stages of
the writing process. This could involve, for instance, quick and easy access to a collection of
authentic linguistic resources extracted from published scientific papers. AMADEUS
(Amiable Article Development for User Support) and SciPo (Scientific Portuguese) are good
examples of this type of writing tools. AMADEUS is a resource which was designed to help
non-native English users write academic texts. It focuses on the fields of Physics and
Computer Science specifically. SciPo is a Web critiquing system for writing theses in
Portuguese and focuses on the discipline of Computer Science. A variation of Scipo is SciPo-
Farmácia, which is a web-based tool to assist non-native speakers of English in writing
scientific papers in the field of Pharmaceutical Sciences.
The main purpose of this dissertation is to elaborate a semi-automatic process to
generate the necessary English linguistic resources required by supporting writing tools, such
as the ones mentioned above. The primary aim is to enable researchers from various
disciplines to develop their own aiding writing tool, customized to his/her specific field, with
no need to refer to linguists, computer scientists and/or academic writing specialists for help.
The semi-automatic process proposed here has been designed to include the knowledge which
would be provided by these specialists. The main methodology adopted in this research
derives from the discipline of Corpus Linguistics (we have used both corpus-based and
corpus-driven approaches). This choice relies on the assumption that the success of such tools
is strongly related to the corpus from which users collect well-written text extracts so that
they can be recycled and reused in the text being produced. The semi-automatic process was
evaluated in two ways: i) clearness and completeness of the manuals describing the linguistic
resources and ii) quality of the linguistic resources generated and estimated time for
developing all the necessary linguistic resources. For measuring the quality of the two
evaluation stages, we have used the statistical system Kappa. The results ranged from k=0.72
e k=1.0. These figures can be interpreted as a good understanding of the tasks described in the
manuals evaluated. The present research proves relevant in a number of aspects. It opens up
the possibility of generating a computational tool to assist non-native English speakers in
writing academic texts in any experimental field, by using the knowledge from the semiautomatic
process only. It also promotes the use of supporting writing tools as didactic
resource for teaching-learning scientific English and the use of metrics to evaluate rhetorical
structure models. Last but not least, it produces a rhetorically annotated corpus which may be
used for teaching-learning purposes or in natural language processing. / No ambiente acadêmico atual, a língua inglesa foi escolhida como a lingua franca da
ciência nas mais variadas áreas do conhecimento. No entanto, sabe-se que a tarefa de
produção de um texto científico adequado, no caso o artigo científico, não é fácil,
principalmente se o escritor é iniciante nessa atividade e sua língua materna não é o inglês.
Uma alternativa para esse problema é a utilização de ferramentas computacionais que apóiam
as diferentes etapas do processo de escrita de um texto científico, cuja base seja formada por
material lingüístico autêntico coletado de artigos científicos publicados e indexados de forma
a facilitar seu rápido acesso. Dentre essas ferramentas, destacamos três em especial: o
AMADEUS (Amiable Article Development for User Support), que apóia a escrita de artigos
científicos em inglês nas áreas de Física e Computação, o SciPo, inspirado no AMADEUS,
mas que apóia a escrita de teses e dissertações em português na área de Ciências da
Computação e o SciPo-Farmácia, que dá suporte à escrita de artigos científicos em inglês na
área de Ciências Farmacêuticas. O objetivo principal deste projeto de pesquisa foi formalizar
um processo para a construção de recursos lingüísticos em inglês a serem usados em
ferramentas de suporte à escrita científica semelhantes ao SciPo-Farmácia. A principal
metodologia utilizada derivou da Lingüística de Corpus (usamos tanto a abordagem dirigida
por córpus quanto baseada em córpus), pois a eficácia das ferramentas citadas, conforme
experiências relatadas por seus desenvolvedores, está fortemente ligada ao fato de possuírem
um córpus com textos da área de pesquisa do pesquisador-escritor, a partir do qual reutilizamse
trechos bem-escritos na escrita de um novo artigo. A avaliação do processo aqui proposto
se deu em dois momentos: i) na avaliação da clareza e da completude dos manuais de
construção de recursos lingüísticos, e ii) na avaliação da qualidade dos recursos lingüísticos
produzidos e elaboração de uma estimativa do tempo gasto na construção dos recursos
lingüísticos descritos por esses módulos. A estatística Kappa foi escolhida para medir a
qualidade do material produzido nas duas etapas, a qual indicou valores entre k=0.72 e k=1,0.
Esses bons resultados podem ser atribuídos ao entendimento do conteúdo dos manuais
utilizados na avaliação das tarefas contidas no processo proposto. Dentre as contribuições
desta pesquisa podemos citar: a possibilidade de construção de recursos lingüísticos para
gerar uma ferramenta de suporte à escrita científica em inglês para várias áreas que possuem a
pesquisa experimental como foco, utilizando apenas as informações contidas no processo
proposto; o auxilio na divulgação, via Web, de ferramentas computacionais de suporte à
escrita enquanto recurso didático a ser utilizado no ensino-aprendizado de inglês científico; a
divulgação de métricas para avaliação de modelos de estruturas esquemáticas propostas; e
disponibilização de córpus anotados em nível retórico para serem usados em ferramentas de
processamento de língua natural ou ensino.
|
4 |
Antonímia nos adjetivos descritivos do Português do Brasil: uma proposta de análise e representaçãoBarros, Cláudia Dias de 25 February 2010 (has links)
Made available in DSpace on 2016-06-02T20:25:06Z (GMT). No. of bitstreams: 1
3060.pdf: 1410899 bytes, checksum: 3015872a282e606335436041c1a0d0ff (MD5)
Previous issue date: 2010-02-25 / Financiadora de Estudos e Projetos / Among the most important lexical semantic relations to the class of adjectives is antonymy, i. e., opposition of senses as in fat/thin . WordNet, a lexical database for English, both establishes semantic relationships (such as synonymy, hiperonymy, etc.) between words and presents the concept of indirect antonymy (via synonymy: obese=fat/thin) for adjectives. This type of antonymy has not been represented at WordNet.Br yet, the Brazilian Portuguese WordNet, and at Electronic Thesaurus for Brazilian Portuguese (TeP), which contains the WordNet.Br core synsets. Thus, this research aims to study the antonymy in adjectives of Brazilian Portuguese (BP), to contribute to the refinement of the TeP and of WordNet.Br s database. The study takes up the occurrences of the 100 most frequent adjectives in the Mac-Morpho corpus from the LacioWeb project, which contains newspaper articles of Folha de São Paulo of the year 1994 and has 1,167,183 tokens. The adjectives were extracted by the Unitex concordancer. The research is motivated by three questions ( when two adjectives have closely similar meanings, why do they not have the same antonym? ; if antonymy is so important, why do many descriptive adjectives seem to have no antonym? ; and how the direct antonymy can be established? ). The main objectives are: to establish a lexical network that relates direct antonymy between adjectives and indirect antonymy between the synonyms of each adjective and its antonyms and to implement them in TeP, refining the representation of antonymy. / Dentre as relações léxico-semânticas mais importantes para a classe dos adjetivos está a antonímia, ou seja, a oposição de sentidos, como em: gordo/magro . A WordNet, uma base de dados lexicais do inglês, que estabelece relações léxico-semânticas e semântico-conceituais (como sinonímia, hiperonímia, respectivamente, etc.) entre as palavras, apresenta também o conceito de antonímia indireta (via sinonímia: obeso=gordo/magro) para os adjetivos. Esse tipo de antonímia ainda não está representada na WordNet.Br (WN.Br), a base de dados para o português do Brasil, e no Thesaurus Eletrônico para o Português do Brasil (TeP), que contém os synsets básicos da WN.Br. Sendo assim, a presente pesquisa tem como objetivo estudar a antonímia nos adjetivos do Português do Brasil (PB), com vistas a uma contribuição para o refinamento do TeP e da base de dados da WN.Br. O estudo é feito tendo como base as ocorrências dos 100 adjetivos mais frequentes no corpus Mac-Morpho, do projeto LacioWeb, que contém artigos jornalísticos de dez cadernos da Folha de São Paulo de 1994 e é composto de 1.167.183 ocorrências. Os adjetivos foram extraídos pelo concordanciador Unitex. Tomam-se por base na pesquisa três perguntas ( por que dois adjetivos com significados similares não têm o mesmo antônimo? , se a antonímia é tão importante, por que muitos adjetivos parecem não ter antônimos? e como é estabelecida a antonímia direta? ). Visa-se, assim, estabelecer uma rede semântica que possa relacionar a antonímia direta entre adjetivos e a antonímia indireta existente entre os sinônimos de cada adjetivo e seus antônimos, buscando implementá-las no TeP, refinando aí a representação da antonímia.
|
5 |
Classificação automática de gêneros musicais em bases de letras de músicas em diferentes idiomas utilizando métodos de combinação de classificadores / Music genre automatic classification in song lyrics database in different languages using ensembles classifiers methodsLima, Adriano Alves de 17 December 2015 (has links)
A classificação automática de gêneros musicais é uma tarefa importante na área de recuperação da informação musical. Para auxiliar esta tarefa diversos recursos linguísticos de processamento de linguagem natural vem sendo utilizado sem letras de músicas. Isto é importante considerando que a classificação baseada em áudio pode ser complementada com características das letras de músicas para auxiliar na melhoria dos resultados. Este trabalho busca realizar a análise de tais ferramentas de processamento de linguagem natural aplicadas as letras de músicas em diferentes idiomas para a classificação de gêneros musicais. Além disso, foram estudadas outras técnicas para melhorar os resultados da classificação, como por exemplo, combinação de características por meio de early fusion e late fusion. Para realizar os experimentos foram criadas três bases de dados com letras de músicas em diversos gêneros nos idiomas Latinos (Português e Espanhol), Nórdicos (Dinamarquês, Norueguês e Sueco) e Inglês. Os resultados obtidos demonstram que a combinação das abordagens por meio das técnicas de late fusion através do produto da probabilidade e da técnica de early fusion proporcionaram os melhores resultados na classificação de gêneros musicais utilizando letras de músicas em diferentes idiomas. / The automatic music genre classification is an important area in music information retrieval. For assist this task many languages resources of natural language processing has been used in song lyrics. This is important considering that the classification audio-based might be comple- mented with lyrics features to improve the results. This work analyzes such natural language processing tools employed to song lyrics in different languages for the music genre classi- fication. Furthermore, we studied other techniques to improve the classification results, for example, features combination by mean of early and late fusion methods. To run the experiments were created three lyrics database in various music genres into the Latin languages (Portuguese and Spanish), Nordic (Danish, Norwegian and Swedish) and En- glish. The results obtained shown that the combination approaches by mean of late fusion with product of the probability and early fusion outperformed the other approaches in music genre classification using song lyrics in different languages.
|
6 |
Uma abordagem computacional para construção de mapas conceituais a partir de textos em língua portuguesa do BrasilKowata, Juliana Hiroko 23 August 2010 (has links)
Made available in DSpace on 2016-12-23T14:33:42Z (GMT). No. of bitstreams: 1
Dissertacao de Juliana Hiroko Kowata.pdf: 2482172 bytes, checksum: b039513d3e17d539a352e9d485167202 (MD5)
Previous issue date: 2010-08-23 / A concept map is a schematic resource to represent and organize a set of meanings in a propositional structure. In a learning process, the practice of making and remaking concept maps might be considered as an effort to find out concepts and their meanings, giving rise to the knowledge in an explicit way. Computer aided programs can make the choice to use concept maps easier than before. Over the last few years, many basic functions in concept maps building, such as publishing and sharing, were facilitated by computer aided programs. An increasing interest in applying computational resources to automatically build concept maps from data sources by extracting concepts and linking words has emerged recently. In this thesis, we propose an approach focused on the recognition of concept maps core elements in texts and, in addition, we expose the results of the experiment conducted in the Brazilian Portuguese Language. / Um mapa conceitual é um recurso esquemático para representar e organizar um conjunto de significados em uma estrutura proposicional. No processo de aprendizagem, os atos de fazer e refazer mapas conceituais podem ser considerados como meios para identificar conceitos e seus significados, dando origem ao conhecimento de forma explícita. A aplicação de softwares para a construção de mapas conceituais estabeleceu um novo patamar na experiência de construção. Nesta década, houve um crescente interesse da comunidade acadêmica pela aplicação de recursos computacionais para a construção de mapas conceituais a partir de um conjunto de dados previamente definido, por meio da extração de conceitos e de relações. Esta dissertação propõe uma abordagem focada no reconhecimento de elementos para a construção de mapas conceituais a partir de textos, e adicionalmente, expõe os resultados de experimentos conduzidos com a Língua Portuguesa do Brasil.
|
Page generated in 0.1338 seconds