Spelling suggestions: "subject:"linguística computacional"" "subject:"linguística omputacional""
21 |
Uso de representação de conhecimento para documentação em metodologias ágeisSilva, Fernando Selleri January 2009 (has links)
Made available in DSpace on 2013-08-07T18:43:36Z (GMT). No. of bitstreams: 1
000419239-Texto+Completo-0.pdf: 4875109 bytes, checksum: 549546b92250defffa0a3ea08ee10e0d (MD5)
Previous issue date: 2009 / This work aims the understanding of issues involved in the use of knowledge representation in agile methodologies of software development. Agile methodologies include an approach focused on the immediate availability of software to the customer, being used mainly in systems where requirements change frequently. The goal is to integrate a knowledge representation formalism to an agile methodology, enabling knowledge capture and reducing efforts in information systems development. In this context, it is presented a proposal for knowledge representation, using ontologies, which promotes the association of artifacts produced to the system domain concepts and to the types of knowledge expressed by these artifacts. A prototype tool was developed to help developers in establishing the association between the concepts in the ontology and the artifacts produced. The proposal is evaluated by an experiment conducted to compare the effort in definition of associations and the precision in recovery artifacts in an approach with knowledge representation and without knowledge representation. / Este trabalho aponta para a compreensão dos aspectos envolvidos no emprego de representação de conhecimento em metodologias ágeis de desenvolvimento de software. As metodologias ágeis compreendem uma abordagem centrada na disponibilidade imediata do software ao cliente, sendo utilizadas principalmente em sistemas nos quais os requisitos mudam frequentemente. O objetivo deste trabalho é integrar um formalismo de representação de conhecimento a uma metodologia ágil, permitindo capturar o conhecimento e reduzir esforços no desenvolvimento de sistemas informatizados. Neste contexto, é apresentada uma proposta de representação de conhecimento, por meio de ontologias, que promove a associação dos artefatos produzidos aos conceitos do domínio do sistema e aos tipos de conhecimento expressados por esses artefatos. Um protótipo de ferramenta foi desenvolvido para auxiliar os desenvolvedores na realização das associações. A proposta é avaliada por meio de um experimento realizado para comparar o esforço na definição das associações e a precisão na recuperação dos artefatos com e sem a representação de conhecimento.
|
22 |
Integração de ferramentas para compilação e exploração de corporaSilveira, Filipe Pereira da January 2008 (has links)
Made available in DSpace on 2013-08-07T18:43:21Z (GMT). No. of bitstreams: 1
000414886-Texto+Completo-0.pdf: 1368148 bytes, checksum: 096cd52430fb611a7d24242f6cc7ff92 (MD5)
Previous issue date: 2008 / In this work we present a brief study on the taxonomy and availability of text corpora in order to introduce questions concerning corpus design and corpus compiling. We present corpus exploring functionalities and we bring comments on available tools and resources to work with corpora. Selecting the suitable tools for corpora compiling and analysis is still a challenge to researchers in the field. Many of the available tools are commercially distributed, depend on specific platforms, restrict file format usage or create their own standards for corpus codification and annotation, what makes it more difficult to interoperate and to share linguistic resources among research groups. In this context we present and detail ENTRELINHAS, the corpus linguistics tool we built and we make available to Portuguese language researchers in this field. ENTRELINHAS eases corpus compiling and makes basic resources for Portuguese language corpora exploring available. The tool adheres to an encoding standard that keeps it compatible with NILC/USP's Portal de Córpus. A discussion on the report of the use of ENTRELINHAS is also presented. / Este trabalho realiza um estudo da tipologia e disponibilidade de corpora. São discutidas questões referentes ao projeto de um corpus no que se refere a sua compilação. São apresentadas funcionalidades para exploração de corpora e analisadas ferramentas e recursos disponíveis para trabalhar com corpus. A seleção de ferramentas adequadas para compilação e exploração de corpora de textos em língua natural representa hoje um desafio aos pesquisadores da área. Muitas das ferramentas disponíveis dependem de licenças e plataformas específicas para serem executadas, limitam o uso de vários formatos de documento ou criam padrões próprios de codificação de corpus e de anotações, dificultando a criação, a interoperabilidade e o compartilhamento de recursos lingüísticos entre grupos de pesquisas. Nesse sentido é apresentada e descrita uma ferramenta para a lingüística de corpus que construímos e oferecemos à comunidade de pesquisadores em língua portuguesa – a ferramenta ENTRELINHAS. Esta ferramenta facilita a compilação e agrega funcionalidades essenciais para exploração de corpora. A ferramenta adere a um formato de codificação compatível com o Portal de Córpus do NILC/USP contribuindo com o intercâmbio de recursos para o processamento da língua portuguesa. Uma análise quanto ao uso dessa ferramenta também é apresentada.
|
23 |
COMFALA : modelo computacional do processo de compreensão da falaMuller, Daniel Nehme January 2006 (has links)
Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala.
|
24 |
Estudo e implementação da programação genética para síntese de falaFranzen, Evandro January 2002 (has links)
Este trabalho descreve a aplicação da Programação Genética, uma técnica de Computação Evolucionária, ao problema da Síntese de Fala automática. A Programação Genética utiliza as técnicas da evolução humana para descobrir programas bem adaptados a um problema específico. Estes programas, compostos de instruções, variáveis, constantes e outros elementos que compõe uma linguagem de programação, são evoluídos ao longo de um conjunto de gerações. A Síntese de Fala, consiste na geração automática das formas de ondas sonoras a partir de um texto escrito. Uma das atividades mais importantes, é realizada através da conversão de palavras e letras para os sons da fala elementares (fonemas). Muitos sistemas de síntese são implementados através de regras fixas, escritas por programadores humanos. Um dos mais conhecidos sistemas de síntese é o FESTIVAL, desenvolvido pela Universidade de Edimburgh, usando a linguagem de programação funcional LISP e um número fixo de regras. Neste trabalho, nós exploramos a possibilidade da aplicação do paradigma da Programação Genética, para evoluir automaticamente regras que serão adotadas para implementação do idioma Português na ferramenta FESTIVAL, desenvolvido no projeto SPOLTECH (CNPq – NSF cooperação entre UFRGS e Universidade do Colorado). A modelagem do problema, consiste na definição das regras de pronúncia do Português Brasileiro, que a implementação do sistema FESTIVAL pronuncia erradamente, já que o mesmo foi implementado primariamente para o idioma Inglês. A partir destas regras, o sistema de Programação Genética, desenvolvido neste trabalho, evolui programas que constituem boas soluções para a conversão de letras para fonemas. A descrição dos resultados obtidos, cobre detalhes sobre a evolução das soluções, complexidade e regras implementadas, representadas pelas soluções mais bem adaptadas; mostrando que a Programação Genética, apesar de ser complexa, é bastante promissora.
|
25 |
Distributional models of multiword expression compositionality prediction / Modelos distribucionais para a predição de composicionalidade de expressões multipalavrasCordeiro, Silvio Ricardo January 2018 (has links)
Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte. / Natural language processing systems often rely on the idea that language is compositional, that is, the meaning of a linguistic entity can be inferred from the meaning of its parts. This expectation fails in the case of multiword expressions (MWEs). For example, a person who is a sitting duck is neither a duck nor necessarily sitting. Modern computational techniques for inferring word meaning based on the distribution of words in the text have been quite successful at multiple tasks, especially since the rise of word embedding approaches. However, the representation of MWEs still remains an open problem in the field. In particular, it is unclear how one could predict from corpora whether a given MWE should be treated as an indivisible unit (e.g. nut case) or as some combination of the meaning of its parts (e.g. engine room). This thesis proposes a framework of MWE compositionality prediction based on representations of distributional semantics, which we instantiate under a variety of parameters. We present a thorough evaluation of the impact of these parameters on three new datasets of MWE compositionality, encompassing English, French and Portuguese MWEs. Finally, we present an extrinsic evaluation of the predicted levels of MWE compositionality on the task of MWE identification. Our results suggest that the proper choice of distributional model and corpus parameters can produce compositionality predictions that are comparable to the state of the art.
|
26 |
Estudo e implementação da programação genética para síntese de falaFranzen, Evandro January 2002 (has links)
Este trabalho descreve a aplicação da Programação Genética, uma técnica de Computação Evolucionária, ao problema da Síntese de Fala automática. A Programação Genética utiliza as técnicas da evolução humana para descobrir programas bem adaptados a um problema específico. Estes programas, compostos de instruções, variáveis, constantes e outros elementos que compõe uma linguagem de programação, são evoluídos ao longo de um conjunto de gerações. A Síntese de Fala, consiste na geração automática das formas de ondas sonoras a partir de um texto escrito. Uma das atividades mais importantes, é realizada através da conversão de palavras e letras para os sons da fala elementares (fonemas). Muitos sistemas de síntese são implementados através de regras fixas, escritas por programadores humanos. Um dos mais conhecidos sistemas de síntese é o FESTIVAL, desenvolvido pela Universidade de Edimburgh, usando a linguagem de programação funcional LISP e um número fixo de regras. Neste trabalho, nós exploramos a possibilidade da aplicação do paradigma da Programação Genética, para evoluir automaticamente regras que serão adotadas para implementação do idioma Português na ferramenta FESTIVAL, desenvolvido no projeto SPOLTECH (CNPq – NSF cooperação entre UFRGS e Universidade do Colorado). A modelagem do problema, consiste na definição das regras de pronúncia do Português Brasileiro, que a implementação do sistema FESTIVAL pronuncia erradamente, já que o mesmo foi implementado primariamente para o idioma Inglês. A partir destas regras, o sistema de Programação Genética, desenvolvido neste trabalho, evolui programas que constituem boas soluções para a conversão de letras para fonemas. A descrição dos resultados obtidos, cobre detalhes sobre a evolução das soluções, complexidade e regras implementadas, representadas pelas soluções mais bem adaptadas; mostrando que a Programação Genética, apesar de ser complexa, é bastante promissora.
|
27 |
COMFALA : modelo computacional do processo de compreensão da falaMuller, Daniel Nehme January 2006 (has links)
Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala.
|
28 |
Resolução de correferências em língua portuguesa: pessoa, local e organizaçãoFonseca, Evandro Brasil January 2014 (has links)
Made available in DSpace on 2014-06-25T02:02:05Z (GMT). No. of bitstreams: 1
000458767-Texto+Completo-0.pdf: 3173862 bytes, checksum: 0f4ea1ec0b9741e176522697d0d4dd1d (MD5)
Previous issue date: 2014 / Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains.These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest. Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability. The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains. Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art. / Resolução de correferências é um processo que consiste em identificar as diversas formas que uma mesma entidade nomeada pode assumir em um determinado texto. Em outras palavras, esse processo consiste em identificar determinados termos e expressões que remetem a uma mesma entidade. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural (PLN), pois vários sistemas necessitam dessa tarefa, como, por exemplo, a extração de relação entre entidades nomeadas. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. A necessidade crescente por ferramentas de PLN e a escassez de recursos livres para a língua portuguesa motivaram trabalhar com essa língua nesta dissertação de mestrado. O presente trabalho teve por objetivo desenvolver uma ferramenta open source para a resolução de correferências em língua portuguesa, tendo como foco as categorias de entidades nomeadas Pessoa, Local e Organização.Optou-se por essas três categorias por essas serem as mais relevantes para a maioria das tarefas de PLN, pelo fato de tratarem entidades mais específicas e de interesse comum. Além disso, são as categorias mais exploradas em trabalhos voltados à resolução de correferência. Escolheu-se trabalhar apenas com recursos open source pelo fato de a maioria dos trabalhos para a língua portuguesa utilizar recursos proprietários. Isso acaba limitando a disponibilidade da ferramenta e, consequentemente, o seu uso. A metodologia utilizada é baseada em aprendizado de máquina supervisionado. Para tal, o uso de features que auxiliem na correta classificação de pares de sintagmas como correferentes ou não-correferentes é fundamental para,posteriormente,agrupá-los, gerando cadeias de correferência. Embora ainda existam muitos desafios a serem resolvidos, os resultados do sistema descrito nesta dissertação são animadores, quando comparados indiretamente, por meio de uma mesma métrica, ao atual estado da arte.
|
29 |
Distributional models of multiword expression compositionality prediction / Modelos distribucionais para a predição de composicionalidade de expressões multipalavrasCordeiro, Silvio Ricardo January 2018 (has links)
Sistemas de processamento de linguagem natural baseiam-se com frequência na hipótese de que a linguagem humana é composicional, ou seja, que o significado de uma entidade linguística pode ser inferido a partir do significado de suas partes. Essa expectativa falha no caso de expressões multipalavras (EMPs). Por exemplo, uma pessoa caracterizada como pão-duro não é literalmente um pão, e também não tem uma consistência molecular mais dura que a de outras pessoas. Técnicas computacionais modernas para inferir o significado das palavras com base na sua distribuição no texto vêm obtendo um considerável sucesso em múltiplas tarefas, especialmente após o surgimento de abordagens de word embeddings. No entanto, a representação de EMPs continua a ser um problema em aberto na área. Em particular, não existe um método consolidado que prediga, com base em corpora, se uma determinada EMP deveria ser tratada como unidade indivisível (por exemplo olho gordo) ou como alguma combinação do significado de suas partes (por exemplo tartaruga marinha). Esta tese propõe um modelo de predição de composicionalidade de EMPs com base em representações de semântica distribucional, que são instanciadas no contexto de uma variedade de parâmetros. Também é apresentada uma avaliação minuciosa do impacto desses parâmetros em três novos conjuntos de dados que modelam a composicionalidade de EMP, abrangendo EMPs em inglês, francês e português. Por fim, é apresentada uma avaliação extrínseca dos níveis previstos de composicionalidade de EMPs, através da tarefa de identificação de EMPs. Os resultados obtidos sugerem que a escolha adequada do modelo distribucional e de parâmetros de corpus pode produzir predições de composicionalidade que são comparáveis às observadas no estado da arte. / Natural language processing systems often rely on the idea that language is compositional, that is, the meaning of a linguistic entity can be inferred from the meaning of its parts. This expectation fails in the case of multiword expressions (MWEs). For example, a person who is a sitting duck is neither a duck nor necessarily sitting. Modern computational techniques for inferring word meaning based on the distribution of words in the text have been quite successful at multiple tasks, especially since the rise of word embedding approaches. However, the representation of MWEs still remains an open problem in the field. In particular, it is unclear how one could predict from corpora whether a given MWE should be treated as an indivisible unit (e.g. nut case) or as some combination of the meaning of its parts (e.g. engine room). This thesis proposes a framework of MWE compositionality prediction based on representations of distributional semantics, which we instantiate under a variety of parameters. We present a thorough evaluation of the impact of these parameters on three new datasets of MWE compositionality, encompassing English, French and Portuguese MWEs. Finally, we present an extrinsic evaluation of the predicted levels of MWE compositionality on the task of MWE identification. Our results suggest that the proper choice of distributional model and corpus parameters can produce compositionality predictions that are comparable to the state of the art.
|
30 |
COMFALA : modelo computacional do processo de compreensão da falaMuller, Daniel Nehme January 2006 (has links)
Esta Tese apresenta a investigação de técnicas computacionais que permitam a simulação computacional da compreensão de frases faladas. Esta investigação é baseada em estudos neurocognitivos que descrevem o processamento do cérebro ao interpretar a audição de frases. A partir destes estudos, realiza-se a proposição do COMFALA, um modelo computacional para representação do processo de compreensão da fala. O COMFALA possui quatro módulos, correspondentes às fases do processamento cerebral: processamento do sinal de fala, análise sintática, análise semântica e avaliação das respostas das análises. Para validação do modelo são propostas implementações para cada módulo do COMFALA. A codificação do sinal se dá através das transformadas ondeletas (wavelets transforms), as quais permitem uma representação automática de padrões para sistemas conexionistas (redes neurais artificiais) responsáveis pela análise sintática e semântica da linguagem. Para a análise sintática foi adaptado um sistema conexionista de linguagem escrita. Por outro lado, o sistema conexionista de análise semântica realiza agrupamentos por características prosódicas e fonéticas do sinal. Ao final do processo, compara-se a saída sintática com a semântica, na busca de uma melhor interpretação da fala.
|
Page generated in 0.1111 seconds