Spelling suggestions: "subject:"processamento dde linguagem batural"" "subject:"processamento dde linguagem datural""
151 |
[en] AN APPROACH TO ANSWERING NATURAL LANGUAGE QUESTIONS IN PORTUGUESE FROM ONTOLOGIES AND KNOWLEDGE BASES / [pt] UMA ABORDAGEM PARA RESPONDER PERGUNTAS EM LINGUAGEM NATURAL NA LÍNGUA PORTUGUESA A PARTIR DE ONTOLOGIAS E BASES DE CONHECIMENTOALYSSON GOMES DE SOUSA 29 April 2020 (has links)
[pt] Nos últimos anos temos visto o crescimento do volume de dados não
estruturados gerados naWeb tradicional, e por isso aWeb Semântica nasceu
como um paradigma que se propõe a estruturar o conteúdo da Web de
uma forma flexível, por meio de ontologias de domínio e o modelo RDF,
tornando os computadores capazes de processar automaticamente esses
dados e possibilitando a geração de mais informação e conhecimento. Mas
para tornar estas informações acessíveis para usuários de outros domínios,
é necessário que haja uma maneira mais conveniente de consultar estas
bases de conhecimento. A área de Processamento de Linguagem Natural
(PLN) forneceu ferramentas para permitir que a linguagem natural (falada
ou escrita) seja um meio conveniente para realizar consultas em bases
de conhecimento. Contudo, para que o uso da linguagem natural seja
realmente efetivo, é necessário um método que converta uma pergunta
ou pedido em linguagem natural em uma consulta estruturada. Tendo
em vista este objetivo, o presente trabalho propõe uma abordagem que
converte uma pergunta/pedido em Português em uma consulta estruturada
na linguagem SPARQL, por meio do uso de árvores de dependências e
ontologias estruturada em grafos, e que também permite o enriquecimento
dos resultados das perguntas/pedidos por meio da geração de perguntas
relacionadas. / [en] In recent years we have seen the growth of the volume of unstructured data generated in the traditional Web. Therefore the Semantic Web was born as a paradigm that proposes to structure the content of the Web flexibly through domain ontologies and the RDF model, making computers capable of automatically processing this data, enabling the generation of more information and knowledge. However, to make this information accessible to users in other domains, there needs to be a more convenient way of looking at these knowledge bases. The Natural Language Processing (NLP) area has provided tools to allow natural (spoken or writing) is a convenient way to perform queries in knowledge bases. However, for the use
of natural language to be useful, a method is required that converts a natural language question or request into a structured query. With this objective, the present work proposes an approach that converts a question/request in Portuguese into a structured query in the SPARQL language, through the use of dependency trees and structured ontologies in graphs, and that also enables the enrichment of question/request results by generating related questions.
|
152 |
Leis de Escala nos gastos com saneamento básico: dados do SIOP e DOU / Scaling Patterns in Basic Sanitation Expenditure: data from SIOP and DOURibeiro, Ludmila Deute 14 March 2019 (has links)
A partir do final do século 20, o governo federal criou vários programas visando a ampliação de acesso ao saneamento básico. Embora esses programas tenham trazido o abastecimento de água potável e a coleta de resíduos sólidos para a maioria dos municípios brasileiros, o esgotamento sanitário ainda está espacialmente concentrado na região Sudeste e nas áreas mais urbanizadas. Para explicar esse padrão espacialmente concentrado, é frequentemente assumido que o tamanho das cidades realmente importa para o saneamento básico, especialmente para o esgotamento sanitário. De fato, à medida que as cidades crescem em tamanho, devemos esperar economias de escala no volume de infraestrutura de saneamento. Economias de escala na infra-estrutura implicam uma redução nos custos de saneamento básico, de forma proporcional ao tamanho da cidade, levando também a uma (esperada) relação de lei de escala (ou de potência) entre os gastos com saneamento básico e o tamanho da cidade. Usando a população, N(t), como medida do tamanho da cidade no momento t, a lei de escala para infraestrutura assume o formato Y(t) = Y0N(t)β onde β ≈ 0.8 < 1, Y denota o volume de infraestrutura e Y0 é uma constante. Diversas propriedades das cidades, desde a produção de patentes e renda até a extensão da rede elétrica, são funções de lei de potência do tamanho da população com expoentes de escalamento, β, que se enquadram em classes distintas. As quantidades que refletem a criação de riqueza e a inovação têm β ≈ 1.2 > 1 (retornos crescentes), enquanto aquelas responsáveis pela infraestrutura exibem β ≈ 0.8 < 1 (economias de escala). Verificamos essa relação com base em dados extraídos do Sistema Integrado de Planejamento e Orçamento (SIOP), que abrangem transferências com recursos não onerosos, previstos na Lei Orçamentária Anual (LOA), na modalidade saneamento básico. No conjunto, os valores estimados de β mostram redução das transferências da União Federal para saneamento básico, de forma proporcional ao tamanho dos municípios beneficiários. Para a dotação inicial, valores programados na LOA, estimado foi de aproximadamente: 0.63 para municípios com população superior a dois mil habitantes; 0.92 para municípios acima de vinte mil habitantes; e 1.18 para municípios com mais de cinquenta mil habitantes. A segunda fonte de dados identificada foi o Diário Oficial da União (DOU), periódico do governo federal para publicação de atos oficiais. Os dados fornecidos pelo DOU referem-se aos recursos não onerosos e também aos empréstimos com recursos do Fundo de Garantia por Tempo de Serviço (FGTS). Para extração dos dados textuais foram utilizadas técnicas de Processamento de Linguagem Natural(PLN). Essas técnicas funcionam melhor quando os algoritmos são alimentados com anotações - metadados que fornecem informações adicionais sobre o texto. Por isso geramos uma base de dados, a partir de textos anotados do DOU, para treinar uma rede LSTM bidirecional aplicada à etiquetagem morfossintática e ao reconhecimento de entidades nomeadas. Os resultados preliminares obtidos dessa forma estão relatados no texto / Starting in the late 20th century, the Brazilian federal government created several programs to increase the access to water and sanitation. However, although these programs made improvements in water access, sanitation was generally overlooked. While water supply, and waste collection are available in the majority of the Brazilian municipalities, the sewage system is still spatially concentrated in the Southeast region and in the most urbanized areas. In order to explain this spatially concentrated pattern it is frequently assumed that the size of cities does really matter for sanitation services provision, specially for sewage collection. As a matter of fact, as cities grow in size, one should expect economies of scale in sanitation infrastructure volume. Economies of scale in sanitation infrastructure means a decrease in basic sanitation costs, proportional to the city size, leading also to a (expected) power law relationship between the expenditure on sanitation and city size.Using population, N(t), as the measure of city size at time t, power law scaling for infrastructure takes the form Y(t) = Y0N(t)β where β ≈ 0.8 < 1, Y denotes infrastructure volume and is a constant. Many diverse properties of cities from patent production and personal income to electrical cable length are shown to be power law functions of population size with scaling exponents, β, that fall into distinct universality classes. Quantities reflecting wealth creation and innovation have β ≈ 1.2 > 1 (increasing returns), whereas those accounting for infrastructure display β ≈ 0.8 < 1 (economies of scale). We verified this relationship using data from federal government databases, called Integrated Planning and Budgeting System, known as SIOP. SIOP data refers only to grants, funds given to municipalities by the federal government to run programs within defined guidelines. Preliminary results from SIOP show decrease in Federal Grants to Brazilian Municipalities, proportional to the city size. For the initial budget allocation, β was found to be roughly 0.63 for municipalities above twenty thousand inhabitants; to be roughly 0.92 for municipalities above twenty thousand inhabitants; and to be roughly 1.18 for municipalities above fifty thousand inhabitants. The second data source is DOU, government journal for publishing official acts. DOU data should give us information not only about grants, but also about FGTS funds for basic sanitation loans. In order to extract data from DOU we have applied Natural Language Processing (NLP) tools. These techniques often work better when the algorithms are provided with annotations metadata that provides additional information about the text. In particular, we fed a database with annotations into a bidirectional LSTM model applied to POS Tagging and Named-entity Recognition. Preliminary results are reported in the paper
|
153 |
Indução de filtros lingüisticamente motivados na recuperação de informação / Linguistically motivated filter induction in information retrievalArcoverde, João Marcelo Azevedo 17 April 2007 (has links)
Apesar dos processos de recuperação e filtragem de informação sempre terem usado técnicas básicas de Processamento de Linguagem Natural (PLN) no suporte à estruturação de documentos, ainda são poucas as indicações sobre os avanços relacionados à utilização de técnicas mais sofisticadas de PLN que justifiquem o custo de sua utilização nestes processos, em comparação com as abordagens tradicionais. Este trabalho investiga algumas evidências que fundamentam a hipótese de que a aplicação de métodos que utilizam conhecimento linguístico é viável, demarcando importantes contribuições para o aumento de sua eficiência em adição aos métodos estatásticos tradicionais. É proposto um modelo de representação de texto fundamentado em sintagmas nominais, cuja representatividade de seus descritores é calculada utilizando-se o conceito de evidência, apoiado em métodos estatísticos. Filtros induzidos a partir desse modelo são utilizados para classificar os documentos recuperados analisando-se a relevância implícita no perfil do usuário. O aumento da precisão (e, portanto, da eficácia) em sistemas de Recuperação de Informação, conseqüência da pós-filtragem seletiva de informações, demonstra uma clara evidência de como o uso de técnicas de PLN pode auxiliar a categorização de textos, abrindo reais possibilidades para o aprimoramento do modelo apresentado / Although Information Retrieval and Filtering tasks have always used basic Natural Language Processing (NLP) techniques for supporting document structuring, there is still space for more sophisticated NLP techniques which justify their cost when compared to the traditional approaches. This research aims to investigate some evidences that justify the hypothesis on which the use of linguistic-based methods is feasible and can bring on relevant contributions to this area. In this work noun phrases of a text are used as descriptors whose evidence is calculated by statistical methods. Filters are then induced to classify the retrieved documents by measuring their implicit relevance presupposed by an user profile. The increase of precision (efficacy) in IR systems as a consequence of the use of NLP techniques for text classification in the filtering task is an evidence of how this approach can be further explored
|
154 |
Estudo comparativo de diferentes classificadores baseados em aprendizagem de m?quina para o processo de Reconhecimento de Entidades NomeadasSantos, Jadson da Silva 09 September 2016 (has links)
Submitted by Jadson Francisco de Jesus SILVA (jadson@uefs.br) on 2018-01-24T22:42:26Z
No. of bitstreams: 1
JadsonDisst.pdf: 3499973 bytes, checksum: 5deaf9020f758e9c07f86e9e62890129 (MD5) / Made available in DSpace on 2018-01-24T22:42:26Z (GMT). No. of bitstreams: 1
JadsonDisst.pdf: 3499973 bytes, checksum: 5deaf9020f758e9c07f86e9e62890129 (MD5)
Previous issue date: 2016-09-09 / The Named Entity Recognition (NER) process is the task of identifying relevant termsintextsandassigningthemalabel.Suchwordscanreferencenamesofpeople, organizations, and places. The variety of techniques that can be used in the named entityrecognitionprocessislarge.Thetechniquescanbeclassifiedintothreedistinct approaches: rule-based, machine learning and hybrid. Concerning to the machine learningapproaches,severalfactorsmayinfluenceitsaccuracy,includingtheselected classifier, the set of features extracted from the terms, the characteristics of the textual bases, and the number of entity labels. In this work, we compared classifiers that use machine learning applied to the NER task. The comparative study includes classifiers based on CRF (Conditional Random Fields), MEMM (MaximumEntropy Markov Model) and HMM (Hidden Markov Model), which are compared in two corpora in Portuguese derived from WikiNer, and HAREM, and two corporas in English derived from CoNLL-03 and WikiNer. The comparison of the classifiers shows that the CRF is superior to the other classifiers, both with Portuguese and English texts. This study also includes the comparison of the individual and joint contribution of features, including contextual features, besides the comparison ofthe NER per named entity labels, between classifiers andcorpora. / O processo de Reconhecimento de Entidades Nomeadas (REN) ? a tarefa de iden- tificar termos relevantes em textos e atribu?-los um r?tulo. Tais palavras podem referenciar nomes de pessoas, organiza??es e locais. A variedade de t?cnicas que podem ser usadas no processo de reconhecimento de entidades nomeadas ? grande. As t?cnicas podem ser classificadas em tr?s abordagens distintas: baseadas em regras, baseadas em aprendizagem de m?quina e h?bridas. No que diz respeito as abordagens de aprendizagem de m?quina, diversos fatores podem influenciar sua exatida?, incluindo o classificador selecionado, o conjunto de features extra?das dos termos, as caracter?sticas das bases textuais e o n?mero de r?tulos de entidades. Neste trabalho, comparamos classificadores que utilizam aprendizagem de m?quina aplicadas a tarefa do REN. O estudo comparativo inclui classificadores baseados no CRF (Condicional Random Fields), MEMM (Maximum Entropy Markov Model) e HMM (Hidden Markov Model), os quais s?o comparados em dois corporas em portugu?s derivados do WikiNer, e HAREM, e dois corporas em ingl?s derivados doCoNLL-03 e WikiNer. A compara??o dos classificadores demonstra que o CRF ? superior aos demais classificadores, tanto com textos em portugu?s, quanto ingl?s. Este estudo tamb?m inclui a compara??o da contribui??o, individual e em conjunto de features, incluindo features de contexto, al?m da compara??o do REN por r?otulos de entidades nomeadas, entre os classificadores e os corpora.
|
155 |
Uma arquitetura de pré-processamento para análise de sentimento em mídias sociais em português brasileiro / A pre-processing architecture for feeling in social media in Brazilian PortugueseCIRQUEIRA, Douglas da Rocha 23 August 2018 (has links)
Submitted by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:22:50Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) / Approved for entry into archive by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:23:19Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) / Made available in DSpace on 2018-10-31T16:23:20Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5)
Previous issue date: 2018-08-23 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A Web 2.0 e a evolução nas Tecnologias da Informação e Comunicação, têm impulsionado novos meios de interação e relacionamento. Neste contexto, as Redes Sociais Online (RSO) são um exemplo, como plataformas que permitem a interação e o compartilhamento de informações entre pessoas. Além disso, é possível observar que RSO passaram a ser adotadas como canal de desabafo de consumidores, por meio de opiniões sobre produtos e experiências. Este cenário apresenta uma ótima oportunidade para que empresas possam melhorar produtos, serviços e estratégias de mercado, já que as RSO são poderosas fontes massivas de dados não-estruturados gerados pelo consumidor (do inglês, User- Generated Content - UGC), com opiniões e avaliações sobre ofertas em plataformas tais como Facebook, Twitter e Instagram. O Brasil é um grande exemplo onde esse fenômeno pode ser observado e apresenta potencial oportunidade de exploração de mercado, dado que a população brasileira é uma das nações que mais utiliza RSO no mundo. Neste âmbito, técnicas computacionais de Mineração de Opinião (MO) ou Análise de Sentimento (AS) são aplicadas com o intuito de inferir a polaridade dominante (positivo, negativo, neutro) quanto ao sentimento associado a textos, e, podem ser aplicadas em dados de RSO a fim de avaliar o feedback do público-alvo. Apesar das diversas estratégias de AS reportadas na literatura, ainda há vários desafios enfrentados na aplicação de AS em textos oriundos de RSO, devido às características da linguagem utilizada em tais plataformas. O estado da arte de AS é voltado para a língua inglesa e as propostas existentes para Português Brasileiro (PT_Br) não apresentam uma metodologia padronizada nas tarefas de pré-processamento. Neste âmbito, esta pesquisa investiga uma metodologia sem tradução e propõe uma nova arquitetura expandida de pré-processamento de AS voltada para o PT_Br, a fim de prover atributos enriquecidos para os algoritmos de AS. A proposta foi comparada com modelos bem estabelecidos na literatura, e resultados obtidos indicam que esta pode superar o estado da arte em até 3% de revocação, para 6 de 7 bases de dados avaliadas. / The Web 2.0 and the evolution of Information Technologies have brought novel interaction and relationship channels. In this context, the Online Social Networks (OSN) are an example as platforms which allow interactions and sharing of information between people. In this scenario, it is possible to observe the adoption of OSN as a channel for posting opinions regarding products and experience. This scene presents an excellent opportunity for companies that aim to improve products, services and marketing strategies, given OSNs are powerful sources of massive unstructured data generated by consumers (UGC), with opinions and reviews concerning offers, in platforms such as Facebook, Twitter and Instagram. Brazil is a highlight in this scenario, where this phenomenon can be observed, as the Brazilian population is one of the most active in social media platforms in the world. This makes it a country full of opportunities to market exploitation. In this context, computational techniques of Opinion Mining and Sentiment Analysis (SA) are applied aiming to infer the polarity (positive, negative, neutral) regarding a sentiment associated to texts, and can also be applied in data from OSN to evaluate the feedback from a target audience. Although the existing diversity of SA strategies reported in the literature, there are still challenges faced in the application of SA in text data from OSN, given the characteristics of the language adopted in such platforms. The state of art is focused on SA towards the English language, and the existing proposals for Brazilian Portuguese do not have a standardized methodology for preprocessing steps. In this context, this research investigates an approach with no translation, and proposes a novel preprocessing architecture for SA towards Brazilian Portuguese, aiming to provide enriched features to SA algorithms. The proposal was compared with well-established baselines from the literature, and the obtained results indicate that this architecture can overcome the state of art recall in at least 3% , for 6 out of 7 datasets evaluated.
|
156 |
Modelo baseado em processamento de dados heterogêneos para aplicações de apoio clínicoRönnau, Rodrigo Freiberger 06 December 2017 (has links)
Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2018-02-08T12:32:48Z
No. of bitstreams: 1
Rodrigo Freiberger Rönnau_.pdf: 4107183 bytes, checksum: a19ee8d2e8f8964708c6b3baf34e7ad2 (MD5) / Made available in DSpace on 2018-02-08T12:32:48Z (GMT). No. of bitstreams: 1
Rodrigo Freiberger Rönnau_.pdf: 4107183 bytes, checksum: a19ee8d2e8f8964708c6b3baf34e7ad2 (MD5)
Previous issue date: 2017-12-06 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O uso de sistemas computacionais no auxílio à prática clínica vem sendo amplamente estudado atualmente, buscando a avaliação de suas possibilidades na melhoria da qualidade do atendimento prestado aos pacientes. Dentre as aplicações com essa finalidade, podem-se destacar aquelas que atuam sobre laudos médicos ou sobre os exames por imagem, em atividades que realizam a extração, disponibilização e uso de características adquiridas através do processamento desses documentos. Entretanto, ao observar a literatura da área, percebe-se que há uma lacuna na utilização combinada das informações obtidas em cada tipo de processamento, ao mesmo tempo em que são indicadas possibilidades relevantes de criação de aplicações compartilhando e integrando estas informações. Outra lacuna identificada está relacionada à interoperabilidade dos dados e dos resultados obtidos entre os diferentes sistemas já existentes. Com o intuito de contribuir para a solução das questões apresentadas, neste trabalho é proposto um modelo, com estrutura modular e expansível, que viabiliza o emprego de diferentes formatos de entrada com o objetivo de prover, de forma integrada, informações de apoio ao médico ou especialista. Os dados extraídos são disponibilizados de maneira estruturada através de padrões reconhecidos, viabilizando a interoperabilidade entre os sistemas e o seu uso a partir de diferentes aplicações computacionais. Foram construídos dois protótipos, utilizando como base o modelo proposto. Para apresentar o funcionamento e os benefícios de uso do modelo, bem como possibilitar a sua avaliação, foram descritos cenários que demonstram seu emprego. Tanto o modelo como os protótipos foram apresentados a 12 profissionais da saúde e a 35 profissionais da computação. Os participantes preencheram um questionário de avaliação. Como resultado, 97,8% dos entrevistados indicaram que o modelo proposto é útil e 76,6% pretendem utilizá-lo e/ou divulgá-lo. / The use of computer systems to aid in the clinical practice has been widely studied, seeking an evaluation of its possibilities in improving the quality of the care provided to patients. Among the applications for this purpose, it is possible to highlight those that act on medical reports or medical images, in activities that perform the extraction, storage and use of characteristics acquired through the processing of these documents. However, observing the literature of the area, it is noticed that there is a gap in the combined use of information obtained in each type of processing, while indicating, at the same time, relevant possibilities of applications sharing and integrating this information. Another identified gap is related to the interoperability of the data and results obtained between different existing systems. In order to contribute to the solution of the presented questions, this work proposes a model, with a modular and expandable structure, which makes possible the use of different input formats with the objective of providing, in an integrated way, support information to the physician or specialist. The extracted data are made available in a structured manner through recognized standards, allowing the interoperability between the systems and their use from different computational applications. Two prototypes were constructed, using as basis the proposed model. Scenarios that demonstrate the use and benefits of the model have been described and used in its evaluation. Both the model and the prototypes were presented to 12 health professionals and 35 computer professionals. Participants completed an evaluation questionnaire. As result, 97.8% of respondents indicated that the proposed model is useful and 76.6% intend to use it and/or disseminate it.
|
157 |
Modelo de reconhecimento de vinculação textual baseado em regras linguísticas e informações morfossintáticas voltado para ambientes virtuais de ensino e aprendizagemFlores, Evandro Metz January 2014 (has links)
Submitted by Fabricia Fialho Reginato (fabriciar) on 2015-07-01T23:00:34Z
No. of bitstreams: 1
EvandroFlores.pdf: 1289007 bytes, checksum: 44450c63dc59c23ca86b3e4fdbdcea30 (MD5) / Made available in DSpace on 2015-07-01T23:00:34Z (GMT). No. of bitstreams: 1
EvandroFlores.pdf: 1289007 bytes, checksum: 44450c63dc59c23ca86b3e4fdbdcea30 (MD5)
Previous issue date: 2014 / CNPQ – Conselho Nacional de Desenvolvimento Científico e Tecnológico / GVDASA / A rápida evolução das tecnologias de informação e comunicação tem possibilitado o desenvolvimento de modalidades de ensino e educação, tais como a Educação a Distância, capazes de alcançar pessoas anteriormente impossibilitadas de frequentar o ensino superior. Um aspecto importante destas modalidades é o amplo uso de recursos de mediação digital, sendo que estes podem gerar um grande volume de dados o qual, por vezes, não é viável para utilização proveitosa de forma manual pelos professores envolvidos nesta interação. Este contexto gera a necessidade e oportunidade de definição de ferramentas que possam atuar para automatizar parte deste trabalho. Uma destas possibilidades é a verificação de correção de respostas textuais, onde o objetivo é identificar vinculações entre amostras textuais que podem ser, por exemplo, diferentes respostas textuais a uma pergunta. Embora sejam utilizadas com bons resultados, as técnicas atualmente aplicadas a este problema apresentam deficiências ou características que diminuem sua precisão ou adequação em diversos contextos. Poucos trabalhos são capazes de realizar a vinculação textual caso seja alterada a flexão verbal, outros não são capazes de identificar informações importantes ou em que posição na frase as informações se encontram. Além disso, poucos trabalhos são adaptados para a língua portuguesa. Este trabalho propõe um modelo de reconhecimento de vinculação textual baseado em regras linguísticas e informações morfossintáticas voltado para ambientes virtuais de ensino e aprendizagem, que busca contornar estes problemas apresentando uma nova abordagem através do uso combinado da análise sintática, morfológica, regras linguísticas, detecção da flexão de voz, tratamento de negação e do uso de sinônimos. O trabalho também apresenta um protótipo desenvolvido para avaliar o modelo proposto. Ao final são apresentados os resultados obtidos, que até o momento são promissores, permitindo a identificação da vinculação textual de diferentes amostras textuais com precisão e flexibilidade relevantes. / The fast evolution of information and communication technologies has enabled the development of modalities of teaching and learning, such as distance education, that allow to reach people previously unable to attend higher education. An important aspect of these modalities is the extensive use of digital mediation resources. These resources can generate a large volume of data that sometimes is not feasible for beneficial manual use by the teachers involved in this interaction. In this context there is a necessity and opportunity for defining tools and approaches that can act to automate part of this work. One of these possibilities is the verification of textual responses correctness, where the goal is to identify linkages between textual samples, which can be, for example, different textual answer to a question. Although presenting good results, techniques currently applied to this problem have deficiencies or characteristics that decrease their accuracy or suitability in several contexts. Few studies are able to perform textual entailment in case the verbal inflection was changed; others are not able to identify important information or position in the sentence where the information is found. Moreover, few works are adapted to Portuguese. This work proposes a model to recognition of textual entailment based on linguistic rules, which seeks to overcome these problems by presenting a new approach through the combined use of syntactic analysis, morphology, linguistic rules, detection of the bending voice, treatment of denial and the use of synonyms. This work also presents a prototype developed to evaluate the model proposed herein. The end results, which are promising, allow the identification of textual linking of different textual samples accurately and with flexibility.
|
158 |
Reconhecimento de entidades nomeadas e rela??es no dom?nio de privacidade e responsabiliza??oBruckschen, M?rian 20 December 2010 (has links)
Made available in DSpace on 2015-04-14T14:49:38Z (GMT). No. of bitstreams: 1
434166.pdf: 1758256 bytes, checksum: cc66addbe46b0c23f53ed7ab0e0c41a8 (MD5)
Previous issue date: 2010-12-20 / O gerenciamento de grandes volumes de informa??o ? uma ?rea de crescente interesse e pesquisa, tanto na academia quanto na ind?stria. Diferentes mecanismos j? foram propostos com o objetivo de facilitar a cria??o, gerenciamento e manuten??o de bases de conhecimento, e recentemente ontologias t?m despontado como um forte candidato para tal fun??o. Ontologias s?o o principal mecanismo para representa??o do conhecimento em contextos tecnol?gicos atuais como o da Web Sem?ntica. Entretanto, a constru??o manual destas ontologias ? custosa, dado o montante de informa??o a ser processada para a execu??o desta tarefa. Com esta motiva??o, este trabalho prop?e que a confec??o de ontologias, mais especificamente a sua popula??o, pode ser automatizada pela tarefa de Reconhecimento de Entidades Nomeadas (REN). O trabalho compreende diferentes tarefas da ?rea de Processamento de Linguagem Natural: Reconhecimento de Entidades Nomeadas, Reconhecimento de Rela??es e Aprendizado de Ontologias. Para a execu??o da tarefa de popula??o de ontologias, foi constru?da manualmente uma ontologia do dom?nio de privacidade e posteriormente desenvolvido um m?todo para executar a sua popula??o atrav?s da tarefa de REN. Este m?todo compreende a popula??o da ontologia com inst?ncias e rela??es. Para validar este m?todo, foi desenvolvido um sistema que o implementa. Este sistema foi testado sobre um corpus montado pela autora deste trabalho. Este corpus ? composto por documentos da ?rea de privacidade e responsabiliza??o, e da legisla??o associada a este tema. S?o apresentados neste trabalho o m?todo, o sistema desenvolvido, as avalia??es a que este trabalho foi submetido e suas conclus?es
|
159 |
Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do BrasilDOMINGUES, Miriam Lúcia Campos Serra 21 October 2011 (has links)
Submitted by Samira Prince (prince@ufpa.br) on 2012-06-01T13:27:50Z
No. of bitstreams: 2
Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-01T13:28:30Z (GMT) No. of bitstreams: 2
Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-01T13:28:30Z (GMT). No. of bitstreams: 2
Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2011 / A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável. / Part-of-speech tagging is a basic task required by many applications of natural language processing, such as parsing and machine translation, and by applications of speech processing, for example, speech synthesis. This task consists of tagging words in a sentence with their grammatical categories. Although these applications require taggers with greater precision, the state of the art taggers still achieved accuracy of 96 to 97%. In this thesis, corpus and software resources are investigated for the development of a tagger with accuracy above of that of the state of the art for the Brazilian Portuguese language. Based on a hybrid solution that combines probabilistic tagging with rule-based tagging, the proposed thesis focuses on an exploratory study on the tagging method, size, quality, tag set, and the textual genre of the corpora available for training and testing, and evaluates the disambiguation of new or out-of-vocabulary words found in texts to be tagged. Four corpora were used in experiments: CETENFolha, Bosque CF 7.4, Mac-Morpho, and Selva Científica. The proposed tagging model was based on the use of the method of transformation-based learning (TBL) to which were added three strategies combined in a architecture that integrates the outputs (tagged texts) of two free tools, Treetagger and -TBL, with the modules that were added to the model. In the tagger model trained with Mac-Morpho corpus of journalistic genre, tagging accuracy rates of 98.05% on Mac-Morpho test set and 98.27% on Bosque CF 7.4 were achieved, both of journalistic genres. The performance of the proposed hybrid model tagger was also evaluated in the texts of Selva Científica Corpus, of the scientific genre. Needs of adjustments in the tagger and in corpora were identified and, as result, accuracy rates of 98.07% in Selva Científica, 98.06% in the text set of Mac-Morpho, and 98.30% in the texts of the Bosque CF 7.4 have been achieved. These results are significant because the accuracy rates achieved are higher than those of the state of the art, thus validating the proposed model to obtain a more reliable part-of-speech tagger.
|
160 |
Uma solução efetiva para aprendizagem de relacionamentos não taxonômicos de ontologias / An effective solution for learning non taxonomic relationships of ontologiesSERRA, Ivo José da Cunha Serra 28 March 2014 (has links)
Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-08-15T20:12:06Z
No. of bitstreams: 1
IvoJoseCunha.pdf: 14173001 bytes, checksum: 931d704f4e5fdefacca2b8ab283f31c4 (MD5) / Made available in DSpace on 2017-08-15T20:12:06Z (GMT). No. of bitstreams: 1
IvoJoseCunha.pdf: 14173001 bytes, checksum: 931d704f4e5fdefacca2b8ab283f31c4 (MD5)
Previous issue date: 2014-03-28 / Learngin Non-Taxonomic Relationship is a sub-field of ontology learning and is an approach to automate the extraction of these relationships from textual information sources. Techniques for learning non-taxonomic relationships just like others in the area of Ontology Learning are subject to a great amount of noise since the source of information from which the relationships are extract is unstructured. Therefore, customizable solutions are needed for theses techniques to be applicable to the wideste variety of situations. This Thesis presents TARNT, a Techinique for Learning for Non-Taxonomic Relationship of ontologies from texts in English that employs techniques from Natural Language Processing and statistics to structure text and to select relationship that should be recommended. The control over the execution of its extraction rules and consequently on the recall and precision in the phase "Extraction of candidate relationships", the "apostrophe rule", which gives particular treatment to extractions that have greater probability to be valid ones and "Bag of labels", a refinement technique that has the potential to achieve greater effectiveness than those that operate on relationships consisting of a pair of concepts and a label, are among its positive aspects. Experimental evaluations of TARNT were performed according to two procedures based on the principle of comparing the learned relationship consisting of a pair of concepts and a label, are among its positive aspects. Experimental evaluations of TARNT were performed according to two procedures based on the principle of comparing the learned relationships with reference ones. These experiments consisted in measuring with recall and precision, the effectiveness of the technique in learning non-taxonomic relationships from two corpora in the domains of biology and family law. The results were compared to thet of another approach that uses and algorithm for the extraction of association rules in the Refinement phase. This Thesis also demonstrate the hypothesis that solutions to the Refinement phase that use relationships composed of two ontology concepts and a label are less effective than those that refine relationships composed of only two concepts, since they tend to have lower values for the evaluation measures when considering the same corpus and reference ontology. The demonstration was conducted by a theoretical exposition that consisted of the generalization of the observations made on the results obtained by two techniques that refine relationships of the two types considered. / A Aprendizagem de Relacionamentos Não-Taxonômicos é um sub-campo da Aprendizagem de ontologia e constitui uma abordagem para automatizar a extração desses relacionamentos a partir de fontes de informações textuais. As técnicas de aprendizagem de relacionamentos não taxonômicos, da mesma forma que outras na área de Aprendizagem de Ontologias estão sujeitas a uma grande quantidade de ruído uma vez que a fonte de informação da qual extraem os relacionamentos ser desestruturada. Portanto, soluções customizáveis são necessárias para que essas técnicas sejam aplicáveis a maior variedade possível de situações. O presente trabalho apresentou TARNT, uma Técnica para a Aprendizagem de Relacionamentos Não-Taxonômicos de ontologias a partir de textos na língua inglesa que emprega técnicas de Processamento de Linguagem Natural e estatísticas para etiquetar o texto e selecionar os relacionamentos a serem recomendados. o controle sobre execução de suas regras de extração e consequentemente sobre o recall e precisão na fase "Extração de relacionamentos candidatos"; a "regra de apóstrofo", que confere tratamento particular às extrações que tem maior probabilidade de serem relacionamentos válidos e Bag of labels, solução para a fase de "Refinamento" que apresenta o potencial de obter maior efetividade que as que operam sore relacionamentos compostos por um par de conceitos e um rótulo, estão entre seus aspectos positivos. Avaliações experimentais de TARNT foram realizadas conforme dois procedimentos baseados no princípio de comparação dos relacionamentos aprendidos com os de referência. Esses experimentos consistiram em mensurar com as medidas de avaliação recall e precisão, a efetividade da técnica na aprendizagem de relacionamentos não-taxonômicos a partir de dois corpora nos domínio da biologia e o direito da família. Os resultados obtidos foram ainda comparados aos de outra abordagem que utiliza o algoritmo de extração de regras de associação na fase de "Refinamento". Esse trabalho demostrou ainda a hipótese de pesquisa de que: soluções para a fase de "Refinamento" que utilizam relacionamentos compostos por dois conceitos de uma ontologia e um rótulo são menos efetivas que as que refinam relacionamentos compostos apenas pro dois conceitos, uma vez que esses tendem a apresentar menores valores para as medidas de avaliação quando considerados os mesmos corpus e ontologia de referência. A demonstração foi realizada por meio de uma exposição teórica que consistiu na generalização das observações realizadas sobre os resultados obtidos por duas técnicas que refinam relacionamentos dos dois tipos considerados.
|
Page generated in 0.1427 seconds