Spelling suggestions: "subject:"computação semântica"" "subject:"omputação semântica""
1 |
Semantic enrichment of American English corpora through automatic semantic annotation based on top-level ontologies using the CRF clas- sification model / Enriquecimento semântico de corpora do Inglês americano através de anotação semântica automática baseada em ontologias de nível topo uti- lizando o modelo de classificação CRFAndrade, Guidson Coelho de 26 April 2018 (has links)
Submitted by MARCOS LEANDRO TEIXEIRA DE OLIVEIRA (marcosteixeira@ufv.br) on 2018-09-05T12:51:49Z
No. of bitstreams: 1
texto completo.pdf: 1357733 bytes, checksum: 0b0fc46e7358bfaa6996ea4bcbd760d0 (MD5) / Made available in DSpace on 2018-09-05T12:51:49Z (GMT). No. of bitstreams: 1
texto completo.pdf: 1357733 bytes, checksum: 0b0fc46e7358bfaa6996ea4bcbd760d0 (MD5)
Previous issue date: 2018-04-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O significado de bases de dados textuais é de fácil percepção para as pessoas, mas de difícil interpretação por parte dos computadores. Para que as máquinas possam compreender a semântica associada aos textos e não somente a sintaxe, é necessário a adição de informações extras a esses corpora. A anotação semântica é a tarefa que incorpora essas informações por meio da adição de metadados aos itens lex- icais. Essas informações podem ser conceitos ontológicos que ajudam a definir a natureza da palavra a fim de atribuir-lhe algum significado. No entanto, anotar textos segundo uma determinada ontologia ainda é uma tarefa que demanda tempo e esforço de anotadores treinados para esse fim. Outra abordagem a ser consid- erada é o desenvolvimento de ferramentas de anotação semântica automática que utilizem técnicas de aprendizado de máquina para classificar os termos anotados. Essa abordagem demanda uma base de dados para treinamento dos algoritmos que nesse caso são corpora pré-anotados segundo a dimensão semântica a ser explorada. Entretanto, essa linhagem metodológica dispõe de recursos limitados para suprir as necessidades dos métodos de aprendizado. Existe uma grande carência de corpora anotados semanticamente e, particularmente, uma ausência ainda maior de corpora ontologicamente anotados, dificultando o avanço da área de anotação semântica au- tomática. O objetivo do presente trabalho é auxiliar no enriquecimento semântico de textos do Inglês americano, anotando-os de forma automática baseando-se em ontologia de nível topo através do modelo de aprendizagem supervisionada Condi- tional Random Fields (CRF). Após a seleção do Open American National Corpus como base de dados linguística e da Schema.org como ontologia, o trabalho teve sua estrutura dividida em duas etapas. Primeiramente, o corpus pré-processado e corrigido foi submetido a uma anotação híbrida, com um anotador baseado em re- gras e, posteriormente, uma anotação complementar manual. Ambas as tarefas de anotação foram dirigidas pelos conceitos e definições das oito classes provenientes do nível topo da ontologia selecionada. De posse do corpus anotado ontologicamente, iniciou-se o processo de anotação automática via uso do método de aprendizagem CRF. O modelo de predição levou em consideração as características linguísticas e estruturais dos termos para classificá-los sob os oito tipos ontológicos. Os resulta- dos obtidos durante a avaliação do modelo foram muito satisfatórios e atingiram o objetivo da pesquisa. O trabalho, embora seja uma nova abordagem de anotação semântica e com pouca margem de comparação, apresentou resultados promissores para o avanço da pesquisa na área de enriquecimento semântico automático baseado em ontologias de nível topo. / Textual databases carry with them human-perceived meanings, but those meanings are difficult to be interpreted by computers. In order for the machines to understand the semantics attached to texts, and not only their syntax, it is necessary to add extra information to these corpora. Semantic annotation is the task of incorporat- ing this information by adding metadata to lexical items. This information can be ontological concepts that help define the nature of the word in order to give it some meaning. However, annotating texts according to an ontology is still a task that requires time and effort from annotators trained for this purpose. Another approach to be considered is the use of automatic semantic annotation tools that use machine learning techniques to classify annotated terms. This approach demands a database for training the algorithms that in this case are corpora pre-annotated according to the semantic dimension to be explored. However, this methodological lineage has limited resources to meet the needs of learning methods. There is a large lack of semantically annotated corpora and an even larger absence of ontologically anno- tated corpora, hindering the advance of the area of automatic semantic annotation. The purpose of the present work is to assist in the semantic enrichment of Amer- ican English texts by automatically annotating them based on top-level ontology through the Conditional Random Fields (CRF) supervised learning model. After the selection of the Open American National Corpus as a linguistic database and Schema.org as an ontology, the work had its structure divided into two stages. First, the pre-processed and corrected corpus was submitted to a hybrid annotation, with a rule-based annotator, and later manually. Both annotation tasks were driven by the concepts and definitions of the eight classes from the top-level of the selected ontology. Once the corpus was written ontologically, the automatic annotation pro- cess was started using the CRF learning method. The prediction model took into account the linguistic and structural features of the terms to classify them under the eight ontological types. The results obtained during the evaluation of the model were very satisfactory and reached the objective of the research. The work, although it is a new approach of semantic annotation and with little margin of comparison, presented promising results for the advance of the research in the area of automatic semantic enrichment based on top-level ontologies.
|
2 |
Proposta de um vocabulário semântico para descobrir serviços na internet das coisasLima, Mayka de Souza 31 August 2016 (has links)
The Internet of Things is a network infrastructure that is based on communication protocols,
domains and applications connecting physical objects, such as sensors or remote devices
through wireless communications. In order for smart objects perform their functions when
connected to the Internet using web resources, it is necessary that the communication
interfaces can treat the search for a specific service requested by the user accurately. The
search for this service gives with a clear and objective semantics used in the vocabulary for
the request process. In some research cited in the work the use of semantic vocabularies in
web services, has some problems that persist in the clear detection of these services. These
papers that perform search services were analyzed and correlated their positive and negative
aspects about the semantics used in the vocabulary and its application in the IoT. In this
manner, to achieve a process of discovery services, this paper presents a semantic
vocabulary that performs discovery services on the Internet of things. The vocabulary built
was implemented in an application that performs the communication of an application of
best price, which has a market server and a fridge that seek a particular service. After
implementation the vocabulary search process was simulated in Cooja Simulator Contiki
operating system and used the language JSON (JavaScript Object Notation) based on the
discovery code, simple language and widely used for web applications. After the simulation,
we analyzed the communication services exchanged between the Best Price server and
Market applications and fridge, getting the memories of sensor nodes failed to perform the
sending of the semantic vocabulary response services because of a size limitation of ROM
(Read Only memory) of the simulated sensor nodes. / A Internet das coisas é uma revolução tecnológica que conecta aparelhos eletrônicos como
eletrodomésticos ou meios de transporte à Internet, baseando-se em protocolos de
comunicação, domínios e aplicações conectando objetos físicos, como sensores ou
dispositivos remotos através de comunicações sem fio. Para que objetos inteligentes realizem
suas funções quando conectados à Internet utilizando os recursos da web, é necessário que as
interfaces de comunicações possam tratar a busca de um determinado serviço solicitado pelo
usuário com precisão. A busca deste serviço dá-se com uma semântica clara e objetiva
utilizada no vocabulário para o processo de solicitação. Em algumas pesquisas citadas no
trabalho a utilização dos vocabulários semânticos em serviços da web, apresenta alguns
problemas que persistem na detecção clara destes serviços. Estes trabalhos que realizam
busca de serviços foram analisados e correlacionados seus pontos positivos e negativos sobre
a semântica utilizada no vocabulário e sua aplicação na IoT. Desta forma, para obter um
processo de descobrimento de serviços, este trabalho apresenta um vocabulário semântico
que realiza a descoberta de serviços na Internet das coisas. O vocabulário construído foi
implementado em uma aplicação que realiza a comunicação de uma aplicação de Melhor
Preço, onde tem um servidor de mercado e uma geladeira buscando um serviço na Internet.
Após a implementação foi simulado o processo de busca do vocabulário no Cooja Simulator
do sistema operacional Contiki e utilizado a linguagem JSON (JavaScript Object Notation)
como base do código de descobrimento, uma linguagem simples e muito utilizada para
aplicações web. Realizada a simulação analisou-se a comunicação dos serviços trocados
entre o servidor Melhor Preço e as aplicações Mercado e Geladeira, obtendo que as
memórias dos nós sensores não conseguiram realizar o envio da resposta do vocabulário
semântico com os serviços devido uma limitação do tamanho da memória ROM (Read Only
Memory) do nó sensor simulado.
|
Page generated in 0.0692 seconds