Global ETD Search

1	Uma Abordagem Para Enriquecimento Semântico de Metadados Para Publicação de Dados Abertos Lira, Márcio Angelo Bezerra de 02 September 2014 (has links) Submitted by Lucelia Lucena (lucelia.lucena@ufpe.br) on 2015-03-09T19:45:29Z No. of bitstreams: 2 DISSERTAÇÃO Márcio Angelo Bezerra de Lira.pdf: 2325407 bytes, checksum: 0dfe2a2eee4108d58d6bd08c5a45a1e0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T19:45:29Z (GMT). No. of bitstreams: 2 DISSERTAÇÃO Márcio Angelo Bezerra de Lira.pdf: 2325407 bytes, checksum: 0dfe2a2eee4108d58d6bd08c5a45a1e0 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2014-09-02 / A publicação de Dados Abertos vem alcançando cada vez mais adeptos, principalmente no domínio de dados governamentais. Um dos fatores do sucesso da publicação dos dados em formato aberto seria a disponibilização de metadados capazes de descrever os dados de forma satisfatória. Estes metadados oferecem meios para que usuários, desenvolvedores e sistemas automatizados possam compreender e processar os dados. Porém, apesar da sua importância, a ausência de metadados tem sido um problema comum no cenário atual de publicação de dados abertos. Além da ausência de metadados, outro fator crítico diz respeito ao reuso de metadados. Uma vez que os metadados são publicados, é importante que possam ser reutilizados, a fim de facilitar o processo de publicação de dados de maneira geral. Neste contexto, este trabalho propõe uma abordagem para o enriquecimento semântico de metadados para descrição de dados abertos. A abordagem proposta tem como objetivo facilitar tanto a publicação quanto o reuso de metadados. Para isso, são usadas anotações semânticas e vocabulários padrões. Dessa forma, espera-se que os metadados possam ser facilmente compreendidos e processados. Para avaliação da abordagem proposta, foi desenvolvido um protótipo e foram realizados alguns experimentos. Dados Abertos Metadados Reuso Enriquecimento Semântico Anotação Semântica
2	Newsminer: um sistema de data warehouse baseado em texto de notícias / Newsminer: a data warehouse system based on news websites Nogueira, Rodrigo Ramos 12 May 2017 (has links) Submitted by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T14:12:56Z No. of bitstreams: 1 NOGUEIRA_Rodrigo_2017.pdf: 5427774 bytes, checksum: db8155583bf1bffe3ceb4c01bf26f66f (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T14:14:04Z (GMT) No. of bitstreams: 1 NOGUEIRA_Rodrigo_2017.pdf: 5427774 bytes, checksum: db8155583bf1bffe3ceb4c01bf26f66f (MD5) / Approved for entry into archive by Milena Rubi (milenarubi@ufscar.br) on 2017-10-09T14:14:13Z (GMT) No. of bitstreams: 1 NOGUEIRA_Rodrigo_2017.pdf: 5427774 bytes, checksum: db8155583bf1bffe3ceb4c01bf26f66f (MD5) / Made available in DSpace on 2017-10-09T14:14:24Z (GMT). No. of bitstreams: 1 NOGUEIRA_Rodrigo_2017.pdf: 5427774 bytes, checksum: db8155583bf1bffe3ceb4c01bf26f66f (MD5) Previous issue date: 2017-05-12 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Data and text mining applications managing Web data have been the subject of recent research. In every case, data mining tasks need to work on clean, consistent, and integrated data for obtaining the best results. Thus, Data Warehouse environments are a valuable source of clean, integrated data for data mining applications. Data Warehouse technology has evolved to retrieve and process data from the Web. In particular, news websites are rich sources that can compose a linguistic corpus. By inserting corpus into a Data Warehousing environment, applications can take advantage of the flexibility that a multidimensional model and OLAP operations provide. Among the benefits are the navigation through the data, the selection of the part of the data considered relevant, data analysis at different levels of abstraction, and aggregation, disaggregation, rotation and filtering over any set of data. This paper presents Newsminer, a data warehouse environment, which provides a consistent and clean set of texts in the form of a multidimensional corpus for consumption by external applications and users. The proposal includes an architecture that integrates the gathering of news in real time, a semantic enrichment module as part of the ETL stage, which adds semantic properties to the data such as news category and POS-tagging annotation and the access to data cubes for consumption by applications and users. Two experiments were performed. The first experiment selects the best news classifier for the semantic enrichment module. The statistical analysis of the results indicated that the Perceptron classifier achieved the best results of F-measure, with a good result of computational time. The second experiment collected data to evaluate real-time news preprocessing. For the data set collected, the results indicated that it is possible to achieve online processing time. / As aplicações de mineração de dados e textos oriundos da Internet têm sido alvo de recentes pesquisas. E, em todos os casos, as tarefas de mineração de dados necessitam trabalhar sobre dados limpos, consistentes e integrados para obter os melhores resultados. Sendo assim, ambientes de Data Warehouse são uma valiosa fonte de dados limpos e integrados para as aplicações de mineração. A tecnologia de Data Warehouse tem evoluído no sentido de recuperar e tratar dados provenientes da Web. Em particular, os sites de notícias são fontes ricas em textos, que podem compor um corpus linguístico. Inserindo o corpus em um ambiente de Data Warehouse, as aplicações poderão tirar proveito da flexibilidade que um modelo multidimensional e as operações OLAP fornecem. Dentre as vantagens estão a navegação pelos dados, a seleção da parte dos dados considerados relevantes, a análise dos dados em diferentes níveis de abstração, e a agregação, desagregação, rotação e filtragem sobre qualquer conjunto de dados. Este trabalho apresenta o ambiente de Data Warehouse Newsminer, que fornece um conjunto de textos consistente e limpo, na forma de um corpus multidimensional para consumo por aplicações externas e usuários. A proposta inclui uma arquitetura que integra a coleta textos de notícias em tempo próximo do tempo real, um módulo de enriquecimento semântico como parte da etapa de ETL, que acrescenta propriedades semânticas aos dados coletados tais como a categoria da notícia e a anotação POS-tagging, e a disponibilização de cubos de dados para consumo por aplicações e usuários. Foram executados dois experimentos. O primeiro experimento é relacionado à escolha do melhor classificador de categorias das notícias do módulo de enriquecimento semântico. A análise estatística dos resultados indicou que o classificador Perceptron atingiu os melhores resultados de F-medida, com resultado bom de tempo de processamento. O segundo experimento coletou dados para avaliar o pré-processamento de notícias em tempo real. Para o conjunto de dados coletados, os resultados indicaram que é possível atingir tempo de processamento online. / OB800972 Mineração de dados (Computação) Sites da Web Corpora multidimensional Enriquecimento semântico Categorização de notícias OLAP Multidimensional corpora Data mining Web sites Data Warehouse News websites Semantic enrichment News categorization

Search results

Uma Abordagem Para Enriquecimento Semântico de Metadados Para Publicação de Dados Abertos

Newsminer: um sistema de data warehouse baseado em texto de notícias / Newsminer: a data warehouse system based on news websites