• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 201
  • 24
  • Tagged with
  • 225
  • 225
  • 138
  • 75
  • 57
  • 51
  • 36
  • 30
  • 30
  • 27
  • 27
  • 24
  • 24
  • 21
  • 18
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
171

Um modelo de qualidade para caracterização e seleção de bancos de dados de biologia molecular / A quality model for characterizing and selecting molecular biology databases

Lichtnow, Daniel January 2012 (has links)
O número de banco de dados de biologia molecular presentes na Web vem aumentando significativamente nos últimos anos. A dificuldade de localizar estes bancos de dados na Web incentivou a criação de uma série de catálogos. Mesmo com estes catálogos, persiste o desafio de selecionar aqueles bancos de dados que possuem maior qualidade. Normalmente, a seleção é feita por usuários, que nem sempre possuem o conhecimento necessário e enfrentam problemas pela ausência de uma descrição mais rica dos bancos de dados nestes catálogos. Esta ausência de uma descrição mais rica dos bancos de dados gerou iniciativas recentes que visam identificar metadados relevantes para descrição dos bancos de dados de biologia molecular. No entanto, até o momento, como utilizar estes metadados na seleção dos bancos de dados presentes em um catálogo, relacionando estes às dimensões de qualidade de dados, é um tema pouco explorado. Da mesma forma, o uso de Web metrics, utilizadas na seleção de páginas Web, vem sendo quase ignorado na determinação da qualidade de bancos de dados de biologia molecular. Tendo em vista este cenário, nesta tese foi desenvolvido um modelo de qualidade que visa auxiliar na seleção de bancos de dados de biologia molecular presentes em catálogos na Web a partir da avaliação global de um banco de dados por meio de metadados e Web metrics. A definição deste modelo envolve adoção de metadados propostos em outros trabalhos, a proposição de novos metadados e a análise das dimensões de qualidade de dados. Experimentos são realizados de forma a avaliar a utilidade de alguns dos metadados e Web metrics na determinação da qualidade global de um banco de dados. A representação dos metadados, dimensões de qualidade, indicadores de qualidade e métricas usando recursos de Web Semântica é também discutida. O principal cenário de aplicação da abordagem é relacionado à necessidade que um usuário tem de escolher o melhor banco de dados para buscar informações relevantes para o seu trabalho dentre os existentes em um catálogo. Outro cenário está relacionado a sistemas que integram dados de fontes distintas e que necessitam, em muitos casos, reduzir o número de bancos de dados candidatos a um processo de integração. / The number of molecular biology databases has increased in the last years. The difficulty of identifying these databases on the Web is the motivation to create database catalogs. However, even using these catalogs, the challenge is how to identify the best databases within these sets of identified databases. In general, the selection process is done by users, who sometimes have little knowledge about databases related to a specific domain and will have difficulties to select the best databases. These difficulties are related to the absence of information about databases in these catalogs. This absence of information has generated some recent initiatives aiming to identify relevant metadata for describing molecular biology databases. However, at the present moment, how to use these metadata for selecting databases from a catalog, taking into account data quality dimensions, is underexplored. In a similar way, Web metrics used for selecting Web pages is almost ignored in the molecular biology databases evaluation process. In this scenario, this thesis defines a quality model, based on some identified data quality dimensions, aiming to help selecting a database from molecular biology database catalogs. This selection process is done by considering database metadata and Web metrics. The definition of this model involves the adoption of metadata from related works, the definition of new metadata and the analysis of data quality dimensions. A set of experiments evaluates the usefulness of metadata and Web metrics for evaluating the overall quality of databases. How to represent database metadata, quality dimensions, quality indicators and quality metrics using Semantic Web resources is also discussed. One application scenario relates to users who need to choose the best databases available in a catalog. Another application scenario is related to database integration systems in which it is necessary to determinate the overall quality of a database for reducing the number of databases to be integrated.
172

Avaliação e recomendação de colaborações em redes sociais acadêmicas / Evaluation and recommendation of collaborations on academic social networks

Lopes, Giseli Rabello January 2012 (has links)
No contexto acadêmico o trabalho de pesquisa científica, nas áreas tecnológicas, é efetuado através de colaborações e cooperações entre diferentes pesquisadores e grupos de pesquisa. Existem pesquisadores atuando nos mais variados assuntos e nas mais diversas subáreas de pesquisa. Para analisar e expandir tais colaborações, muitas vezes, é necessário avaliar o nível de cooperação dos atuais parceiros, bem como identificar novos parceiros para conduzir trabalhos conjuntos. Tal avaliação e identificação não são tarefas triviais. Dessa forma, abordagens para avaliação e recomendação de colaborações são de grande valia para o aperfeiçoamento da cooperação e consequente melhoria da qualidade da pesquisa. Em relação à análise de colaborações, a demanda por critérios de avaliação de qualidade e por métodos de avaliação associados está aumentando e tem sido foco de muitos estudos na última década. Esse crescimento surge devido à busca por excelência acadêmica e para o apoio à tomada de decisões por parte de agências de financiamento para a alocação de recursos. Nesse contexto, há uma tendência a empregar técnicas bibliométricas, especialmente métodos estatísticos aplicados a citações. Com tanto material sendo pesquisado e publicado, resolveu-se explorar outra faceta para definição de indicadores de qualidade no contexto acadêmico visando a obtenção de resultados complementares e que garantam, através de sua validação experimental, uma melhor geração de indicadores. Desse modo, nesta tese, utiliza-se a tendência atual de estudos em análises de redes sociais, definindo métricas sociais específicas para definição de tais indicadores. Neste trabalho, é apresentada uma função para avaliação de qualidade de grupos de pesquisa com base nas colaborações internas entre seus pesquisadores membros. Estas colaborações são avaliadas através de análises em redes sociais bibliográficas acadêmicas baseadas em métricas de interação social. Com relação à identificação ou recomendação de colaborações, esta tese apresenta uma abordagem que considera tanto a parte de conteúdo quanto a de estrutura de uma rede. Especificamente, o conteúdo envolve a correlação entre os pesquisadores por áreas de pesquisa, enquanto a estrutura inclui a análise da existência de relacionamentos prévios entre os pesquisadores. Grande parte das abordagens que efetuam a recomendação de colaborações foca em recomendar especialistas em uma determinada área ou informação. Essas não consideram a área de atuação do usuário alvo da recomendação, como no caso da abordagem apresentada nesta tese. Além disso, neste trabalho, a obtenção de informações sobre os relacionamentos entre usuários, para construção de uma rede social acadêmica, é feita de forma implícita, em dados sobre publicações obtidos de bibliotecas digitais. Utilizando tais dados, também é possível explorar aspectos temporais para ponderação desses relacionamentos, utilizando-os para fins de recomendação de colaborações. Não foram encontrados trabalhos prévios nesse sentido. A presente abordagem inclui a recomendação não só de novas colaborações, como também, a recomendação de intensificação de colaborações já existentes, o que não é considerado por outros trabalhos relacionados. Dessa forma, pode-se dizer que os objetivos de recomendação da presente abordagem são mais amplos. Após propor novas técnicas para avaliação e identificação de parcerias, esta tese as valida através de uma avaliação experimental. Especificamente, experimentos com dados reais sobre as relações de coautoria entre pesquisadores pertencentes a diferentes grupos de pesquisa são apresentados para avaliação e demonstração da validade e da aplicabilidade das diferentes proposições desta tese referentes à avaliação de qualidade e recomendação de colaborações. / In technological fields, scientific research is performed through collaboration and cooperation of different researchers and research groups. In order to analyze and expand such collaborations, it is necessary to evaluate the level of cooperation between current partners as well as to identify new partners. Such an analysis and identification are not trivial tasks. Thus, approaches to evaluating and recommending collaborations are valuable to improve cooperation and, hence, improve research quality. Regarding the collaborations evaluation, the demand for quality assessment criteria and associated evaluation methods is increasing. Indeed, such evaluations have been the focus of many studies in the last decade. This growth arises from the pursuit of academic excellence and decision making of funding agencies. In this context, the trend is to employ bibliometric techniques, especially citation statistics. With so much material being researched and published, another facet for defining quality indicators is explored. Our goal is to obtain additional results that ensure, through its experimental validation, a better indicators generation. In this thesis, the current trend of studies in social network analysis is applied in the definition of such indicators. Specifically, we introduce a function for quality assessment of research groups based on internal collaborations among their member researchers. These collaborations are evaluated through analysis on bibliometric academic social networks based on metrics of social interaction. Regarding the collaborations recommendation, this thesis presents an approach that considers both the content and structure of research networks. The content involves the correlation among researchers by research areas whereas the structure includes the analysis of existing relationships among researchers. Most of the approaches that perform the collaborations recommendation focus on recommending experts in a certain area or information. They do not consider the working area of the recommendation target user, as we do in this thesis. Moreover, here, the information about the researchers’ relationships, employed for building an academic social network, is implicitly obtained through publications data available in digital libraries. Moreover, we expand previous analysis by considering temporal aspects to determine the relationships weights (which may be used to collaborations recommendation purposes). There were no previous studies in this direction. Our approach includes not only the recommendation of new collaborations, but also the recommendation of the collaborations intensification, which is not considered by other related work. After proposing new techniques for evaluating and identifying research collaborators, this thesis validates it through an experimental evaluation. Specifically, we evaluate and demonstrate the applicability of our techniques considering real datasets on the co-author relationships among researchers from different research groups.
173

Extração e representação semântica de fatos temporais / EXTIO – extraction of temporal information using ontologies

Gallina, Leandro Zulian January 2012 (has links)
Este trabalho descreve EXTIO (Extraction of Temporal Information Using Ontologies), uma abordagem que permite a normalização de expressões temporais e a organização em ontologia de fatos temporais extraídos de texto em linguagem natural. Isto permite que motores de busca possam aproveitar melhor a informação temporal de páginas daWeb, realizando inferências sobre fatos temporais. EXTIO propõe: a normalização de expressões temporais relativas através de uma gramática formal para a língua inglesa; e a organização de fatos temporais extraídos do texto normalizado em uma ontologia. Expressões temporais relativas são construções textuais de tempo que se referem a uma data absoluta cujo valor é relativo a outra data. Por exemplo, a expressão “three months ago” (três meses atrás) é uma expressão temporal relativa, pois seu surgimento no texto se refere a uma data três meses antes da data de publicação do documento. Experimentos demonstram que a gramática formal proposta para a normalização de expressões temporais relativas supera o baseline na eficácia da normalização e no tempo de processamento de documentos em linguagem natural. A principal contribuição deste trabalho é a gramática formal para normalização de expressões temporais relativas de texto na língua inglesa. Também é contribuição deste trabalho o processamento semântico da informação temporal disponível em formato texto em documentos, para que possa ser melhor aproveitada por motores de busca. / This work describes EXTIO, an approach for the normalization of temporal expressions and the semantic organization of temporal facts extracted from natural language text. This approach allows search engines to benefit from temporal information in Web pages, performing inferences on temporal facts. EXTIO proposes: the normalization of relative temporal expressions through a formal grammar for the English language; and the organization of temporal facts extracted from normalized text in an ontology. Relative temporal expressions are textual time structures that refer to an absolute date whose value is relative to another date. For instance, “three months ago” is a relative temporal expression because its appearance in the text refers to a date three months before the document publication date. Experiments show that the proposed formal grammar for the normalization of relative temporal expressions has a better performance than the baseline in effectiveness and processing time. The main contribution of this work is the formal grammar for the normalization of temporal expressions in natural language text in English. Another contribution of this work is the semantic processing of temporal information available in documents, so that search engines may benefit from this information.
174

Aperfeiçoamento de métricas de similaridade semântica entre serviços web / Enhancement of semanticweb services matchmaking metrics

Santos, Pedro Bispo da Silva January 2012 (has links)
O presente trabalho apresenta uma abordagem aperfeiçoada para medir similaridade entre Serviços Web Semânticos através de um algoritmo baseado em ontologia. O trabalho se trata de um aperfeiçoamento por pegar como base o algoritmo de Liu (LIU et al., 2009) e nele fazer uma pequena mudança que resulta em melhorias significativas em certos cenários. Este algoritmo utiliza informação das categorias ESPE (Entradas, Saídas, Pré-condições, Efeitos), procurando por informações presentes nessas categorias, analisando como os conceitos estão relacionados na taxonomia da ontologia. A escolha do trabalho de Liu ocorreu devido a experimentos realizados em trabalhos anteriores ao desta dissertação (MAAMAR et al., 2011)(MAAMAR et al., 2011). Nesses experimentos, foi constatado que o algoritmo não antigia um desempenho satisfatório, foi então que se levantou uma hipótese de aperfeiçoamento deste algoritmo. Experimentos realizados utilizando um conjunto de dados contendo 1083 Serviços Web Semânticos em OWL-S mostram que essa abordagem aperfeiçoada aumenta a precisão do algoritmo, diminuindo desta forma o número de falsos positivos recuperados nos resultados, mantendo uma boa revocação. Nestes experimentos, foram implementados o algoritmo original de Liu e a versão modificada apresentada nesta dissertação. Além disso, este trabalho apresenta quais parâmetros utilizar para configurar o algoritmo e atingir melhor precisão, revocação e f-measure. / The current work presents an improved approach for an ontology-based semantic web service matchmaking assessment algorithm. This work is based on Liu’s algorithm LIU et al. (2009) providing a small change which results in a significant enhancement at some scenarios. The algorithm uses information from IOPE (Inputs, Outputs, Preconditions, Effects) categories, searching for information about the concepts located in these categories, analyzing how they are related in an ontology taxonomy. Liu’s work was chosen due to experiments that were done in works previous to this dissertation (MAAMAR et al., 2011)(MAAMAR et al., 2011). During those experiments, it was realized that Liu’s algorithm did not achieve good results. Then, an hypothesis was raised for improving this algorithm. Experiments performed using a data set containing 1083 OWL-S semantic web services show that the improved approach increases the algorithm precision, diminishing the number of false positives in the retrieved results, and still having a good recall. For doing these experiments, Liu’s algorithm and this dissertation version of it were implemented. Furthermore, this work presents the parameters that were used to achieve better precision, recall and f-measure.
175

Identificação de autoridades em tópicos na blogosfera brasileira usando comentários como relacionamento / Topical authority identification in the brazilian blogosphere using comments as relationships

Santos, Henrique Dias Pereira dos January 2013 (has links)
Com o aumento dos usuários acessando a internet no Brasil, cresce a quantidade de conteúdo produzido por brasileiros. Assim se torna importante classificar os melhores autores para que se tenha mais confiança nos textos lidos. Nesse sentido, esta dissertação faz um estudo sobre a descoberta de autoridades em tópicos na blogosfera brasileira. O escopo de estudo e análise é a plataforma de publicação de blogs, Blogspot, sobre os blogueiros que se identificam como brasileiros. Para tanto, foram coletados nove milhões de postagens do ano de 2012 e considerados os comentários como fonte de relacionamento entre os blogueiros para gerar uma rede social. Essa rede foi usada para experimentos do algoritmo de identificação de autoridades em tópicos. O algoritmo utilizado como base é o Topic PageRank, separando os diversos tópicos da blogosfera pelas tags que os usuários definem em suas postagens e posteriormente construindo a lista das autoridades em tais tópicos. Experimentos realizados demonstram que o método proposto resulta em melhor ranqueamento que o algoritmo original do PageRank. Cabe salientar que foi feita uma caracterização dos dados coletados por um questionário aplicado a quatro mil autores. / With the intesification of users accessing the Internet in Brazil, the amount of content produced by Brazilians increases. Thus, it becomes important to classify the best authors to have more confidence in the texts read. In this sense, this work presents a study on subject of topic authorities discovery in the Brazilian blogosphere. The scope of the study is the Blogspot platform, focusing on bloggers who identify themselves as Brazilians. To this end, we collected nine millions posts in the year of 2012 and considered the comments as a source of relationship between bloggers to generate a social network. This network was used for performing experiments considering the proposed approach to identify topic authorities. The algorithm used is based on the Topic PageRank, which can separate the different blogosphere’s topics by tags that users use on their posts, and then building the list of authorities on such topics. The experiments conducted show that the proposed approach results in better ranking than the original PageRank algorithm. We also characterize the collected database with a survey of over four thousand authors.
176

Um estudo sobre alternativas de representação de dados temporais em bancos de dados relacionais / A study on alternatives to represent temporal data on relational databases

Cassol, Tiago Sperb January 2012 (has links)
Informações temporais estão presentes numa ampla gama de aplicações. Praticamente qualquer aplicação possui pelo menos um campo que contém dados temporais como datas ou timestamps. Entretanto, bancos de dados tradicionais não tem um suporte amplo para armazenamento e consulta sobre esse tipo de dados eficientemente, e SGBDs com suporte nativo para dados temporais raramente estão disponíveis para os desenvolvedores de sistemas. Na maior parte do tempo, bases de dados comuns são usadas para armazenar dados das aplicações, e quando dados temporais são necessários, eles são gerenciados utilizando o pobre suporte oferecido por SGBDs relacionais tradicionais. Dito isso, o projetista da base de dados precisa confiar em um bom design de esquema para que a dificuldade natural enfrentada ao lidar com dados temporais possa ser minimizada. Enquanto algumas escolhas de design podem parecer óbvias, outras são difíceis de avaliar apenas com uma análise superficial, necessitando experimentação antes de serem aplicadas ou não. Por exemplo, em vários casos pode ser difícil de medir o quanto uma determinada escolha de design vai afetar o consumo de espaço em disco, e quanto essa mesma escolha afetará a performance geral. Esse tipo de informação é necessária para que o projetista da base de dados seja capaz de determinar se , por exemplo, o aumento no consumo de espaço em disco gerado por uma escolha específica é aceitável por conta da melhora de performance que ela oferece. O problema é que não há estudo que analise as escolhas de design disponíveis, fazendo uma análise através de dados concretos. Mesmo quando é fácil identificar, dentre duas escolhas, qual tem performance melhor em um determinado critério, é difícil mensurar o quão melhor a escolha melhor se sai, e se algum efeito colateral trazido por ela é aceitável. Ter dados concretos para suportar esse tipo de decisão permite ao projetista da base de dados fazer escolhas que se enquadram melhor no contexto da sua aplicação. O objetivo desse trabalho é analisar algumas escolhas de design comuns para representar e gerenciar dados temporais em SGBDs relacionais tradicionais, provendo direcionamento sobre qual alternativa se enquadra melhor em cada situação onde dados temporais são necessários. Dados concretos sobre cada uma das alternativas estudadas são gerados e analisados e conclusões são obtidas a partir deles. / Temporal information is present on a wide range of applications. Almost every application has at least one field that contains temporal data like dates or timestamps. However, traditional databases don’t have a comprehensive support to storage and query this kind of data efficiently, and DBMS with native support for temporal data are rarely available to system developers. Most of the time, regular databases are used to store application data and when temporal data is needed, it is handled using the poor support offered by standard relational DBMS. That said, the database designer must rely on good schema design so that the natural difficulty faced when dealing with temporal data on standard relational DBMS can be minimized. While some design choices may seem obvious, others are difficult to evaluate just by looking at them, therefore needing experimentation prior to being applied or not. For example, in several cases it might be difficult to measure how much will a specific design choice affect the disk space consumption, and how much will this same design choice affect overall performance. This kind of information is needed so that the database designer will be able to determine if, for example, the increased disk space consumption generated by a given choice is acceptable because of the performance enhancement it gives. The problem is that there is no study that analyses the design choices available, analyzing them through concrete data. Even when it is easy to see which of two design choices perform better in a given criterion, it is hard to see how better the better choice does, and if any other side-effect it has is acceptable. Having concrete data to support this kind of decision allows the database designer to make the choices that suits his application’s context best. The objective of this work is to analyze several common design choices to represent and handle different kinds of temporal data on standard SQL DBMS, providing guidance on which alternative suits best each situation where temporal data is required. Concrete data about each of the studied alternatives are generated and analyzed, and conclusions are drawn from them.
177

Abordagem baseada na análise de redes sociais para estimativa da reputação de fontes de informação em saúde

Silva, Leila Weitzel Coelho da January 2013 (has links)
Internet tem sido uma importante fonte para as pessoas que buscam informações de saúde. Isto é particularmente problemático na perspectiva da Web 2.0. A Web 2.0 é a segunda geração da World Wide Web, onde os usuários interagem e colaboram uns com os outros como criadores de conteúdo. A falta de qualidade das informações médicas na Web 2.0 tem suscitado preocupações com os impactos prejudiciais que podem acarretar. São muitos os aspectos relacionados à qualidade da informação que devem ser investigados, como por exemplo, existe alguma evidência de que o autor tem alguma autoridade no domínio da saúde? Há indícios de que os autores são tendenciosos? Como saber se a fonte de informação tem reputação, como separar as fontes de boa qualidade das outras? Esses questionamentos se tornam mais evidentes quando se faz buscas no Twitter. O usuário precisa por si só selecionar o conteúdo que acredita que tenha qualidade entre as centenas de resultados. Nesse contexto, o principal objetivo deste trabalho é propor e avaliar uma abordagem que permita estimar a reputação de fontes de informação no domínio da saúde. Acredita-se que discussões sobre reputação só fazem sentido quando possuem um propósito e estão inseridas em um contexto. Sendo assim, considera-se que reputação é um atributo que um usuário se apropria quando a informação que ele divulga é crível e digna de confiança. As contribuições desta tese incluem uma nova metodologia para estimar a reputação e uma estrutura topológica de rede baseada no grau de interação entre atores sociais. O estudo permitiu compreender como as métricas afetam o ordenamento da reputação. Escolher a métrica mais apropriada depende basicamente daquilo que se quer representar. No nosso caso, o Pagerank funcionou como um “contador de arcos” representando apenas uma medida de popularidade daquele nó. Verificou-se que popularidade (ou uma posição de destaque na rede) não necessariamente se traduz em reputação no domínio médico. Os resultados obtidos evidenciaram que a metodologia de ordenamento e a topologia da rede obtiveram sucesso em estimar a reputação. Além disso, foi verificado que o ambiente Twitter desempenha um papel importante na transmissão da informação e a “cultura” de encaminhar uma mensagem permitiu inferir processos de credibilidade e consequentemente a reputação. / The Internet is an important source for people who are seeking healthcare information. This is particularly problematic in era of Web 2.0. The Web 2.0 is a second generation of World Wide Web, where users interact and collaborate with each other as creators of content. Many concerns have arisen about the poor quality of health-care information on the Web 2.0, and the possibility that it leads to detrimental effects. There are many issues related to information quality that users continuously have to ask, for example, is there any evidence that the author has some authority in health domain? Are there clues that the authors are biased? How shall we know what our sources are worth, how shall we be able to separate the bad sources from the good ones? These questions become more obvious when searching for content in Twitter. The user then needs to manually pick out high quality content among potentially thousands of results. In this context, the main goal of this work is to propose an approach to infer the reputation of source information in the medical domain. We take into account that, discussion of reputation is usually not meaningful without a specific purpose and context. Thus, reputation is an attribute that a user comprises, and the information disseminated by him is credible and worthy of belief. Our contributions were to provide a new methodology to Rank Reputation and a new network topological structure based on weighted social interaction. The study gives us a clear understanding of how measures can affect the reputation rank. Choosing the most appropriate measure depends on what we want to represent. In our case, the PageRank operates look alike “edges counts” as the “popularity” measures. We noticed that popularity (or key position in a graph) does not necessarily refer to reputation in medical domain. The results shown that our rank methodology and the network topology have succeeded in achieving user reputation. Additionally, we verified that in Twitter community, trust plays an important role in spreading information; the culture of “retweeting” allowed us to infer trust and consequently reputation.
178

Avaliação da qualidade de funções de similaridade no contexto de consultas por abrangência / Quality evaluation of similarity functions for range queries

Stasiu, Raquel Kolitski January 2007 (has links)
Em sistemas reais, os dados armazenados tipicamente apresentam inconsistências causadas por erros de gra a, abreviações, caracteres trocados, entre outros. Isto faz com que diferentes representações do mesmo objeto do mundo real sejam registrados como elementos distintos, causando um problema no momento de consultar os dados. Portanto, o problema investigado nesta tese refere-se às consultas por abrangência, que procuram encontrar objetos que representam o mesmo objeto real consultado . Esse tipo de consulta não pode ser processado por coincidência exata, necessitando de um mecanismo de consulta com suporte à similaridade. Para cada consulta submetida a uma determinada coleção, a função de similaridade produz um ranking dos elementos dessa coleção ordenados pelo valor de similaridade entre cada elemento e o objeto consulta. Como somente os elementos que são variações do objeto consulta são relevantes e deveriam ser retornados, é necessário o uso de um limiar para delimitar o resultado. O primeiro desa o das consultas por abrangência é a de nição do limiar. Geralmente é o especialista humano que faz a estimativa manualmente através da identi - cação de elementos relevantes e irrelevantes para cada consulta e em seguida, utiliza uma medida como revocação e precisão (R&P). A alta dependência do especialista humano di culta o uso de consultas por abrangência na prática, principalmente em grandes coleções. Por esta razão, o método apresentado nesta tese tem por objetivo estimar R&P para vários limiares com baixa dependência do especialista humano. Como um sub-produto do método, também é possível selecionar o limiar mais adequado para uma função sobre uma determinada coleção. Considerando que as funções de similaridade são imperfeitas e que apresentam níveis diferentes de qualidade, é necessário avaliar a função de similaridade para cada coleção, pois o resultado é dependente dos dados. Um limiar para uma coleção pode ser totalmente inadequado para outra coleção, embora utilizando a mesma função de similaridade. Como forma de medir a qualidade de funções de similaridade no contexto de consultas por abrangência, esta tese apresenta a discernibilidade. Trata-se de uma medida que de ne a habilidade da função de similaridade de separar elementos relevantes e irrelevantes. Comparando com a precisão média, a discernibilidade captura variações que não são percebidas pela precisão média, o que mostra que a discernibilidade é mais apropriada para consultas por abrangência. Uma extensa avaliação experimental usando dados reais mostra a viabilidade tanto do método de estimativas como da medida de discernibilidade para consultas por abrangência. / In real systems, stored data typically have inconsistencies caused by typing errors, abbreviations, transposed characters, amongst others. For this reason, di erent representations of the same real world object are stored as distinct elements, causing problems during query processing. In this sense, this thesis investigates range queries which nd objects that represent the same real world object being queried . This type of query cannot be processed by exact matching, thus requiring the support for querying by similarity. For each query submitted to a given collection, the similarity function produces a ranked list of all elements in this collection. This ranked list is sorted decreasingly by the similarity score value with the query object. Only the variations of the query object should be part of the result as only those items are relevant. For this reason, it is necessary to apply a threshold value to properly split the ranking. The rst challenge of range queries is the de nition of a proper threshold. Usually, a human specialist makes the estimation manually through the identi cation of relevant and irrelevant elements for each query. Then, he/she uses measures such as recall and precision (R&P). The high dependency on the human specialist is the main di culty related to use of range queries in real situations, specially for large collections. In this sense, the method presented in this thesis has the objective of estimating R&P at several thresholds with low human intervention. As a by-product of this method, it is possible to select the optimal threshold for a similarity function in a given collection. Considering the fact that the similarity functions are imperfect and vary in quality, it is necessary to evaluate the similarity function for each collection as the result is domain dependent. A threshold value for a collection could be totally inappropriate for another, even though the same similarity function is applied. As a measure of quality of similarity functions for range queries, this thesis introduces discernability. This is a measure to quantify the ability of the similarity function in separating relevant and irrelevant elements. Comparing discernability and mean average precision, the rst one can capture variations that are not noticed by precision-based measures. This property shows that discernability presents better results for evaluating similarity functions for range queries. An extended experimental evaluation using real data shows the viability of both, the estimation method and the discernability measure, applied to range queries.
179

Qualificação de pesquisadores por área da Ciência da Computação com base em uma ontologia de perfil / Researchers’ qualification by computer science area based on a profile ontology

Hannel, Kelly January 2008 (has links)
A qualidade, tanto da produção científica quanto dos pesquisadores, tem sido foco de discussões e objeto de estudo, isto porque a busca pela excelência é constante no meio acadêmico. Sendo assim, conhecer e medir de forma sistematizada as competências dos pesquisadores constitui-se em uma importante ferramenta para identificar as melhores organizações e indivíduos em uma determinada área. Esta dissertação buscou descobrir a qualificação dos pesquisadores nas áreas da Ciência da Computação. Para tal, foi desenvolvido um sistema Web (semi) automatizado. Este sistema é centrado na ontologia OntoResearcher, considera o reuso de outras ontologias, a extração de informações da Web e do currículo dos pesquisadores. A OntoResearcher foi modelada com características e indicadores de qualidade (quantitativos e qualitativos) que permitem mensurar as competências dos pesquisadores. O sistema desenvolvido utiliza as informações modeladas na OntoResearcher para automatizar o processo de avaliação dos pesquisadores e tem como diferencial a qualificação distribuída nas áreas da Ciência da Computação em que o pesquisador atua. As principais contribuições desta dissertação são a definição do perfil de pesquisador, o desenvolvimento da ontologia OntoResearcher e a implementação do sistema de qualificação demonstrando a viabilidade das idéias propostas através dos testes realizados. / The search for excellence is continuous in the academic field. So, the quality of scientific production and researchers has been focus of discussions and subject of study in the academic field. Thus, knowing and measuring the researcher’s skills or qualifications in a systematized way is an important tool to identify the best organizations and individuals in a certain discipline. This work aimed to discover the researcher’s qualification of Computer Science field. To accomplish this task, it was developed a Web system (semi) automatized. This system, which is centered on the OntoResearcher ontology, considers the ontology reuse, the information’s extraction by the researcher’s resume and by the Web. The OntoResearcher was modeled with indicators of scientific quality (quantitative and qualitative) which allows measuring the researcher’s qualifications. The developed system uses the information from OntoResearcher to automatize the researcher’s evaluation. The main differential of this work is the researcher’s qualification distributed in the Computer Science fields on which the researcher has worked. The main contributions of this work are: the researchers’ profiles, the development of OntoResearcher and the development of qualification system demonstrating viability of the ideas through the experimentation.
180

Qualificando autores em um processo aberto para editoração de artigos / A open process for edition and review of articles implemented over Mediawiki

Simões, Gabriel da Silva January 2008 (has links)
AWeb 2.0 coloca em evidência iniciativas que valorizam atividades comunitárias, colaborativas e democráticas. Os processos de filtragem e seleção de artigos para publicação científica caminham na contra-mão destes novos conceitos. A seleção de artigos para publicação, tanto em conferências quanto em periódicos, utiliza abordagens fechadas. O objetivo deste processo fechado é garantir que somente artigos de qualidade sejam publicados. Por outro lado, devido a falta de transparência, o processo fechado está sujeito a uma infinidade de problemas que podem surgir através de equívocos ou até mesmo de tendências anti-éticas. Constam na literatura vários exemplos de problemas com o processo de seleção fechado. Com a consolidação daWeb 2.0, ambientes abertos de edição de conteúdo conquistam cada vez mais espaço. Aproveitam contribuições espontâneas de usuários para crescer rapidamente. A aplicação do processo de edição utilizado por estes ambientes em um contexto de edição e revisão de artigos científicos pode modificar radicalmente o processo utilizado atualmente. Por outro lado, por estarem sujeitos ao acesso de usuários não comprometidos, ambientes abertos não apresentam fortes argumentos para estabelecer confiança entre usuários. Este trabalho apresenta um método dinâmico para indicação de pontos de qualificação aplicado em um protótipo desenvolvido para editoração de artigos. O protótipo segue um processo onde todas as etapas que envolvem edição, revisão e comentários dos artigos são abertas e transparentes. As qualificações indicadas pelo método são geradas a partir de dados quantitativos e qualitativos e são utilizadas para gerar um ranking de qualificação dos usuários. Este ranking tem o objetivo de contribuir para o estabelecimento de confiança entre usuários. / Web 2.0 evidence initiatives over communitarian, collaborative and democratic activities. The filtering processes for selection of papers for scientific publication goes against these new concepts. The selection of paper for publications in conferences and periodics uses closed review. The objective of this closed process is to guarantee the quality of these published papers. On the other hand, the closed process has transparency lack. It is subject to a infinity of problems that can even appear through mistakes or of anti-ethics trends. Some examples of problems with the closed process consists in literature. The consolidation of Web 2.0 brings more attention to open content edition environments. These environments use spontaneous user’s contributions to enlarge quickly. The application of the process used by open content edition environments can strongly change the currently closed process used to selection of scientific publications. On the other hand, the open process is subject to fake or not compromised users. This problem starts a lack of trust for unknown users. This work presents a method for qualification points generation applied in a prototype for edition and review of articles that extends MediaWiki, the Wikipedia’s environment. The prototype implements a process where all steps of edition, comment and review of articles are open. To complete lacks of trust between users, the prototype uses a dynamic qualification method. The qualifications indicated by this method are based in quantitative and qualitative data and the users are listed in a ranking ordered by best ratings.

Page generated in 0.1053 seconds