Spelling suggestions: "subject:"recuperadas : informacao"" "subject:"recuperada : informacao""
151 |
Preenchimento automático de formulários na web oculta / Automatically filling in hiddenweb formsKantorski, Gustavo Zanini January 2014 (has links)
Muitas informações disponíveis na Web estão armazenadas em bancos de dados on-line e são acessíveis somente após um usuário enviar uma consulta por meio de uma interface de busca. Essas informações estão localizadas em uma parte da Web conhecida como Web Oculta ou Web Profunda e, geralmente, são inacessíveis por máquinas de busca tradicionais. Uma vez que a forma de acessar os dados na Web Oculta se dá por intermédio de submissões de consultas, muitos trabalhos têm focado em como preencher automaticamente campos de formulários. Esta tese apresenta uma metodologia para o preenchimento de formulários na Web Oculta. Além disso, descreve uma categorização das técnicas de preenchimento de formulários existentes no estado da arte de coleta na Web Oculta, produzindo uma análise comparativa entre elas. A solução proposta descreve um método automático para seleção de valores para campos de formulários combinando heurísticas e técnicas de aprendizagem de máquina. Experimentos foram realizados em formulários reais da Web, de vários domínios, e os resultados indicam que a abordagem proposta apresenta desempenho comparável aos obtidos pelas técnicas do estado da arte, sendo inclusive significativamente diferente com base em avaliação estatística. / A large portion of the information on the Web is stored inside online databases. Such information is accessible only after the users submit a query through a search interface. TheWeb portion in which that information is located is called HiddenWeb or DeepWeb, and generally this part is inaccessible by traditional search engines crawlers. Since the only way to access the Hidden Web pages is through the query submissions, many works have focused on how to fill in form fields automatically, aiming at enhancing the amount of distinct information hidden behind Web forms. This thesis presents an automatic solution to value selection for fields in Web forms. The solution combines heuristics and machine learning techniques for improving the selection of values. Furthermore, this proposal also describes a categorization of form filling techniques and a comparative analysis between works in the state of the art. Experiments were conducted on real Web sites and the results indicated that our approach significantly outperforms a baseline method in terms of coverage without additional computational cost.
|
152 |
Metadata extraction from scientific documents in PDF / Extração de metadados em artigos científicos no formato PDFSouza, Alan Pinto January 2014 (has links)
A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%. / Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%.
|
153 |
Atributos discriminantes baseados em sentimento para a predição de pesquisas eleitorais : um estudo de caso no cenário brasileiro / Sentiment-based features for predicting election polls : a case study on the brazilian scenarioTumitan, Diego Costa January 2014 (has links)
O sucesso da mineração de opiniões para processar automaticamente grandes quantidades de conteúdo opinativo disponíveis na Internet tem sido demonstrado como uma solução de baixa latência e mais barata para a análise de opinião pública. No presente trabalho foi investigado se é possível prever variações de intenção de voto com base em séries temporais de sentimento extraídas de comentários de notícias, utilizando três eleições brasileiras como estudo de caso. As contribuições deste estudo de caso são: a) a comparação de duas abordagens para a mineração de opiniões em conteúdo gerado por usuários em português do Brasil; b) a proposta de dois tipos de atributos discriminantes para representar o sentimento em relação a candidatos políticos a serem usados para a previsão, c) uma abordagem para prever variações de intenção de voto que é adequada para cenários de dados esparsos. Foram desenvolvidos experimentos para avaliar a influência dos atributos discriminantes propostos em relação a acurácia da previsão, e suas respectivas preparações. Os resultados mostraram uma acurácia de 70% na previsão de variações de intenção de voto positivas e negativas. Estas contribuições são importantes passos em direção a um framework que é capaz de combinar opiniões de diversas fontes para encontrar a representatividade de uma população alvo, de modo que se possa obter previsões mais confiáveis. / The success of opinion mining for automatically processing vast amounts of opinionated content available on the Internet has been demonstrated as a less expensive and lower latency solution for gathering public opinion. In this work, we investigate whether it is possible to predict variations in vote intention based on sentiment time series extracted from news comments, using three Brazilian elections as case study. The contributions of this case study are: a) the comparison of two approaches for opinion mining in user-generated content in Brazilian Portuguese; b) the proposition of two types of features to represent sentiment behavior towards political candidates that can be used for prediction, c) an approach to predict polls vote intention variations that is adequate for scenarios of sparse data. We developed experiments to assess the influence on the forecasting accuracy of the proposed features, and their respective preparation. Our results display an accuracy of 70% in predicting positive and negative variations. These are important contributions towards a more general framework that is able to blend opinions from several different sources to find representativeness of the target population, and make more reliable predictions.
|
154 |
Agrupamento personalizado de pontos em web maps usando um modelo multidimensional - APPWM / Multidimensional model for cluster points in web mapsBigolin, Marcio January 2014 (has links)
Com o avanço da geração de informação georeferenciada torna-se extremamente importante desenvolver técnicas que auxiliem na melhora da visualização dessas informações. Neste sentido os web maps tornam-se cada vez mais comuns na difusão dessas informações. Esses sistemas permitem ao usuário explorar tendências geográficas de forma rápida e sem necessidade de muito conhecimento técnico em cartografia e softwares específicos. As áreas do mapa onde ocorre um mesmo evento com maior incidência geram visualizações confusas e que não possibilitam uma adequada tomada de decisão. Essas áreas, quando representadas através de pontos (o que é bastante comum), provocará uma sobreposição massiva de dados, devido à densidade de informações. Esta dissertação propõe uma técnica que utiliza um modelo de dados multidimensional para auxiliar a exibição das informações em um web map, de acordo com o contexto do usuário. Esse modelo organiza os dados por níveis geográficos e permite assim uma melhor compreensão da informação exibida. Os experimentos desenvolvidos mostraram que a técnica foi considerada de fácil utilização e de uma necessidade pequena de conhecimento para a execução das tarefas. Isso pode ser visto que das 59 consultas propostas para serem geradas apenas 7 precisam de mudanças significativas para serem executadas. Esses resultados permitem comprovar que o modelo se apresenta como uma boa alternativa para a tomada de decisão sobre mapas produzidos em ambiente web. / The advancement of generation of geo-referenced information becomes extremely important to develop techniques that help in improving the display of this information. In this sense the web maps become increasingly common in the dissemination of such information. These systems allow the user to explore geographical trends quickly and without much technical knowledge in cartography and specific software . The map areas where there is a single event with a higher incidence generate confusing views and not allow proper decision making. These areas , as represented by points (which is quite common) , will cause a massive overlay data , due to the density of information. This work proposes a technique that uses a multidimensional data model to support the display of information on a web map, according to the user's context . This model organizes data by geographical levels and thus allows a better understanding of the information displayed. Developed experiments showed that the technique was considered easy to use and a small need for knowledge to perform the tasks. It can be seen that the 59 queries proposals to be generated only 7 significant changes need to be executed. These results allow to prove that the model is presented as a good alternative for decision-making on maps produced in a web environment.
|
155 |
Combinando métricas baseadas em conteúdo e em referências para a detecção de plágio em artigos científicos / Combining content- and citation-based metrics for plagiarism detection in scientific papersPertile, Solange de Lurdes January 2015 (has links)
A grande quantidade de artigos científicos disponíveis on-line faz com que seja mais fácil para estudantes e pesquisadores reutilizarem texto de outros autores, e torna mais difícil a verificação da originalidade de um determinado texto. Reutilizar texto sem creditar a fonte é considerado plágio. Uma série de estudos relatam a alta prevalência de plágio no meio acadêmico e científico. Como consequência, inúmeras instituições e pesquisadores têm se dedicado à elaboração de sistemas para automatizar o processo de verificação de plágio. A maioria dos trabalhos existentes baseia-se na análise da similaridade do conteúdo textual dos documentos para avaliar a existência de plágio. Mais recentemente, foram propostas métricas de similaridade que desconsideram o texto e analisam apenas as citações e/ou referências bibliográficas compartilhadas entre documentos. Entretanto, casos em que o autor não referencia a fonte original pode passar despercebido pelas métricas baseadas apenas na análise de referências/citações. Neste contexto, a solução proposta é baseada na hipótese de que a combinação de métricas de similaridade de conteúdo e de citações/referências pode melhorar a qualidade da detecção de plágio. Duas formas de combinação são propostas: (i) os escores produzidos pelas métricas de similaridade são utilizados para ranqueamento dos pares de documentos e (ii) os escores das métricas são utilizados para construir vetores de características que serão usados por algoritmos de Aprendizagem de Máquina para classificar os documentos. Os experimentos foram realizados com conjuntos de dados reais de artigos científicos. A avaliação experimental mostra que a hipótese foi confirmada quando a combinação das métricas de similaridade usando Aprendizagem de Máquina é comparada com a combinação simples. Ainda, ambas as combinações apresentaram ganhos quando comparadas com as métricas aplicadas de forma individual. / The large amount of scientific documents available online makes it easier for students and researchers reuse text from other authors, and makes it difficult to verify the originality of a given text. Reusing text without crediting the source is considered plagiarism. A number of studies have reported on the high prevalence of plagiarism in academia. As a result, many institutions and researchers have developed systems that automate the plagiarism detection process. Most of the existing work is based on the analysis of the similarity of the textual content of documents to assess the existence of plagiarism. More recently, similarity metrics that ignore the text and just analyze the citations and/or references shared between documents have been proposed. However, cases in which the author does not reference the original source may go unnoticed by metrics based only on the references/citations analysis. In this context, the proposed solution is based on the hypothesis that the combination of content similarity metrics and references/citations can improve the quality of plagiarism detection. Two forms of combination are proposed: (i) scores produced by the similarity metrics are used to ranking of pairs of documents and (ii) scores of metrics are used to construct feature vectors that are used by algorithms machine learning to classify documents. The experiments were performed with real data sets of papers. The experimental evaluation shows that the hypothesis was confirmed when the combination of the similarity metrics using machine learning is compared with the simple combining. Also, both compounds showed gains when compared with the metrics applied individually.
|
156 |
Instanciação de atividades de atuação em um modelo de processo de negócio e seleção de serviços web em ambientes de Home Care / Instantiation of actuation activities in a business process model and selection of web services in home care environmentsSilva, Júlia Kikuye Kambara da January 2015 (has links)
Atualmente existem muitos estudos sendo conduzidos na área de Home Care, onde casas providas com sensores e atuadores podem ajudar o paciente em suas tarefas diárias, mesmo aqueles portadores de doenças crônicas ou limitações cognitivas e físicas. No contexto de Home Care, dispositivos domésticos controláveis podem agir como atuadores. Um importante desafio nessa área é a coordenação desses atuadores, para que os mesmos possam ser utilizados na prestação de cuidados ao paciente em sua casa. Para prestar auxílio em tarefas, deve ser levado em consideração o contexto do paciente e dos dispositivos presentes na casa. Este trabalho apresenta uma nova abordagem, sensível ao contexto, para selecionar a funcionalidade, de um dispositivo, mais adequada para a execução de uma atuação em um ambiente de Home Care. Nessa abordagem, as funcionalidades dos dispositivos são representadas por serviços Web, e modelos de processos de negócio são utilizados como roteiros das atividades que devem ser realizadas para gerir uma determinada situação. Desta forma, o problema de selecionar dispositivos e funcionalidades adequadas para executar uma determinada atividade de atuação de um modelo de processo de negócio é tratado através da seleção de serviços Web com base em aspectos sintáticos, semânticos e contextuais. A abordagem é avaliada através da simulação de cenários de aplicação extraídos da literatura, de forma a verificar a sua viabilidade. / There are many studies currently being conducted within the field of Home Care, where houses fulfilled with actuators and sensors can help patients in their daily lives, even the ones who suffer from chronicle diseases or cognitive and physical disabilities. In the Home Care context, controllable domestic devices can perform as actuators. An important challenge to this area refers to the coordination of such actuators so they can be used to assist patients in their home. In order to assist the patient daily live we need to take into consideration the patient and the context of household devices. This work presents a novel context-aware approach for selecting the most appropriate device functionality to execute the actuation needed in a Home Care environment. In this approach, device functionalities are described and represented by Web services, and business process models are used as guidelines for the activities that should be realized to manage a determined situation. Therefore, the issue of selecting devices and adequate functionalities to execute determined activity in a business process model is treated as an approach to select Web services based on their syntactic and semantic aspects in a context-aware manner. The approach is evaluated by simulation of application scenarios extracted from the literature in order to check its viability.
|
157 |
Editoração colaborativa e revisão aberta de textos científicos / Collaborative Writing and Open Review of Scientific PapersTeixeira, Juliano Machado January 2011 (has links)
Com o surgimento da WEB 2.0 surge um novo conceito de criação de conteúdo digital. A edição colaborativa de textos é uma prática consolidada que está se tornando cada vez mais comum em toda a internet. Com páginas totalmente dinâmicas e ferramentas específicas, surgem recursos capazes de facilitar o desenvolvimento de textos e conteúdos dos mais diversos assuntos. Apesar desta evolução na forma da criação de textos diversos na internet, o conteúdo de artigos científicos ainda é produzido da forma tradicional na maior parte dos eventos e periódicos. Com revisões ocorrendo no processo blind review o autor muitas vezes não conhece o revisor de seu trabalho. Além disso, o artigo muitas vezes é limitado a uma única versão submetida ao evento, pois não ocorre um processo de evolução, como verificado em enciclopédias online, por exemplo. Um sistema web, aberto à comunidade, que permita criar, editar, indexar e buscar artigos pode contribuir positivamente no contexto das revisões, tornando o processo mais transparente e democrático. Se este sistema permitisse também que os artigos fossem discutidos e revisados, utilizando uma abordagem aberta, seria criado um novo canal para contribuições científicas, ajudando a aumentar a qualidade das publicações. Assim, o objetivo principal deste trabalho é avaliar a utilização da técnica de edição colaborativa de textos, aplicada em contextos científicos, verificando se esta abordagem auxilia na produção de artigos de qualidade. Para isto, foi desenvolvido um protótipo que estende as características do MediaWiki, o software utilizado pela Wikipedia. Com o auxílio desta ferramenta foi realizado dois experimentos onde foram obtidos resultados satisfatórios. Baseado no resultado dos experimentos é apresentado uma seção de análise do processo que demonstra as etapas necessárias para que o processo ocorra com o propósito de que, ao final, obtenham-se artigos científicos com conteúdo qualificado. / The consolidation of Web 2.0 brings more attention to a new concept of digital content edition. The Collaborative Writing is a practice that is becoming increasingly common on the internet. With dynamic pages and specific tools, there are resources that can facilitate text writing. Despite such evolution in the conception of texts on the Internet the scientific articles’ content is still produced in the traditional individual and sequential way in most conferences and journals. The author often does not know the reviewer of his work due to a blind review process. Moreover, the article is often limited to a single version submitted to a conference, because there is not a process of text evolution, as seen in online encyclopedias, for example. A web system that allows creating, editing, indexing and searching articles can contribute to the quality of the reviewing process, making it more transparent and with better quality. If such a system could also allow items to be discussed and reviewed, in a transparent fashion, it will create a new model for scientific contributions, increasing the quality of publications. Hence, the main objective of this work is to evaluate the use of collaborative writing applied to scientific contexts, and to analyze whether such an approach would help in the production of quality articles. This research was developed in an environment that extends features of MediaWiki software employed by Wikipedia. With this tool, it was conducted two experiments. Based on the results of these experiments, it is presented a process analysis that demonstrates the steps necessary to ensure the quality of papers produced.
|
158 |
Um modelo de qualidade para caracterização e seleção de bancos de dados de biologia molecular / A quality model for characterizing and selecting molecular biology databasesLichtnow, Daniel January 2012 (has links)
O número de banco de dados de biologia molecular presentes na Web vem aumentando significativamente nos últimos anos. A dificuldade de localizar estes bancos de dados na Web incentivou a criação de uma série de catálogos. Mesmo com estes catálogos, persiste o desafio de selecionar aqueles bancos de dados que possuem maior qualidade. Normalmente, a seleção é feita por usuários, que nem sempre possuem o conhecimento necessário e enfrentam problemas pela ausência de uma descrição mais rica dos bancos de dados nestes catálogos. Esta ausência de uma descrição mais rica dos bancos de dados gerou iniciativas recentes que visam identificar metadados relevantes para descrição dos bancos de dados de biologia molecular. No entanto, até o momento, como utilizar estes metadados na seleção dos bancos de dados presentes em um catálogo, relacionando estes às dimensões de qualidade de dados, é um tema pouco explorado. Da mesma forma, o uso de Web metrics, utilizadas na seleção de páginas Web, vem sendo quase ignorado na determinação da qualidade de bancos de dados de biologia molecular. Tendo em vista este cenário, nesta tese foi desenvolvido um modelo de qualidade que visa auxiliar na seleção de bancos de dados de biologia molecular presentes em catálogos na Web a partir da avaliação global de um banco de dados por meio de metadados e Web metrics. A definição deste modelo envolve adoção de metadados propostos em outros trabalhos, a proposição de novos metadados e a análise das dimensões de qualidade de dados. Experimentos são realizados de forma a avaliar a utilidade de alguns dos metadados e Web metrics na determinação da qualidade global de um banco de dados. A representação dos metadados, dimensões de qualidade, indicadores de qualidade e métricas usando recursos de Web Semântica é também discutida. O principal cenário de aplicação da abordagem é relacionado à necessidade que um usuário tem de escolher o melhor banco de dados para buscar informações relevantes para o seu trabalho dentre os existentes em um catálogo. Outro cenário está relacionado a sistemas que integram dados de fontes distintas e que necessitam, em muitos casos, reduzir o número de bancos de dados candidatos a um processo de integração. / The number of molecular biology databases has increased in the last years. The difficulty of identifying these databases on the Web is the motivation to create database catalogs. However, even using these catalogs, the challenge is how to identify the best databases within these sets of identified databases. In general, the selection process is done by users, who sometimes have little knowledge about databases related to a specific domain and will have difficulties to select the best databases. These difficulties are related to the absence of information about databases in these catalogs. This absence of information has generated some recent initiatives aiming to identify relevant metadata for describing molecular biology databases. However, at the present moment, how to use these metadata for selecting databases from a catalog, taking into account data quality dimensions, is underexplored. In a similar way, Web metrics used for selecting Web pages is almost ignored in the molecular biology databases evaluation process. In this scenario, this thesis defines a quality model, based on some identified data quality dimensions, aiming to help selecting a database from molecular biology database catalogs. This selection process is done by considering database metadata and Web metrics. The definition of this model involves the adoption of metadata from related works, the definition of new metadata and the analysis of data quality dimensions. A set of experiments evaluates the usefulness of metadata and Web metrics for evaluating the overall quality of databases. How to represent database metadata, quality dimensions, quality indicators and quality metrics using Semantic Web resources is also discussed. One application scenario relates to users who need to choose the best databases available in a catalog. Another application scenario is related to database integration systems in which it is necessary to determinate the overall quality of a database for reducing the number of databases to be integrated.
|
159 |
Avaliação e recomendação de colaborações em redes sociais acadêmicas / Evaluation and recommendation of collaborations on academic social networksLopes, Giseli Rabello January 2012 (has links)
No contexto acadêmico o trabalho de pesquisa científica, nas áreas tecnológicas, é efetuado através de colaborações e cooperações entre diferentes pesquisadores e grupos de pesquisa. Existem pesquisadores atuando nos mais variados assuntos e nas mais diversas subáreas de pesquisa. Para analisar e expandir tais colaborações, muitas vezes, é necessário avaliar o nível de cooperação dos atuais parceiros, bem como identificar novos parceiros para conduzir trabalhos conjuntos. Tal avaliação e identificação não são tarefas triviais. Dessa forma, abordagens para avaliação e recomendação de colaborações são de grande valia para o aperfeiçoamento da cooperação e consequente melhoria da qualidade da pesquisa. Em relação à análise de colaborações, a demanda por critérios de avaliação de qualidade e por métodos de avaliação associados está aumentando e tem sido foco de muitos estudos na última década. Esse crescimento surge devido à busca por excelência acadêmica e para o apoio à tomada de decisões por parte de agências de financiamento para a alocação de recursos. Nesse contexto, há uma tendência a empregar técnicas bibliométricas, especialmente métodos estatísticos aplicados a citações. Com tanto material sendo pesquisado e publicado, resolveu-se explorar outra faceta para definição de indicadores de qualidade no contexto acadêmico visando a obtenção de resultados complementares e que garantam, através de sua validação experimental, uma melhor geração de indicadores. Desse modo, nesta tese, utiliza-se a tendência atual de estudos em análises de redes sociais, definindo métricas sociais específicas para definição de tais indicadores. Neste trabalho, é apresentada uma função para avaliação de qualidade de grupos de pesquisa com base nas colaborações internas entre seus pesquisadores membros. Estas colaborações são avaliadas através de análises em redes sociais bibliográficas acadêmicas baseadas em métricas de interação social. Com relação à identificação ou recomendação de colaborações, esta tese apresenta uma abordagem que considera tanto a parte de conteúdo quanto a de estrutura de uma rede. Especificamente, o conteúdo envolve a correlação entre os pesquisadores por áreas de pesquisa, enquanto a estrutura inclui a análise da existência de relacionamentos prévios entre os pesquisadores. Grande parte das abordagens que efetuam a recomendação de colaborações foca em recomendar especialistas em uma determinada área ou informação. Essas não consideram a área de atuação do usuário alvo da recomendação, como no caso da abordagem apresentada nesta tese. Além disso, neste trabalho, a obtenção de informações sobre os relacionamentos entre usuários, para construção de uma rede social acadêmica, é feita de forma implícita, em dados sobre publicações obtidos de bibliotecas digitais. Utilizando tais dados, também é possível explorar aspectos temporais para ponderação desses relacionamentos, utilizando-os para fins de recomendação de colaborações. Não foram encontrados trabalhos prévios nesse sentido. A presente abordagem inclui a recomendação não só de novas colaborações, como também, a recomendação de intensificação de colaborações já existentes, o que não é considerado por outros trabalhos relacionados. Dessa forma, pode-se dizer que os objetivos de recomendação da presente abordagem são mais amplos. Após propor novas técnicas para avaliação e identificação de parcerias, esta tese as valida através de uma avaliação experimental. Especificamente, experimentos com dados reais sobre as relações de coautoria entre pesquisadores pertencentes a diferentes grupos de pesquisa são apresentados para avaliação e demonstração da validade e da aplicabilidade das diferentes proposições desta tese referentes à avaliação de qualidade e recomendação de colaborações. / In technological fields, scientific research is performed through collaboration and cooperation of different researchers and research groups. In order to analyze and expand such collaborations, it is necessary to evaluate the level of cooperation between current partners as well as to identify new partners. Such an analysis and identification are not trivial tasks. Thus, approaches to evaluating and recommending collaborations are valuable to improve cooperation and, hence, improve research quality. Regarding the collaborations evaluation, the demand for quality assessment criteria and associated evaluation methods is increasing. Indeed, such evaluations have been the focus of many studies in the last decade. This growth arises from the pursuit of academic excellence and decision making of funding agencies. In this context, the trend is to employ bibliometric techniques, especially citation statistics. With so much material being researched and published, another facet for defining quality indicators is explored. Our goal is to obtain additional results that ensure, through its experimental validation, a better indicators generation. In this thesis, the current trend of studies in social network analysis is applied in the definition of such indicators. Specifically, we introduce a function for quality assessment of research groups based on internal collaborations among their member researchers. These collaborations are evaluated through analysis on bibliometric academic social networks based on metrics of social interaction. Regarding the collaborations recommendation, this thesis presents an approach that considers both the content and structure of research networks. The content involves the correlation among researchers by research areas whereas the structure includes the analysis of existing relationships among researchers. Most of the approaches that perform the collaborations recommendation focus on recommending experts in a certain area or information. They do not consider the working area of the recommendation target user, as we do in this thesis. Moreover, here, the information about the researchers’ relationships, employed for building an academic social network, is implicitly obtained through publications data available in digital libraries. Moreover, we expand previous analysis by considering temporal aspects to determine the relationships weights (which may be used to collaborations recommendation purposes). There were no previous studies in this direction. Our approach includes not only the recommendation of new collaborations, but also the recommendation of the collaborations intensification, which is not considered by other related work. After proposing new techniques for evaluating and identifying research collaborators, this thesis validates it through an experimental evaluation. Specifically, we evaluate and demonstrate the applicability of our techniques considering real datasets on the co-author relationships among researchers from different research groups.
|
160 |
Extração e representação semântica de fatos temporais / EXTIO – extraction of temporal information using ontologiesGallina, Leandro Zulian January 2012 (has links)
Este trabalho descreve EXTIO (Extraction of Temporal Information Using Ontologies), uma abordagem que permite a normalização de expressões temporais e a organização em ontologia de fatos temporais extraídos de texto em linguagem natural. Isto permite que motores de busca possam aproveitar melhor a informação temporal de páginas daWeb, realizando inferências sobre fatos temporais. EXTIO propõe: a normalização de expressões temporais relativas através de uma gramática formal para a língua inglesa; e a organização de fatos temporais extraídos do texto normalizado em uma ontologia. Expressões temporais relativas são construções textuais de tempo que se referem a uma data absoluta cujo valor é relativo a outra data. Por exemplo, a expressão “three months ago” (três meses atrás) é uma expressão temporal relativa, pois seu surgimento no texto se refere a uma data três meses antes da data de publicação do documento. Experimentos demonstram que a gramática formal proposta para a normalização de expressões temporais relativas supera o baseline na eficácia da normalização e no tempo de processamento de documentos em linguagem natural. A principal contribuição deste trabalho é a gramática formal para normalização de expressões temporais relativas de texto na língua inglesa. Também é contribuição deste trabalho o processamento semântico da informação temporal disponível em formato texto em documentos, para que possa ser melhor aproveitada por motores de busca. / This work describes EXTIO, an approach for the normalization of temporal expressions and the semantic organization of temporal facts extracted from natural language text. This approach allows search engines to benefit from temporal information in Web pages, performing inferences on temporal facts. EXTIO proposes: the normalization of relative temporal expressions through a formal grammar for the English language; and the organization of temporal facts extracted from normalized text in an ontology. Relative temporal expressions are textual time structures that refer to an absolute date whose value is relative to another date. For instance, “three months ago” is a relative temporal expression because its appearance in the text refers to a date three months before the document publication date. Experiments show that the proposed formal grammar for the normalization of relative temporal expressions has a better performance than the baseline in effectiveness and processing time. The main contribution of this work is the formal grammar for the normalization of temporal expressions in natural language text in English. Another contribution of this work is the semantic processing of temporal information available in documents, so that search engines may benefit from this information.
|
Page generated in 0.1154 seconds