Global ETD Search

151	Extração e representação semântica de fatos temporais / EXTIO – extraction of temporal information using ontologies Gallina, Leandro Zulian January 2012 (has links) Este trabalho descreve EXTIO (Extraction of Temporal Information Using Ontologies), uma abordagem que permite a normalização de expressões temporais e a organização em ontologia de fatos temporais extraídos de texto em linguagem natural. Isto permite que motores de busca possam aproveitar melhor a informação temporal de páginas daWeb, realizando inferências sobre fatos temporais. EXTIO propõe: a normalização de expressões temporais relativas através de uma gramática formal para a língua inglesa; e a organização de fatos temporais extraídos do texto normalizado em uma ontologia. Expressões temporais relativas são construções textuais de tempo que se referem a uma data absoluta cujo valor é relativo a outra data. Por exemplo, a expressão “three months ago” (três meses atrás) é uma expressão temporal relativa, pois seu surgimento no texto se refere a uma data três meses antes da data de publicação do documento. Experimentos demonstram que a gramática formal proposta para a normalização de expressões temporais relativas supera o baseline na eficácia da normalização e no tempo de processamento de documentos em linguagem natural. A principal contribuição deste trabalho é a gramática formal para normalização de expressões temporais relativas de texto na língua inglesa. Também é contribuição deste trabalho o processamento semântico da informação temporal disponível em formato texto em documentos, para que possa ser melhor aproveitada por motores de busca. / This work describes EXTIO, an approach for the normalization of temporal expressions and the semantic organization of temporal facts extracted from natural language text. This approach allows search engines to benefit from temporal information in Web pages, performing inferences on temporal facts. EXTIO proposes: the normalization of relative temporal expressions through a formal grammar for the English language; and the organization of temporal facts extracted from normalized text in an ontology. Relative temporal expressions are textual time structures that refer to an absolute date whose value is relative to another date. For instance, “three months ago” is a relative temporal expression because its appearance in the text refers to a date three months before the document publication date. Experiments show that the proposed formal grammar for the normalization of relative temporal expressions has a better performance than the baseline in effectiveness and processing time. The main contribution of this work is the formal grammar for the normalization of temporal expressions in natural language text in English. Another contribution of this work is the semantic processing of temporal information available in documents, so that search engines may benefit from this information. Banco : Dados Banco : Dados temporais Recuperacao : Informacao Temporal expressions Information retrieval Formal grammars Ontologies
152	Um modelo de evolução de esquemas conceituais para bancos de dados orientados a objetos com o emprego de versões / A schema evolution model for object-oriented databases with versions Galante, Renata de Matos January 1998 (has links) Aplicações ditas não convencionais, como, por exemplo, CAD, CASE, Automação de Escritórios, entre outras, freqüentemente exigem a manutenção de diversos estados da base de dados, retendo o histórico das modificações realizadas. Como resposta a tal requisito, é empregado o conceito de Versão. Neste trabalho o Modelo de Versões proposto por Golendziner é empregado no contexto da evolução de esquemas. Versões são utilizadas para armazenar os diferentes estados do esquema, de suas classes e métodos e, ainda, para posterior adaptação das instancias vigentes no banco de dados, mantendo um histórico da evolução do esquema do banco de dados. É proposto um modelo flexível de suporte a evolução de esquemas em bancos de dados orientados a objetos, bem como estratégias de propagação das instancias vigentes na base de dados. O histórico das modificações é representado pela derivação de versões do esquema e de seus elementos. Os estados anteriores as transformações são preservados, permitindo aos usuários a navegação retroativa e proativa entre versões, para realização de operações consistentes de modificação e consulta. / Non-conventional applications such as CAD, CASE, office automation often require the maintenance of various database states, to keep track of the history of the performed updates. The concept of version is employed to support such requirement. In this work, the version model proposed by Golendziner is used in the schema evolution context. Versions are used to store the different states of the schema, classes and methods, as well as for the mapping of database instances among the various schema versions, thus keeping the history of the database schema evolution. A flexible model is proposed to support schema evolution in object-oriented databases, as well as the strategies to propagate the corresponding changes to the database instances. Versions of schema, as well as versions of the schema elements represent their evolution history. In the proposed model, previous states are preserved allowing the user to make queries about consistency and modifications in both backward and forward version. Banco : Dados Versoes : Banco : Dados Orientacao : Objetos Object-oriented databases Schema evolution Versions
153	Utilizando o processo de descoberta de conhecimento em banco de dados para identificar candidatos a padrão de análise para bancos de dados geográficos Silva, Carolina Martins Soares January 2003 (has links) Sistemas de informações geográficas (SIG) permitem a manipulação de dados espaço-temporais, sendo bastante utilizados como ferramentas de apoio à tomada de decisão. Um SIG é formado por vários módulos, dentre os quais o banco de dados geográficos (BDG), o qual é responsável pelo armazenamento dos dados. Apesar de representar, comprovadamente, uma fase importante no projeto do SIG, a modelagem conceitual do BDG não tem recebido a devida atenção. Esse cenário deve-se principalmente ao fato de que os profissionais responsáveis pelo projeto e implementação do SIG, em geral, não possuem experiência no uso de metodologias de desenvolvimento de sistemas de informação. O alto custo de aquisição dos dados geográficos também contribui para que menor atenção seja dispensada à etapa de modelagem conceitual do BDG. A utilização de padrões de análise tem sido proposta tanto para auxiliar no projeto conceitual de BDG quanto para permitir que profissionais com pouca experiência nessa atividade construam seus próprios esquemas. Padrões de análise são utilizados para documentar as fases de análise de requisitos e modelagem conceitual do banco de dados, representando qualquer parte de uma especificação de requisitos que tem sua origem em um projeto e pode ser reutilizada em outro(s). Todavia, a popularização e o uso de padrões de análise para BDG têm sido prejudicados principalmente devido à dificuldade de disponibilizar tais construções aos projetistas em geral. O processo de identificação de padrões (mineração de padrões) não é uma tarefa simples e tem sido realizada exclusivamente com base na experiência de especialistas humanos, tornando o processo lento e subjetivo. A subjetividade prejudica a popularização e a aplicação de padrões, pois possibilita que tais construções sejam questionadas por especialistas com diferentes experiências de projeto. Dessa forma, a identificação ou o desenvolvimento de técnicas capazes de capturar a experiência de especialistas de forma menos subjetiva é um passo importante para o uso de padrões. Com esse objetivo, este trabalho propõe a aplicação do processo de descoberta de conhecimento em banco de dados (DCBD) para inferir candidatos a padrão de análise para o projeto de BDG. Para tanto, esquemas conceituais de BDG são usados como base de conhecimento. DCBD é o processo não trivial de descoberta de conhecimento útil a partir de uma grande quantidade de dados. Durante o desenvolvimento da pesquisa ficou claro que a aplicação do processo de DCBD pode melhorar o processo de mineração de padrões, pois possibilita a análise de um maior número de esquemas em relação ao que é realizado atualmente. Essa característica viabiliza que sejam considerados esquemas construídos por diferentes especialistas, diminuindo a subjetividade dos padrões identificados. O processo de DCBD é composto de várias fases. Tais fases, assim como atividades específicas do problema de identificar padrões de análise, são discutidas neste trabalho. Banco : Dados Banco : Dados geograficos Modelagem conceitual Sistemas : Informacao geografica Descoberta : Conhecimento
154	Extração e representação semântica de fatos temporais / EXTIO – extraction of temporal information using ontologies Gallina, Leandro Zulian January 2012 (has links) Este trabalho descreve EXTIO (Extraction of Temporal Information Using Ontologies), uma abordagem que permite a normalização de expressões temporais e a organização em ontologia de fatos temporais extraídos de texto em linguagem natural. Isto permite que motores de busca possam aproveitar melhor a informação temporal de páginas daWeb, realizando inferências sobre fatos temporais. EXTIO propõe: a normalização de expressões temporais relativas através de uma gramática formal para a língua inglesa; e a organização de fatos temporais extraídos do texto normalizado em uma ontologia. Expressões temporais relativas são construções textuais de tempo que se referem a uma data absoluta cujo valor é relativo a outra data. Por exemplo, a expressão “three months ago” (três meses atrás) é uma expressão temporal relativa, pois seu surgimento no texto se refere a uma data três meses antes da data de publicação do documento. Experimentos demonstram que a gramática formal proposta para a normalização de expressões temporais relativas supera o baseline na eficácia da normalização e no tempo de processamento de documentos em linguagem natural. A principal contribuição deste trabalho é a gramática formal para normalização de expressões temporais relativas de texto na língua inglesa. Também é contribuição deste trabalho o processamento semântico da informação temporal disponível em formato texto em documentos, para que possa ser melhor aproveitada por motores de busca. / This work describes EXTIO, an approach for the normalization of temporal expressions and the semantic organization of temporal facts extracted from natural language text. This approach allows search engines to benefit from temporal information in Web pages, performing inferences on temporal facts. EXTIO proposes: the normalization of relative temporal expressions through a formal grammar for the English language; and the organization of temporal facts extracted from normalized text in an ontology. Relative temporal expressions are textual time structures that refer to an absolute date whose value is relative to another date. For instance, “three months ago” is a relative temporal expression because its appearance in the text refers to a date three months before the document publication date. Experiments show that the proposed formal grammar for the normalization of relative temporal expressions has a better performance than the baseline in effectiveness and processing time. The main contribution of this work is the formal grammar for the normalization of temporal expressions in natural language text in English. Another contribution of this work is the semantic processing of temporal information available in documents, so that search engines may benefit from this information. Banco : Dados Banco : Dados temporais Recuperacao : Informacao Temporal expressions Information retrieval Formal grammars Ontologies
155	Tratamento de conflitos e detecção de deltas em atualização através de visões XML / Conflict resolution and difference detection in updates through XML views Vargas, Andre Prisco January 2007 (has links) A linguagem XML tem se tornado um padrão no intercâmbio de informações naWeb. No entanto, a maioria das organizações continua a armazenar seus dados em bancos de dados relacionais. Diante deste ambiente, surge a necessidade de se construir aplicações que permitam às empresas o intercâmbio de informações via XML, mas sem que estas empresas tenham que migrar suas bases relacionais. Neste trabalho, é apresentada uma técnica para importar e exportar documentos XML, focada em cenários entre empresas onde visões XML são extraídas de uma base de dados relacional e enviadas via Web (ou qualquer outro meio) para outra aplicação que as edita e as retorna. Através da edição da visão XML, a própria base de dados relacional é modificada, atualizando assim os dados da empresa. A base de dados relacional deve ser atualizada com as novas informações da visão XML. Neste tipo de transação tem-se as seguintes considerações: 1. A visão XML pode ser atualizada por qualquer aplicação. Editores de texto, banco de dados XML e aplicações específicas estão entre as aplicações que podematualizála. 2. A aplicação que recebe a visão XML fica de posse dela por um período não determinado, podendo inclusive não retornar a visão. Durante este período a aplicação pode ficar desconectada da base de dados geradora da visão XML. 3. Enquanto a visão XML está sendo editada, outras aplicações podem acessar e atualizar a base de dados. 4. Não existe conhecimento semântico específico sobre os dados contidos na visão XML. Portanto, para este tipo de aplicação, não é realista fazer um controle de concorrência baseado em bloqueios das tuplas contidas na visão. Da mesma forma, não é possível esperar que o usuário expresse, através de uma linguagem ou formato padrão, as alterações efetuadas na visão XML. Ocorre neste ambiente dois problemas: (i) identificar as modificações feitas na visão e (ii) identificar e resolver conflitos que possam ser causados por modificações na base de dados durante a transação. O objetivo deste trabalho é desenvolver uma técnica para exportação e importação de visões XML que minimize estes dois problemas. Neste trabalho é proposta uma arquitetura que utiliza algoritmos de detecção de diferenças em documento XML e uma extensão do sistema de atualização de visões XML PATAXÓ, um sistema já existente de importação e exportação de documentos XML em bases relacionais. Também é apresentado, para o módulo de gerenciamento de transações da arquitetura, uma proposta de detecção e tratamento de conflitos baseada em regras geradas apenas sobre a estrutura da visão XML. / XML has become the standard format for exchanging information on the Web. However, many organizations continue storing their data in relational databases. In this context, it becomes necessary to build applications that allow companies to exchange information via XML without having to share their relational databases. This thesis introduces a technique for exporting and importing XML documents from relational databases in a scenario of business to business (B2B) applications. In the considered scenario, a XML view is extracted from a relational database and then sent via the Web (or any other means) to another separate application where the information is edited and then sent back after a certain period of time. Changes introduced on the XML view must be mapped into updates on the relational database, thus implementing business transactions etc. These types of transaction have the following considerations. 1) Any application may be used to edit the XML view. There is no need for a specific application to update it. 2) The application that receives the XML view retains its view during an indeterminate period of time having the option of not returning the view. During this period of time, the application is disconnected from the relational DBMS. 3) During the period of time in which the XML view is being updated, other applications may access and update the database. 4) There is no specific semantic knowledge regarding the data contained within the XML view. Therefore, with this type of application, it is not realistic to have a pessimistic concurrency control mecahnism based on data locking. In the same way, it is not realistic to expect a user to express the updates contained within the XML view through a specific language. Thus there are two main problems to be solved. Firstly, the identification of which modifications were made within the view, and secondly, identifying and solving conflicts that may arise due to updates in the database during the transaction. The objective of this thesis is to develop a technique for exporting and importing XML views that addresses these two problems. The thesis describes an approach to detect XML differences, as well as a extension of Pataxó, an already existing XML import/export system for relational databases. Additionally, the thesis describes the transaction management module that implements the proposed approach for detecting and handling conflicts due to updates on the XML view. Banco : Dados Banco : Dados relacionais XML (Linguagem de marcação) Updates through views Delta detection Conflict resolution
156	Implementação de consultas para um modelo de dados temporal orientado a objetos / Implementation of queries for a temporal object data model Carvalho, Tanisi Pereira de January 1997 (has links) O modelo TF-ORM (Temporal Functionality in Objects With Roles Model) é um modelo de dados temporal orientado a objetos que utiliza o conceito de papeis para representar os diferentes comportamentos dos objetos. 0 modelo permite a modelagem dos aspectos estáticos e dinâmicos da aplicação pois considera todos os estados dos objetos ao longo de sua evolução. Sua linguagem de consulta e baseada na linguagem SQL e possibilita a recuperação de diferentes histórias do banco de dados. Este trabalho apresenta um sistema visual de consulta para o modelo TFORM. O VQS TF-ORM (Visual Query System TF-ORM) é um ambiente para recuperação de informações temporais. O sistema permite que as consultas sejam elaboradas de três formas alternativas: textual, gráfica ou por formulários. A linguagem gráfica possui o mesmo poder de expressão da linguagem textual, permitindo que a consulta seja elaborada diretamente sobre o esquema conceitual gráfico do modelo com o auxilio de um conjunto de janelas e elementos visuais. A recuperação de informações utilizando-se formulários não possui o mesmo poder de expressão da linguagem textual, mas possibilita a recuperação dos valores das propriedades de um determinado objeto através de uma hierarquia de janelas. A recuperação de informações através do sistema visual de consulta do modelo apresenta algumas facilidades tais como: representação visual dos operadores temporais do modelo, definição de níveis de detalhe e navegação sobre o esquema gráfico, armazenamento das consultas para posterior utilizando, possibilidade de representar uma consulta textual na forma visual e vice-versa, entre outras. Alem da preocupação com a definição de restrições temporais, o ambiente considera ainda as diferentes formas de apresentação do resultado da consulta que podem ser selecionadas pelo usuário. No sistema apresentado neste trabalho, o modelo TF-ORM é implementado em um banco de dados relacional que utiliza a linguagem SQL para recuperação de informações. Para a implementação do modelo em um banco de dados relacional foi feito um mapeamento, que determina como os conceitos de orientação a objetos, papel e tempo devem ser mapeados para tabelas e atributos no modelo relacional. As consultas realizadas na linguagem TF-ORM são então traduzidas para a linguagem de consulta do banco de dados relacional. O ambiente foi implementado utilizando a ferramenta para desenvolvimento de aplicações Delphi e o banco de dados Watcom, um banco de dados relacional que permite a recuperação de informações no padrão SQL/ANSI. / TF-ORM model (Temporal Functionality in Objects with Roles Model) is an object-oriented temporal data model which uses the role concept to represent different behaviors of objects. The model allows modelling of the static and the dynamic aspects of an application representing all the states of its evolution. The TF-ORM query language is based on the SQL language and enables the recovery of different database histories. This work represents a visual query system for the TF-ORM model. The VQS TF-ORM (Visual Query System TF-ORM) is an environment for recovery of temporal information. The system allows queries to be elaborated in three alternatives way: textual, graphic or by forms. The graphic language has the same functionality of the textual lan g uage permitting the query to be elaborated directly on the graphic conceptual schema of the model this operation is supported by a set of windows and visual elements. The information recovery using forms doesn't have the same functionality of the textual lan guage, but enables recovery of property values of an object through window hierarchies. Information recovery using the visual query system of the model presents some facilities: the visual representation of temporal operators, different levels of details for the navigation on the graphic schema, query storage for later use, possibility of representing a textual query in a visual way and vice-versa. The environment supports the definition of temporal constraints and the selection by the user of different representations forms for the results of a query. In the presented system, the TF-ORM model is implemented in a relational database which uses SQL language for information recovery. In order to implement the model in a relational database, a mapping was done - the concepts of the object orientation, roles and time were mapped in to tables and attributes to the relational model. The queries performed in the TF-ORM language are translated into the query lan guage of relational database. The environment was implemented using Delphi and the Watcom database, a relational database which allows information recovery in SQL/ANSI standard. Banco : Dados Banco : Dados temporais Orientacao : Objetos Database Information recovery Visual query language Temporal model
157	Extração semântica de dados semi-estruturados através de exemplos e ferramentas visuais Silveira, Iraci Cristina da January 2001 (has links) Existe uma necessidade latente de pesquisar, filtrar e manipular informações disponíveis em diversos formatos irregulares, entre elas as informações distribuídas na WWW (World Wide Web). Esses tipos de dados são semi-estruturados, pois não possuem uma estrutura explícita e regular, o que dificulta sua manipulação. Este trabalho apresenta como proposta o projeto de uma ferramenta para realizar a extração semântica e semi-automática de dados semi-estruturados. O usuário especifica, através de uma interface visual, um exemplo da estrutura hierárquica do documento e de seu relacionamento com os conceitos da ontologia, gerando uma gramática descritiva da estrutura implícita do mesmo. A partir dessa gramática, a ferramenta realiza a extração dos próximos documentos de forma automática, reestruturando o resultado em um formato regular de dados, neste caso, XML (eXtensible Markup Language). Além da conceituação do método de extração, são apresentados os experimentos realizados com o protótipo da ferramenta, bem como, os resultados obtidos nestes experimentos. Para a construção desta ferramenta, são analisadas características de outros métodos que constituem o estado da arte em extração de dados semi-estruturados. Armazenamento : Dados Recuperacao : Informacao Banco : Dados semi-estruturados Extração semântica
158	Regras para transformação de esquemas conceituais definidos a partir de um framework de banco de dados geográficos para esquemas lógicos de SIG, com base no padrão SAIF Costa, Andreia Castro January 2001 (has links) O objetivo dedste trabalho é investigar o projeto de banco de dados aplicado a Sistemas de Informações Geográficas (SIG), mais especificamente, do mapeamento de esquemas conceituais, orientado a objetos, para esquemas lógicos implementados por softwares de SIG comerciais. A transformação dos esquemas conceituais para os lógicos é realizado através da idedntificação de um conjunto de regras genéricas de mapeamento de qualquer esquema concecitual de banco de dados geográficos, baseados em um framework conceitual, para os esquemas lógicos proprietários dos diversos SIG existentes. A concretização desta tarefa de transformação é possível mediante a proposta de um ambiente de suporte. Esse ambiente fornece uma estrutura específica, constituída por uma linguagem formal, definida pelo padrão SAIF (Saptial Archive and Interchange Format), pela ferramenta FME (feature Manipulation Engine) e pela ferramenta CASE Rational Rose v.2000e. O conjunto de regras genéricas elaborado neste trabalho, é composto por dois subconjuntos. O primeiro define regras de correspondência, determinando uma relação entre os conceitos da realidade percebidos pelo Framework conceitual e a linguagem formal apresentada pelo padrão SAIF. O segundo subconjunto define regras de transformação, onde busca-se mapear os conceitos do paradigma da orientação a objetos par aos conceitos relacionais utilizazdos pela maioria dos softwares de SIG, disponíveis no mercado. Com a finalidade de validar a aplicabilidadee deste conjunto de regras de mapeamento e do ambiente de suporte proposto, este trabalho inclui também a implementação de um protótipo, o qual executa a automatização da trasnformação dos esquemas conceituais para os esquemas lógicos de banco de dados geográfico. Geoinformática Sistemas : Informacao geografica Banco : Dados geograficos Regras : Mapeamento SAIF
159	Detecção, gerenciamento e consulta a réplicas e a versões de documentos XML / Detection, management and querying of replicas and versions of XML documents Saccol, Deise de Brum January 2008 (has links) O objetivo geral desta tese é a detecção, o gerenciamento e a consulta às réplicas e às versões de documentos XML. Denota-se por réplica uma cópia idêntica de um objeto do mundo real, enquanto versão é uma representação diferente, mas muito similar, deste objeto. Trabalhos prévios focam em gerenciamento e consulta a versões conhecidas, e não no problema da detecção de que dois ou mais objetos, aparentemente distintos, são variações (versões) do mesmo objeto. No entanto, o problema da detecção é crítico e pode ser observado em diversos cenários, tais como detecção de plágio, ranking de páginas Web, identificação de clones de software e busca em sistemas peer-to-peer (P2P). Nesta tese assume-se que podem existir diversas réplicas de um documento XML. Documentos XML também podem ser modificados ao longo do tempo, ocasionando o surgimento de versões. A detecção de réplicas é relativamente simples e pode ser feita através do uso de funções hash. Já a detecção de versões engloba conceitos de similaridade, a qual pode ser medida por várias métricas, tais como similaridade de conteúdo, de estrutura, de assunto, etc. Além da análise da similaridade entre os arquivos também se faz necessária a definição de um mecanismo de detecção de versões. O mecanismo deve possibilitar o gerenciamento e a posterior consulta às réplicas e às versões detectadas. Para que o objetivo da tese fosse alcançado foram definidos um conjunto de funções de similaridade para arquivos XML e o mecanismo de detecção de réplicas e de versões. Também foi especificado um framework onde tal mecanismo pode ser inserido e os seus respectivos componentes, que possibilitam o gerenciamento e a consulta às réplicas e às versões detectadas. Foi realizado um conjunto de experimentos que validam o mecanismo proposto juntamente com a implementação de protótipos que demonstram a eficácia dos componentes do framework. Como diferencial desta tese, o problema de detecção de versões é tratado como um problema de classificação, para o qual o uso de limiares não é necessário. Esta abordagem é alcançada pelo uso da técnica baseada em classificadores Naïve Bayesianos. Resultados demonstram a boa qualidade obtida com o mecanismo proposto na tese. / The overall goals of this thesis are the detection, management and querying of replicas and versions of XML documents. We denote by replica an identical copy of a real-world object, and by version a different but very similar representation of this object. Previous works focus on version management and querying rather than version detection. However, the version detection problem is critical in many scenarios, such as plagiarism detection, Web page ranking, software clone identification, and peer-to-peer (P2P) searching. In this thesis, we assume the existence of several replicas of a XML document. XML documents can be modified over time, causing the creation of versions. Replica detection is relatively simple and can be achieved by using hash functions. The version detection uses similarity concepts, which can be assessed by some metrics such as content similariy, structure similarity, subject similarity, and so on. Besides the similarity analysis among files, it is also necessary to define the version detection mechanism. The mechanism should allow the management and the querying of the detected replicas and versions. In order to achieve the goals of the thesis, we defined a set of similarity functions for XML files, the replica and version detection mechanism, the framework where such mechanism can be included and its components that allow managing and querying the detected replicas and versions. We performed a set of experiments for evaluating the proposed mechanism and we implemented tool prototypes that demonstrate the accuracy of some framework components. As the main distinguishing point, this thesis considers the version detection problem as a classification problem, for which the use of thresholds is not necessary. This approach is achieved by using Naïve Bayesian classifiers. Banco : Dados XML (Linguagem de marcação) P2P XML Versioning Similarity
160	Detecção, gerenciamento e consulta a réplicas e a versões de documentos XML / Detection, management and querying of replicas and versions of XML documents Saccol, Deise de Brum January 2008 (has links) O objetivo geral desta tese é a detecção, o gerenciamento e a consulta às réplicas e às versões de documentos XML. Denota-se por réplica uma cópia idêntica de um objeto do mundo real, enquanto versão é uma representação diferente, mas muito similar, deste objeto. Trabalhos prévios focam em gerenciamento e consulta a versões conhecidas, e não no problema da detecção de que dois ou mais objetos, aparentemente distintos, são variações (versões) do mesmo objeto. No entanto, o problema da detecção é crítico e pode ser observado em diversos cenários, tais como detecção de plágio, ranking de páginas Web, identificação de clones de software e busca em sistemas peer-to-peer (P2P). Nesta tese assume-se que podem existir diversas réplicas de um documento XML. Documentos XML também podem ser modificados ao longo do tempo, ocasionando o surgimento de versões. A detecção de réplicas é relativamente simples e pode ser feita através do uso de funções hash. Já a detecção de versões engloba conceitos de similaridade, a qual pode ser medida por várias métricas, tais como similaridade de conteúdo, de estrutura, de assunto, etc. Além da análise da similaridade entre os arquivos também se faz necessária a definição de um mecanismo de detecção de versões. O mecanismo deve possibilitar o gerenciamento e a posterior consulta às réplicas e às versões detectadas. Para que o objetivo da tese fosse alcançado foram definidos um conjunto de funções de similaridade para arquivos XML e o mecanismo de detecção de réplicas e de versões. Também foi especificado um framework onde tal mecanismo pode ser inserido e os seus respectivos componentes, que possibilitam o gerenciamento e a consulta às réplicas e às versões detectadas. Foi realizado um conjunto de experimentos que validam o mecanismo proposto juntamente com a implementação de protótipos que demonstram a eficácia dos componentes do framework. Como diferencial desta tese, o problema de detecção de versões é tratado como um problema de classificação, para o qual o uso de limiares não é necessário. Esta abordagem é alcançada pelo uso da técnica baseada em classificadores Naïve Bayesianos. Resultados demonstram a boa qualidade obtida com o mecanismo proposto na tese. / The overall goals of this thesis are the detection, management and querying of replicas and versions of XML documents. We denote by replica an identical copy of a real-world object, and by version a different but very similar representation of this object. Previous works focus on version management and querying rather than version detection. However, the version detection problem is critical in many scenarios, such as plagiarism detection, Web page ranking, software clone identification, and peer-to-peer (P2P) searching. In this thesis, we assume the existence of several replicas of a XML document. XML documents can be modified over time, causing the creation of versions. Replica detection is relatively simple and can be achieved by using hash functions. The version detection uses similarity concepts, which can be assessed by some metrics such as content similariy, structure similarity, subject similarity, and so on. Besides the similarity analysis among files, it is also necessary to define the version detection mechanism. The mechanism should allow the management and the querying of the detected replicas and versions. In order to achieve the goals of the thesis, we defined a set of similarity functions for XML files, the replica and version detection mechanism, the framework where such mechanism can be included and its components that allow managing and querying the detected replicas and versions. We performed a set of experiments for evaluating the proposed mechanism and we implemented tool prototypes that demonstrate the accuracy of some framework components. As the main distinguishing point, this thesis considers the version detection problem as a classification problem, for which the use of thresholds is not necessary. This approach is achieved by using Naïve Bayesian classifiers. Banco : Dados XML (Linguagem de marcação) P2P XML Versioning Similarity

Search results