Spelling suggestions: "subject:"similariry"" "subject:"similaririty""
1 |
MD-PROM : um mecanismo de deduplicação de metadados e rastreio da proveniência / MD-PROM : a mechanism for metadata deduplication and provenance tracingBorges, Eduardo Nunes January 2008 (has links)
Bibliotecas digitais são repositórios de objetos digitais que oferecem serviços aos seus usuários como pesquisa e publicação desses objetos. Cada objeto digital é descrito por um conjunto de metadados que especifica a forma como esse objeto pode ser recuperado. Sistemas de integração de bibliotecas digitais indexam objetos digitais adquiridos de fontes diferentes, os quais podem estar representados através de vários padrões de metadados. Estes metadados são heterogêneos tanto em conteúdo quanto em estrutura. Conseqüentemente, os sistemas de integração de bibliotecas digitais não estão aptos a fornecer respostas livres de informação redundante que integrem as várias fontes de dados. Quando um usuário realiza uma consulta sobre várias bibliotecas digitais, é interessante que sejam retornados metadados integrados das diversas fontes e a origem de cada informação recuperada, ou seja, a biblioteca digital que publicou aquela informação (metadado). O uso de proveniência de dados nas consultas a metadados em sistemas de integração de bibliotecas digitais, de modo a rastrear a origem das informações recuperadas, permite que usuários avaliem a qualidade das bibliotecas digitais. Este trabalho apresenta o MD-PROM (Metadata Deduplication and PROvenance tracing Mechanism), um mecanismo de deduplicação de metadados e rastreio da proveniência. Este mecanismo identifica metadados de objetos digitais duplicados em bibliotecas digitais distintas, integra os metadados duplicados e recupera informações de proveniência dos metadados integrados. A identificação de duplicatas é realizada através do casamento automático de esquemas dos metadados e da aplicação de funções de similaridade sobre os principais metadados que descrevem os objetos digitais. São propostas a função de similaridade de nomes próprios IniSim, o algoritmo de casamento de autores NameMatch e o algoritmo de casamento de objetos digitais Digital Object Match que identifica múltiplas representações dos metadados. Além dos algoritmos de similaridade, o MD-PROM especifica uma estrutura baseada em árvore para representar a proveniência de dados que identifica a origem dos metadados, bem como os valores dos quais os metadados foram derivados. Também é proposto um algoritmo de integração de metadados e rastreio da proveniência denominado MetadataProv. A principal contribuição do trabalho é melhorar a qualidade da pesquisa do usuário de bibliotecas digitais. O MD-PROMfornece uma resposta única, livre de redundância e sem perda de informação relevante para consultas a metadados de objetos digitais oriundos de bibliotecas digitais distintas. Além disso, são recuperadas informações de proveniência que permitem ao usuário verificar a veracidade e confiabilidade dos metadados retornados pelas consultas em sistemas de integração de bibliotecas digitais. São apresentados também os resultados de diversos experimentos que avaliam a qualidade da deduplicação de objetos digitais comparando a técnica proposta com outras abordagens estudadas. / Digital libraries are repositories of digital objects that provide services to their users such as search and publication of these objects. Each digital object is described by a set of metadata that specifies how this object can be retrieved. Integrated digital library systems index digital objects acquired from different sources, which can be represented through several metadata patterns. These metadata are heterogeneous both in content and in structure. Consequently, the integrated digital library systems are not able to provide answers free from redundant information that integrate the several data sources. When a user performs a query on various digital libraries, it is interesting to return integrated metadata from several sources and the origin of each information retrieved, that is, the digital library which published that information (metadata). Using data provenance in metadata queries on integrated digital library systems, so as to trace the origin of the information retrieved, allows users to analyze the quality of digital libraries. This work presents MD-PROM (Metadata Deduplication and PROvenance tracing Me- chanism), a mechanism for metadata deduplication and provenance tracing. This mechanism identifies duplicated digital objects metadata in different digital libraries, integrates duplicated metadata and retrieves provenance information of the integrated metadata. The identification of duplicates is performed through automatic metadata schema matching and through similarity functions applied over main metadata that describe the digital objects. The surname similarity function IniSim, the authors matching algorithm NameMatch and digital objects matching algorithm Digital Object Match, which identifies multiple representations of metadata, have been proposed. Besides the similarity algorithms, MD-PROM specifies a tree-based structure to represent the data provenance that identifies the origin of metadata as well as the values from which the metadata were derived. An algorithm for the integration of metadata and provenance tracing, called MetadataProv, is also proposed. The main contribution of this work is to improve the quality of the searches posed by the users of digital libraries. MD-PROM provides a single answer, free from redundancy and loss of relevant information related to queries on digital objects metadata from different digital libraries. In addition, provenance information is retrieved allowing the user to verify the accuracy and the reliability of the metadata returned by queries on integrated digital library systems. There are also reports on several experiments, which evaluate the quality of the deduplication of digital objects comparing the proposed technique with other approaches.
|
2 |
Um método para deduplicação de metadados bibliográficos baseado no empilhamento de classificadores / A method for bibliographic metadata deduplication based on stacked generalizationBorges, Eduardo Nunes January 2013 (has links)
Metadados bibliográficos duplicados são registros que correspondem a referências bibliográficas semanticamente equivalentes, ou seja, que descrevem a mesma publicação. Identificar metadados bibliográficos duplicados em uma ou mais bibliotecas digitais é uma tarefa essencial para garantir a qualidade de alguns serviços como busca, navegação e recomendação de conteúdo. Embora diversos padrões de metadados tenham sido propostos, eles não resolvem totalmente os problemas de interoperabilidade porque mesmo que exista um mapeamento entre diferentes esquemas de metadados, podem existir variações na representação do conteúdo. Grande parte dos trabalhos propostos para identificar duplicatas aplica uma ou mais funções sobre o conteúdo de determinados campos no intuito de captar a similaridade entre os registros. Entretanto, é necessário escolher um limiar que defina se dois registros são suficientemente similares para serem considerados semanticamente equivalentes ou duplicados. Trabalhos mais recentes tratam a deduplicação de registros como um problema de classificação de dados, em que um modelo preditivo é treinado para estimar a que objeto do mundo real um registro faz referência. O objetivo principal desta tese é o desenvolvimento de um método efetivo e automático para identificar metadados bibliográficos duplicados, combinando o aprendizado de múltiplos classificadores supervisionados, sem a necessidade de intervenção humana na definição de limiares de similaridade. Sobre o conjunto de treinamento são aplicadas funções de similaridade desenvolvidas especificamente para o contexto de bibliotecas digitais e com baixo custo computacional. Os escores produzidos pelas funções são utilizados para treinar múltiplos modelos de classificação heterogêneos, ou seja, a partir de algoritmos de diversos tipos: baseados em árvores, regras, redes neurais artificiais e probabilísticos. Os classificadores aprendidos são combinados através da estratégia de empilhamento visando potencializar o resultado da deduplicação a partir do conhecimento heterogêneo adquirido individualmente pelos algoritmo de aprendizagem. O modelo de classificação final é aplicado aos pares candidatos ao casamento retornados por uma estratégia de blocagem de dois níveis bastante eficiente. A solução proposta é baseada na hipótese de que o empilhamento de classificadores supervisionados pode aumentar a qualidade da deduplicação quando comparado a outras estratégias de combinação. A avaliação experimental mostra que a hipótese foi confirmada quando o método proposto é comparado com a escolha do melhor classificador e com o voto da maioria. Ainda são analisados o impacto da diversidade dos classificadores no resultado do empilhamento e os casos de falha do método proposto. / Duplicated bibliographic metadata are semantically equivalent records, i.e., references that describe the same publication. Identifying duplicated bibliographic metadata in one or more digital libraries is an essential task to ensure the quality of some services such as search, navigation, and content recommendation. Although many metadata standards have been proposed, they do not completely solve interoperability problems because even if there is a mapping between different metadata schemas, there may be variations in the content representation. Most of work proposed to identify duplicated records uses one or more functions on some fields in order to capture the similarity between the records. However, we need to choose a threshold that defines whether two records are sufficiently similar to be considered semantically equivalent or duplicated. Recent studies deal with record deduplication as a data classification problem, in which a predictive model is trained to estimate the real-world object to which a record refers. The main goal of this thesis is the development of an effective and automatic method to identify duplicated bibliographic metadata, combining multiple supervised classifiers, without any human intervention in the setting of similarity thresholds. We have applied on the training set cheap similarity functions specifically designed for the context of digital libraries. The scores returned by these functions are used to train multiple and heterogeneous classification models, i.e., using learning algorithms based on trees, rules, artificial neural networks and probabilistic models. The learned classifiers are combined by stacked generalization strategy to improve the deduplication result through heterogeneous knowledge acquired by each learning algorithm. The final model is applied to pairs of records that are candidate to matching. These pairs are defined by an efficient two phase blocking strategy. The proposed solution is based on the hypothesis that stacking supervised classifiers can improve the quality of deduplication when compared to other combination strategies. The experimental evaluation shows that the hypothesis has been confirmed by comparing the proposed method to selecting the best classifier or the majority vote technique. We also have analyzed the impact of classifiers diversity on the stacking results and the cases for which the proposed method fails.
|
3 |
MD-PROM : um mecanismo de deduplicação de metadados e rastreio da proveniência / MD-PROM : a mechanism for metadata deduplication and provenance tracingBorges, Eduardo Nunes January 2008 (has links)
Bibliotecas digitais são repositórios de objetos digitais que oferecem serviços aos seus usuários como pesquisa e publicação desses objetos. Cada objeto digital é descrito por um conjunto de metadados que especifica a forma como esse objeto pode ser recuperado. Sistemas de integração de bibliotecas digitais indexam objetos digitais adquiridos de fontes diferentes, os quais podem estar representados através de vários padrões de metadados. Estes metadados são heterogêneos tanto em conteúdo quanto em estrutura. Conseqüentemente, os sistemas de integração de bibliotecas digitais não estão aptos a fornecer respostas livres de informação redundante que integrem as várias fontes de dados. Quando um usuário realiza uma consulta sobre várias bibliotecas digitais, é interessante que sejam retornados metadados integrados das diversas fontes e a origem de cada informação recuperada, ou seja, a biblioteca digital que publicou aquela informação (metadado). O uso de proveniência de dados nas consultas a metadados em sistemas de integração de bibliotecas digitais, de modo a rastrear a origem das informações recuperadas, permite que usuários avaliem a qualidade das bibliotecas digitais. Este trabalho apresenta o MD-PROM (Metadata Deduplication and PROvenance tracing Mechanism), um mecanismo de deduplicação de metadados e rastreio da proveniência. Este mecanismo identifica metadados de objetos digitais duplicados em bibliotecas digitais distintas, integra os metadados duplicados e recupera informações de proveniência dos metadados integrados. A identificação de duplicatas é realizada através do casamento automático de esquemas dos metadados e da aplicação de funções de similaridade sobre os principais metadados que descrevem os objetos digitais. São propostas a função de similaridade de nomes próprios IniSim, o algoritmo de casamento de autores NameMatch e o algoritmo de casamento de objetos digitais Digital Object Match que identifica múltiplas representações dos metadados. Além dos algoritmos de similaridade, o MD-PROM especifica uma estrutura baseada em árvore para representar a proveniência de dados que identifica a origem dos metadados, bem como os valores dos quais os metadados foram derivados. Também é proposto um algoritmo de integração de metadados e rastreio da proveniência denominado MetadataProv. A principal contribuição do trabalho é melhorar a qualidade da pesquisa do usuário de bibliotecas digitais. O MD-PROMfornece uma resposta única, livre de redundância e sem perda de informação relevante para consultas a metadados de objetos digitais oriundos de bibliotecas digitais distintas. Além disso, são recuperadas informações de proveniência que permitem ao usuário verificar a veracidade e confiabilidade dos metadados retornados pelas consultas em sistemas de integração de bibliotecas digitais. São apresentados também os resultados de diversos experimentos que avaliam a qualidade da deduplicação de objetos digitais comparando a técnica proposta com outras abordagens estudadas. / Digital libraries are repositories of digital objects that provide services to their users such as search and publication of these objects. Each digital object is described by a set of metadata that specifies how this object can be retrieved. Integrated digital library systems index digital objects acquired from different sources, which can be represented through several metadata patterns. These metadata are heterogeneous both in content and in structure. Consequently, the integrated digital library systems are not able to provide answers free from redundant information that integrate the several data sources. When a user performs a query on various digital libraries, it is interesting to return integrated metadata from several sources and the origin of each information retrieved, that is, the digital library which published that information (metadata). Using data provenance in metadata queries on integrated digital library systems, so as to trace the origin of the information retrieved, allows users to analyze the quality of digital libraries. This work presents MD-PROM (Metadata Deduplication and PROvenance tracing Me- chanism), a mechanism for metadata deduplication and provenance tracing. This mechanism identifies duplicated digital objects metadata in different digital libraries, integrates duplicated metadata and retrieves provenance information of the integrated metadata. The identification of duplicates is performed through automatic metadata schema matching and through similarity functions applied over main metadata that describe the digital objects. The surname similarity function IniSim, the authors matching algorithm NameMatch and digital objects matching algorithm Digital Object Match, which identifies multiple representations of metadata, have been proposed. Besides the similarity algorithms, MD-PROM specifies a tree-based structure to represent the data provenance that identifies the origin of metadata as well as the values from which the metadata were derived. An algorithm for the integration of metadata and provenance tracing, called MetadataProv, is also proposed. The main contribution of this work is to improve the quality of the searches posed by the users of digital libraries. MD-PROM provides a single answer, free from redundancy and loss of relevant information related to queries on digital objects metadata from different digital libraries. In addition, provenance information is retrieved allowing the user to verify the accuracy and the reliability of the metadata returned by queries on integrated digital library systems. There are also reports on several experiments, which evaluate the quality of the deduplication of digital objects comparing the proposed technique with other approaches.
|
4 |
Um método para deduplicação de metadados bibliográficos baseado no empilhamento de classificadores / A method for bibliographic metadata deduplication based on stacked generalizationBorges, Eduardo Nunes January 2013 (has links)
Metadados bibliográficos duplicados são registros que correspondem a referências bibliográficas semanticamente equivalentes, ou seja, que descrevem a mesma publicação. Identificar metadados bibliográficos duplicados em uma ou mais bibliotecas digitais é uma tarefa essencial para garantir a qualidade de alguns serviços como busca, navegação e recomendação de conteúdo. Embora diversos padrões de metadados tenham sido propostos, eles não resolvem totalmente os problemas de interoperabilidade porque mesmo que exista um mapeamento entre diferentes esquemas de metadados, podem existir variações na representação do conteúdo. Grande parte dos trabalhos propostos para identificar duplicatas aplica uma ou mais funções sobre o conteúdo de determinados campos no intuito de captar a similaridade entre os registros. Entretanto, é necessário escolher um limiar que defina se dois registros são suficientemente similares para serem considerados semanticamente equivalentes ou duplicados. Trabalhos mais recentes tratam a deduplicação de registros como um problema de classificação de dados, em que um modelo preditivo é treinado para estimar a que objeto do mundo real um registro faz referência. O objetivo principal desta tese é o desenvolvimento de um método efetivo e automático para identificar metadados bibliográficos duplicados, combinando o aprendizado de múltiplos classificadores supervisionados, sem a necessidade de intervenção humana na definição de limiares de similaridade. Sobre o conjunto de treinamento são aplicadas funções de similaridade desenvolvidas especificamente para o contexto de bibliotecas digitais e com baixo custo computacional. Os escores produzidos pelas funções são utilizados para treinar múltiplos modelos de classificação heterogêneos, ou seja, a partir de algoritmos de diversos tipos: baseados em árvores, regras, redes neurais artificiais e probabilísticos. Os classificadores aprendidos são combinados através da estratégia de empilhamento visando potencializar o resultado da deduplicação a partir do conhecimento heterogêneo adquirido individualmente pelos algoritmo de aprendizagem. O modelo de classificação final é aplicado aos pares candidatos ao casamento retornados por uma estratégia de blocagem de dois níveis bastante eficiente. A solução proposta é baseada na hipótese de que o empilhamento de classificadores supervisionados pode aumentar a qualidade da deduplicação quando comparado a outras estratégias de combinação. A avaliação experimental mostra que a hipótese foi confirmada quando o método proposto é comparado com a escolha do melhor classificador e com o voto da maioria. Ainda são analisados o impacto da diversidade dos classificadores no resultado do empilhamento e os casos de falha do método proposto. / Duplicated bibliographic metadata are semantically equivalent records, i.e., references that describe the same publication. Identifying duplicated bibliographic metadata in one or more digital libraries is an essential task to ensure the quality of some services such as search, navigation, and content recommendation. Although many metadata standards have been proposed, they do not completely solve interoperability problems because even if there is a mapping between different metadata schemas, there may be variations in the content representation. Most of work proposed to identify duplicated records uses one or more functions on some fields in order to capture the similarity between the records. However, we need to choose a threshold that defines whether two records are sufficiently similar to be considered semantically equivalent or duplicated. Recent studies deal with record deduplication as a data classification problem, in which a predictive model is trained to estimate the real-world object to which a record refers. The main goal of this thesis is the development of an effective and automatic method to identify duplicated bibliographic metadata, combining multiple supervised classifiers, without any human intervention in the setting of similarity thresholds. We have applied on the training set cheap similarity functions specifically designed for the context of digital libraries. The scores returned by these functions are used to train multiple and heterogeneous classification models, i.e., using learning algorithms based on trees, rules, artificial neural networks and probabilistic models. The learned classifiers are combined by stacked generalization strategy to improve the deduplication result through heterogeneous knowledge acquired by each learning algorithm. The final model is applied to pairs of records that are candidate to matching. These pairs are defined by an efficient two phase blocking strategy. The proposed solution is based on the hypothesis that stacking supervised classifiers can improve the quality of deduplication when compared to other combination strategies. The experimental evaluation shows that the hypothesis has been confirmed by comparing the proposed method to selecting the best classifier or the majority vote technique. We also have analyzed the impact of classifiers diversity on the stacking results and the cases for which the proposed method fails.
|
5 |
MD-PROM : um mecanismo de deduplicação de metadados e rastreio da proveniência / MD-PROM : a mechanism for metadata deduplication and provenance tracingBorges, Eduardo Nunes January 2008 (has links)
Bibliotecas digitais são repositórios de objetos digitais que oferecem serviços aos seus usuários como pesquisa e publicação desses objetos. Cada objeto digital é descrito por um conjunto de metadados que especifica a forma como esse objeto pode ser recuperado. Sistemas de integração de bibliotecas digitais indexam objetos digitais adquiridos de fontes diferentes, os quais podem estar representados através de vários padrões de metadados. Estes metadados são heterogêneos tanto em conteúdo quanto em estrutura. Conseqüentemente, os sistemas de integração de bibliotecas digitais não estão aptos a fornecer respostas livres de informação redundante que integrem as várias fontes de dados. Quando um usuário realiza uma consulta sobre várias bibliotecas digitais, é interessante que sejam retornados metadados integrados das diversas fontes e a origem de cada informação recuperada, ou seja, a biblioteca digital que publicou aquela informação (metadado). O uso de proveniência de dados nas consultas a metadados em sistemas de integração de bibliotecas digitais, de modo a rastrear a origem das informações recuperadas, permite que usuários avaliem a qualidade das bibliotecas digitais. Este trabalho apresenta o MD-PROM (Metadata Deduplication and PROvenance tracing Mechanism), um mecanismo de deduplicação de metadados e rastreio da proveniência. Este mecanismo identifica metadados de objetos digitais duplicados em bibliotecas digitais distintas, integra os metadados duplicados e recupera informações de proveniência dos metadados integrados. A identificação de duplicatas é realizada através do casamento automático de esquemas dos metadados e da aplicação de funções de similaridade sobre os principais metadados que descrevem os objetos digitais. São propostas a função de similaridade de nomes próprios IniSim, o algoritmo de casamento de autores NameMatch e o algoritmo de casamento de objetos digitais Digital Object Match que identifica múltiplas representações dos metadados. Além dos algoritmos de similaridade, o MD-PROM especifica uma estrutura baseada em árvore para representar a proveniência de dados que identifica a origem dos metadados, bem como os valores dos quais os metadados foram derivados. Também é proposto um algoritmo de integração de metadados e rastreio da proveniência denominado MetadataProv. A principal contribuição do trabalho é melhorar a qualidade da pesquisa do usuário de bibliotecas digitais. O MD-PROMfornece uma resposta única, livre de redundância e sem perda de informação relevante para consultas a metadados de objetos digitais oriundos de bibliotecas digitais distintas. Além disso, são recuperadas informações de proveniência que permitem ao usuário verificar a veracidade e confiabilidade dos metadados retornados pelas consultas em sistemas de integração de bibliotecas digitais. São apresentados também os resultados de diversos experimentos que avaliam a qualidade da deduplicação de objetos digitais comparando a técnica proposta com outras abordagens estudadas. / Digital libraries are repositories of digital objects that provide services to their users such as search and publication of these objects. Each digital object is described by a set of metadata that specifies how this object can be retrieved. Integrated digital library systems index digital objects acquired from different sources, which can be represented through several metadata patterns. These metadata are heterogeneous both in content and in structure. Consequently, the integrated digital library systems are not able to provide answers free from redundant information that integrate the several data sources. When a user performs a query on various digital libraries, it is interesting to return integrated metadata from several sources and the origin of each information retrieved, that is, the digital library which published that information (metadata). Using data provenance in metadata queries on integrated digital library systems, so as to trace the origin of the information retrieved, allows users to analyze the quality of digital libraries. This work presents MD-PROM (Metadata Deduplication and PROvenance tracing Me- chanism), a mechanism for metadata deduplication and provenance tracing. This mechanism identifies duplicated digital objects metadata in different digital libraries, integrates duplicated metadata and retrieves provenance information of the integrated metadata. The identification of duplicates is performed through automatic metadata schema matching and through similarity functions applied over main metadata that describe the digital objects. The surname similarity function IniSim, the authors matching algorithm NameMatch and digital objects matching algorithm Digital Object Match, which identifies multiple representations of metadata, have been proposed. Besides the similarity algorithms, MD-PROM specifies a tree-based structure to represent the data provenance that identifies the origin of metadata as well as the values from which the metadata were derived. An algorithm for the integration of metadata and provenance tracing, called MetadataProv, is also proposed. The main contribution of this work is to improve the quality of the searches posed by the users of digital libraries. MD-PROM provides a single answer, free from redundancy and loss of relevant information related to queries on digital objects metadata from different digital libraries. In addition, provenance information is retrieved allowing the user to verify the accuracy and the reliability of the metadata returned by queries on integrated digital library systems. There are also reports on several experiments, which evaluate the quality of the deduplication of digital objects comparing the proposed technique with other approaches.
|
6 |
Um método para deduplicação de metadados bibliográficos baseado no empilhamento de classificadores / A method for bibliographic metadata deduplication based on stacked generalizationBorges, Eduardo Nunes January 2013 (has links)
Metadados bibliográficos duplicados são registros que correspondem a referências bibliográficas semanticamente equivalentes, ou seja, que descrevem a mesma publicação. Identificar metadados bibliográficos duplicados em uma ou mais bibliotecas digitais é uma tarefa essencial para garantir a qualidade de alguns serviços como busca, navegação e recomendação de conteúdo. Embora diversos padrões de metadados tenham sido propostos, eles não resolvem totalmente os problemas de interoperabilidade porque mesmo que exista um mapeamento entre diferentes esquemas de metadados, podem existir variações na representação do conteúdo. Grande parte dos trabalhos propostos para identificar duplicatas aplica uma ou mais funções sobre o conteúdo de determinados campos no intuito de captar a similaridade entre os registros. Entretanto, é necessário escolher um limiar que defina se dois registros são suficientemente similares para serem considerados semanticamente equivalentes ou duplicados. Trabalhos mais recentes tratam a deduplicação de registros como um problema de classificação de dados, em que um modelo preditivo é treinado para estimar a que objeto do mundo real um registro faz referência. O objetivo principal desta tese é o desenvolvimento de um método efetivo e automático para identificar metadados bibliográficos duplicados, combinando o aprendizado de múltiplos classificadores supervisionados, sem a necessidade de intervenção humana na definição de limiares de similaridade. Sobre o conjunto de treinamento são aplicadas funções de similaridade desenvolvidas especificamente para o contexto de bibliotecas digitais e com baixo custo computacional. Os escores produzidos pelas funções são utilizados para treinar múltiplos modelos de classificação heterogêneos, ou seja, a partir de algoritmos de diversos tipos: baseados em árvores, regras, redes neurais artificiais e probabilísticos. Os classificadores aprendidos são combinados através da estratégia de empilhamento visando potencializar o resultado da deduplicação a partir do conhecimento heterogêneo adquirido individualmente pelos algoritmo de aprendizagem. O modelo de classificação final é aplicado aos pares candidatos ao casamento retornados por uma estratégia de blocagem de dois níveis bastante eficiente. A solução proposta é baseada na hipótese de que o empilhamento de classificadores supervisionados pode aumentar a qualidade da deduplicação quando comparado a outras estratégias de combinação. A avaliação experimental mostra que a hipótese foi confirmada quando o método proposto é comparado com a escolha do melhor classificador e com o voto da maioria. Ainda são analisados o impacto da diversidade dos classificadores no resultado do empilhamento e os casos de falha do método proposto. / Duplicated bibliographic metadata are semantically equivalent records, i.e., references that describe the same publication. Identifying duplicated bibliographic metadata in one or more digital libraries is an essential task to ensure the quality of some services such as search, navigation, and content recommendation. Although many metadata standards have been proposed, they do not completely solve interoperability problems because even if there is a mapping between different metadata schemas, there may be variations in the content representation. Most of work proposed to identify duplicated records uses one or more functions on some fields in order to capture the similarity between the records. However, we need to choose a threshold that defines whether two records are sufficiently similar to be considered semantically equivalent or duplicated. Recent studies deal with record deduplication as a data classification problem, in which a predictive model is trained to estimate the real-world object to which a record refers. The main goal of this thesis is the development of an effective and automatic method to identify duplicated bibliographic metadata, combining multiple supervised classifiers, without any human intervention in the setting of similarity thresholds. We have applied on the training set cheap similarity functions specifically designed for the context of digital libraries. The scores returned by these functions are used to train multiple and heterogeneous classification models, i.e., using learning algorithms based on trees, rules, artificial neural networks and probabilistic models. The learned classifiers are combined by stacked generalization strategy to improve the deduplication result through heterogeneous knowledge acquired by each learning algorithm. The final model is applied to pairs of records that are candidate to matching. These pairs are defined by an efficient two phase blocking strategy. The proposed solution is based on the hypothesis that stacking supervised classifiers can improve the quality of deduplication when compared to other combination strategies. The experimental evaluation shows that the hypothesis has been confirmed by comparing the proposed method to selecting the best classifier or the majority vote technique. We also have analyzed the impact of classifiers diversity on the stacking results and the cases for which the proposed method fails.
|
Page generated in 0.0377 seconds