Made available in DSpace on 2014-06-11T19:24:01Z (GMT). No. of bitstreams: 0
Previous issue date: 2012-07-12Bitstream added on 2014-06-13T18:20:04Z : No. of bitstreams: 1
carreira_ja_me_sjrp.pdf: 438099 bytes, checksum: d4a3de381d717416cf913583222eee97 (MD5) / A incidência de tuplas duplicadas é um problema significativo e inerente às grandes bases de dados atuais. Trata-se da repetição de registros que, na maioria das vezes, são representados de formas diferentes nas bases de dados, mas fazem referência a uma mesma entidade do mundo real, tornando, assim, a tarefa de identificação das duplicatas um trabalho árduo. As técnicas designadas para o tratamento deste tipo de problema são geralmente genéricas. Isso significa que não levam em consideração as características particulares dos idiomas o que, de certa forma, inibe a maximização quantitativa e qualitativa das tuplas duplicadas identificadas. Este trabalho propõe a criação de uma pré-etapa – intitulada “enriquecimento” – referente ao processo de identificação de tuplas duplicadas. Tal processo baseia-se no favorecimento do idioma e se dá por meio da utilização de regras de linguagem pré-definidas, de forma genérica, para cada idioma desejado. Assim, consegue-se enriquecer os registros de entrada, definidos em qualquer idioma, e, com a aproximação ortográfica que o enriquecimento proporciona, consegue-se aumentar a quantidade de tuplas duplicadas e/ou melhorar o nível de confiança em relação aos pares de tuplas duplicadas identificadas pelo processo / The incidence of duplicate tuples is a significant problem inherent in current large databases. It is the repetition of records that, in most cases, are represented differently in the database but refer to the same real world entity thus making the task of identifying duplicates a hard work. The techniques designed to treat this type of problem are usually generic. That means they do not take into account the particular characteristics of the languages that somehow inhibits the quantitative and qualitative maximization of duplicate tuples identified. This dissertation proposes the creation of a pre-step - called enrichment – in relation to the process of duplicate tuples identification. This process is based on the language favoring and is through the use of predefined language rules in a general way for each language. Thus, it is possible to enrich the input records defined in any language and considering the spell approximation provided by the enrichment process, it is possible to increase the amount of duplicate tuples and/or improve the level of trust in relation to the pairs of duplicate tuples identified by the process
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.unesp.br:11449/89340 |
Date | 12 July 2012 |
Creators | Carreira , Juliano Augusto [UNESP] |
Contributors | Universidade Estadual Paulista (UNESP), Valêncio, Carlos Roberto [UNESP] |
Publisher | Universidade Estadual Paulista (UNESP) |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis |
Format | 76 f. : il. |
Source | Aleph, reponame:Repositório Institucional da UNESP, instname:Universidade Estadual Paulista, instacron:UNESP |
Rights | info:eu-repo/semantics/openAccess |
Relation | -1, -1 |
Page generated in 0.0021 seconds