Global ETD Search

51	Geração da parâmetros de busca baseada em perfis de usuário Almeida, Vinícius Nóbile de January 2004 (has links) O mundo moderno vem exigindo cada vez mais das pessoas no aspecto profissional. A exigência de capacitação profissional é uma realidade que obriga as pessoas a uma constante atualização. Neste contexto, a educação a distancia se mostra uma importante via de disseminação de conhecimento. Este trabalho apresenta um agente de Perfil do Usuário inserido no contexto do projeto PortEdu – Portal de Educação, projeto que visa abrigar ambientes de ensino na Web. Um dos objetivos do projeto PortEdu é fornecer um serviço de recuperação de informação aos ambientes ancorados, guiado pelo Agente Perfil do Usuário, tendo como finalidade oferecer informações contextualizadas a um problema específico do usuário (aluno), com a intenção de auxiliá-lo em seu aprendizado. Durante a utilização de ambientes de educação a distância, os alunos utilizam ferramentas de recuperação de informação na busca de soluções para as suas dúvidas. Mas, a busca de informação na Internet, utilizando as ferramentas existentes, nem sempre é uma tarefa simples, pois exige esforço na construção de termos de busca eficientes ou mantém o usuário percorrendo longas listas de resultados. No desenvolvimento deste serviço, no PortEdu, procuramos minimizar este tipo de esforço. Neste trabalho são descritas, primeiramente, as áreas envolvidas na pesquisa, mostrando como elas foram utilizadas na construção do Agente de Perfil do Usuário. Também é realizada uma descrição da área de inteligência artificial, dos conceitos de agente e Educação a Distancia. Pretende-se mostrar aqui as propriedades que o Agente de Perfil do Usuário possui Na seqüência, são apresentadas as soluções tecnológicas utilizadas no projeto, tais como: AMPLIA (ambiente de ensino ancorado no PortEdu), PMA3, FIPA e a API Fácil. É descrito o modo como estas tecnologias interagem no âmbito do PortEdu. O problema da recuperação de informação na Web é discutido nesta pesquisa e são apresentados três trabalhos relacionados que abordam este problema. Também é realizada uma comparação entre estes trabalhos e o PortEdu. Por fim, este trabalho apresenta uma solução encontrada para resolver o problema de recuperação de informação na Web utilizando um protótipo do PortEdu. Esta pesquisa está inserida na área de Informática na Educação. Informática : Educação Inteligência artificial Recuperacao : Informacao Ensino-aprendizagem Perfil : Usuario
52	Redução do esforço do usuário na configuração da deduplicação de grandes bases de dados / Reducing the user effort to tune large scale deduplication Dal Bianco, Guilherme January 2014 (has links) A deduplicação consiste na tarefa de identificar quais objetos (registros, documentos, textos, etc.) são potencialmente os mesmos em uma base de dados (ou em um conjunto de bases de dados). A identificação de dados duplicados depende da intervenção do usuário, principalmente para a criação de um conjunto contendo pares duplicados e não duplicados. Tais informações são usadas para ajudar na identificação de outros possíveis pares duplicados presentes na base de dados. Em geral, quando a deduplicação é estendida para grandes conjuntos de dados, a eficiência e a qualidade das duplicatas dependem diretamente do “ajuste” de um usuário especialista. Nesse cenário, a configuração das principais etapas da deduplicação (etapas de blocagem e classificação) demandam que o usuário seja responsável pela tarefa pouco intuitiva de definir valores de limiares e, em alguns casos, fornecer pares manualmente rotulados. Desse modo, o processo de calibração exige que o usuário detenha um conhecimento prévio sobre as características específicas da base de dados e os detalhes do funcionamento do método de deduplicação. O objetivo principal desta tese é tratar do problema da configuração da deduplicação de grandes bases de dados, de modo a reduzir o esforço do usuário. O usuário deve ser somente requisitado para rotular um conjunto reduzido de pares automaticamente selecionados. Para isso, é proposta uma metodologia, chamada FS-Dedup, que incorpora algoritmos do estado da arte da deduplicação para permitir o processamento de grandes volumes de dados e adiciona um conjunto de estratégias com intuito de possibilitar a definição dos parâmetros do deduplicador, removendo os detalhes de configuração da responsabilidade do usuário. A metodologia pode ser vista como uma camada capaz de identificar as informações requisitadas pelo deduplicador (principalmente valores de limiares) a partir de um conjunto de pares rotulados pelo usuário. A tese propõe também uma abordagem que trata do problema da seleção dos pares informativos para a criação de um conjunto de treinamento reduzido. O desafio maior é selecionar um conjunto reduzido de pares suficientemente informativo para possibilitar a configuração da deduplicação com uma alta eficácia. Para isso, são incorporadas estratégias para reduzir o volume de pares candidatos a um algoritmo de aprendizagem ativa. Tal abordagem é integrada à metodologia FS-Dedup para possibilitar a remoção da intervenção especialista nas principais etapas da deduplicação. Por fim, um conjunto exaustivo de experimentos é executado com objetivo de validar as ideias propostas. Especificamente, são demonstrados os promissores resultados alcançados nos experimentos em bases de dados reais e sintéticas, com intuito de reduzir o número de pares manualmente rotulados, sem causar perdas na qualidade da deduplicação. / Deduplication is the task of identifying which objects (e.g., records, texts, documents, etc.) are potentially the same in a given dataset (or datasets). It usually requires user intervention in several stages of the process, mainly to ensure that pairs representing matchings and non-matchings can be determined. This information can be used to help detect other potential duplicate records. When deduplication is applied to very large datasets, the matching quality depends on expert users. The expert users are requested to define threshold values and produce a training set. This intervention requires user knowledge of the noise level of the data and a particular approach to deduplication so that it can be applied to configure the most important stages of the process (e.g. blocking and classification). The main aim of this thesis is to provide solutions to help in tuning the deduplication process in large datasets with a reduced effort from the user, who is only required to label an automatically selected subset of pairs. To achieve this, we propose a methodology, called FS-Dedup, which incorporates state-of-the-art algorithms in its deduplication core to address high performance issues. Following this, a set of strategies is proposed to assist in setting its parameters, and removing most of the detailed configuration concerns from the user. The methodology proposed can be regarded as a layer that is able to identify the specific information requested in the deduplication approach (mainly, threshold values) through pairs that are manually labeled by the user. Moreover, this thesis proposed an approach which would enable to select an informative set of pairs to produce a reduced training set. The main challenge here is how to select a “representative” set of pairs to configure the deduplication with high matching quality. In this context, the proposed approach incorporates an active learning method with strategies that allow the deduplication to be carried out on large datasets. This approach is integrated with the FS-Dedup methodology to avoid the need for a definition of threshold values in the most important deduplication stages. Finally, exhaustive experiments using both synthetic and real datasets have been conducted to validate the ideas outlined in this thesis. In particular, we demonstrate the ability of our approach to reduce the user effort without degrading the matching quality. Banco : Dados Recuperacao : Informacao Data integration Deduplication Signature-based deduplication
53	Visibilidade web de universidades Klinger, Augusto January 2011 (has links) Visibilidade Web é a área de estudo das medidas de visibilidade de organizações, termos ou documentos na web, sendo um dos campos de pesquisa da ciência de Webmetria. Neste trabalho, uma fórmula para o cálculo de visibilidade na web é proposta, baseando-se na visão proporcionada por diferentes motores de busca. O resultado final é um indicador de Visibilidade Web para universidades. São apresentados e analisados rankings de universidades do mundo todo encontrados na web, tais como o ARWU, o WR e o THE. Tais rankings trabalham com indicadores compostos, mas abordam a questão da visibilidade na rede de maneiras diferentes. Também são discutidos alguns trabalhos recentes no campo de Visibilidade Web. O indicador elaborado baseia-se na classificação do site oficial da universidade nos buscadores como meio de pontuar a visibilidade, valendo-se de metabusca. Um método de fusão de rankings é utilizado para a pontuação. Siglas de universidades brasileiras foram submetidas ao cálculo de visibilidade e classificadas, mostrando uma aplicação da fórmula no mundo real. Dois rankings foram construídos, um deles apontando falhas no método proposto e o segundo contornando o problema encontrado, apresentando uma classificação justa, coerente com a realidade e com outros rankings de universidades brasileiras. A principal contribuição do trabalho é a definição de um indicador de visibilidade na web que mostra como são classificadas as instituições através dos principais pontos de entrada da rede: os motores de busca. / Web Visibility is the area of study of visibility measures of organizations, terms or documents on the web, one of the fields of the Webmetrics science. In this work, a formula for the calculation of visibility on the web is proposed, based on the vision provided by different search engines. The result is an indicator of Web Visibility for universities. In related works section are presented and analyzed rankings of universities around the world from the web, such as ARWU, WR and THE. Such rankings work with composite indicators, but address the issue of visibility on the network in different ways. Also are covered some resent works in the field of Web Visibility. The indicator developed is based on the classification of the universities’ official website in search engines as a means of scoring the visibility, using a metasearch engine. A method of rankings fusion is used for the scoring process. Acronyms of Brazilian universities were subjected to the calculation of visibility and classified, showing an application of the formula in the real world. Two rankings were built, one of them pointing out flaws in the proposed method and another solving the problem encountered with a fair rating, consistent with reality and with other rankings of universities. The main contribution of this work is a Web Visibility indicator that shows how the institutions are classified by the main entry points of the network: the search engines. Recuperacao : Informacao Serviços Web Web visibility Universities ranking
54	Sobre estatística de dados bibliométricos em grupos de pesquisadores : universalidade e avaliação / About statistics on bibliometric data of researchers’ groups: universality and evaluation Kalil, Fahad January 2012 (has links) Agências de fomento à pesquisa, centros de pesquisas, universidades e a comunidade científica de uma forma geral buscam incessantemente pelo aperfeiçoamento e aumento da qualidade da produção científica de seus pesquisadores. Logo, faz-se necessário que sejam providas ferramentas e métodos eficazes para obtenção de avaliações coerentes. Vários métodos têm sido propostos ao longo dos anos e diferentes formas de avaliação vêm sendo empregadas em órgãos reguladores, como a agência brasileira de pós-graduação CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior), todavia algumas questões ainda foram pouco exploradas. Com o advento do índice h (hindex) de Hirsch, que une fundamentalmente quantidade com qualidade, pois avalia um conjunto de artigos de acordo com sua distribuição de citações, uma série de estudos com as mais variadas estatísticas têm sido propostos. Contudo, não há na literatura atual, por exemplo, uma expressão analítica para distribuição de índices h de um grupo de pesquisadores, nem a verificação da existência de universalidade desta distribuição para diferentes grupos e bases de dados. Este trabalho aborda, num primeiro momento, um estudo sobre a distribuição de índice h e de citações em três áreas científicas distintas: física, biologia e ciência da computação, que possuem diferentes práticas de publicações e métodos de pesquisa. O trabalho ainda propõe uma nova métrica para construção de rankings baseado no índice h sucessivo de segunda ordem, por nós denominada s-index, o qual torna possível a comparação entre grupos de pesquisadores de tamanhos diferentes, assim proporcionando, por exemplo, uma comparação em termos de produtividade de grupos com grande quantidade de pesquisadores e grupos menores, mas que ainda assim reflita seus potenciais de produção. Por fim, é realizado estudo da correlação entre o s-index desenvolvido no trabalho e a classificação de cursos de mestrado e doutorado recomendados e reconhecidos realizada pela CAPES, usando dados de pesquisadores de programas de pós-graduação em física e biologia. As abordagens apresentadas podem ser usadas na classificação de grupos de pesquisadores, a partir de uma visão quantitativa, tentando eliminar, assim, métodos qualitativos de avaliação de difícil generalização e replicação. / Research financing agencies, research centers, universities and the scientific community are frequently seeking for improvement and enhancement on the quality of researchers’ work. Therefore, it is necessary to provide optimized tools and methods to get consistent evaluations. Several methods have been proposed over the years and different forms of evaluation are used by agencies such as Coordination for the Improvement of Higher Level Personnel (Capes), although some issues have been overlooked. With the invention of the h-index (Hirsch), that binds quantity with quality by measuring a set of papers according to their citation distribution, many studies have been considered with several different statistical methods. In the current literature, it is not found an analytical expression for h-index distribution over a researchers’ group, nor the proof of universality in this kind of distribution for different groups and databases. This master thesis discusses primarily a study about h-index distribution and citations in three distinct scientific fields: physics, biology and computer science, which has different publication and research practices. Also, it is proposed a novel metric for ranking based on successive h-index, named as s-index, which makes possible to compare researchers’ groups with different sizes, providing for example, a comparison in terms of productivity on higher and smaller groups of researchers, reflecting their skills on scientific production. A correlation study is conducted in order to compare the s-index, developed in this thesis, with the classification of post-graduation courses performed by Capes, using data from postgraduation researchers in physics and biology. The approaches presented can be used to classify researchers’ groups through a quantitative view, by eliminating some qualitative evaluations that are hardly generalizable and replicable. Recuperacao : Informacao Ontologias Researchers’ analysis H-index Bibliometrics
55	Geração da parâmetros de busca baseada em perfis de usuário Almeida, Vinícius Nóbile de January 2004 (has links) O mundo moderno vem exigindo cada vez mais das pessoas no aspecto profissional. A exigência de capacitação profissional é uma realidade que obriga as pessoas a uma constante atualização. Neste contexto, a educação a distancia se mostra uma importante via de disseminação de conhecimento. Este trabalho apresenta um agente de Perfil do Usuário inserido no contexto do projeto PortEdu – Portal de Educação, projeto que visa abrigar ambientes de ensino na Web. Um dos objetivos do projeto PortEdu é fornecer um serviço de recuperação de informação aos ambientes ancorados, guiado pelo Agente Perfil do Usuário, tendo como finalidade oferecer informações contextualizadas a um problema específico do usuário (aluno), com a intenção de auxiliá-lo em seu aprendizado. Durante a utilização de ambientes de educação a distância, os alunos utilizam ferramentas de recuperação de informação na busca de soluções para as suas dúvidas. Mas, a busca de informação na Internet, utilizando as ferramentas existentes, nem sempre é uma tarefa simples, pois exige esforço na construção de termos de busca eficientes ou mantém o usuário percorrendo longas listas de resultados. No desenvolvimento deste serviço, no PortEdu, procuramos minimizar este tipo de esforço. Neste trabalho são descritas, primeiramente, as áreas envolvidas na pesquisa, mostrando como elas foram utilizadas na construção do Agente de Perfil do Usuário. Também é realizada uma descrição da área de inteligência artificial, dos conceitos de agente e Educação a Distancia. Pretende-se mostrar aqui as propriedades que o Agente de Perfil do Usuário possui Na seqüência, são apresentadas as soluções tecnológicas utilizadas no projeto, tais como: AMPLIA (ambiente de ensino ancorado no PortEdu), PMA3, FIPA e a API Fácil. É descrito o modo como estas tecnologias interagem no âmbito do PortEdu. O problema da recuperação de informação na Web é discutido nesta pesquisa e são apresentados três trabalhos relacionados que abordam este problema. Também é realizada uma comparação entre estes trabalhos e o PortEdu. Por fim, este trabalho apresenta uma solução encontrada para resolver o problema de recuperação de informação na Web utilizando um protótipo do PortEdu. Esta pesquisa está inserida na área de Informática na Educação. Informática : Educação Inteligência artificial Recuperacao : Informacao Ensino-aprendizagem Perfil : Usuario
56	Visibilidade web de universidades Klinger, Augusto January 2011 (has links) Visibilidade Web é a área de estudo das medidas de visibilidade de organizações, termos ou documentos na web, sendo um dos campos de pesquisa da ciência de Webmetria. Neste trabalho, uma fórmula para o cálculo de visibilidade na web é proposta, baseando-se na visão proporcionada por diferentes motores de busca. O resultado final é um indicador de Visibilidade Web para universidades. São apresentados e analisados rankings de universidades do mundo todo encontrados na web, tais como o ARWU, o WR e o THE. Tais rankings trabalham com indicadores compostos, mas abordam a questão da visibilidade na rede de maneiras diferentes. Também são discutidos alguns trabalhos recentes no campo de Visibilidade Web. O indicador elaborado baseia-se na classificação do site oficial da universidade nos buscadores como meio de pontuar a visibilidade, valendo-se de metabusca. Um método de fusão de rankings é utilizado para a pontuação. Siglas de universidades brasileiras foram submetidas ao cálculo de visibilidade e classificadas, mostrando uma aplicação da fórmula no mundo real. Dois rankings foram construídos, um deles apontando falhas no método proposto e o segundo contornando o problema encontrado, apresentando uma classificação justa, coerente com a realidade e com outros rankings de universidades brasileiras. A principal contribuição do trabalho é a definição de um indicador de visibilidade na web que mostra como são classificadas as instituições através dos principais pontos de entrada da rede: os motores de busca. / Web Visibility is the area of study of visibility measures of organizations, terms or documents on the web, one of the fields of the Webmetrics science. In this work, a formula for the calculation of visibility on the web is proposed, based on the vision provided by different search engines. The result is an indicator of Web Visibility for universities. In related works section are presented and analyzed rankings of universities around the world from the web, such as ARWU, WR and THE. Such rankings work with composite indicators, but address the issue of visibility on the network in different ways. Also are covered some resent works in the field of Web Visibility. The indicator developed is based on the classification of the universities’ official website in search engines as a means of scoring the visibility, using a metasearch engine. A method of rankings fusion is used for the scoring process. Acronyms of Brazilian universities were subjected to the calculation of visibility and classified, showing an application of the formula in the real world. Two rankings were built, one of them pointing out flaws in the proposed method and another solving the problem encountered with a fair rating, consistent with reality and with other rankings of universities. The main contribution of this work is a Web Visibility indicator that shows how the institutions are classified by the main entry points of the network: the search engines. Recuperacao : Informacao Serviços Web Web visibility Universities ranking
57	Sobre estatística de dados bibliométricos em grupos de pesquisadores : universalidade e avaliação / About statistics on bibliometric data of researchers’ groups: universality and evaluation Kalil, Fahad January 2012 (has links) Agências de fomento à pesquisa, centros de pesquisas, universidades e a comunidade científica de uma forma geral buscam incessantemente pelo aperfeiçoamento e aumento da qualidade da produção científica de seus pesquisadores. Logo, faz-se necessário que sejam providas ferramentas e métodos eficazes para obtenção de avaliações coerentes. Vários métodos têm sido propostos ao longo dos anos e diferentes formas de avaliação vêm sendo empregadas em órgãos reguladores, como a agência brasileira de pós-graduação CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior), todavia algumas questões ainda foram pouco exploradas. Com o advento do índice h (hindex) de Hirsch, que une fundamentalmente quantidade com qualidade, pois avalia um conjunto de artigos de acordo com sua distribuição de citações, uma série de estudos com as mais variadas estatísticas têm sido propostos. Contudo, não há na literatura atual, por exemplo, uma expressão analítica para distribuição de índices h de um grupo de pesquisadores, nem a verificação da existência de universalidade desta distribuição para diferentes grupos e bases de dados. Este trabalho aborda, num primeiro momento, um estudo sobre a distribuição de índice h e de citações em três áreas científicas distintas: física, biologia e ciência da computação, que possuem diferentes práticas de publicações e métodos de pesquisa. O trabalho ainda propõe uma nova métrica para construção de rankings baseado no índice h sucessivo de segunda ordem, por nós denominada s-index, o qual torna possível a comparação entre grupos de pesquisadores de tamanhos diferentes, assim proporcionando, por exemplo, uma comparação em termos de produtividade de grupos com grande quantidade de pesquisadores e grupos menores, mas que ainda assim reflita seus potenciais de produção. Por fim, é realizado estudo da correlação entre o s-index desenvolvido no trabalho e a classificação de cursos de mestrado e doutorado recomendados e reconhecidos realizada pela CAPES, usando dados de pesquisadores de programas de pós-graduação em física e biologia. As abordagens apresentadas podem ser usadas na classificação de grupos de pesquisadores, a partir de uma visão quantitativa, tentando eliminar, assim, métodos qualitativos de avaliação de difícil generalização e replicação. / Research financing agencies, research centers, universities and the scientific community are frequently seeking for improvement and enhancement on the quality of researchers’ work. Therefore, it is necessary to provide optimized tools and methods to get consistent evaluations. Several methods have been proposed over the years and different forms of evaluation are used by agencies such as Coordination for the Improvement of Higher Level Personnel (Capes), although some issues have been overlooked. With the invention of the h-index (Hirsch), that binds quantity with quality by measuring a set of papers according to their citation distribution, many studies have been considered with several different statistical methods. In the current literature, it is not found an analytical expression for h-index distribution over a researchers’ group, nor the proof of universality in this kind of distribution for different groups and databases. This master thesis discusses primarily a study about h-index distribution and citations in three distinct scientific fields: physics, biology and computer science, which has different publication and research practices. Also, it is proposed a novel metric for ranking based on successive h-index, named as s-index, which makes possible to compare researchers’ groups with different sizes, providing for example, a comparison in terms of productivity on higher and smaller groups of researchers, reflecting their skills on scientific production. A correlation study is conducted in order to compare the s-index, developed in this thesis, with the classification of post-graduation courses performed by Capes, using data from postgraduation researchers in physics and biology. The approaches presented can be used to classify researchers’ groups through a quantitative view, by eliminating some qualitative evaluations that are hardly generalizable and replicable. Recuperacao : Informacao Ontologias Researchers’ analysis H-index Bibliometrics
58	Redução do esforço do usuário na configuração da deduplicação de grandes bases de dados / Reducing the user effort to tune large scale deduplication Dal Bianco, Guilherme January 2014 (has links) A deduplicação consiste na tarefa de identificar quais objetos (registros, documentos, textos, etc.) são potencialmente os mesmos em uma base de dados (ou em um conjunto de bases de dados). A identificação de dados duplicados depende da intervenção do usuário, principalmente para a criação de um conjunto contendo pares duplicados e não duplicados. Tais informações são usadas para ajudar na identificação de outros possíveis pares duplicados presentes na base de dados. Em geral, quando a deduplicação é estendida para grandes conjuntos de dados, a eficiência e a qualidade das duplicatas dependem diretamente do “ajuste” de um usuário especialista. Nesse cenário, a configuração das principais etapas da deduplicação (etapas de blocagem e classificação) demandam que o usuário seja responsável pela tarefa pouco intuitiva de definir valores de limiares e, em alguns casos, fornecer pares manualmente rotulados. Desse modo, o processo de calibração exige que o usuário detenha um conhecimento prévio sobre as características específicas da base de dados e os detalhes do funcionamento do método de deduplicação. O objetivo principal desta tese é tratar do problema da configuração da deduplicação de grandes bases de dados, de modo a reduzir o esforço do usuário. O usuário deve ser somente requisitado para rotular um conjunto reduzido de pares automaticamente selecionados. Para isso, é proposta uma metodologia, chamada FS-Dedup, que incorpora algoritmos do estado da arte da deduplicação para permitir o processamento de grandes volumes de dados e adiciona um conjunto de estratégias com intuito de possibilitar a definição dos parâmetros do deduplicador, removendo os detalhes de configuração da responsabilidade do usuário. A metodologia pode ser vista como uma camada capaz de identificar as informações requisitadas pelo deduplicador (principalmente valores de limiares) a partir de um conjunto de pares rotulados pelo usuário. A tese propõe também uma abordagem que trata do problema da seleção dos pares informativos para a criação de um conjunto de treinamento reduzido. O desafio maior é selecionar um conjunto reduzido de pares suficientemente informativo para possibilitar a configuração da deduplicação com uma alta eficácia. Para isso, são incorporadas estratégias para reduzir o volume de pares candidatos a um algoritmo de aprendizagem ativa. Tal abordagem é integrada à metodologia FS-Dedup para possibilitar a remoção da intervenção especialista nas principais etapas da deduplicação. Por fim, um conjunto exaustivo de experimentos é executado com objetivo de validar as ideias propostas. Especificamente, são demonstrados os promissores resultados alcançados nos experimentos em bases de dados reais e sintéticas, com intuito de reduzir o número de pares manualmente rotulados, sem causar perdas na qualidade da deduplicação. / Deduplication is the task of identifying which objects (e.g., records, texts, documents, etc.) are potentially the same in a given dataset (or datasets). It usually requires user intervention in several stages of the process, mainly to ensure that pairs representing matchings and non-matchings can be determined. This information can be used to help detect other potential duplicate records. When deduplication is applied to very large datasets, the matching quality depends on expert users. The expert users are requested to define threshold values and produce a training set. This intervention requires user knowledge of the noise level of the data and a particular approach to deduplication so that it can be applied to configure the most important stages of the process (e.g. blocking and classification). The main aim of this thesis is to provide solutions to help in tuning the deduplication process in large datasets with a reduced effort from the user, who is only required to label an automatically selected subset of pairs. To achieve this, we propose a methodology, called FS-Dedup, which incorporates state-of-the-art algorithms in its deduplication core to address high performance issues. Following this, a set of strategies is proposed to assist in setting its parameters, and removing most of the detailed configuration concerns from the user. The methodology proposed can be regarded as a layer that is able to identify the specific information requested in the deduplication approach (mainly, threshold values) through pairs that are manually labeled by the user. Moreover, this thesis proposed an approach which would enable to select an informative set of pairs to produce a reduced training set. The main challenge here is how to select a “representative” set of pairs to configure the deduplication with high matching quality. In this context, the proposed approach incorporates an active learning method with strategies that allow the deduplication to be carried out on large datasets. This approach is integrated with the FS-Dedup methodology to avoid the need for a definition of threshold values in the most important deduplication stages. Finally, exhaustive experiments using both synthetic and real datasets have been conducted to validate the ideas outlined in this thesis. In particular, we demonstrate the ability of our approach to reduce the user effort without degrading the matching quality. Banco : Dados Recuperacao : Informacao Data integration Deduplication Signature-based deduplication
59	Utilizando conceitos como descritores de textos para o processo de identificação de conglomerados (clustering) de documentos Wives, Leandro Krug January 2004 (has links) A descoberta e a análise de conglomerados textuais são processos muito importantes para a estruturação, organização e a recuperação de informações, assim como para a descoberta de conhecimento. Isto porque o ser humano coleta e armazena uma quantidade muito grande de dados textuais, que necessitam ser vasculhados, estudados, conhecidos e organizados de forma a fornecerem informações que lhe dêem o conhecimento para a execução de uma tarefa que exija a tomada de uma decisão. É justamente nesse ponto que os processos de descoberta e de análise de conglomerados (clustering) se insere, pois eles auxiliam na exploração e análise dos dados, permitindo conhecer melhor seu conteúdo e inter-relações. No entanto, esse processo, por ser aplicado em textos, está sujeito a sofrer interferências decorrentes de problemas da própria linguagem e do vocabulário utilizado nos mesmos, tais como erros ortográficos, sinonímia, homonímia, variações morfológicas e similares. Esta Tese apresenta uma solução para minimizar esses problemas, que consiste na utilização de “conceitos” (estruturas capazes de representar objetos e idéias presentes nos textos) na modelagem do conteúdo dos documentos. Para tanto, são apresentados os conceitos e as áreas relacionadas com o tema, os trabalhos correlatos (revisão bibliográfica), a metodologia proposta e alguns experimentos que permitem desenvolver determinados argumentos e comprovar algumas hipóteses sobre a proposta. As conclusões principais desta Tese indicam que a técnica de conceitos possui diversas vantagens, dentre elas a utilização de uma quantidade muito menor, porém mais representativa, de descritores para os documentos, o que torna o tempo e a complexidade do seu processamento muito menor, permitindo que uma quantidade muito maior deles seja analisada. Outra vantagem está no fato de o poder de expressão de conceitos permitir que os usuários analisem os aglomerados resultantes muito mais facilmente e compreendam melhor seu conteúdo e forma. Além do método e da metodologia proposta, esta Tese possui diversas contribuições, entre elas vários trabalhos e artigos desenvolvidos em parceria com outros pesquisadores e colegas. Armazenamento : Dados Recuperacao : Informacao Descoberta : Conhecimento Agrupamento : Informacao textual
60	Abordagem baseada em conceitos para descoberta de conhecimento em textos Loh, Stanley January 2001 (has links) Esta tese apresenta uma abordagem baseada em conceitos para realizar descoberta de conhecimento em textos (KDT). A proposta é identificar características de alto nível em textos na forma de conceitos, para depois realizar a mineração de padrões sobre estes conceitos. Ao invés de aplicar técnicas de mineração sobre palavras ou dados estruturados extraídos de textos, a abordagem explora conceitos identificados nos textos. A idéia é analisar o conhecimento codificado em textos num nível acima das palavras, ou seja, não analisando somente os termos e expressões presentes nos textos, mas seu significado em relação aos fenômenos da realidade (pessoas, objetos, entidades, eventos e situações do mundo real). Conceitos identificam melhor o conteúdo dos textos e servem melhor que palavras para representar os fenômenos. Assim, os conceitos agem como recursos meta-lingüísticos para análise de textos e descoberta de conhecimento. Por exemplo, no caso de textos de psiquiatria, os conceitos permitiram investigar características importantes dos pacientes, tais como sintomas, sinais e comportamentos. Isto permite explorar o conhecimento disponível em textos num nível mais próximo da realidade, minimizando o problema do vocabulário e facilitando o processo de aquisição de conhecimento. O principal objetivo desta tese é demonstrar a adequação de uma abordagem baseada em conceitos para descobrir conhecimento em textos e confirmar a hipótese de que este tipo de abordagem tem vantagens sobre abordagens baseadas em palavras. Para tanto, foram definidas estratégias para identificação dos conceitos nos textos e para mineração de padrões sobre estes conceitos. Diferentes métodos foram avaliados para estes dois processos. Ferramentas automatizadas foram empregadas para aplicar a abordagem proposta em estudos de casos. Diferentes experimentos foram realizados para demonstrar que a abordagem é viável e apresenta vantagens sobre os métodos baseados em palavras. Avaliações objetivas e subjetivas foram conduzidas para confirmar que o conhecimento descoberto era de qualidade. Também foi investigada a possibilidade de se realizar descobertas proativas, quando não se tem hipóteses iniciais. Os casos estudados apontam as várias aplicações práticas desta abordagem. Pode-se concluir que a principal aplicação da abordagem é permitir análises qualitativa e quantitativa de coleções textuais. Conceitos podem ser identificados nos textos e suas distribuições e relações podem ser analisadas para um melhor entendimento do conteúdo presente nos textos e, conseqüentemente, um melhor entendimento do conhecimento do domínio. Armazenamento : Dados Recuperacao : Informacao Descoberta : Conhecimento Mineracao : Dados

Search results