1 |
Combining collaborative and content-based filtering to recommend research papersTorres Júnior, Roberto Dias January 2004 (has links)
The number of research papers available today is growing at a staggering rate, generating a huge amount of information that people cannot keep up with. According to a tendency indicated by the United States’ National Science Foundation, more than 10 million new papers will be published in the next 20 years. Because most of these papers will be available on the Web, this research focus on exploring issues on recommending research papers to users, in order to directly lead users to papers of their interest. Recommender systems are used to recommend items to users among a huge stream of available items, according to users’ interests. This research focuses on the two most prevalent techniques to date, namely Content-Based Filtering and Collaborative Filtering. The first explores the text of the paper itself, recommending items similar in content to the ones the user has rated in the past. The second explores the citation web existing among papers. As these two techniques have complementary advantages, we explored hybrid approaches to recommending research papers. We created standalone and hybrid versions of algorithms and evaluated them through both offline experiments on a database of 102,295 papers, and an online experiment with 110 users. Our results show that the two techniques can be successfully combined to recommend papers. The coverage is also increased at the level of 100% in the hybrid algorithms. In addition, we found that different algorithms are more suitable for recommending different kinds of papers. Finally, we verified that users’ research experience influences the way users perceive recommendations. In parallel, we found that there are no significant differences in recommending papers for users from different countries. However, our results showed that users’ interacting with a research paper Recommender Systems are much happier when the interface is presented in the user’s native language, regardless the language that the papers are written. Therefore, an interface should be tailored to the user’s mother language.
|
2 |
Termos e relacionamentos em evidência na recuperação de informaçãoGonzalez, Marco Antonio Insaurriaga January 2005 (has links)
Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.
|
3 |
Uma estratégia genérica para casamento aproximado de instânciasDorneles, Carina Friedrich January 2006 (has links)
Casamento aproximado de instâncias é um problema central em muitos processos de gerenciamento de dados, tais como integração de dados, data cleaning e consulta aproximada. O principal objetivo de casamento aproximado é determinar se duas instâncias representam o mesmo objeto do mundo real. Para valores atômicos, diversas funções de similaridade têm sido definidas, que geralmente são dependentes do domínio de valores. Por outro lado, casamento de valores agregados, como tuplas ou árvores XML, ainda é um problema importante. Neste cenário, dois problemas podem ser identificados. O primeiro diz respeito a como os resultados gerados por diferentes funções de similaridade devem ser combinados em um escore único, ou para um escore normalizado. Funções individuais geralmente geram escores que não são comparáveis, pode-se obter diferentes distribuições a partir de cada função. Isto significa que não existe uma forma simples de combinar escores gerados por funções de similaridade distintas usando uma medida simples, em casamento de agregados. Nesta tese, a proposta é, ao invés de utilizar os escores originalmente gerados pelas funções de similaridade, aplicar um método para estimar a precisão dos resultados de cada função, e usar esta precisão estimada como um escore ajustado. Através deste método, a proposta apresentada nesta tese envolve duas contribuições a este problema. Primeiro, é possível permitir que o usuário especifique valores de ponto de corte (thresholds) que sejam significativos, usando para isso um valor de precisão ajustada como um escore de similaridade Além disso, usando o escore ajustado, são obtidos resultados mais precisos em um processo de casamento aproximado de agregados. O segundo problema, surge quando os escores são combinados em casamento de agregados, e diz respeito à função de similaridade utilizada para combinar os valores. Particularmente, um agregado pode ser estruturado de diferentes maneiras, tais como tupla, conjunto e lista. O processo de combinação usado em cada caso deve ser distinto, a fim de se alcançar resultados mais exatos. Entretanto, não é claro como escores de similaridade individuais podem ser combinados para calcular, apropriadamente, escores para um agregado. O processo de combinação deveria ser distinto em cada caso. A contribuição apresentada para este problema é a definição de funções de similaridade específicas para cada tipo de agregado, dependendo da estruturação. Palavras-chave: Similaridade, funções de similaridade, casamento de instâncias, revocação e precisão.
|
4 |
Recuperação de metadados de objetos de aprendizagem no AdaptWebWarpechowski, Mariúsa January 2005 (has links)
Com a disseminação do uso de Ambientes de Aprendizagem na Web, muitos autores de conteúdo instrucional dedicam seu tempo e se esforçam para desenvolver material de qualidade. Para facilitar o reuso desses materiais, os mesmos estão sendo desenvolvidos como objetos de aprendizagem e são armazenados em repositórios na Web, de onde podem ser pesquisados e recuperados para reuso. Essa pesquisa e recuperação são baseadas nas características dos objetos, ou seja, em seus metadados. Dessa forma, é necessário que os Objetos de Aprendizagem possuam valores de metadados consistentes para que a pesquisa e recuperação sejam eficientes. O desenvolvimento de material instrucional de boa qualidade consome grande quantidade de recursos. A descrição completa destes materiais, ou seja, dos objetos de aprendizagem, não é uma atividade estimulante para os autores que informam apenas um mínimo de metadados. Esta falta de metadados torna muito difícil a recuperação e o reuso dos OA. O objetivo desse trabalho é definir técnicas que recuperem a maior quantidade possível de metadados a partir dos Objetos e Aprendizagem, com a mínima intervenção do usuário, resultando em uma indexação e recuperação eficientes dos Objetos de Aprendizagem Essas técnicas são definidas com base na estrutura e funcionamento do AdaptWeb, que é um ambiente de aprendizagem que disponibiliza material instrucional de forma estruturada e organizada. Assim, é possível fazer uso das informações disponíveis nesse ambiente para recuperar os metadados automaticamente. As técnicas transformam o conteúdo do AdaptWeb em objetos de aprendizagem, sendo capazes de recuperar uma quantidade considerável de metadados. Assim, têm-se Objetos de Aprendizagem devidamente catalogados e armazenados em um repositório, prontos para serem reusados.
|
5 |
Combining collaborative and content-based filtering to recommend research papersTorres Júnior, Roberto Dias January 2004 (has links)
The number of research papers available today is growing at a staggering rate, generating a huge amount of information that people cannot keep up with. According to a tendency indicated by the United States’ National Science Foundation, more than 10 million new papers will be published in the next 20 years. Because most of these papers will be available on the Web, this research focus on exploring issues on recommending research papers to users, in order to directly lead users to papers of their interest. Recommender systems are used to recommend items to users among a huge stream of available items, according to users’ interests. This research focuses on the two most prevalent techniques to date, namely Content-Based Filtering and Collaborative Filtering. The first explores the text of the paper itself, recommending items similar in content to the ones the user has rated in the past. The second explores the citation web existing among papers. As these two techniques have complementary advantages, we explored hybrid approaches to recommending research papers. We created standalone and hybrid versions of algorithms and evaluated them through both offline experiments on a database of 102,295 papers, and an online experiment with 110 users. Our results show that the two techniques can be successfully combined to recommend papers. The coverage is also increased at the level of 100% in the hybrid algorithms. In addition, we found that different algorithms are more suitable for recommending different kinds of papers. Finally, we verified that users’ research experience influences the way users perceive recommendations. In parallel, we found that there are no significant differences in recommending papers for users from different countries. However, our results showed that users’ interacting with a research paper Recommender Systems are much happier when the interface is presented in the user’s native language, regardless the language that the papers are written. Therefore, an interface should be tailored to the user’s mother language.
|
6 |
Termos e relacionamentos em evidência na recuperação de informaçãoGonzalez, Marco Antonio Insaurriaga January 2005 (has links)
Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.
|
7 |
Uma estratégia genérica para casamento aproximado de instânciasDorneles, Carina Friedrich January 2006 (has links)
Casamento aproximado de instâncias é um problema central em muitos processos de gerenciamento de dados, tais como integração de dados, data cleaning e consulta aproximada. O principal objetivo de casamento aproximado é determinar se duas instâncias representam o mesmo objeto do mundo real. Para valores atômicos, diversas funções de similaridade têm sido definidas, que geralmente são dependentes do domínio de valores. Por outro lado, casamento de valores agregados, como tuplas ou árvores XML, ainda é um problema importante. Neste cenário, dois problemas podem ser identificados. O primeiro diz respeito a como os resultados gerados por diferentes funções de similaridade devem ser combinados em um escore único, ou para um escore normalizado. Funções individuais geralmente geram escores que não são comparáveis, pode-se obter diferentes distribuições a partir de cada função. Isto significa que não existe uma forma simples de combinar escores gerados por funções de similaridade distintas usando uma medida simples, em casamento de agregados. Nesta tese, a proposta é, ao invés de utilizar os escores originalmente gerados pelas funções de similaridade, aplicar um método para estimar a precisão dos resultados de cada função, e usar esta precisão estimada como um escore ajustado. Através deste método, a proposta apresentada nesta tese envolve duas contribuições a este problema. Primeiro, é possível permitir que o usuário especifique valores de ponto de corte (thresholds) que sejam significativos, usando para isso um valor de precisão ajustada como um escore de similaridade Além disso, usando o escore ajustado, são obtidos resultados mais precisos em um processo de casamento aproximado de agregados. O segundo problema, surge quando os escores são combinados em casamento de agregados, e diz respeito à função de similaridade utilizada para combinar os valores. Particularmente, um agregado pode ser estruturado de diferentes maneiras, tais como tupla, conjunto e lista. O processo de combinação usado em cada caso deve ser distinto, a fim de se alcançar resultados mais exatos. Entretanto, não é claro como escores de similaridade individuais podem ser combinados para calcular, apropriadamente, escores para um agregado. O processo de combinação deveria ser distinto em cada caso. A contribuição apresentada para este problema é a definição de funções de similaridade específicas para cada tipo de agregado, dependendo da estruturação. Palavras-chave: Similaridade, funções de similaridade, casamento de instâncias, revocação e precisão.
|
8 |
Recuperação de metadados de objetos de aprendizagem no AdaptWebWarpechowski, Mariúsa January 2005 (has links)
Com a disseminação do uso de Ambientes de Aprendizagem na Web, muitos autores de conteúdo instrucional dedicam seu tempo e se esforçam para desenvolver material de qualidade. Para facilitar o reuso desses materiais, os mesmos estão sendo desenvolvidos como objetos de aprendizagem e são armazenados em repositórios na Web, de onde podem ser pesquisados e recuperados para reuso. Essa pesquisa e recuperação são baseadas nas características dos objetos, ou seja, em seus metadados. Dessa forma, é necessário que os Objetos de Aprendizagem possuam valores de metadados consistentes para que a pesquisa e recuperação sejam eficientes. O desenvolvimento de material instrucional de boa qualidade consome grande quantidade de recursos. A descrição completa destes materiais, ou seja, dos objetos de aprendizagem, não é uma atividade estimulante para os autores que informam apenas um mínimo de metadados. Esta falta de metadados torna muito difícil a recuperação e o reuso dos OA. O objetivo desse trabalho é definir técnicas que recuperem a maior quantidade possível de metadados a partir dos Objetos e Aprendizagem, com a mínima intervenção do usuário, resultando em uma indexação e recuperação eficientes dos Objetos de Aprendizagem Essas técnicas são definidas com base na estrutura e funcionamento do AdaptWeb, que é um ambiente de aprendizagem que disponibiliza material instrucional de forma estruturada e organizada. Assim, é possível fazer uso das informações disponíveis nesse ambiente para recuperar os metadados automaticamente. As técnicas transformam o conteúdo do AdaptWeb em objetos de aprendizagem, sendo capazes de recuperar uma quantidade considerável de metadados. Assim, têm-se Objetos de Aprendizagem devidamente catalogados e armazenados em um repositório, prontos para serem reusados.
|
9 |
Combining collaborative and content-based filtering to recommend research papersTorres Júnior, Roberto Dias January 2004 (has links)
The number of research papers available today is growing at a staggering rate, generating a huge amount of information that people cannot keep up with. According to a tendency indicated by the United States’ National Science Foundation, more than 10 million new papers will be published in the next 20 years. Because most of these papers will be available on the Web, this research focus on exploring issues on recommending research papers to users, in order to directly lead users to papers of their interest. Recommender systems are used to recommend items to users among a huge stream of available items, according to users’ interests. This research focuses on the two most prevalent techniques to date, namely Content-Based Filtering and Collaborative Filtering. The first explores the text of the paper itself, recommending items similar in content to the ones the user has rated in the past. The second explores the citation web existing among papers. As these two techniques have complementary advantages, we explored hybrid approaches to recommending research papers. We created standalone and hybrid versions of algorithms and evaluated them through both offline experiments on a database of 102,295 papers, and an online experiment with 110 users. Our results show that the two techniques can be successfully combined to recommend papers. The coverage is also increased at the level of 100% in the hybrid algorithms. In addition, we found that different algorithms are more suitable for recommending different kinds of papers. Finally, we verified that users’ research experience influences the way users perceive recommendations. In parallel, we found that there are no significant differences in recommending papers for users from different countries. However, our results showed that users’ interacting with a research paper Recommender Systems are much happier when the interface is presented in the user’s native language, regardless the language that the papers are written. Therefore, an interface should be tailored to the user’s mother language.
|
10 |
Termos e relacionamentos em evidência na recuperação de informaçãoGonzalez, Marco Antonio Insaurriaga January 2005 (has links)
Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.
|
Page generated in 0.1104 seconds