Spelling suggestions: "subject:"recuperacao"" "subject:"recuperaçao""
11 |
Metodologia para tratamento e manipulação de informações de comércio eletrônicoScarinci, Rui Gureghian January 2003 (has links)
A grande disponibilidade de informações oferece um amplo potencial comercial. Contudo, o enorme volume e diversidade de oportunidades gera um problema: limitações comerciais criadas pela seleção e a manipulação manual dessa informação. O tratamento das grandes bases de dados não estruturadas e/ou semi-estruturadas (BDNE/SE), como as trazidas pela Internet, é uma fonte de conhecimento rica e confiável, permitindo a análise de mercados. O tratamento e a estruturação dessa informação permitirá seu melhor gerenciamento, a realização de consultas e a tomada de decisões, criando diferenciais competitivos de mercado. Pesquisas em Recuperação de Informação (RI), as quais culminaram nesta tese, investem na melhoria da posição competitiva de pequenas e médias empresas, hoje inseridas, pelo comércio eletrônico, em um mercado globalizado, dinâmico e competitivo. O objetivo deste trabalho é o desenvolvimento de uma Metodologia de Extração de Informações para o Tratamento e Manipulação de Informações de Comércio Eletrônico. Chamaremos essa metodologia de EI-MNBC, ou seja, Extração de Informações em Múltiplos Níveis Baseada em Conhecimento. Os usuários da EIMNBC podem rapidamente obter as informações desejadas, frente ao tempo de pesquisa e leitura manual dos dados, ou ao uso de ferramentas automáticas inadequadas. Os problemas de volume, diversidade de formatos de armazenamento, diferentes necessidades de pesquisa das informações, entre outros, serão solucionados. A metodologia EI-MNBC utiliza conhecimentos de RI, combinando tecnologias de Recuperação de Documentos, Extração de Informações e Mineração de Dados em uma abordagem híbrida para o tratamento de BDNE/SE. Propõe-se uma nova forma de integração (múltiplos níveis) e configuração (sistema baseado em conhecimento - SBC) de processos de extração de informações, tratando de forma mais eficaz e eficiente as BDNE/SE usadas em comércio eletrônico. Esse tratamento viabilizará o uso de ferramentas de manipulação de dados estruturados, como Sistemas Gerenciadores de Bancos de Dados, sobre as informações anteriormente desestruturadas. A busca do conhecimento existente em bases de dados textuais não estruturadas demanda a compreensão desses dados. O objetivo é enfatizar os aspectos cognitivos superficiais envolvidos na leitura de um texto, entendendo como as pessoas recuperam as informações e armazenando esse conhecimento em regras que guiarão o processo de extração. A estrutura da metodolo gia EI-MNBC é similar a de um SBC: os módulos de extração (máquinas de inferência) analisam os documentos (eventos) de acordo com o conteúdo das bases de conhecimento, interpretando as regras. O resultado é um arquivo estruturado com as informações extraíd as (conclusões). Usando a EI-MNBC, implementou-se o SE-MNBC (Sistema de Extração de Informações em Múltiplos Níveis Baseado em Conhecimento) que foi aplicado sobre o sistema ETO (Electronic Trading Opportunities). O sistema ETO permite que as empresas negociem através da troca de e-mails e o SE-MNBC extrai as informações relevantes nessas mensagens. A aplicação é estruturada em três fases: análise estrutural dos textos, identificação do assunto (domínio) de cada texto e extração, transformando a informação não estruturada em uma base de dados estruturada.
|
12 |
Combining collaborative and content-based filtering to recommend research papersTorres Júnior, Roberto Dias January 2004 (has links)
The number of research papers available today is growing at a staggering rate, generating a huge amount of information that people cannot keep up with. According to a tendency indicated by the United States’ National Science Foundation, more than 10 million new papers will be published in the next 20 years. Because most of these papers will be available on the Web, this research focus on exploring issues on recommending research papers to users, in order to directly lead users to papers of their interest. Recommender systems are used to recommend items to users among a huge stream of available items, according to users’ interests. This research focuses on the two most prevalent techniques to date, namely Content-Based Filtering and Collaborative Filtering. The first explores the text of the paper itself, recommending items similar in content to the ones the user has rated in the past. The second explores the citation web existing among papers. As these two techniques have complementary advantages, we explored hybrid approaches to recommending research papers. We created standalone and hybrid versions of algorithms and evaluated them through both offline experiments on a database of 102,295 papers, and an online experiment with 110 users. Our results show that the two techniques can be successfully combined to recommend papers. The coverage is also increased at the level of 100% in the hybrid algorithms. In addition, we found that different algorithms are more suitable for recommending different kinds of papers. Finally, we verified that users’ research experience influences the way users perceive recommendations. In parallel, we found that there are no significant differences in recommending papers for users from different countries. However, our results showed that users’ interacting with a research paper Recommender Systems are much happier when the interface is presented in the user’s native language, regardless the language that the papers are written. Therefore, an interface should be tailored to the user’s mother language.
|
13 |
Termos e relacionamentos em evidência na recuperação de informaçãoGonzalez, Marco Antonio Insaurriaga January 2005 (has links)
Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.
|
14 |
Filtragem de informações no ambiente do DireitoBalinski, Ricardo January 2002 (has links)
Os Sistemas de Recuperação de Informações (SRI) computadorizados são sistemas capazes de armazenar, recuperar e manter informações, visando minimizar o esforço humano na realização de tais atividades. A classificação de textos é um subdomínio dos sistemas de recuperação de informações que tem como objetivo classificar um texto em uma ou mais categorias existentes. Pode ser utilizada na classificação de mensagens, notícias e documentos, na filtragem de informações, na sumarização de textos, além de auxiliar profissionais na execução destas tarefas. A filtragem automatizada das mensagens de correio eletrônico é uma forma de organizar o trabalho do usuário. O volume de informações divulgadas através deste serviço torna fundamental um sistema de filtros para melhor uso do serviço. Sieve é uma proposta para padrão de linguagens de filtro de mensagens. O Direto é um software de correio, agenda e catálogo corporativos que visa atender todo Governo do Estado do Rio Grande do Sul. Foi desenvolvido na PROCERGS, Companhia de Processamento de Dados do Estado do Rio Grande do Sul, utilizando a linguagem Java e utiliza os serviços de IMAP, SMTP, LDAP e SGBD. Está disponível com licença de software livre. O objetivo deste trabalho é aplicar técnicas de filtragem no Direto. O trabalho apresenta uma solução para filtrar as mensagens de correio do Direto utilizando Sieve. Também é especificado um serviço de canais de informação que visa divulgar informações de forma eficiente no Estado. Este serviço possui vários canais, cada um destinado a divulgar informações de determinado domínio. O usuário assina os canais que desejar e pode criar filtros para melhor refinamento das informações que deseja receber. Os filtros utilizam técnicas de classificação de textos no processo de filtragem.
|
15 |
Um estudo comparativo de ferramentas de descoberta de conhecimento em texto: a análise da AmazôniaSilva, Ana Carla Macedo da January 2002 (has links)
Este trabalho faz avaliação de ferramentas que utilizam técnica de Descoberta de Conhecimento em Texto (agrupamento ou “clustering”). As duas ferramentas são: Eurekha e Umap. O Eurekha é baseado na hipótese de agrupamento, que afirma que documentos similares e relevantes ao mesmo assunto tendem a permanecer em um mesmo grupo. O Umap, por sua vez, é baseado na árvore do conhecimento. A mesma coleção de documentos submetida às ferramentas foi lida por um especialista humano, que agrupou textos similares, a fim de que seus resultados fossem comparados aos das ferramentas. Com isso, pretende-se responder a seguinte questão: a recuperação automática é equivalente à recuperação humana? A coleção de teste é composta por matérias do jornal Folha de São Paulo, cujo tema central é a Amazônia. Com os resultados, pretende-se verificar a validade das ferramentas, os conhecimentos obtidos sobre a região e o tratamento que o jornal dá em relação à mesma.
|
16 |
[en] PUBLISHING ANNOTATED MULTIMEDIA DEEP WEB DATA / [pt] PUBLICANDO ANOTAÇÕES DE DADOS MULTIMÍDIA ADVINDA DA DEEP WEBALEXANDER ARTURO MERA CARABALLO 27 November 2014 (has links)
[pt] Nos últimos anos, temos assistido um enorme crescimento de dados multimídia na Web. Novas tecnologias de menor custo e maior largura de banda têm permitido que a Web evolua para um formato multimídia. No entanto, a falta de ferramentas que podem tornar o formato multimídia disponível na Web nos levou a um conjunto de dados não-pesquisável e não indexável da Web, também conhecido como Deep Web. Desta forma, esta dissertação aborda o problema de como publicar conteúdo de áudio e vídeo na Web. Apresentamos uma ferramenta e uma nova abordagem que facilita a indexação e recuperação dos objetos com a ajuda das maquinas de busca tradicionais. A ferramenta gera automaticamente páginas Web estáticas que descrevem o conteúdo dos objetos e organizar esse conteúdo para facilitar a localização de segmentos do áudio ou vídeo que correspondem às descrições. As páginas Web estáticas podem ser traduzidos para outras línguas para atingir outras populações de usuários. Um processo de anotação também é realizado para incorporar dados legíveis pelas máquinas nas páginas Web. A dissertação também apresenta um experimento completo, publicando objetos de aprendizagem baseados em áudio e vídeo para avaliar a eficácia da abordagem. / [en] In recent years, we witnessed a huge growth of multimedia data on the Web. New lower-cost technologies and greater bandwidth allowed the Web to evolve into a multimedia format. However, the lack of tools that can make multimedia format easily accessible on the Web led us to a non-searchable and non-indexable data of the Web, also known as Deep Web. In line with these observations, this dissertation addresses the problem of how to publish audio and video content on the Web. We present a tool and a novel approach that facilitates the indexing and retrieval of the objects with the help of traditional search engines. The tool automatically generates static Web pages that describe the content of the objects and organize this content to facilitate locating segments of the audio or video which correspond to the descriptions. The static Web pages can be translated to others languages to reach other user populations. An annotation process is also performed to embed machine-readable data into the Web pages. The dissertation also presents an in-depth experiment, publishing learning objects based on audio and video, to assess the efficacy of the technique.
|
17 |
Recuperação com base em Checkpointing : uma abordagem orientada a objetosSilva, Francisco Assis da January 2002 (has links)
Independentemente do modelo de programação adotado, no projeto e implementação de aplicações de alta disponibilidade, faz-se necessário usar procedimentos de tolerância a falhas. Dentre as atividades que trazem consigo interesse de pesquisa na área de Tolerância a Falhas, estão os mecanismos de recuperação em um sistema computacional. Do ponto de vista prático, estes mecanismos buscam manter próximo do mínimo o tempo total de execução de aplicações computacionais de longa duração, ao mesmo tempo em que as preparam para não sofrerem perdas significativas de desempenho, em caso de falhas. Paralelamente à evolução dos sistemas computacionais, foi possível observar também a evolução das linguagens de programação, principalmente as que utilizam o paradigma orientado a objetos. O advento da área de tolerância a falhas na orientação a objetos resultou em novos problemas na atividade de recuperação quanto aos mecanismos de salvamento de estados e retomada da execução, principalmente no que se refere às dificuldades de gerenciamento e controle sobre a alocação de objetos. Entretanto, observa-se que a complexidade de implementação dos mecanismos de recuperação, por parte dos programadores, exige deles conhecimentos mais especializados para o salvamento dos estados da aplicação e para a retomada da execução. Portanto, a simplificação do trabalho do programador, através do uso de uma biblioteca de checkpointing que implemente os mecanismos de salvamento de estados e recuperação é o ponto focal deste trabalho. Diante do contexto exposto, nesta dissertação, são definidas e implementadas as classes de uma biblioteca que provê mecanismos de checkpointing e recuperação. Esta biblioteca, denominada de Libcjp, visa aprimorar o processo de recuperação de aplicações orientadas a objetos escritas na linguagem de programação Java. Esta linguagem foi escolhida para implementação devido à presença dos recursos de persistência e serialização. Para a concepção do trabalho, são considerados ambos os cenários no paradigma orientado a objetos: objetos centralizados e distribuídos. São utilizados os recursos da API de serialização Java e a tecnologia Java RMI para objetos distribuídos. Conclui-se o trabalho com a ilustração de casos de uso através de diversos exemplos desenvolvidos a partir de seus algoritmos originais inicialmente, e incrementados posteriormente com os mecanismos de checkpointing e recuperação. Os componentes desenvolvidos foram testados quanto ao cumprimento dos seus requisitos funcionais. Adicionalmente, foi realizada uma análise preliminar sobre a influência das ações de checkpointing nas características de desempenho das aplicações.
|
18 |
Sumarização e análise de vídeos de histeroscopiasGavião Neto, Wilson Pires January 2003 (has links)
Vídeos de histeroscopias são usados para avaliar a aparência do útero, e são de importância fundamental para os ginecologistas. Estes vídeos contém uma grande quantidade de informação, porém somente um número reduzido de quadros são úteis para propósitos de diagnóstico (por exemplo, a análise da distribuição espacial de glândulas). Sendo assim, este trabalho propõe um método inovador para a análise de vídeos de histeroscopias, com dois objetivos principais: (a) reduzir o número de quadros necessários para a representação do conteúdo do vídeo, e (b) prover uma medida quantitativa da distribuição das glândulas em tais vídeos. A abordagem proposta para a sumarização do vídeo é baseada na extensão de um princípio estatístico conhecido (decomposição em valor singular), e, segundo resultados preliminares, apresenta vantagens sobre os trabalhos publicados na literatura. Observou-se que a análise quantitativa da distribuição das glândulas também apresenta uma maior discriminação do que relatado na literatura. A abordagem proposta é adaptativa no sentido de minimizar a necessidade do ajuste de parâmetros. Além disso, o método é robusto quanto as condições de iluminação e a presença de artefatos (por exemplo, reflexos), os quais são comuns nestes vídeos. Por fim, os experimentos indicam que os resultados obtidos são compatíveis com os obtidos pelos ginecologistas.
|
19 |
Um Modelo de metadados para a indexação e recuperação de imagens médicas na webCarro, Silvio Antonio January 2003 (has links)
Este trabalho apresenta um modelo de metadados para descrever e recuperar imagens médicas na Web. As classes pertencentes ao modelo viabilizam a descrição de imagens de várias especialidades médicas, incluindo suas propriedades, seus componentes e as relações existentes entre elas. Uma das propriedades que o modelo incorpora é a classificação internacional de doenças, versão 10 (CID-10). O modelo de metadados proposto, inspirado em classes, favorece a especialização e sua implementação na arquitetura de metadados RDF. O modelo serviu de base para a implementação de um protótipo denominado de Sistema MedISeek (Medical Image Seek) que permite a usuários autorizados: descrever, armazenar e recuperar imagens na Web. Além disto, é sugerida uma estrutura persistente apropriada de banco de dados para armazenamento e recuperação dos metadados propostos.
|
20 |
Extração de informação sobre bases de dados textuaisZambenedetti, Christian January 2002 (has links)
Com a crescente popularização dos microcomputadores e da rede mundial de informação, Internet, uma enorme variedade e quantidade de informações estão se tornando acessíveis a um número cada vez maior de pessoas. Desta forma, também cresce a importância de se extrair a informação útil que está no grande conjunto das informações disponibilizadas. Hoje há muito mais dados na forma de textos eletrônicos do que em tempos passados, mas muito disto é ignorado. Nenhuma pessoa pode ler, entender e sintetizar megabytes de texto no seu cotidiano. Informações perdidas, e conseqüentemente oportunidades perdidas, estimularam pesquisas na exploração de várias estratégias para a administração da informação, a fim de estabelecer uma ordem na imensidão de textos. As estratégias mais comuns são recuperação de informações, filtragem de informações e outra relativamente nova, chamada de extração de informações. A extração de informações tem muitas aplicações potenciais. Por exemplo, a informação disponível em textos não-estruturados pode ser armazenada em bancos de dados tradicionais e usuários podem examiná-las através de consultas padrão. Para isso, há um complexo trabalho de gerenciamento, que é conseqüência da natureza não estruturada e da difícil análise dos dados. Os dados de entrada, que são os textos semi ou não-estruturados, são manipulados por um processo de extração configurado através de bases de conhecimento criadas pelo usuário do sistema. Esta dissertação tem como objetivo a definição de uma linguagem, com base em uma arquitetura de múltiplos níveis, para extrair satisfatoriamente as informações desejadas pelo usuário, presentes em bases de dados textuais. Também faz parte deste trabalho a implementação de um protótipo que utiliza a linguagem proposta.
|
Page generated in 0.0526 seconds