Spelling suggestions: "subject:"recuperacao"" "subject:"recuperaçao""
161 |
OPIS : um método para identificação e busca de páginas-objeto / OPIS : a method for object page identifying and searchingColpo, Miriam Pizzatto January 2014 (has links)
Páginas-objeto são páginas que representam exatamente um objeto inerente do mundo real na web, considerando um domínio específico, e a busca por essas páginas é chamada de busca-objeto. Os motores de busca convencionais (do Inglês, General Search Engine - GSE) conseguem responder, de forma satisfatória, à maioria das consultas realizadas na web atualmente, porém, isso dificilmente ocorre no caso de buscas-objeto, uma vez que, em geral, a quantidade de páginas-objeto recuperadas é bastante limitada. Essa dissertação propõe um novo método para a identificação e a busca de páginas-objeto, denominado OPIS (acrônimo para Object Page Identifying and Searching). O cerne do OPIS está na adoção de técnicas de realimentação de relevância e aprendizagem de máquina na tarefa de classificação, baseada em conteúdo, de páginas-objeto. O OPIS não descarta o uso de GSEs e, ao invés disso, em sua etapa de busca, propõe a integração de um classificador a um GSE, adicionando uma etapa de filtragem ao processo de busca tradicional. Essa abordagem permite que somente páginas identificadas como páginas-objeto sejam recuperadas pelas consultas dos usuários, melhorando, assim, os resultados de buscas-objeto. Experimentos, considerando conjuntos de dados reais, mostram que o OPIS supera o baseline com ganho médio de 47% de precisão média. / Object pages are pages that represent exactly one inherent real-world object on the web, regarding a specific domain, and the search for these pages is named as object search. General Search Engines (GSE) can satisfactorily answer most of the searches performed in the web nowadays, however, this hardly occurs with object search, since, in general, the amount of retrieved object pages is limited. This work proposes a method for both identifying and searching object pages, named OPIS (acronyms to Object Page Identifying and Searching). The kernel of OPIS is to adopt relevance feedback and machine learning techniques in the task of content-based classification of object pages. OPIS does not discard the use of GSEs and, instead, in his search step, proposes the integration of a classifier to a GSE, adding a filtering step to the traditional search process. This simple approach allows that only pages identified as object pages are retrieved by user queries, improving the results for object search. Experiments with real datasets show that OPIS outperforms the baseline with average boost of 47% considering the average precision.
|
162 |
Preenchimento automático de formulários na web oculta / Automatically filling in hiddenweb formsKantorski, Gustavo Zanini January 2014 (has links)
Muitas informações disponíveis na Web estão armazenadas em bancos de dados on-line e são acessíveis somente após um usuário enviar uma consulta por meio de uma interface de busca. Essas informações estão localizadas em uma parte da Web conhecida como Web Oculta ou Web Profunda e, geralmente, são inacessíveis por máquinas de busca tradicionais. Uma vez que a forma de acessar os dados na Web Oculta se dá por intermédio de submissões de consultas, muitos trabalhos têm focado em como preencher automaticamente campos de formulários. Esta tese apresenta uma metodologia para o preenchimento de formulários na Web Oculta. Além disso, descreve uma categorização das técnicas de preenchimento de formulários existentes no estado da arte de coleta na Web Oculta, produzindo uma análise comparativa entre elas. A solução proposta descreve um método automático para seleção de valores para campos de formulários combinando heurísticas e técnicas de aprendizagem de máquina. Experimentos foram realizados em formulários reais da Web, de vários domínios, e os resultados indicam que a abordagem proposta apresenta desempenho comparável aos obtidos pelas técnicas do estado da arte, sendo inclusive significativamente diferente com base em avaliação estatística. / A large portion of the information on the Web is stored inside online databases. Such information is accessible only after the users submit a query through a search interface. TheWeb portion in which that information is located is called HiddenWeb or DeepWeb, and generally this part is inaccessible by traditional search engines crawlers. Since the only way to access the Hidden Web pages is through the query submissions, many works have focused on how to fill in form fields automatically, aiming at enhancing the amount of distinct information hidden behind Web forms. This thesis presents an automatic solution to value selection for fields in Web forms. The solution combines heuristics and machine learning techniques for improving the selection of values. Furthermore, this proposal also describes a categorization of form filling techniques and a comparative analysis between works in the state of the art. Experiments were conducted on real Web sites and the results indicated that our approach significantly outperforms a baseline method in terms of coverage without additional computational cost.
|
163 |
Metadata extraction from scientific documents in PDF / Extração de metadados em artigos científicos no formato PDFSouza, Alan Pinto January 2014 (has links)
A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%. / Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%.
|
164 |
Um método para recuperação de composições polifônicas aplicado na busca de tablaturas textuais da web / A method for retrieving polyphonic compositions applied in the search for textual tablatures on WebCruz, Luiz Fernando Castro da January 2014 (has links)
Dentre as diversas operações que podem ser realizadas com composições musicais, representadas através de uma notação, está a avaliação de similaridade melódica, utilizada principalmente na busca e recuperação dessas obras. O presente trabalho apresenta o método de avaliação de similaridade melódica denominado Correspondência de Monofonia Contida (CMC), focado na operação de busca de composições. Também estão descritos os detalhes de implementação de uma ferramenta para busca de tablaturas textuais da web utilizando o método proposto. A análise dos experimentos realizados demonstrou que o método CMC consegue localizar composições específicas em dois terços das consultas (69,44%), conseguindo colocar o resultado esperado, em média, na 11ª posição de ranqueamento. / Among the various operations that can be performed with musical compositions, represented through a notation, is the evaluation of melodic similarity mainly for search and retrieval of these works. This paper presents the method of evaluation of melodic similarity named Monophonic Contained Matching, focused on the search of compositions. Also describes the implementation details of a tool to search textual tabs in web using the proposed method. The analysis of the experiments demonstrated that the CMC method can locate specific compositions in two-thirds of queries (69.44%), managing to place the expected result on average in the 11th ranking position.
|
165 |
Atribuição de perfis de autoria / Author profilingWeren, Edson Roberto Duarte January 2014 (has links)
A identificação de perfis de autoria visa classificar os textos com base nas escolhas estilísticas de seus autores. A ideia é descobrir as características dos autores dos textos. Esta tarefa tem uma importância crescente em análise forense, segurança e marketing. Neste trabalho, nos concentramos em descobrir a idade e o gênero dos autores de blogs. Com este objetivo em mente, analisamos um grande número de atributos - que variam de recuperação de informação até análise de sentimento. Esta dissertação relata a utilidade desses atributos. Uma avaliação experimental em um corpus com mais de 236K posts de blogs mostrou que um classificador usando os atributos explorados aqui supera o estado-da arte. Mais importante ainda, as experiências mostram que os atributos oriundos de recuperação de informação propostos neste trabalho são os mais discriminativos e produzem as melhores previsões. / Authorship analysis aims at classifying texts based on the stylistic choices of their authors. The idea is to discover characteristics of the authors of the texts. This task has a growing importance in forensics, security, and marketing. In this work, we focus on discovering age and gender from blog authors. With this goal in mind, we analyzed a large number of features – ranging from Information Retrieval to Sentiment Analysis. This paper reports on the usefulness of these features. Experiments on a corpus of over 236K blogs show that a classifier using the features explored here have outperformed the stateof- the art. More importantly, the experiments show that the Information Retrieval features proposed in our work are the most discriminative and yield the best class predictions.
|
166 |
Sistema de informação para apoio à administração contábilNunes, Hélton Ribeiro January 2003 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2012-10-20T16:08:13Z (GMT). No. of bitstreams: 1
200025.pdf: 2083927 bytes, checksum: 299446035b2875fcdbde6de9c1bfcb88 (MD5)
|
167 |
Sistema de Informação Estratégico para o Gerenciamento Operacional (SIEGO) como uma ferramenta de apoio de decisão utilizando data warehouseGhoddosi, Nader January 2003 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. / Made available in DSpace on 2012-10-20T18:05:30Z (GMT). No. of bitstreams: 1
199791.pdf: 3221363 bytes, checksum: 8e287ea9e72f6cf218cc77b77ca50c32 (MD5)
|
168 |
Gerenciamento da informaçãoPereira, Mariza Faria Fidelis January 2003 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia de Produção. / Made available in DSpace on 2012-10-21T04:29:40Z (GMT). No. of bitstreams: 1
196300.pdf: 410464 bytes, checksum: 06e27f016634513691d731b47480551c (MD5) / Na era da informação, o sucesso depende daquilo que se sabe e não daquilo que se tem. A informação é considerada, nos dias de hoje, fator determinante para a sobrevivência das organizações. Na medida em que a empresa possui a informação certa e no momento certo, ela passa a apresentar vantagem competitiva sobre as demais. O conhecimento de si mesma e do mercado onde atua, é fator decisivo para a sobrevivência da empresa em tempos de globalização, onde quem não estiver bem informado será, conseqüentemente, eliminado. O objetivo deste trabalho é apresentar um diagnóstico do gerenciamento da informação nas micro e pequenas empresas industriais da cidade de Londrina. Esta pesquisa possibilitará um melhor conhecimento desse segmento, que hoje corresponde a maior parcela em quantidade de empresas no país. O segmento das micro e pequenas empresas é considerado, nos dias de hoje, um dos principais pilares de sustentação da economia nacional. Nesse segmento encontram-se 70% da mão-de-obra ocupada no país, representam 98,3% do total de empresas registradas e são responsáveis por 20,6% do PIB (Produto Interno Bruto), segundo dados do SEBRAE. Para obtenção desse diagnóstico, foram realizadas entrevistas em 53 empresas industriais de Londrina, aplicadas, pessoalmente, pela pesquisadora. Como resultado principal deste estudo, obteve-se um perfil do gerenciamento da informação nas micro e pequenas empresas pesquisadas. Pôde-se concluir que o micro e pequeno empresário dispõe de muitas ferramentas para a gestão da informação, dentro e fora da empresa, porém estas são sub utilizadas. Valorizam-se mais as informações internas do que as externas. Considera-se que a informação flui de maneira satisfatória dentro da empresa, por sua pequena estrutura e conseqüente proximidade de seus funcionários. Concluiu-se, ainda, que, na sua maioria, as empresas com mais tempo de atividade possuem um nível maior de informatização e sistemas de informação mais avançados. O micro e pequeno empresário utiliza-se da Internet principalmente para acesso a Bancos, sendo o potencial da rede pouco explorado. O resultado desta pesquisa poderá orientar ações e investimentos dos órgãos governamentais, SEBRAE e empresas da área de Tecnologia da Informação, com vistas a aumentar as chances de sucesso deste segmento de empresas.
|
169 |
Recuperação da informação jurídica em sistema baseado em casosBueno, Tânia Cristina D'Agostini January 1999 (has links)
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. / Made available in DSpace on 2012-10-18T15:54:20Z (GMT). No. of bitstreams: 0Bitstream added on 2016-01-09T01:33:27Z : No. of bitstreams: 1
174105.pdf: 2865109 bytes, checksum: 20bb759b32c8ea7c1f1820383efd2f33 (MD5) / Este trabalho descreve um modelo de recuperação de informação para amplas bases de textos jurídicos, com a finalidade de fornecer ao profissional do direito as jurisprudências mais semelhantes para a solução do seu problema. No domínio do Direito, a jurisprudência tem um importante papel como fonte do direito; pois suas conclusões sustentam a aplicação da lei num caso concreto. Entretanto, os Tribunais brasileiros produzem uma quantia enorme de decisões todos os anos, tornando esta fonte do direito cada vez maior, o que impele os profissionais jurídicos a despender mais tempo na busca por uma decisão pertinente. Então, sofisticadas técnicas de IA são necessárias para minimizar o tempo de busca e melhorar a qualidade da informação recuperada. A meta principal de nossa abordagem baseada em casos é a recuperação de textos de jurisprudências com características semelhantes e adequados à solução de um problema jurídico, além da inclusão de novos documentos automaticamente na base de conhecimento. Isso é realizado com base em informações inicialmente fornecida pelo usuário em linguagem natural. Para possibilitar este processo de conhecimento textual informal, um vocabulário controlado e um dicionário jurídico - baseado na terminologia jurídica usual e na teoria da argumentação jurídica - são integrados na recuperação e no processo de extração do conhecimento. Esta abordagem foi desenvolvida para a área do direito criminal e sua implementação foi realizada em casos de Apelações Criminais, do Tribunal de Justiça de Santa Catarina, através da técnica de Raciocínio Baseado em Casos - RBC.
|
170 |
Indexação e recuperação de imagens por cor e estrutura / Image indexing and retrieval by color and shapeCosta, Yandre Maldonado e Gomes da January 2002 (has links)
Este trabalho descreve um conjunto de técnicas para a recuperação de imagens baseada nos aspectos cromático e estrutural das mesmas. A abordagem aqui descrita utiliza mecanismos que permitem a preservação de informação espacial referente aos conteúdos extraídos da imagem de forma que a sua precisão possa ser ajustada de acordo com a necessidade da consulta. Um outro importante aspecto aqui considerado, é a possibilidade de se optar por um dos seguintes espaços de cores para a verificação de distâncias entre cores no momento da recuperação: RGB, L*u*v*, ou L*a*b*. Com estas diferentes possibilidades de espaços de cores, será verificada a influência que os mesmos podem provocar no processo de recuperação de imagens baseado em aspectos cromáticos. O conjunto de técnicas para a recuperação de imagens abordadas neste trabalho levou à construção do sistema RICE, um ambiente computacional através do qual pode-se realizar consultas a partir de um repositório de imagens. Para a verificação do desempenho dos diferentes parâmetros ajustáveis na recuperação de imagens aqui descrita e implementada no sistema RICE, foram utilizadas curvas de “Recall x Precision”. / This work describes a set of image retrieval techniques by color and shape similarity. The approach presented here allows to preserve spacial relantionships of the contents extracted from the image. And it can be adjusted accordingly to the query needs. Another important feature considered here, is the possibility of choosing between the RGB, L*u*v*, and L*a*b* color spaces to compute color distances during the image retrieval operation. With these three options of color spaces, the influence of each one in the image retrieval process based in chromatic contents will be verified. The set of techniques for image retrieval described here led to development of the RICE system, a computational environment for image retrieval by color and shape similarity. Furthermore, the recall x precision graph was applied in order to verify the performance of the RICE system in several configuration modes of image retrieval.
|
Page generated in 0.0513 seconds