Spelling suggestions: "subject:"indexação automática"" "subject:"indexação automáticas""
11 |
Recuperação de informação baseada em ontologia: uma proposta utilizando o modelo vetorial / Ontology based information retrieval: a proposal using the vector space modelJanaite Neto, Jorge [UNESP] 30 May 2018 (has links)
Submitted by Jorge Janaite Neto (janaite@gmail.com) on 2018-06-24T23:56:37Z
No. of bitstreams: 1
janaite_neto_j_me_mar.pdf: 1649007 bytes, checksum: 66467a076d4f716197896c6dc3c5ee2b (MD5) / Approved for entry into archive by Satie Tagara (satie@marilia.unesp.br) on 2018-06-25T13:46:39Z (GMT) No. of bitstreams: 1
janaiteneto_j_me_mar.pdf: 1649007 bytes, checksum: 66467a076d4f716197896c6dc3c5ee2b (MD5) / Made available in DSpace on 2018-06-25T13:46:39Z (GMT). No. of bitstreams: 1
janaiteneto_j_me_mar.pdf: 1649007 bytes, checksum: 66467a076d4f716197896c6dc3c5ee2b (MD5)
Previous issue date: 2018-05-30 / Não recebi financiamento / A recuperação de informação ocorre por meio da comparação entre as representações dos documentos de um acervo e a representação da necessidade de informação do usuário. Um documento é recuperado quando sua representação coincidir total ou parcialmente com a representação da necessidade de informação do usuário. O processo de recuperação de informação pode ser visto como um problema linguístico no qual o conteúdo informacional dos documentos e a necessidade de informação do usuário são representados por um conjunto de termos. A eficiência do processo de recuperação de informação depende da qualidade das representações dos documentos e dos termos empregados pelo usuário para representar sua necessidade de informação. Quanto mais compatíveis forem essas representações maior será a eficiência do processo de recuperação. A partir de uma pesquisa exploratória e descritiva fundamentada em bibliografia específica, este trabalho propõe a utilização de ontologias computacionais em sistemas de recuperação de informação baseados no Modelo Espaço Vetorial. As ontologias são empregadas como estrutura terminológica externa utilizadas tanto na expansão dos termos de indexação quanto na expansão dos termos que compõe a expressão de busca. A expansão dos termos de indexação é feita logo após a extração dos termos mais representativos do documento em análise durante o processo de indexação, consistindo na adição de novos termos conceitualmente relacionados a fim de enriquecer a representação do documento. A expansão da consulta é obtida a partir da adição de novos termos relacionados aos já existentes na expressão de busca com o objetivo de melhor contextualizá-los. Nesta proposta utiliza-se apenas a estrutura terminológica e hierárquica oferecida por uma ontologia computacional OWL, sem considerar os demais tipos de relações possíveis nem as restrições lógicas que podem ser descritas, podendo esses recursos serem utilizados em trabalhos futuros na tentativa de melhorar ainda mais a eficiência do processo de recuperação. A proposta apresentada neste estudo pode ser implementada e futuramente tornar-se um sistema de recuperação de informação totalmente operacional. / The information retrieval occurs by means of match between the representations of documents from a collection and the representation of user information’s needs. A document is retrieved when its representation matches totally or partially to the user information’s needs. The process of information retrieval can be seen as a linguistic issue in which the document information content and the user information need are represented by a set of terms. Its efficiency depends on the quality of the representations of the documents and the terms used to represent the user’s information need. The more compatible these representations were, the more efficient the retrieval process. Based on an exploratory and descriptive research substantiated in a specific bibliography, this paper offers to use computational ontologies in information retrieval systems based on the Vector Space Model. The ontologies are applied as external terminological structures used in the indexing terms expansion as well as in the expansion of the terms which compound the query expression. The indexing terms expansion is made as soon as the extraction of the more representative terms of the document in analysis during the indexing process, consisting on the adding of new conceptually related terms in order to improve the document representation. Query expansion is obtained from adding new related terms to the existent ones in the query expression to better contextualize them. In this propose, only the terminological and hierarchical structure offered by an OWL computational ontology was used, regardless other possible relations and logical restrictions that could be descripted, saving these resources to be used in further works in an attempt to improve the retrieval process efficiency. The shown proposition can be implemented and become a fully operational information retrieval system.
|
12 |
Ontologias no processo de indexação automática de documentos textuais /Pansani Junior, Eder Antonio. January 2016 (has links)
Orientador: Edberto Ferneda / Banca: Mariângela Spotti Lopes Fujita / Banca: Elvis Fusco / Resumo: Apesar dos avanços tecnológicos das últimas décadas, a busca por informações relevantes ainda é uma tarefa árdua. A recuperação de informação envolve, por um lado, um acervo documental que deve ser representado por expressões linguísticas que resumem seu conteúdo temático. Por outro lado, pessoas tentam descrever linguisticamente as suas necessidades de informação a fim de obterem documentos relevantes para satisfazer tais necessidades. Um sistema de recuperação de informação é, portanto, um elemento mediador entre um acervo documental e seus requisitantes. Um dos aspectos que interferem diretamente na sua eficiência é a forma como os documentos são representados. Sendo assim, pesquisas sobre indexação automática tomam importância, principalmente em ambiente de grande produção e disseminação de documentos, como é o caso da Web. A utilização de vocabulários controlados como elementos de normalização terminológica é um recurso utilizado para melhorar os resultados do processo de indexação. Este trabalho tem por objetivo propor, avaliar e desenvolver um método de utilização de ontologias no processo de indexação automática de documentos textuais, fazendo uso da estrutura lógica e conceitual das ontologias de domínio e implementado um método que permite aos sistemas de indexação automática a realização de inferências automáticas, favorecendo uma representação dos documentos mais semântica e abrangente. Conclui-se com o estudo que a utilização das ontologias como vocabulários cont... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Despite the technological advances of recent decades, the search for relevant information is still an arduous task. The information retrieval involves, on the one hand, a documentary collection that must be represented by linguistic expressions which summarize its thematic content. On the other hand, people try describing linguistically their information needs in order to obtain relevant documents to satisfy those needs. An information retrieval system is therefore a mediating element between a documentary collection and its requesters. One of the aspects that directly interferes in their efficiency is how documents are represented. Therefore, researches on automatic indexing take importance, particularly, in an environment of large production and dissemination of documents, as it's the case of the Web. The use of controlled vocabularies as terminology standardization elements is a feature used to improve the results of the indexing process. This study aims to propose, evaluate and develop a method for using ontologies in the automatic indexing process of textual documents, making use of logical and conceptual structure of domain ontologies and implementing a method that enables automatic indexing systems, an execution of automatic inferences, favoring a semantic and comprehensive documents representation. The study conclusion is that the use of ontologies as controlled vocabularies in automatic indexing systems can offer promising results, allowing the automatic discovery of... (Complete abstract click electronic access below) / Mestre
|
13 |
Diretrizes para a utilização de ontologias na indexação automática /Nicolino, Maria Elisa Valentim Pickler. January 2014 (has links)
Orientador: Edberto Ferneda / Banca: Walter Moreira / Banca: Silvana Drumond Monteiro / Resumo: O uso de ontologias na indexação automática permite agregar a esse processo não só uma linguagem de um domínio específico, mas também uma estrutura lógica e conceitual que pode ser utilizada para realizar inferências, e cujas relações permitam uma expansão dos termos extraídos por métodos puramente matemáticos. Consideradas como linguagens de indexação, as ontologias se colocam como um novo instrumento a ser incorporado ao arsenal teórico e prático da Ciência Informação e abrem novas perspectivas para as pesquisas em indexação. As ontologias oferecem uma estrutura conceitual e terminológica restrita a um determninado domínio, originalmente representada em linguagens legíveis por computador, originalmente representada em linguagens legíveis por computador, o originalmente representada em linguagens legíveis por computador, o que permite a sua utilização nos mais variados processos computacionais. Apresentamos neste trabalho, diretrizes para a construção e utilização de ontologias no processo de indezação automática. Concluímos que é fundamentalo estabelecimento de uma Política de Indexação que reflita os interesses da instituição e as necessidades dos seus usuários. A Política de Indexação deve também nortear a construção de ontologias para fins de indexação, além de definiros parâmetros para a operação de sistemas de indexação automática. / Abstract: The use of ontologies in automatic indexing allows add to this process not only a language for a specific domain, but also a logical and conceptual framework that can be used to make inferences, and whose relations allow an expansion of the terms extracted by purely mathematical methods. Considered as indexing languages, ontologies arise as a new tool to be incorporated into the theoretical and practical arsenal of information science and open new perspectives for research in automatic indexing. Ontologies provide a conceptual framework and terminology restricted to a given domain, originally represented in readable languages by computer, which allows it to be used in the most varied computing processes. We present in this work, guidelines for the construction and utilization of ontologies in the automatic indexing process. We conclude that it is essential to establish an Indexing Policy that reflects the interests of the institution and the needs of its users. The Indexing Policy should also guide the construction of ontologies for indexing purposes, and defines the parameters for the operation of automatic indexing systems. / Mestre
|
14 |
Ontologias no processo de indexação automática de documentos textuais / Ontologies in automatic indexing proccess of textual documentsPansani Junior, Eder Antonio [UNESP] 06 May 2016 (has links)
Submitted by EDER ANTONIO PANSANI JUNIOR null (epansani@gmail.com) on 2016-06-03T12:24:33Z
No. of bitstreams: 1
Dissertação_ME_Eder_Pansani-v15(Final).pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5) / Approved for entry into archive by Ana Paula Grisoto (grisotoana@reitoria.unesp.br) on 2016-06-06T18:47:42Z (GMT) No. of bitstreams: 1
pansanijunior_ea_me_mar.pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5) / Made available in DSpace on 2016-06-06T18:47:42Z (GMT). No. of bitstreams: 1
pansanijunior_ea_me_mar.pdf: 3197217 bytes, checksum: 2e90e8854397255d61133c2c895baaca (MD5)
Previous issue date: 2016-05-06 / Apesar dos avanços tecnológicos das últimas décadas, a busca por informações relevantes ainda é uma tarefa árdua. A recuperação de informação envolve, por um lado, um acervo documental que deve ser representado por expressões linguísticas que resumem seu conteúdo temático. Por outro lado, pessoas tentam descrever linguisticamente as suas necessidades de informação a fim de obterem documentos relevantes para satisfazer tais necessidades. Um sistema de recuperação de informação é, portanto, um elemento mediador entre um acervo documental e seus requisitantes. Um dos aspectos que interferem diretamente na sua eficiência é a forma como os documentos são representados. Sendo assim, pesquisas sobre indexação automática tomam importância, principalmente em ambiente de grande produção e disseminação de documentos, como é o caso da Web. A utilização de vocabulários controlados como elementos de normalização terminológica é um recurso utilizado para melhorar os resultados do processo de indexação. Este trabalho tem por objetivo propor, avaliar e desenvolver um método de utilização de ontologias no processo de indexação automática de documentos textuais, fazendo uso da estrutura lógica e conceitual das ontologias de domínio e implementado um método que permite aos sistemas de indexação automática a realização de inferências automáticas, favorecendo uma representação dos documentos mais semântica e abrangente. Conclui-se com o estudo que a utilização das ontologias como vocabulários controlados em sistemas de indexação automática pode oferecer resultados promissores, permitindo a descoberta automática de termos e a resolução de alguns problemas ligados à linguagem que permeia todo o processo de recuperação de informação. / Despite the technological advances of recent decades, the search for relevant information is still an arduous task. The information retrieval involves, on the one hand, a documentary collection that must be represented by linguistic expressions which summarize its thematic content. On the other hand, people try describing linguistically their information needs in order to obtain relevant documents to satisfy those needs. An information retrieval system is therefore a mediating element between a documentary collection and its requesters. One of the aspects that directly interferes in their efficiency is how documents are represented. Therefore, researches on automatic indexing take importance, particularly, in an environment of large production and dissemination of documents, as it’s the case of the Web. The use of controlled vocabularies as terminology standardization elements is a feature used to improve the results of the indexing process. This study aims to propose, evaluate and develop a method for using ontologies in the automatic indexing process of textual documents, making use of logical and conceptual structure of domain ontologies and implementing a method that enables automatic indexing systems, an execution of automatic inferences, favoring a semantic and comprehensive documents representation. The study conclusion is that the use of ontologies as controlled vocabularies in automatic indexing systems can offer promising results, allowing the automatic discovery of terms and the resolution of some language related problems that permeates the whole process of information retrieval.
|
15 |
Indexação automática e visualização de informações: um estudo baseado em lógica paraconsistente / Automatic indexing and information visualization: a research based on Paraconsistent logicCarlos Alberto Corrêa 17 May 2011 (has links)
Pode-se afirmar que os processos de organização, recuperação e visualização de informações estão interligados por pelo menos um ponto em comum: a indexação de textos ou documentos. A indexação, um componente essencial do tratamento e organização de informações, é também importante tanto para a recuperação quanto para a visualização de informações. Nesse contexto, destacam-se as soluções que objetivam automatizar a indexação. As pesquisas que propõe soluções de indexação automática são desenvolvidas com base em diferentes pressupostos teóricos, entre os quais podem ser destacados: a Estatística, a Lingüística e o Controle de Vocabulários (Leiva, 1999). A grande maioria dessas soluções utiliza modelos híbridos que combinam dois ou três desses pressupostos. Outras abordagens para o problema da indexação automática utilizam, além dos pressupostos anteriormente citados, teorias que permitem o tratamento da incerteza, da imprecisão e da vagueza, tais como a teoria de Dempster-Shafer e a lógica difusa. O objetivo desta pesquisa é avaliar o potencial de utilização da lógica paraconsistente, uma lógica não clássica, com capacidade para tratar situações que envolvem incerteza, imprecisão e vagueza nos procedimentos de indexação automática. A hipótese de trabalho sustentada nesta pesquisa apóia-se teoricamente nos princípios da Lógica Paraconsistente. A utilização dessa lógica e de métodos derivados da mesma, por ser flexível e comportar estados lógicos que vão além das dicotomias sim e não, permite adiantar a hipótese de que os resultados da indexação poderão ser melhores do que os obtidos por métodos tradicionais. Do ponto de vista metodológico, optou-se pela utilização de um algoritmo para tratamento de incerteza e imprecisão, desenvolvido no âmbito da lógica paraconsistente, para modificar os valores dos pesos atribuídos aos termos de indexação. Os testes foram realizados em um sistema de visualização de informações, com código fonte disponível. As coleções utilizadas são disponibilizadas com o sistema. Os resultados obtidos foram avaliados por meio de critérios e índices embutidos no próprio sistema de visualização, e demonstram ganhos mensuráveis de qualidade na construção das visualizações, confirmando, assim a hipótese de pesquisa elencada. / It can be argued that the processes of organization, retrieval and visualization of information are conected, presenting one point in common: the indexing of texts or documents. Indexing, an essential component of text analysis, is important to information retrieval and visualization. In this context, we highlight solutions to automate indexing. Researchs that propose solutions for automatic indexing are developed based on different theoretical assumptions as, for example: Statistics, Linguistics and Controlled vocabularies (Leiva, 1999). Most of these solutions uses hybrid models combining two or three of these theoretical assumptions. Other approaches to the problem of automatic indexing uses, besides the aforementioned assumptions, theories that allow the treatment of uncertainty, imprecision and vagueness, as the Dempster-Shafer theory and the fuzzy logic. The aim of this research is to evaluate the use of paraconsistent logic, a nonclassical logic, capable of dealing with situations involving uncertainty, imprecision and vagueness, in the procedures of automatic indexing. The working hypothesis supported in this research is based theoretically on the principles of Paraconsistent Logic. The utilization of this logic, being flexible and containing logical states that go beyond the dichotomies yes and no, permit to advance the hypothesis that the results of indexing could be better than those obtained by traditional methods. From the methodological point of view, we chose to use an algorithm for treatment of uncertainty and imprecision, developed under the paraconsistent logic, to modify the values of the weights assigned to index terms. The tests were performed on a information visualization system, with source code available. The collections used are available with the system. The results were evaluated by criteria and indices built into the information visualization system itself, and demonstrate measurable gains in the construction quality of the displays, thus confirming the hypothesis listed.
|
16 |
Indexação automática no Brasil no âmbito da Ciência da Informação (1973-2012)Lapa, Remi Correia 21 March 2014 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-04-10T17:17:21Z
No. of bitstreams: 2
DISSERTAÇÃO Remi Correia Lapa.pdf: 2223402 bytes, checksum: dd88f3139833477d6424239358425d0a (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-04-10T17:17:21Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Remi Correia Lapa.pdf: 2223402 bytes, checksum: dd88f3139833477d6424239358425d0a (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-03-21 / CAPES / Apresenta um panorama no âmbito da Ciência da Informação no Brasil referente aos estudos sobre a Indexação Automática por meio do mapeamento e análise da produção acadêmica e científica nacional no período de 1973 a 2012. Como objetivos específicos, procura coletar um corpus de análise e caracterizar as pesquisas analisadas quanto aos aspectos metodológicos e de conteúdo; realizar estudos de análise bibliométrica no corpus levantado, observando as publicações por autoria, instituições publicadoras, ano, fonte de publicação e instituições acadêmicas; realizar análise de conteúdo observando as publicações pelas categorias: objetivos e aspectos metodológicos. A metodologia consiste em um estudo bibliográfico aprofundado de caráter qualitativo e quantitativo sobre a produção literária no Brasil a respeito da indexação automática de textos escritos no idioma português. O corpus de análise para a realização das análises bibliométricas e de conteúdo, é composto de documentos na língua portuguesa, tais como: livros, artigos de periódicos científicos, anais publicados em congressos e seminários, e literaturas cinzentas. Os resultados bibliométricos mostram: a autora Fujita como maior produtora no tema; a revista Ciência da Informação como a que mais publicou sobre a indexação automática; a maior parte da produção se concentra no século XXI; o periódico como a fonte de informação mais utilizada pelos autores como meio de divulgação; a Universidade de Brasília como a instituição acadêmica que mais produziu trabalhos. Os resultados mais representativos da análise de conteúdo mostram que: 35% dos trabalhos realizaram revisão bibliográfica, em relação aos sistemas/métodos/fórmulas a maioria dos trabalhos de indexação automática, 23%, realizou aplicação e proposição, a proposição corresponde a 20%, e 21% realizaram aplicação; os sistemas como o objeto de estudo mais avaliado, e a comparação com a indexação manual como o método de avaliação mais usado; o texto completo como a natureza do corpus mais pesquisado; o trabalho científico como a tipologia do corpus mais estudada; a indexação semi-automática como procedimento mais aplicado na validação dos termos, sendo ultrapassada nos estudos dos últimos dez anos pela indexação automática; o processo de atribuição como o meio mais adotado para identificar os termos; o texto não estruturado como a entrada de dados preferida nos sistemas; a linguagem natural como a natureza da linguagem, os termos compostos como a natureza dos termos mais pesquisados; a análise estatística como o método de pesquisa mais utilizado na seleção dos termos. Este estudo propõe ser base de trabalhos futuros na aplicação dos métodos analisados ou na construção de novos métodos de indexação automática.
|
17 |
Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesaSilva, Tiago José da 28 March 2014 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-04-10T17:22:32Z
No. of bitstreams: 2
DISSERTAÇÃO Tiago José da Silva.pdf: 3122636 bytes, checksum: 4141cd54437a53496b7f98822722032e (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-04-10T17:22:33Z (GMT). No. of bitstreams: 2
DISSERTAÇÃO Tiago José da Silva.pdf: 3122636 bytes, checksum: 4141cd54437a53496b7f98822722032e (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2014-03-28 / Objetiva fazer um levantamento do estado da arte da indexação automática por sintagmas nominais para textos em português. Para tanto, identifica e sintetiza os fundamentos teóricos, metodologias e ferramentas da indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa, levando em conta publicações científicas nas áreas da Ciência da Informação, Ciência da Computação, Terminologia e Linguística. Discute as metodologias para indexação automática através de sintagmas nominais em textos em língua portuguesa, no intuito de apontar critérios para extração e seleção de sintagmas que possam ser usados como descritores documentais. Avalia e compara ferramentas de extração automática de sintagmas nominais como o parser PALAVRAS, OGMA e LX-Parser, usando como referência a extração manual de sintagmas nominais. Percebe que os trabalhos produzidos depois do ano de 2000 e que trabalham com a extração automática de termos fazem referências ao parser PALAVRAS, tendo-o como um bom etiquetador e analisador sintático. Na comparação entre as referidas ferramentas automáticas, percebe-se que apesar do LX-Parser ter tido melhor desempenho em alguns aspectos como extrair um maior número de SNs do que o PALAVRAS, esse ainda consegue ser melhor pelo número menor de erros e a possibilidade de submeter um texto completo à análise do programa, ação que o LX-Parser não permite realizar. Quanto ao levantamento do estado da arte, pode-se dizer que as pesquisas ainda não atingiram um grau de amadurecimento elevado, pois os resultados apresentados pela literatura não alcançam uma taxa de precisão elevada para todos os tipos de corpus. Conclui que os resultados das pesquisas que trabalham com a extração automática de sintagmas nominais devem ser comparados entre si para que se possam detectar os problemas existentes quanto às metodologias e às ferramentas de extração destes sintagmas nominais em língua portuguesa. Tendo, dessa maneira, as ferramentas e as metodologias melhoradas para que efetivamente possam ser aplicadas em sistemas de recuperação de informação, fazendo a seleção de sintagmas nominais que possam ser usados como descritores documentais no intuito de satisfazer as necessidades informacionais do usuário. Sugere, então, algumas possíveis soluções para os problemas de identificação de sintagmas nominais enfrentados pelas ferramentas automáticas.
|
18 |
Detecção rápida de legendas em vídeos utilizando o ritmo visual / Fast video caption detection based on visual rhythmValio, Felipe Braunger, 1984- 19 August 2018 (has links)
Orientadores: Neucimar Jerônimo Leite, Hélio Pedrini / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-19T05:52:55Z (GMT). No. of bitstreams: 1
Valio_FelipeBraunger_M.pdf: 3505580 bytes, checksum: 3b20a046a5822011c617729904457d95 (MD5)
Previous issue date: 2011 / Resumo: Detecção de textos em imagens é um problema que vem sendo estudado a várias décadas. Existem muitos trabalhos que estendem os métodos existentes para uso em análise de vídeos, entretanto, poucos deles criam ou adaptam abordagens que consideram características inerentes dos vídeos, como as informações temporais. Um problema particular dos vídeos, que será o foco deste trabalho, é o de detecção de legendas. Uma abordagem rápida para localizar quadros de vídeos que contenham legendas é proposta baseada em uma estrutura de dados especial denominada ritmo visual. O método é robusto à detecção de legendas com respeito ao alfabeto utilizado, ao estilo de fontes, à intensidade de cores e à orientação das legendas. Vários conjuntos de testes foram utilizados em nosso experimentos para demonstrar a efetividade do método / Abstract: Detection of text in images is a problem that has been studied for several decades. There are many works that extend the existing methods for use in video analysis, however, few of them create or adapt approaches that consider the inherent characteristics of video, such as temporal information. A particular problem of the videos, which will be the focus of this work, is the detection of subtitles. A fast method for locating video frames containing captions is proposed based on a special data structure called visual rhythm. The method is robust to the detection of legends with respect to the used alphabet, font style, color intensity and subtitle orientation. Several datasets were used in our experiments to demonstrate the effectiveness of the method / Mestrado / Ciência da Computação / Mestre em Ciência da Computação
|
19 |
Aplicações de mapas auto-organizaveis em mineração de dados e recuperação de informaçãoZuchini, Marcio Henrique 03 August 2018 (has links)
Orientador: Fernando Jose Von Zuben / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-03T19:18:01Z (GMT). No. of bitstreams: 1
Zuchini_MarcioHenrique_M.pdf: 7031573 bytes, checksum: 80d43be5a516ff4dc680c86f4f78ac7d (MD5)
Previous issue date: 2003 / Mestrado
|
20 |
Ranking de publicações baseado na extração de textos da Internet / Ranking of publications based on extraction of texts of the InternetOliveira, Henrique Przibisczki de 12 April 2009 (has links)
Orientador: Ricardo de Oliveira Anido / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-15T07:19:24Z (GMT). No. of bitstreams: 1
Oliveira_HenriquePrzibisczkide_M.pdf: 1997897 bytes, checksum: fce2bcda34e198778d87b8c87f83e484 (MD5)
Previous issue date: 2009 / Resumo: Vários métodos de ranking atuais comparam os diversos veículos de publicação em relação à qualidade ou impacto. Esta informação é muito importante para que um pesquisador selecione veículos de renome para publicar suas pesquisas, ou mesmo, instituições podem promover seus pesquisadores baseando-se na qualidade dos veículos onde publicam. Esta informação sobre os veículos pode também ser valiosa para um governo destinar recursos 'as instituições ou uma empresa avaliar a qualidade de um candidato a um emprego. Existem várias métricas distintas para realizar ranking de veículos, mas o ponto comum entre a maioria é o uso de citações. Portanto, por mais que um veículo seja bastante prestigiado pelos pesquisadores, se ele não for indexado em uma base sua qualidade não será considerada. Este trabalho propõe um método para ranking de veículos de publicação obtendo as informações não de uma base de citações existente, mas de uma outra fonte de dados: a Web. As páginas dos professores de universidades são visitadas e delas são extraídas as suas publicações. De cada publicação é extraído o veículo e dessa forma, baseado nos veículos que um pesquisador quis exibir em sua página, os mesmos são ordenados. Este método irá contemplar veículos de publicação não existentes nas atuais bases de dados criando um novo ranking de publicações. Vários problemas computacionais interessantes são abordados neste trabalho: busca de informação na internet, segmentação textual, extração de componentes em uma referência bibliográfica e agrupamento / Abstract: Several current ranking methods compare different publication venues in relation to quality or impact. This information is very important for a researcher to choose renowned venues to publish his research. Institutes could promote their researchers based on the quality of places they have published. This information about the venues can also be valuable for a government to allocate resources to universities, or for companies to evaluate the quality of a candidate for a job. There are other distinct measures to perform a ranking of venues, but the idea in common among most of them is the use of citations. Therefore, despite the fact a venue is very prestigious for its researchers, if it is not indexed in a citation database, it will not be considered, since its "quality" cannot be measured. This work proposes to construct a ranking of publication venues obtaining the information not from a database, but from another data source: the Web. The university professor's webpages are visited to extract the publications. The venue is extracted from each publication, and thus, based on venues which a researcher wanted to show in his webpage, they are ranked. This method will include publication venues that do not exist in current databases, creating a new ranking of publications. Many interesting computational problems are discussed in this work: information search on the internet, text segmentation, extraction of components in a bibliographic citation, and clustering / Mestrado / Metodologia e Tecnicas da Computação / Mestre em Ciência da Computação
|
Page generated in 0.0777 seconds