Global ETD Search

1	ARAPONGA: Uma Ferramenta de Apoio a Recuperação de Informação na Web voltado a Segurança de Redes e Sistemas RODRIGUES, Thiago Gomes 07 March 2012 (has links) Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-09T12:40:54Z No. of bitstreams: 2 dissertacao_tgr_final_digital.pdf: 2171210 bytes, checksum: f12a3f4a3a1d0cb741406b75b56f43b7 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T12:40:54Z (GMT). No. of bitstreams: 2 dissertacao_tgr_final_digital.pdf: 2171210 bytes, checksum: f12a3f4a3a1d0cb741406b75b56f43b7 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2012-03-07 / A área de segurança de redes de computadores e sistemas apresenta-se como uma das maiores preocupações atualmente. À medida que o número de usuários de computadores aumenta, cresce no número de incidentes de segurança. A falta de comportamentos voltados à segurança, no que se refere a uso de hardware, e-mails ou configuração de programas são fatores facilitam a implantação de códigos maliciosos. O impacto da exploração de vulnerabilidades ou de falhas de softwares tem aumentado gradualmente e causado enormes prejuízos ao redor do mundo. A divulgação destas vulnerabilidades e boas práticas de segurança têm sido uma das soluções para este problema pois permitem que administradores de redes e sistemas consigam adquirir informações relevantes para mitigar o impacto de uma atividade maliciosa. Ao notar que divulgar informações de segurança é uma das saídas para combater as atividades maliciosas e também para diminuir o impacto de uma exploração bem sucedida, várias organizações resolveram publicar este tipo de conteúdo. Estas bases encontram-se espalhadas em diferentes sítios Web, o que faz com que equipes de administração de redes e sistemas demore muito tempo buscando informações necessárias para a resolução dos seus problemas. Além disto, a exposição do conteúdo não é um fator preponderante para a solução dos problemas. Baseado neste cenário, este trabalho de mestrado se propõe a criar um sistema de apoio à recuperação de informação na Web voltado à segurança de redes e sistemas. segurança de redes vulnerabilidades atividades maliciosas crawler extração de informação
2	Um método não supervisionado para o povoamento de ontologias na web Oliveira, Hilário Tomaz Alves de 03 April 2013 (has links) Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T19:10:59Z No. of bitstreams: 2 Dissertaçao Hilario de Oliveira.pdf: 2168069 bytes, checksum: 2194d73125cc35848dcbff00dfd87929 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T19:43:20Z (GMT) No. of bitstreams: 2 Dissertaçao Hilario de Oliveira.pdf: 2168069 bytes, checksum: 2194d73125cc35848dcbff00dfd87929 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T19:43:20Z (GMT). No. of bitstreams: 2 Dissertaçao Hilario de Oliveira.pdf: 2168069 bytes, checksum: 2194d73125cc35848dcbff00dfd87929 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-04-03 / A Web Semântica proposta por Berners-Lee tem o objetivo de tornar explícito o significado dos dados disponíveis na Web. Com isso, é possível que esses dados sejam processados tanto por pessoas quanto por agentes inteligentes que passam a ter acesso à semântica dos dados presentes na Web. Entretanto, para que a Web Semântica se torne uma realidade, é necessário que grande parte desses dados estejam anotados semanticamente, algo que não ocorre atualmente. Como forma de solucionar esse problema, é crescente o interesse no desenvolvimento de sistemas capazes de extrair conteúdo semântico automaticamente a partir de fontes de dados não estruturados. Nesse contexto, o objetivo desta dissertação é definir um método automático, não supervisionado e independente de domínio capaz de extrair instâncias de classes ontológicas a partir de fontes de dados não estruturados escritos em linguagem natural disponíveis na Web. A metodologia proposta é guiada por uma ontologia de entrada que define quais conceitos devem ser povoados, e por um conjunto de padrões linguísticos independentes de domínio usados para extrair e classificar os candidatos a instâncias. Com o objetivo de obter uma alta taxa de precisão, neste trabalho é proposto uma Medida de Confiança Combinada (MCC), cujo objetivo é integrar diferentes medidas e heurísticas para classificar os candidatos a instâncias extraídos. Essa medida de confiança combinada foi definida a partir dos resultados de uma exaustiva análise comparativa entre vários parâmetros analisados. O método proposto é capaz ainda de extrair novos padrões linguísticos expandindo o conjunto inicial de padrões adotados. Os resultados obtidos com os experimentos realizados em diferentes domínios indicam que a metodologia proposta é capaz de extrair uma grande quantidade de instâncias de classes, além de integrar novos padrões linguísticos a cada iteração executada. Web semântica Ontologias Povoamento de ontologias
3	Uma plataforma para suporte às bibliotecas digitais de eventos científicos com foco na extração de informação ALVES, Neide Ferreira 16 August 2013 (has links) Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-04-17T14:18:29Z No. of bitstreams: 2 TESE Neide Ferreira Alves .pdf: 4496625 bytes, checksum: 5673d5cd06a3ba049f1bdaec261136d6 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-04-17T14:18:29Z (GMT). No. of bitstreams: 2 TESE Neide Ferreira Alves .pdf: 4496625 bytes, checksum: 5673d5cd06a3ba049f1bdaec261136d6 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2013-08-16 / A presente tese descreve as especificações e requisitos para o desenvolvimento de Bibliotecas Digitais de documentos textuais, considerando a possibilidade de reuso e a extração de dados. Considerando o imenso volume de informação disponível nesses repositórios, é de grande interesse a construção de sistemas capazes de selecionar automaticamente apenas os dados de interesse do usuário, facilitando assim o acesso, a manipulação e a divulgação dessas informações. O Modelo de Referências de Biblioteca Digital da DELOS foi utilizado para guiar a construção do ambiente, como consequência foi desenvolvida a plataforma pLiveMemory com módulos implementados para desktop e web, neste último, a infraestrutura da nuvem do Google é utilizada. Entre os módulos desenvolvidos há um específico para identificação e extração de referências bibliográficas, o qual usa, entre outros, o algoritmo de Naïve Bayes juntamente com as técnicas de expressões regulares. Também há um módulo para identificação de palavras-chave em arquivos de formato PDF editável. Os resultados obtidos mostraram os ganhos com a utilização das estratégias adotadas nas diversas fases do projeto, como na classificação automática de informação dos textos de artigos científicos. Biblioteca digital Extração de informação Processamento de documentos Computação em nuvem
4	Extração de informação usando integração de componentes de PLN através do framework GATE de Souza Cabral, Luciano 31 January 2009 (has links) Made available in DSpace on 2014-06-12T15:53:11Z (GMT). No. of bitstreams: 2 arquivo1907_1.pdf: 1663192 bytes, checksum: 21a772bd61ef448147054bfaa52598d1 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2009 / A Extração de Informação (EI) é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar informações desejadas a partir de documentos, sejam estes estruturados ou não, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Existe uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns destes plugins para a extração a partir de texto livre. O módulo RELPIE é original, e emprega plugins GATE baseados em padrões de expressões regulares (ER) e regras de produção. Estas regras ficam totalmente separadas do sistema, visando modularidade na extração de informação a partir de documentos estruturados ou não. Os resultados obtidos nos experimentos demonstram que o módulo RELPIE apresenta bons níveis de extração com corpus compreendido por documentos textuais sem qualquer estrutura, alcançando um reconhecimento acima de 80% em média. Efetuando uma comparação com o sistema ANNIE (A Nearly-New Information Extraction System), resultados mostram que esse sistema é mais preciso em relação ao nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure. Um dos experimentos revelou outra descoberta interessante: corpora já processados denotam melhores resultados nas execuções posteriores, em média 6% na precisão, o que sugere que corpora não anotados devem ser processados duas vezes em seqüência para a obtenção de melhor performance na tarefa de extração, especialmente quando envolve entidades nomeadas e quando se usam ontologias para extraí-las Inteligência Artificial Extração de Informação Processamento de Linguagem Natural Ontologias
5	Um sistema de extração de informação em referências bibliográficas baseado em aprendizagem e máquina Fraga do Amaral e Silva, Eduardo January 2004 (has links) Made available in DSpace on 2014-06-12T15:58:49Z (GMT). No. of bitstreams: 2 arquivo4727_1.pdf: 1069518 bytes, checksum: f7d66b889164069c63fdfafe11edf163 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2004 / Existe atualmente uma gigantesca quantidade de informações disponibilizada em formato de texto na Internet e nas redes das grandes corporações. Essas informações encontram-se em um formato não estruturado, dificilmente manipulável por programas de computador. A Extração de Informação (EI) tem como objetivo transformar documentos textuais em um formato estruturado, mapeando a informação contida em um documento em uma estrutura tabular. Tal estrutura é mais facilmente tratável por programas de computador, possibilitando assim a sua utilização por variadas aplicações inteligentes . Dentro da Inteligência Artificial, vemos duas abordagens para tratar o problema da EI: os sistemas baseados em conhecimento e a aprendizagem automática. O trabalho apresentado tem como objetivo a construção de um sistema para extrair informações a partir de textos contendo citações científicas (ou referências bibliográficas) através de uma abordagem baseada em aprendizagem automática. Dentre as diversas técnicas existentes, escolhemos tratar o problema através de uma abordagem híbrida, que combina o uso de técnicas de classificação de textos com os Modelos de Markov Escondidos (HMM). Esta combinação mostrou resultados superiores aos obtidos usando exclusivamente as técnicas de classificação e sua idéia básica é gerar com o uso das técnicas de classificação de textos para EI uma saída inicial para o sistema e refiná-la depois por meio de um HMM. Experimentos realizados com um conjunto de teste contendo 3000 referências resultaram em uma precisão de 87,48%.
6	Um sistema de recuperação e extração de informação utilizando conceitos da web semântica CARDOSO, Rafael Cunha January 2004 (has links) Made available in DSpace on 2014-06-12T15:59:13Z (GMT). No. of bitstreams: 2 arquivo4978_1.pdf: 1542925 bytes, checksum: e49f4b7f816d2f33dd3c206e9c8ecd8f (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2004 / A crescente quantidade de dados disposta diariamente na Web faz com que os sistemas de recuperação e extração de informações desempenhem um papel importante dentro dessa realidade. Entretanto, os resultados das buscas na Web freqüentemente frustram as expectativas dos usuários no tocante à qualidade das informações recuperadas. A Web Semântica, considerada a nova geração da Web, apresenta conceitos e ferramentas que visam inserir significado nos documentos existentes na WWW atual, permitindo com isso sanar algumas das limitações existentes. Um dos principais conceitos sobre os quais a Web Semântica se fundamenta, é a Ontologia. Estas podem ser vistas como especificações formais de um determinado domínio de conhecimento que possibilitam um entendimento comum sobre determinado tema de discussão. Este trabalho visa melhorar a qualidade das informações recuperadas de sites na Web através da utilização de conceitos e fundamentos da Web Semântica aliada às técnicas da Web já estabilizadas. Para tanto, foi definida uma arquitetura e desenvolvido um protótipo de um sistema que objetiva realizar recuperação e extração de dados sobre um domínio específico de conhecimento, utilizando uma ontologia (baseada nos fundamentos da Web Semântica) desenvolvida para auxiliar o processo de extração de informação relevante a partir de um conjunto específico de dados da Web. WWW Sistemas de recuperação Extração de informação Web semântica Ontologias
7	Singing voice resynthesis using concatenative-based techniques Fonseca, Nuno Miguel da Costa Santos January 2011 (has links) Tese de Doutoramento. Engenharia Informática. Faculdade de Engenharia. Universidade do Porto. 2011 Voz cansada Canto Voz Mosaico áudio Extração de informação Fala Música Som Áudio Transcrição de música Algoritmos genéticos
8	CLASSIFICAÇÃO DE RELAÇÕES SEMÂNTICAS ABERTAS BASEADA EM SIMILARIDADE DE ESTRUTURAS GRAMATICAIS NA LÍNGUA PORTUGUESA Souza, Erick Nilsen Pereira de 22 July 2014 (has links) Submitted by Santos Davilene (davilenes@ufba.br) on 2016-05-25T12:52:22Z No. of bitstreams: 1 erick_dissertacao_versaofinal.pdf: 1670283 bytes, checksum: 3d419d4786be6400c19cb957aa228486 (MD5) / Made available in DSpace on 2016-05-25T12:52:22Z (GMT). No. of bitstreams: 1 erick_dissertacao_versaofinal.pdf: 1670283 bytes, checksum: 3d419d4786be6400c19cb957aa228486 (MD5) / FAPESB / A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a extração não é limitada por um conjunto prede nido de relações, a ER é dita Aberta (Open Relation Extraction), cujo principal desa o consiste em reduzir a proporção de extrações inválidas geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre um conjunto de features linguísticas especí cas, embora consigam eliminar grande parte das extra ções inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência decorre da di culdade inerente à determinação do conjunto de features mais representativo para o problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especializado, recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto um método para classi cação de relações baseado em similaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de identi car padrões de similaridade que permitam distinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomor smo em subgrafos. Os resultados obtidos neste trabalho corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com número reduzido de instâncias. Com isso, o esforço de classi cação pode ser minimizado através da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classi cação de relações abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é possível comparar a qualidade de classi cação do método proposto com as principais abordagens baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classi cação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOE Ciência da Computação Extração da informação Isomor smo em subgrafos Extração de relações abertas
9	Extração automática de relações semânticas a partir de textos escritos em português do Brasil Taba, Leonardo Sameshima 11 July 2013 (has links) Made available in DSpace on 2016-06-02T19:06:08Z (GMT). No. of bitstreams: 1 5456.pdf: 1895896 bytes, checksum: 0a6d9c5bee84eaab067717a8c3e11b11 (MD5) Previous issue date: 2013-07-11 / Universidade Federal de Minas Gerais / Information extraction (IE) is one of the many applications in Natural Language Processing (NLP); it focuses on processing texts in order to retrieve specific information about a certain entity or concept. One of its subtasks is the automatic extraction of semantic relations between terms, which is very useful in the construction and improvement of linguistic resources such as ontologies and lexical bases. Moreover, there s a rising demand for semantic knowledge, as many computational NLP systems need that information in their processing. Applications such as information retrieval from web documents and automatic translation to other languages could benefit from that kind of knowledge. However, there aren t sufficient human resources to produce that knowledge at the same rate of its demand. Aiming to solve that semantic data scarcity problem, this work investigates how binary semantic relations can be automatically extracted from Brazilian Portuguese texts. These relations are based on Minsky s (1986) theory and are used to represent common sense knowledge in the Open Mind Common Sense no Brasil (OMCS-Br) project developed at LIA (Laboratório de Interação Avanc¸ada), partner of LaLiC (Laborat´orio de Lingu´ıstica Computacional), where this research was conducted, both in Universidade Federal de São Carlos (UFSCar). The first strategies for this task were based on searching textual patterns in texts, where a certain textual expression indicates that there is a specific relation between two terms in a sentence. This approach has high precision but low recall, which led to the research of methods that use machine learning as their main model, encompassing techniques such as probabilistic and statistical classifiers and also kernel methods, which currently figure among the state of the art. Therefore, this work investigates, implements and evaluates some of these techniques in order to determine how and to which extent they can be applied to the automatic extraction of binary semantic relations in Portuguese texts. In that way, this work is an important step in the advancement of the state of the art in information extraction for the Portuguese language, which still lacks resources in the semantic area, and also advances the Portuguese language NLP scenario as a whole. / A extração de informação (EI) é uma das muitas aplicações do Processamento de Língua Natural (PLN); seu foco é o processamento de textos com o objetivo de recuperar informações específicas sobre uma determinada entidade ou conceito. Uma de suas subtarefas é a extração automática de relações semânticas entre termos, que é muito útil na construção e melhoramento de recursos linguísticos como ontologias e bases lexicais. A esse contexto soma-se o fato de que há uma demanda crescente por conhecimento semântico, visto que diversos sistemas computacionais de PLN necessitam dessas informações em seu processamento. Aplicações como recuperação de informação em documentos web e tradução automática para outros idiomas podem se beneficiar desse tipo de conhecimento. No entanto, não há recursos humanos suficientes para produzir esse conhecimento na mesma velocidade que sua demanda. Com o objetivo de remediar essa escassez de dados semânticos, esta dissertação apresenta a investigação da extração automática de relações semânticas binárias a partir de textos escritos no português do Brasil. Tais relações se baseiam na teoria de Minsky (1986) e são usadas para representar conhecimento de senso comum no projeto Open Mind Common Sense no Brasil (OMCS-Br) desenvolvido no LIA (Laboratório de Interação Avançada), laboratório parceiro do LaLiC (Laboratório de Linguística Computacional) no qual esta pesquisa se desenvolveu, ambos da Universidade Federal de São Carlos (UFSCar). As primeiras estratégias para essa tarefa se basearam na busca de padrões textuais em textos, onde uma determinada expressão textual indica que há uma relação específica entre dois termos em uma sentença. Essa abordagem tem alta precisão mas baixa cobertura, o que levou ao estudo de métodos que utilizam aprendizado de máquina como modelo principal, englobando o uso de técnicas como classificadores probabilísticos e estatísticos, além de métodos de kernel, que atualmente figuram no estado da arte. Esta dissertação apresenta a investigação, implementação e avaliação de algumas dessas técnicas com o objetivo de determinar como e em que medida elas podem ser aplicadas para a extração automática de relações semânticas binárias em textos escritos em português. Desse modo, este trabalho é um importante passo no avanço do estado da arte em extração de informação com foco no idioma português, que ainda carece de recursos na área semântica, além de um avanço no cenário de PLN do português como um todo. Inteligência artificial Extração de informação Extração de relações semânticas
10	Um framework para transformação automática de documentos e extração de informações baseado em XML Roberto Bechert Schmitz, Lucas January 2007 (has links) Made available in DSpace on 2014-06-12T16:00:03Z (GMT). No. of bitstreams: 2 arquivo5835_1.pdf: 1345974 bytes, checksum: a8195e26dbc8a8b67dc9b1d0a6816814 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2007 / Uma grande quantidade de informações, sobre diversos assuntos, se encontra disponível na Web. Essa quantidade cresce ano a ano e, aliados às informações, estão os formatos com que elas estão representadas (PDF, DOC, RTF, HTML, TEX, por exemplo.). Certos formatos dependem de tecnologias e/ou plataformas específicas, dificultando assim o acesso às informações contidas no documento. Tendo em vista esse problema, surge a necessidade de se ter formas para a conversão entre formatos específicos. Muitas ferramentas são oferecidas nesse sentido, porém geralmente oferecem poucas possibilidades de conversão, um ou dois formatos em média. Outro problema gerado pela grande quantidade de informações disponíveis na Web é a questão da filtragem do que realmente é interessante ao usuário que efetua uma busca sobre determinado assunto. Os atuais buscadores trazem como resultados documentos completos com diversas informações além das necessárias ao usuário. A análise do que é ou não interessante fica a cargo do próprio usuário, tornando-se um trabalho manual. A extração automática de informações nos documentos dispostos na Web se torna difícil, pois nem todos os documentos apresentam seus conteúdos de forma estruturada, mas sim, muitos deles apresentam conteúdos semi-estruturados ou ainda, não-estruturados. Na tentativa de amenizar alguns desses problemas foi proposta a construção de um Framework para conversão entre formatos de documentos e extração de informações dos mesmos. Esse Framework é constituído de dois módulos que utilizam o formato XML como intermediador na conversão requerida. Esses módulos são: (1) o de conversão de formatos de entrada específicos para XML, que também é responsável pela extração de informação dos documentos; e (2) o de conversão de XML para formatos de saída específicos. Com a utilização do XML, os documentos convertidos tornam-se estruturados, facilitando assim o processo automático de extração de informações. Esta dissertação abrange o primeiro módulo descrito acima e parte de resultados alcançados por outro trabalho previamente realizado, onde foram construídas funcionalidades para os formatos de entrada PDF, PS, DOC, RTF e HTML. As contribuições propostas a partir deste trabalho são: adição do formato TEX (LaTeX) como mais uma possibilidade de entrada; e reorganizar a arquitetura do Framework previamente desenvolvido, para que este seja acessado como um serviço Web, utilizando os conceitos de Web Services

Search results