Spelling suggestions: "subject:"extração dde informação"" "subject:"extração dde enformação""
1 |
ARAPONGA: Uma Ferramenta de Apoio a Recuperação de Informação na Web voltado a Segurança de Redes e SistemasRODRIGUES, Thiago Gomes 07 March 2012 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-09T12:40:54Z
No. of bitstreams: 2
dissertacao_tgr_final_digital.pdf: 2171210 bytes, checksum: f12a3f4a3a1d0cb741406b75b56f43b7 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-09T12:40:54Z (GMT). No. of bitstreams: 2
dissertacao_tgr_final_digital.pdf: 2171210 bytes, checksum: f12a3f4a3a1d0cb741406b75b56f43b7 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2012-03-07 / A área de segurança de redes de computadores e sistemas apresenta-se como uma das maiores preocupações atualmente. À medida que o número de usuários de computadores aumenta, cresce no número de incidentes de segurança. A falta de comportamentos voltados à segurança, no que se refere a uso de hardware, e-mails ou configuração de programas são fatores facilitam a implantação de códigos maliciosos. O impacto da exploração de vulnerabilidades ou de falhas de softwares tem aumentado gradualmente e causado enormes prejuízos ao redor do mundo. A divulgação destas vulnerabilidades e boas práticas de segurança têm sido uma das soluções para este problema pois permitem que administradores de redes e sistemas consigam adquirir informações relevantes para mitigar o impacto de uma atividade maliciosa. Ao notar que divulgar informações de segurança é uma das saídas para combater as atividades maliciosas e também para diminuir o impacto de uma exploração bem sucedida, várias organizações resolveram publicar este tipo de conteúdo. Estas bases encontram-se espalhadas em diferentes sítios Web, o que faz com que equipes de administração de redes e sistemas demore muito tempo buscando informações necessárias para a resolução dos seus problemas. Além disto, a exposição do conteúdo não é um fator preponderante para a solução dos problemas. Baseado neste cenário, este trabalho de mestrado se propõe a criar um sistema de apoio à recuperação de informação na Web voltado à segurança de redes e sistemas.
|
2 |
Um método não supervisionado para o povoamento de ontologias na webOliveira, Hilário Tomaz Alves de 03 April 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T19:10:59Z
No. of bitstreams: 2
Dissertaçao Hilario de Oliveira.pdf: 2168069 bytes, checksum: 2194d73125cc35848dcbff00dfd87929 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T19:43:20Z (GMT) No. of bitstreams: 2
Dissertaçao Hilario de Oliveira.pdf: 2168069 bytes, checksum: 2194d73125cc35848dcbff00dfd87929 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T19:43:20Z (GMT). No. of bitstreams: 2
Dissertaçao Hilario de Oliveira.pdf: 2168069 bytes, checksum: 2194d73125cc35848dcbff00dfd87929 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-04-03 / A Web Semântica proposta por Berners-Lee tem o objetivo de tornar explícito o significado dos dados disponíveis na Web. Com isso, é possível que esses dados sejam processados tanto por pessoas quanto por agentes inteligentes que passam a ter acesso à semântica dos dados presentes na Web. Entretanto, para que a Web Semântica se torne uma realidade, é necessário que grande parte desses dados estejam anotados semanticamente, algo que não ocorre atualmente. Como forma de solucionar esse problema, é crescente o interesse no desenvolvimento de sistemas capazes de extrair conteúdo semântico automaticamente a partir de fontes de dados não estruturados. Nesse contexto, o objetivo desta dissertação é definir um método automático, não supervisionado e independente de domínio capaz de extrair instâncias de classes ontológicas a partir de fontes de dados não estruturados escritos em linguagem natural disponíveis na Web. A metodologia proposta é guiada por uma ontologia de entrada que define quais conceitos devem ser povoados, e por um conjunto de padrões linguísticos independentes de domínio usados para extrair e classificar os candidatos a instâncias. Com o objetivo de obter uma alta taxa de precisão, neste trabalho é proposto uma Medida de Confiança Combinada (MCC), cujo objetivo é integrar diferentes medidas e heurísticas para classificar os candidatos a instâncias extraídos. Essa medida de confiança combinada foi definida a partir dos resultados de uma exaustiva análise comparativa entre vários parâmetros analisados. O método proposto é capaz ainda de extrair novos padrões linguísticos expandindo o conjunto inicial de padrões adotados. Os resultados obtidos com os experimentos realizados em diferentes domínios indicam que a metodologia proposta é capaz de extrair uma grande quantidade de instâncias de classes, além de integrar novos padrões linguísticos a cada iteração executada.
|
3 |
Uma plataforma para suporte às bibliotecas digitais de eventos científicos com foco na extração de informaçãoALVES, Neide Ferreira 16 August 2013 (has links)
Submitted by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-04-17T14:18:29Z
No. of bitstreams: 2
TESE Neide Ferreira Alves .pdf: 4496625 bytes, checksum: 5673d5cd06a3ba049f1bdaec261136d6 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-04-17T14:18:29Z (GMT). No. of bitstreams: 2
TESE Neide Ferreira Alves .pdf: 4496625 bytes, checksum: 5673d5cd06a3ba049f1bdaec261136d6 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-08-16 / A presente tese descreve as especificações e requisitos para o desenvolvimento de
Bibliotecas Digitais de documentos textuais, considerando a possibilidade de reuso e a
extração de dados. Considerando o imenso volume de informação disponível nesses
repositórios, é de grande interesse a construção de sistemas capazes de selecionar
automaticamente apenas os dados de interesse do usuário, facilitando assim o acesso, a
manipulação e a divulgação dessas informações. O Modelo de Referências de Biblioteca
Digital da DELOS foi utilizado para guiar a construção do ambiente, como consequência
foi desenvolvida a plataforma pLiveMemory com módulos implementados para desktop e
web, neste último, a infraestrutura da nuvem do Google é utilizada. Entre os módulos
desenvolvidos há um específico para identificação e extração de referências bibliográficas,
o qual usa, entre outros, o algoritmo de Naïve Bayes juntamente com as técnicas de
expressões regulares. Também há um módulo para identificação de palavras-chave em
arquivos de formato PDF editável. Os resultados obtidos mostraram os ganhos com a
utilização das estratégias adotadas nas diversas fases do projeto, como na classificação
automática de informação dos textos de artigos científicos.
|
4 |
Extração de informação usando integração de componentes de PLN através do framework GATEde Souza Cabral, Luciano 31 January 2009 (has links)
Made available in DSpace on 2014-06-12T15:53:11Z (GMT). No. of bitstreams: 2
arquivo1907_1.pdf: 1663192 bytes, checksum: 21a772bd61ef448147054bfaa52598d1 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2009 / A Extração de Informação (EI) é o ramo da área de recuperação de informação
que utiliza técnicas e algoritmos para identificar e coletar informações
desejadas a partir de documentos, sejam estes estruturados ou não,
armazenando-as em um formato apropriado para consultas futuras. Dentre
estas tecnologias, o uso de Processamento de Linguagem Natural (PLN)
revela-se benéfico ao processo de extração, principalmente quando se
processam documentos sem nenhuma estrutura e/ou padrão definido. Existe
uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI
baseada em PLN, conhecida como GATE (General Architecture for Text
Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns
destes plugins para a extração a partir de texto livre. O módulo RELPIE é
original, e emprega plugins GATE baseados em padrões de expressões
regulares (ER) e regras de produção. Estas regras ficam totalmente separadas
do sistema, visando modularidade na extração de informação a partir de
documentos estruturados ou não. Os resultados obtidos nos experimentos
demonstram que o módulo RELPIE apresenta bons níveis de extração com
corpus compreendido por documentos textuais sem qualquer estrutura,
alcançando um reconhecimento acima de 80% em média. Efetuando uma
comparação com o sistema ANNIE (A Nearly-New Information Extraction
System), resultados mostram que esse sistema é mais preciso em relação ao
nosso, entretanto o sistema RELPIE mostra-se melhor na cobertura e no fmeasure.
Um dos experimentos revelou outra descoberta interessante: corpora
já processados denotam melhores resultados nas execuções posteriores, em
média 6% na precisão, o que sugere que corpora não anotados devem ser
processados duas vezes em seqüência para a obtenção de melhor
performance na tarefa de extração, especialmente quando envolve entidades
nomeadas e quando se usam ontologias para extraí-las
|
5 |
Um sistema de extração de informação em referências bibliográficas baseado em aprendizagem e máquinaFraga do Amaral e Silva, Eduardo January 2004 (has links)
Made available in DSpace on 2014-06-12T15:58:49Z (GMT). No. of bitstreams: 2
arquivo4727_1.pdf: 1069518 bytes, checksum: f7d66b889164069c63fdfafe11edf163 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2004 / Existe atualmente uma gigantesca quantidade de informações disponibilizada em
formato de texto na Internet e nas redes das grandes corporações. Essas informações
encontram-se em um formato não estruturado, dificilmente manipulável por programas
de computador.
A Extração de Informação (EI) tem como objetivo transformar documentos
textuais em um formato estruturado, mapeando a informação contida em um documento
em uma estrutura tabular. Tal estrutura é mais facilmente tratável por programas de
computador, possibilitando assim a sua utilização por variadas aplicações inteligentes .
Dentro da Inteligência Artificial, vemos duas abordagens para tratar o problema da EI:
os sistemas baseados em conhecimento e a aprendizagem automática.
O trabalho apresentado tem como objetivo a construção de um sistema para
extrair informações a partir de textos contendo citações científicas (ou referências
bibliográficas) através de uma abordagem baseada em aprendizagem automática. Dentre
as diversas técnicas existentes, escolhemos tratar o problema através de uma abordagem
híbrida, que combina o uso de técnicas de classificação de textos com os Modelos de
Markov Escondidos (HMM). Esta combinação mostrou resultados superiores aos
obtidos usando exclusivamente as técnicas de classificação e sua idéia básica é gerar
com o uso das técnicas de classificação de textos para EI uma saída inicial para o
sistema e refiná-la depois por meio de um HMM. Experimentos realizados com um
conjunto de teste contendo 3000 referências resultaram em uma precisão de 87,48%.
|
6 |
Um sistema de recuperação e extração de informação utilizando conceitos da web semânticaCARDOSO, Rafael Cunha January 2004 (has links)
Made available in DSpace on 2014-06-12T15:59:13Z (GMT). No. of bitstreams: 2
arquivo4978_1.pdf: 1542925 bytes, checksum: e49f4b7f816d2f33dd3c206e9c8ecd8f (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2004 / A crescente quantidade de dados disposta diariamente na Web faz com que os
sistemas de recuperação e extração de informações desempenhem um papel importante
dentro dessa realidade. Entretanto, os resultados das buscas na Web freqüentemente
frustram as expectativas dos usuários no tocante à qualidade das informações recuperadas.
A Web Semântica, considerada a nova geração da Web, apresenta conceitos e ferramentas
que visam inserir significado nos documentos existentes na WWW atual, permitindo com
isso sanar algumas das limitações existentes. Um dos principais conceitos sobre os quais a
Web Semântica se fundamenta, é a Ontologia. Estas podem ser vistas como especificações
formais de um determinado domínio de conhecimento que possibilitam um entendimento
comum sobre determinado tema de discussão.
Este trabalho visa melhorar a qualidade das informações recuperadas de sites na
Web através da utilização de conceitos e fundamentos da Web Semântica aliada às técnicas
da Web já estabilizadas. Para tanto, foi definida uma arquitetura e desenvolvido um
protótipo de um sistema que objetiva realizar recuperação e extração de dados sobre um
domínio específico de conhecimento, utilizando uma ontologia (baseada nos fundamentos
da Web Semântica) desenvolvida para auxiliar o processo de extração de informação
relevante a partir de um conjunto específico de dados da Web.
|
7 |
Singing voice resynthesis using concatenative-based techniquesFonseca, Nuno Miguel da Costa Santos January 2011 (has links)
Tese de Doutoramento. Engenharia Informática. Faculdade de Engenharia. Universidade do Porto. 2011
|
8 |
CLASSIFICAÇÃO DE RELAÇÕES SEMÂNTICAS ABERTAS BASEADA EM SIMILARIDADE DE ESTRUTURAS GRAMATICAIS NA LÍNGUA PORTUGUESASouza, Erick Nilsen Pereira de 22 July 2014 (has links)
Submitted by Santos Davilene (davilenes@ufba.br) on 2016-05-25T12:52:22Z
No. of bitstreams: 1
erick_dissertacao_versaofinal.pdf: 1670283 bytes, checksum: 3d419d4786be6400c19cb957aa228486 (MD5) / Made available in DSpace on 2016-05-25T12:52:22Z (GMT). No. of bitstreams: 1
erick_dissertacao_versaofinal.pdf: 1670283 bytes, checksum: 3d419d4786be6400c19cb957aa228486 (MD5) / FAPESB / A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela
descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a
extração não é limitada por um conjunto prede nido de relações, a ER é dita Aberta (Open Relation
Extraction), cujo principal desa o consiste em reduzir a proporção de extrações inválidas
geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre
um conjunto de features linguísticas especí cas, embora consigam eliminar grande parte das extra
ções inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência
decorre da di culdade inerente à determinação do conjunto de features mais representativo para o
problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases
de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especializado,
recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo
de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto
um método para classi cação de relações baseado em similaridade de estruturas gramaticais, que
constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de
identi car padrões de similaridade que permitam distinguir relações válidas e inválidas, através da
aplicação de algoritmos de detecção de isomor smo em subgrafos. Os resultados obtidos neste trabalho
corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode
ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com
número reduzido de instâncias. Com isso, o esforço de classi cação pode ser minimizado através
da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com
custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e
validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste
tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não
limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classi cação de relações
abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é
possível comparar a qualidade de classi cação do método proposto com as principais abordagens
baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classi cação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOE
|
9 |
Extração automática de relações semânticas a partir de textos escritos em português do BrasilTaba, Leonardo Sameshima 11 July 2013 (has links)
Made available in DSpace on 2016-06-02T19:06:08Z (GMT). No. of bitstreams: 1
5456.pdf: 1895896 bytes, checksum: 0a6d9c5bee84eaab067717a8c3e11b11 (MD5)
Previous issue date: 2013-07-11 / Universidade Federal de Minas Gerais / Information extraction (IE) is one of the many applications in Natural Language Processing (NLP); it focuses on processing texts in order to retrieve specific information about a certain entity or concept. One of its subtasks is the automatic extraction of semantic relations between terms, which is very useful in the construction and improvement of linguistic resources such as ontologies and lexical bases. Moreover, there s a rising demand for semantic knowledge, as many computational NLP systems need that information in their processing. Applications such as information retrieval from web documents and automatic translation to other languages could benefit from that kind of knowledge. However, there aren t sufficient human resources to produce that knowledge at the same rate of its demand. Aiming to solve that semantic data scarcity problem, this work investigates how binary semantic relations can be automatically extracted from Brazilian Portuguese texts. These relations are based on Minsky s (1986) theory and are used to represent common sense knowledge in the Open Mind Common Sense no Brasil (OMCS-Br) project developed at LIA (Laboratório de Interação Avanc¸ada), partner of LaLiC (Laborat´orio de Lingu´ıstica Computacional), where this research was conducted, both in Universidade Federal de São Carlos (UFSCar). The first strategies for this task were based on searching textual patterns in texts, where a certain textual expression indicates that there is a specific relation between two terms in a sentence. This approach has high precision but low recall, which led to the research of methods that use machine learning as their main model, encompassing techniques such as probabilistic and statistical classifiers and also kernel methods, which currently figure among the state of the art. Therefore, this work investigates, implements and evaluates some of these techniques in order to determine how and to which extent they can be applied to the automatic extraction of binary semantic relations in Portuguese texts. In that way, this work is an important step in the advancement of the state of the art in information extraction for the Portuguese language, which still lacks resources in the semantic area, and also advances the Portuguese language NLP scenario as a whole. / A extração de informação (EI) é uma das muitas aplicações do Processamento de Língua Natural (PLN); seu foco é o processamento de textos com o objetivo de recuperar informações específicas sobre uma determinada entidade ou conceito. Uma de suas subtarefas é a extração automática de relações semânticas entre termos, que é muito útil na construção e melhoramento de recursos linguísticos como ontologias e bases lexicais. A esse contexto soma-se o fato de que há uma demanda crescente por conhecimento semântico, visto que diversos sistemas computacionais de PLN necessitam dessas informações em seu processamento. Aplicações como recuperação de informação em documentos web e tradução automática para outros idiomas podem se beneficiar desse tipo de conhecimento. No entanto, não há recursos humanos suficientes para produzir esse conhecimento na mesma velocidade que sua demanda. Com o objetivo de remediar essa escassez de dados semânticos, esta dissertação apresenta a investigação da extração automática de relações semânticas binárias a partir de textos escritos no português do Brasil. Tais relações se baseiam na teoria de Minsky (1986) e são usadas para representar conhecimento de senso comum no projeto Open Mind Common Sense no Brasil (OMCS-Br) desenvolvido no LIA (Laboratório de Interação Avançada), laboratório parceiro do LaLiC (Laboratório de Linguística Computacional) no qual esta pesquisa se desenvolveu, ambos da Universidade Federal de São Carlos (UFSCar). As primeiras estratégias para essa tarefa se basearam na busca de padrões textuais em textos, onde uma determinada expressão textual indica que há uma relação específica entre dois termos em uma sentença. Essa abordagem tem alta precisão mas baixa cobertura, o que levou ao estudo de métodos que utilizam aprendizado de máquina como modelo principal, englobando o uso de técnicas como classificadores probabilísticos e estatísticos, além de métodos de kernel, que atualmente figuram no estado da arte. Esta dissertação apresenta a investigação, implementação e avaliação de algumas dessas técnicas com o objetivo de determinar como e em que medida elas podem ser aplicadas para a extração automática de relações semânticas binárias em textos escritos em português. Desse modo, este trabalho é um importante passo no avanço do estado da arte em extração de informação com foco no idioma português, que ainda carece de recursos na área semântica, além de um avanço no cenário de PLN do português como um todo.
|
10 |
Um framework para transformação automática de documentos e extração de informações baseado em XMLRoberto Bechert Schmitz, Lucas January 2007 (has links)
Made available in DSpace on 2014-06-12T16:00:03Z (GMT). No. of bitstreams: 2
arquivo5835_1.pdf: 1345974 bytes, checksum: a8195e26dbc8a8b67dc9b1d0a6816814 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2007 / Uma grande quantidade de informações, sobre diversos assuntos, se encontra disponível
na Web. Essa quantidade cresce ano a ano e, aliados às informações, estão os formatos
com que elas estão representadas (PDF, DOC, RTF, HTML, TEX, por exemplo.).
Certos formatos dependem de tecnologias e/ou plataformas específicas, dificultando
assim o acesso às informações contidas no documento. Tendo em vista esse problema,
surge a necessidade de se ter formas para a conversão entre formatos específicos.
Muitas ferramentas são oferecidas nesse sentido, porém geralmente oferecem poucas
possibilidades de conversão, um ou dois formatos em média.
Outro problema gerado pela grande quantidade de informações disponíveis na
Web é a questão da filtragem do que realmente é interessante ao usuário que efetua uma
busca sobre determinado assunto. Os atuais buscadores trazem como resultados
documentos completos com diversas informações além das necessárias ao usuário. A
análise do que é ou não interessante fica a cargo do próprio usuário, tornando-se um
trabalho manual. A extração automática de informações nos documentos dispostos na
Web se torna difícil, pois nem todos os documentos apresentam seus conteúdos de
forma estruturada, mas sim, muitos deles apresentam conteúdos semi-estruturados ou
ainda, não-estruturados.
Na tentativa de amenizar alguns desses problemas foi proposta a construção de
um Framework para conversão entre formatos de documentos e extração de
informações dos mesmos. Esse Framework é constituído de dois módulos que utilizam
o formato XML como intermediador na conversão requerida. Esses módulos são: (1) o
de conversão de formatos de entrada específicos para XML, que também é responsável
pela extração de informação dos documentos; e (2) o de conversão de XML para
formatos de saída específicos. Com a utilização do XML, os documentos convertidos
tornam-se estruturados, facilitando assim o processo automático de extração de
informações.
Esta dissertação abrange o primeiro módulo descrito acima e parte de resultados
alcançados por outro trabalho previamente realizado, onde foram construídas
funcionalidades para os formatos de entrada PDF, PS, DOC, RTF e HTML. As
contribuições propostas a partir deste trabalho são: adição do formato TEX (LaTeX)
como mais uma possibilidade de entrada; e reorganizar a arquitetura do Framework
previamente desenvolvido, para que este seja acessado como um serviço Web,
utilizando os conceitos de Web Services
|
Page generated in 0.0801 seconds