Spelling suggestions: "subject:"sumarização"" "subject:"curarização""
21 |
Descrição linguística da complementaridade para a sumarização automática multidocumentoSouza, Jackson Wilke da Cruz 11 November 2015 (has links)
Submitted by Bruna Rodrigues (bruna92rodrigues@yahoo.com.br) on 2016-10-25T11:34:48Z
No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T19:04:54Z (GMT) No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Approved for entry into archive by Marina Freitas (marinapf@ufscar.br) on 2016-11-08T19:05:00Z (GMT) No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5) / Made available in DSpace on 2016-11-08T19:05:06Z (GMT). No. of bitstreams: 1
DissJWCS.pdf: 1378387 bytes, checksum: 8f4432b0959dda94e372b6cbb7dd8e7e (MD5)
Previous issue date: 2015-11-11 / Não recebi financiamento / Automatic Multidocument Summarizarion (AMS) is a computational alternative
to process the large quantity of information available online. In AMS, we try to
automatically generate a single coherent and cohesive summary from a set of
documents which have same subject, each these documents are originate from
different sources. Furthermore, some methods of AMS select the most important
information from the collection to compose the summary. The selection of main
content sometimes requires the identification of redundancy, complementarity and
contradiction, characterized by being the multidocument phenomena. The
identification of complementarity, in particular, is relevant inasmuch as some
information may be selected to the summary as a complement of another
information that was already selected, ensuring more coherence and most
informative. Some AMS methods to condense the content of the documents based
on the identification of relations from the Cross-document Structure Theory
(CST), which is established between sentences of different documents. These
relationships (for example Historical background) capture the phenomenon of
complementarity. Automatic detection of these relationships is often made based
on lexical similarity between a pair of sentences, since research on AMS not count
on studies that have characterized the phenomenon and show other relevant
linguistic strategies to automatically detect the complementarity. In this work, we
present the linguistic description of complementarity based on corpus. In addition,
we elaborate the characteristics of this phenomenon in attributes that support the
automatic identification. As a result, we obtained sets of rules that demonstrate the
most relevant attributes for complementary CST relations (Historical background,
Follow-up and Elaboration) and its types (temporal and timeless)
complementarity. According this, we hope to contribute to the Descriptive
Linguistics, with survey-based corpus of linguistic characteristics of this
phenomenon, as of Automatic Processing of Natural Languages, by means of
rules that can support the automatic identification of CST relations and types
complementarity. / A Sumarização Automática Multidocumento (SAM) é uma alternativa
computacional para o tratamento da grande quantidade de informação disponível
on-line. Nela, busca-se gerar automaticamente um único sumário coerente e coeso
a partir de uma coleção de textos que tratam de um mesmo assunto, sendo cada
um deles proveniente de fontes distintas. Para tanto, a SAM seleciona informações
mais importantes da coleção para compor o sumário. A seleção do conteúdo
principal requer, por vezes, a identificação da redundância, complementaridade e
contradição, que se caracterizam por serem os fenômenos multidocumento. A
identificação da complementaridade, em especial, é relevante porque uma
informação pode ser selecionada para o sumário uma vez que complementa outra
já selecionada, garantindo mais coerência e informatividade. Alguns métodos de
SAM realizam a condensação do conteúdo dos textos-fonte com base na
identificação das relações do modelo/teoria Cross Document Structure Theory
(CST) que se estabelecem entre as sentenças dos diferentes textos-fonte. Algumas
dessas relações (p.ex., Historical background) capturam o fenômeno da
complementaridade. A detecção automática dessas relações é comumente feita
com base na similaridade lexical entre as sentenças, posto que as pesquisas sobre
SAM não contam com estudos que tenham caracterizado o fenômeno, evidenciado
outras estratégias linguísticas relevantes para detectar automaticamente a
complementaridade. Neste trabalho, fez-se a descrição linguística da
complementaridade com base em corpus, traduzindo as características desse
fenômeno em atributos que subsidiam a sua identificação automática. Como
resultados, obtiveram-se conjuntos de regras que evidenciam os atributos mais
relevantes para a discriminação das relações CST de complementaridade
(Historical background, Follow-up e Elaboration) e dos tipos (temporal e
atemporal) da complementaridade. Com isso, espera-se contribuir para a
Linguística Descritiva, com o levantamento baseados em corpus das
características linguísticas do referido fenômeno, quanto para o Processamento
Automático de Línguas Naturais, por meio das regras que podem subsidiar a
identificação automática das relações CST e dos tipos de complementaridade.
|
22 |
Sumarização Automática de Cenas ForensesBorges, Erick Vagner Cabral de Lima 26 February 2015 (has links)
Submitted by Clebson Anjos (clebson.leandro54@gmail.com) on 2016-02-15T18:11:38Z
No. of bitstreams: 1
arquivototal.pdf: 2556099 bytes, checksum: 0e449542d04801fd627fb09b7061bdcc (MD5) / Made available in DSpace on 2016-02-15T18:11:38Z (GMT). No. of bitstreams: 1
arquivototal.pdf: 2556099 bytes, checksum: 0e449542d04801fd627fb09b7061bdcc (MD5)
Previous issue date: 2015-02-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The growing presence of video recording devices in several areas are providing an increase in use these images mainly to investigative purposes. This makes the use of methods and tools that perform the analysis and the automatic monitoring of environments are increasingly needed to provide technical support and knowledge to investigators, enabling obtain efficient and effective results. This work describe the development of computational vision methods that aim extract some features of scenes. At the end of this extraction, a summarization tool of forensic scenes through the developed methods is proposed. The methods proposed aim to detect and analyze motion in scenes, detect faces classifying them through the gender recognition, recognize people through facial recognition, perform the tracking of human faces and pattern recognition of predominant color in the clothing of individuals. At the end of this work, developed methods presented results comparable to the ones found in the literature and may contribute to the fast extraction of information needed for human analysis, to assist in the interpretation and argumentation of cases and documenting the results. / A presença crescente de dispositivos de gravação de vídeo nas mais diversas áreas vêm proporcionando um aumento no uso destas imagens principalmente para fins investigativos. Isto faz com que a utilização de métodos e ferramentas que realizem a análise e o monitoramento automático de ambientes seja cada vez mais necessária para dar suporte técnico e de conhecimento aos investigadores, possibilitando que os resultados alcançados sejam os mais eficientes e eficazes possíveis. Este trabalho descreve o desenvolvimento de métodos de visão computacional que têm como objetivo extrair aspectos relevantes de cenas – imagens individuais, ou quadros ou sequências de quadros de vídeo - e utilizar a informação obtida com o propósito de sumarização. Os métodos propostos visam a detectar e analisar movimentação, detectar faces classificando-as por gênero, efetuar reconhecimento de faces, realizar o rastreamento de faces humanas e reconhecer a cor predominante no vestuário de indivíduos. O sistema desenvolvido efetua a extração de informações relevantes, o que auxilia na redução do tempo necessário à inspeção por seres humanos, na interpretação e argumentação de casos e na documentação dos casos. Ao fim do trabalho, os métodos desenvolvidos apresentaram resultados compatíveis com os da literatura.
|
23 |
Processamento e análise de vídeos utilizando Floresta de Caminhos Ótimos / Processing and video analysis through Optimum-Path ForestMartins, Guilherme Brandão [UNESP] 20 May 2016 (has links)
Submitted by GUILHERME BRANDÃO MARTINS null (guilherme-bm@outlook.com) on 2016-06-09T18:22:45Z
No. of bitstreams: 1
Dissertacao_Guilherme_Brandão_Martins.pdf: 11362535 bytes, checksum: c1da2ab3e80ead0846eae49d9a1bc40e (MD5) / Approved for entry into archive by Ana Paula Grisoto (grisotoana@reitoria.unesp.br) on 2016-06-13T17:06:19Z (GMT) No. of bitstreams: 1
martins_gb_me_sjrp.pdf: 11362535 bytes, checksum: c1da2ab3e80ead0846eae49d9a1bc40e (MD5) / Made available in DSpace on 2016-06-13T17:06:19Z (GMT). No. of bitstreams: 1
martins_gb_me_sjrp.pdf: 11362535 bytes, checksum: c1da2ab3e80ead0846eae49d9a1bc40e (MD5)
Previous issue date: 2016-05-20 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Com os avanços relacionados às tecnologias de redes computacionais e armazenamento de dados observa-se que, atualmente, uma grande quantidade de conteúdo digital está sendo disponibilizada via internet, em especial por meio de redes sociais. A fim de explorar esse contexto, abordagens relacionadas ao processamento e apredizado de padrões em vídeos têm recebido crescente atenção nos últimos anos. Sistemas de recomendação de filmes, amplamente empregados em lojas virtuais, são umas das principais aplicações no que se refere aos avanços de pesquisa na área de processamento de vídeos. Com o objetivo de acelerar o processo de recomendação e redução de armazenamento, técnicas para classificação e sumarização de vídeos por meio de aprendizado de máquina têm sido utilizadas com o intuito de explorar conteúdo informativo e também redundante. Por meio de técnicas de agrupamento e descrição de dados, é possível identificar quadros-chave de um conjunto de amostras a fim de que, posteriormente, estes sejam usados para sumarização do vídeo. Além disso, por meio de bases de vídeos rotuladas, podemos classificar amostras de
modo a organizá-las por gêneros de vídeo. O presente trabalho objetiva utilizar o classificador Floresta de Caminhos Ótimos para sumarização automática
e classificação de vídeos por gênero, bem como o estudo de sua viabilidade nestes contextos. Os resultados obtidos mostram que o referido classificador obteve desempenhos bastante promissores e próximos à algumas das técnicas de sumarização automática e classificação de vídeos que, atualmente, representam o estado-da-arte no atual contexto. / Currently, a number of improvements related to computational networks and
data storage technologies have allowed a considerable amount of digital content to be provided on the internet, mainly through social networks. In order to exploit this context, video processing and pattern recognition approaches have received a considerable attention in the last years. Movie recommendation systems are widely employed in virtual stores, thus being one of the main applications regarding to research advances in the video processing field. Aiming to boost the content recommendation and storage cutback, different video categorization and video summarization techniques have been applied to handle with more informative and redundant content. By availing clustering and data description techniques, it is possible to identify keyframes from a given sample collection in order to consider them as part of the video summarization process. Furthermore, through labeled video data collections it is possible to classify samples in order to arrange them by video genres. The main goal of this work is to employ the Optimum-Path Forest classifier in both video summarization and video genre classification processes as well as to conduct a viability study of such classifier in the aforementioned contexts. The results have shown this classifier can achieve promising performances, being very close in terms of summary quality and consistent recognition rates to some state-of-the-art video summarization and classification approaches.
|
24 |
Modelagem de discurso para o tratamento da concisão e preservação da idéia central na geração de textos / Discourse modeling for conciseness and gist preservation in text generationLucia Helena Machado Rino 26 April 1996 (has links)
O foco deste trabalho esta, no processo automático de condensação de uma estrutura complexa de informação e de sua estruturação, para fazê-la apropriada para a expressão textual. A tese principal é que, sem um modelo de discurso, não podemos assegurar a preservação de uma idéia central, pois o processamento do discurso envolve não só a informação, como também metas comunicativas e critérios para ressaltar unidades de informação. Como resultado os métodos para produzir uma estrutura coerente de discurso de um sumário agregam tanto metas comunicativas quanto informações sobre o inter-relacionamentos entre as unidades de informação permitindo a organização do discurso com base em restrições progressivas de planejamento. Esse argumento tem duas implicações: a preservação da idéia central deve ser garantida em nível profundo de processamento e sua proeminência deve ser subordinada aos aspectos comunicativos e retóricos. Portanto, esta investigação se baseia em perspectivas intencionais e retóricas. Propomos um modelo de sumarização dirigido por objetivos, cuja função principal é mapear intenções em relações de coerência, observando ainda a dependência semântica indicada pela estrutura complexa de informação. As estruturas de discurso resultantes devem enfatizar a proposição central a veicular no discurso. Em termos teóricos, o aspecto inovador do modelo está na associação de relações de discurso em três níveis distintos de representação: intencionalidade. coerência e semântica. Em termos práticos, a solução proposta sugere o projeto de um planejador de textos que pode tornar a proposição central de um discurso a informação mais proeminente em uma estrutura de discurso e, assim, assegurar a preservação da idéia central durante a condensação de uma estrutura complexa de informação. Os resultados experimentais da aplicação desse modelo demonstram que é possível selecionar a informação relevante, distinguindo as unidades de conteúdo da estrutura original que são supérfluas ou complementares para a proposição central, e organizá-la coerentemente com o intuito de alcançar um objetivo comunicativo. Propomos a incorporação do modelo a um sumarizador automático cuja arquitetura é sugerida neste trabalho. / The focus of this work is on the automatic process of condensing a. complex information structure and structuring it in such a way as to make it appropriate for textual expression. The main thesis is that without a sound discourse model we cannot guarantee gist preservation because discourse processing comprises not only information, but also communicative goals and criteria to emphasize units of information. As a result, the methods to produce a coherent discourse structure of a summary aggregate both communicative goals and the inter-relationships between information units, allowing for discourse organization by progressively constraining planning decisions. Our thrust has two implications, namely that gist preservation must be guaranteed at the deep level of processing and gist proeminence must be subordinated to communicative and rhetorical settings. The current investigation thus relies on intentional and rhetorical perspectives. A goal-driven summarization model is proposed, whose main function is to map intentions onto coherence relations whilst still observing the semantic dependency indicated by the complex input structure. The resulting discourse structures must highlight the central proposition to be conveyed. In theoretical terms, the innovative contribution of the model relies on the association of discourse relations at three different levels of representation - the intentionality, coherence and semantics. In practical terms, the proposed solution allows for the design of a text planner that can make the central proposition of a discourse the most proeminent information in a discourse structure, thus ensuring the preservation of gist during the condensation of a complex information structure. The results of applying this model show that it is possible to both select relevant information by differentiating content units of the input structure that are superfluous or complementary to the central proposition and organize it coherently by aiming at achieving a communicative goal. The model is proposed to incorporate into an automatic summariser whose architecture suggested in this thesis.
|
25 |
Uma plataforma para sumarização automática de textos independente de idiomaCABRAL, Luciano de Souza 27 February 2015 (has links)
Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-01-22T17:09:48Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
lsc_tese_corrigida_rdl_versaoDigital.pdf: 5021349 bytes, checksum: f2a6ae799a13a092eef7727f6cc66e9e (MD5) / Made available in DSpace on 2016-01-22T17:09:48Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
lsc_tese_corrigida_rdl_versaoDigital.pdf: 5021349 bytes, checksum: f2a6ae799a13a092eef7727f6cc66e9e (MD5)
Previous issue date: 2015-02-27 / A Sumarização Automática de Textos é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar ou gerar sentenças relevantes a partir de documentos textuais. Claramente, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento, em sua maioria suportando o idioma inglês, com poucas variações de suporte a mais um idioma. A presente tese propõe uma plataforma de sumarização multi-idioma na qual, fornece 17 opções de algoritmos de sumarização, assim como a possibilidade de combinação dentre eles. Tais algoritmos são uma mescla de técnicas de sumarização extrativa utilizando modelos estatísticos (e.g. TF-IDF) e modelos linguísticos (PLN com WordNet). Além disso, a plataforma é 100% não-supervisionada, o que significa que não depende do ser humano em nenhuma parte de seu processamento, ainda possui um módulo de identificação de idiomas além de um processo de tradução intermediária, os quais provêm suporte a 25 idiomas até o momento. Os resultados obtidos nos experimentos sugerem que a plataforma apresenta bons níveis de sumarização com corpora relacionados com textos jornalísticos (CNN e Temário) em diferentes idiomas (Inglês, Espanhol e Português). Efetuando uma comparação com métodos conhecidos, e.g. SuPor e TextRank, a plataforma obteve 45% de
melhoria nos resultados para o corpus Temário no idioma português, se manteve dentre os melhores com o corpus CNN em inglês e resultados semelhantes com o corpus CNN em espanhol, no qual é novo e não possui resultados de outros sistemas até o momento. Além desses resultados, o seu tempo processamento é competitivo, atingindo-se em média 0,11 segundos por documento em inglês e 0,28 s para outras línguas. Desenvolvida em Java, a plataforma pode ser facilmente portável e reusada em pesquisas futuras, as quais podem ser direcionadas para preencher a lacuna da sumarização abstrativa, a qual é pouco explorada até o momento pela comunidade, tendo assim, muito a ser estudada e pesquisada. / Automatic Text Summarization is the branch of information retrieval that uses techniques and algorithms to identify, collect or generate relevant sentences from text documents. The use of Natural Language Processing (NLP) techniques has proven to be beneficial to the summarization process, especially when processing unstructured documents. Extractive summarization techniques are the best studied to date, mostly supporting the English language, with a few variations to support another language. This thesis proposes a multi-language summarization platform which implements 17 algorithms, as well as the possibility of combining them. Such extractive summarization techniques are based on statistical models (e.g. TF-IDF) or language models (e.g. N.L.P. with WordNet). Furthermore, the platform is 100% unsupervised, this means that processing does not need human interference. There is a module for language identification and an intermediate translation process, in which provides support to 25 languages, so far. The experimental results obtained suggest that the platform reached acceptable summarization levels tested on news text corpora (CNN and Temário) in English, Spanish and Portuguese. Comparing with known methods, e.g. SuPor and TextRank, the platform obtained an improvement of 45% in the results for the TeMário corpus in Portuguese language remained among the best in the CNN corpus in English and similar results with the CNN corpus in Spanish, which is new and not have results of competitors yet. In addition to these results, its processing time is competitive,
reaching an average of 0.11 seconds per document in English and 0.28 for the other languages tested. The platform was developed in Java, thus it is portable and can be easily reused in future research in abstractive summarization, a research area still little explored.
|
26 |
Modelagem gerativa para sumarização automática multidocumento / Generative modeling for multi-document sumarizationMaría Lucía Del Rosario Castro Jorge 09 March 2015 (has links)
A Sumarização Multidocumento consiste na produção automática de um único sumário a partir de um conjunto de textos que tratam de um mesmo assunto. Essa tarefa vem se tornando cada vez mais importante, já que auxilia o processamento de grandes volumes de informação, permitindo destacar a informação mais relevante para o usuário. Nesse trabalho, são propostas e exploradas modelagens baseadas em Aprendizado Gerativo, em que a tarefa de Sumarização Multidocumento é esquematizada usando o modelo Noisy- Channel e seus componentes de modelagem de língua, de transformação e decodificação, que são apropriadamente instanciados para a tarefa em questão. Essas modelagens são formuladas com atributos superficiais e profundos. Em particular, foram definidos três modelos de transformação, cujas histórias gerativas capturam padrões de seleção de conteúdo a partir de conjuntos de textos e seus correspondentes sumários multidocumento produzidos por humanos. O primeiro modelo é relativamente mais simples, pois é composto por atributos superficiais tradicionais; o segundo modelo é mais complexo, pois, além de atributos superficiais, adiciona atributos discursivos monodocumento; finalmente, o terceiro modelo é o mais complexo, pois integra atributos superficiais, de natureza discursiva monodocumento e semântico-discursiva multidocumento, pelo uso de informação proveniente das teorias RST e CST, respectivamente. Além desses modelos, também foi desenvolvido um modelo de coerência (ou modelo de língua) para sumários multidocumento, que é projetado para capturar padrões de coerência, tratando alguns dos principais fenômenos multidocumento que a afetam. Esse modelo foi desenvolvido com base no modelo de entidades e com informações discursivas. Cada um desses modelos foi inferido a partir do córpus CSTNews de textos jornalísticos e seus respectivos sumários em português. Finalmente, foi desenvolvido também um decodificador para realizar a construção do sumário a partir das inferências obtidas. O decodificador seleciona o subconjunto de sentenças que maximizam a probabilidade do sumário de acordo com as probabilidades inferidas nos modelos de seleção de conteúdo e o modelo de coerência. Esse decodificador inclui também uma estratégia para evitar que sentenças redundantes sejam incluídas no sumário final. Os sumários produzidos a partir dessa modelagem gerativa são comparados com os sumários produzidos por métodos estatísticos do estado da arte, os quais foram implementados, treinados e testados sobre o córpus. Utilizando-se avaliações de informatividade tradicionais da área, os resultados obtidos mostram que os modelos desenvolvidos neste trabalho são competitivos com os métodos estatísticos do estado da arte e, em alguns casos, os superam. / Multi-document Summarization consists in automatically producing a unique summary from a set of source texts that share a common topic. This task is becoming more important, since it supports large volume data processing, enabling to highlight relevant information to the users. In this work, generative modeling approaches are proposed and investigated, where the Multidocument Summarization task is modeled through the Noisy-Channel framework and its components: language model, transformation model and decoding, which are properly instantiated for the correspondent task. These models are formulated with shallow and deep features. Particularly, three main transformation models were defined, establishing generative stories that capture content selection patterns from sets of source texts and their corresponding human multi-document summaries. The first model is the less complex, since its features are traditional shallow features; the second model is more complex, incorporating single-document discursive knowledge features (given by RST) to the features proposed in the first model; finally, the third model is the most complex, since it incorporates multi-document discursive knowledge features (given by CST) to the features provided by models 1 and 2. Besides these models, it was also developed a coherence model (represented by the Noisy-Channel´s language model) for multi-document summaries. This model, different from transformation models, aims at capturing coerence patterns in multi-document summaries. This model was developed over the Entity-based Model and incorporates discursive knowledge in order to capture coherence patterns, exploring multi-document phenomena. Each of these models was treined with the CSTNews córpus of journalistic texts and their corresponding summaries. Finally, a decoder to search for the summary that maximizes the probability of the estimated models was developed. The decoder selects the subset of sentences that maximize the estimated probabilities. The decoder also includes an additional functionality for treating redundancy in the decoding process by using discursive information from the CST. The produced summaries are compared with the summaries produced by state of the art generative models, which were also treined and tested with the CSTNews corpus. The evaluation was carried out using traditional informativeness measures, and the results showed that the generative models developed in this work are competitive with the state of the art statistical models, and, in some cases, they outperform them. .
|
27 |
Exploração de métodos de sumarização automática multidocumento com base em conhecimento semântico-discursivo / Exploration of automatic methods for multi-document summarization using discourse modelsPaula Christina Figueira Cardoso 05 September 2014 (has links)
A sumarização automática multidocumento visa à produção de um sumário a partir de um conjunto de textos relacionados, para ser utilizado por um usuário particular e/ou para determinada tarefa. Com o crescimento exponencial das informações disponíveis e a necessidade das pessoas obterem a informação em um curto espaço de tempo, a tarefa de sumarização automática tem recebido muita atenção nos últimos tempos. Sabe-se que em um conjunto de textos relacionados existem informações redundantes, contraditórias e complementares, que representam os fenômenos multidocumento. Em cada texto-fonte, o assunto principal é descrito em uma sequência de subtópicos. Além disso, as sentenças de um texto-fonte possuem graus de relevância diferentes. Nesse contexto, espera-se que um sumário multidocumento consista das informações relevantes que representem o total de textos do conjunto. No entanto, as estratégias de sumarização automática multidocumento adotadas até o presente utilizam somente os relacionamentos entre textos e descartam a análise da estrutura textual de cada texto-fonte, resultando em sumários que são pouco representativos dos subtópicos textuais e menos informativos do que poderiam ser. A fim de tratar adequadamente a relevância das informações, os fenômenos multidocumento e a distribuição de subtópicos, neste trabalho de doutorado, investigou-se como modelar o processo de sumarização automática usando o conhecimento semântico-discursivo em métodos de seleção de conteúdo e o impacto disso para a produção de sumários mais informativos e representativos dos textos-fonte. Na formalização do conhecimento semântico-discursivo, foram utilizadas as teorias semântico-discursivas RST (Rhetorical Structure Theory) e CST (Cross-document Structure Theory). Para apoiar o trabalho, um córpus multidocumento foi anotado com RST e subtópicos, consistindo em um recurso disponível para outras pesquisas. A partir da análise de córpus, foram propostos 10 métodos de segmentação em subtópicos e 13 métodos inovadores de sumarização automática. A avaliação dos métodos de segmentação em subtópicos mostrou que existe uma forte relação entre a estrutura de subtópicos e a análise retórica de um texto. Quanto à avaliação dos métodos de sumarização automática, os resultados indicam que o uso do conhecimento semântico-discursivo em boas estratégias de seleção de conteúdo afeta positivamente a produção de sumários informativos. / The multi-document summarization aims at producing a summary from a set of related texts to be used for an individual or/and a particular task. Nowadays, with the exponential growth of available information and the peoples need to obtain information in a short time, the task of automatic summarization has received wide attention. It is known that in a set of related texts there are pieces of redundant, contradictory and complementary information that represent the multi-document phenomenon. In each source text, the main subject is described in a sequence of subtopics. Furthermore, some sentences in the same text are more relevant than others. Considering this context, it is expected that a multi-document summary consists of relevant information that represents a set of texts. However, strategies for automatic multi-document summarization adopted until now have used only the relationships between texts and dismissed the analysis of textual structure of each source text, resulting in summaries that are less representative of subtopics and less informative than they could be. In order to properly treat the relevance of information, multi-document phenomena and distribution of subtopics, in this thesis, we investigated how to model the summarization process using the semantic-discursive knowledge and its impact for producing more informative and representative summaries from source texts. In order to formalize the semantic-discursive knowledge, we adopted RST (Rhetorical Structure Theory) and CST (Cross-document Structure Theory) theories. To support the work, a multi-document corpus was annotated with RST and subtopics, consisting of a new resource available for other researchers. From the corpus analysis, 10 methods for subtopic segmentation and 13 orignal methods for automatic summarization were proposed. The assessment of methods for subtopic segmentation showed that there is a strong relationship between the subtopics structure and the rhetorical analysis of a text. In regards to the assessment of the methods for automatic summarization, the results indicate that the use of semantic-discursive knowledge in good strategies for content selection affects positively the production of informative summaries.
|
28 |
Extractive document summarization using complex networks / Sumarização extractiva de documentos usando redes complexasTohalino, Jorge Andoni Valverde 15 June 2018 (has links)
Due to a large amount of textual information available on the Internet, the task of automatic document summarization has gained significant importance. Document summarization became important because its focus is the development of techniques aimed at finding relevant and concise content in large volumes of information without changing its original meaning. The purpose of this Masters work is to use network theory concepts for extractive document summarization for both Single Document Summarization (SDS) and Multi-Document Summarization (MDS). In this work, the documents are modeled as networks, where sentences are represented as nodes with the aim of extracting the most relevant sentences through the use of ranking algorithms. The edges between nodes are established in different ways. The first approach for edge calculation is based on the number of common nouns between two sentences (network nodes). Another approach to creating an edge is through the similarity between two sentences. In order to calculate the similarity of such sentences, we used the vector space model based on Tf-Idf weighting and word embeddings for the vector representation of the sentences. Also, we make a distinction between edges linking sentences from different documents (inter-layer) and those connecting sentences from the same document (intra-layer) by using multilayer network models for the Multi-Document Summarization task. In this approach, each network layer represents a document of the document set that will be summarized. In addition to the measurements typically used in complex networks such as node degree, clustering coefficient, shortest paths, etc., the network characterization also is guided by dynamical measurements of complex networks, including symmetry, accessibility and absorption time. The generated summaries were evaluated by using different corpus for both Portuguese and English language. The ROUGE-1 metric was used for the validation of generated summaries. The results suggest that simpler models like Noun and Tf-Idf based networks achieved a better performance in comparison to those models based on word embeddings. Also, excellent results were achieved by using the multilayered representation of documents for MDS. Finally, we concluded that several measurements could be used to improve the characterization of networks for the summarization task. / Devido à grande quantidade de informações textuais disponíveis na Internet, a tarefa de sumarização automática de documentos ganhou importância significativa. A sumarização de documentos tornou-se importante porque seu foco é o desenvolvimento de técnicas destinadas a encontrar conteúdo relevante e conciso em grandes volumes de informação sem alterar seu significado original. O objetivo deste trabalho de Mestrado é usar os conceitos da teoria de grafos para o resumo extrativo de documentos para Sumarização mono-documento (SDS) e Sumarização multi-documento (MDS). Neste trabalho, os documentos são modelados como redes, onde as sentenças são representadas como nós com o objetivo de extrair as sentenças mais relevantes através do uso de algoritmos de ranqueamento. As arestas entre nós são estabelecidas de maneiras diferentes. A primeira abordagem para o cálculo de arestas é baseada no número de substantivos comuns entre duas sentenças (nós da rede). Outra abordagem para criar uma aresta é através da similaridade entre duas sentenças. Para calcular a similaridade de tais sentenças, foi usado o modelo de espaço vetorial baseado na ponderação Tf-Idf e word embeddings para a representação vetorial das sentenças. Além disso, fazemos uma distinção entre as arestas que vinculam sentenças de diferentes documentos (inter-camada) e aquelas que conectam sentenças do mesmo documento (intra-camada) usando modelos de redes multicamada para a tarefa de Sumarização multi-documento. Nesta abordagem, cada camada da rede representa um documento do conjunto de documentos que será resumido. Além das medições tipicamente usadas em redes complexas como grau dos nós, coeficiente de agrupamento, caminhos mais curtos, etc., a caracterização da rede também é guiada por medições dinâmicas de redes complexas, incluindo simetria, acessibilidade e tempo de absorção. Os resumos gerados foram avaliados usando diferentes corpus para Português e Inglês. A métrica ROUGE-1 foi usada para a validação dos resumos gerados. Os resultados sugerem que os modelos mais simples, como redes baseadas em Noun e Tf-Idf, obtiveram um melhor desempenho em comparação com os modelos baseados em word embeddings. Além disso, excelentes resultados foram obtidos usando a representação de redes multicamada de documentos para MDS. Finalmente, concluímos que várias medidas podem ser usadas para melhorar a caracterização de redes para a tarefa de sumarização.
|
29 |
Tendência universal de sumarização do processo civil e a busca da tutela de urgência proporcionalZanferdini, Flávia de Almeida Montingelli 11 November 2007 (has links)
Made available in DSpace on 2016-04-26T20:26:11Z (GMT). No. of bitstreams: 1
Flavia de Almeida Montingelli Zanferdini.pdf: 1693603 bytes, checksum: ad7ab282db3c6e41e17d187968ccc60d (MD5)
Previous issue date: 2007-11-11 / The work analyzes the strong and growing tendency of summarization
of the contemporary civil process.
It starts from the premise that it is necessary to reconcile safety and
velocity, being known that this challenge is one that more urges the
contemporary procedure experts.
To face the multiple subjects that elapse of that tendency, it initially
presents the more frequently means used to summarize the procedures.
It presents, likewise, the reasons that lead to that growing
summarizing tendency, which are the increment of the access to the justice
and the increase of the number of actions that are not proportional to the
judiciary apparatus.
It still discourses about the need to look for mechanisms to
accomplish the constitutional warranty of judgement in reasonable term and
defends that one cannot, in that search to reconcile velocity and safety, to do
without of counterbalance mechanisms, denominated regulatory mechanisms.
It exposes the existent regulation mechanisms in the domestic legal
system and those used at other countries, suggesting modifications in the
national legislation.
It objects, with vehemence, to the idea that the velocity search at any
cost is an ideal to be pursued. It therefore disagrees of the dominant
conceptions that accept that the safety gives up front to the urgency, given the
social demands and that understand to be the inherent risk to the need of
distribution of the procedural time.
It presents a panorama of the provisional remedies in Brazil and in
other countries chosen as paradigms − Argentina, Spain, Italy and Portugal −
and defends that the provisional remedies should be proportional, or in other
words, that they cannot cause the defendant more damages than the benefits
that are granted to the author, suggesting therefore some modifications in the
law, as well as the strict obedience to the principle of the proportionality in
such cases.
At the end, it analyzes bills that alter dispositions on the provisional
remedies in Argentina, Brasil and Italy, defending, still, a better regulation of
the matter in our country / O trabalho analisa a forte e crescente tendência de sumarização do
processo civil contemporâneo.
Parte da premissa de que é preciso conciliar segurança e celeridade,
sabendo-se que esse desafio é um dos que mais instigam os processualistas
contemporâneos.
Para o enfrentamento das múltiplas questões que decorrem dessa
tendência, inicialmente apresenta os meios mais freqüentemente utilizados
para sumarizar os procedimentos.
Apresenta, outrossim, as razões que levam a essa crescente tendência
sumarizante, quais sejam, o incremento do acesso à justiça e o aumento do
número de ações, que não são proporcionais ao aparato judiciário.
Discorre, ainda, sobre a necessidade de buscar mecanismos para
cumprir a garantia constitucional da prestação jurisdicional em prazo razoável
e defende que não se pode, nessa busca da conciliação de celeridade e
segurança, prescindir de mecanismos de contrapeso, denominados de
regulatórios.
Expõe os mecanismos de regulação existentes no ordenamento pátrio
e aqueles utilizados em outros países, sugerindo modificações na legislação
nacional.
Contesta, com veemência, a idéia de que a busca de celeridade a
qualquer custo seja um ideal a ser perseguido. Discorda, destarte, das
concepções dominantes que aceitam que a segurança ceda frente à urgência,
dadas as exigências sociais e que entendem ser o risco inerente à necessidade
de distribuição do tempo processual.
Apresenta um panorama das tutelas de urgência, no Brasil e em outros
países escolhidos como paradigmas − Argentina, Espanha, Itália e Portugal −
e defende que as tutelas de urgência devam ser proporcionais, ou seja, que
não podem causar ao réu mais danos do que os benefícios que são outorgados
ao autor, sugerindo, destarte, algumas modificações na lei, bem como a estrita
obediência ao princípio da proporcionalidade em tais casos.
Ao final, analisa projetos de lei que alteram disposições sobre as
tutelas de urgência na Argentina, Brasil e Itália, defendendo, ainda, uma
melhor regulamentação da matéria em nosso país
|
30 |
Desenvolvimento de técnicas baseadas em redes complexas para sumarização extrativa de textos / Development of techniques based on complex networks for extractive text summarizationAntiqueira, Lucas 27 February 2007 (has links)
A Sumarização Automática de Textos tem considerável importância nas tarefas de localização e utilização de conteúdo relevante em meio à quantidade enorme de informação disponível atualmente em meio digital. Nessa área, procura-se desenvolver técnicas que possibilitem obter o conteúdo mais relevante de documentos, de maneira condensada, sem alterar seu significado original, e com mínima intervenção humana. O objetivo deste trabalho de mestrado foi investigar de que maneira conceitos desenvolvidos na área de Redes Complexas podem ser aplicados à Sumarização Automática de Textos, mais especificamente à sumarização extrativa. Embora grande parte das pesquisas em sumarização tenha se voltado para a utilização de técnicas extrativas, ainda é possível melhorar o nível de informatividade dos extratos gerados automaticamente. Neste trabalho, textos foram representados como redes, das quais foram extraídas medidas tradicionalmente utilizadas na caracterização de redes complexas (por exemplo, coeficiente de aglomeração, grau hierárquico e índice de localidade), com o intuito de fornecer subsídios à seleção das sentenças mais significativas de um texto. Essas redes são formadas pelas sentenças (representadas pelos vértices) de um determinado texto, juntamente com as repetições (representadas pelas arestas) de substantivos entre sentenças após lematização. Cada método de sumarização proposto foi aplicado no córpus TeMário, de textos jornalísticos em português, e em córpus das conferências DUC, de textos jornalísticos em inglês. A avaliação desse estudo foi feita por meio da realização de quatro experimentos, fazendo-se uso de métodos de avaliação automática (Rouge-1 e Precisão/Cobertura de sentenças) e comparando-se os resultados com os de outros sistemas de sumarização extrativa. Os melhores sumarizadores propostos referem-se aos seguintes conceitos: d-anel, grau, k-núcleo e caminho mínimo. Foram obtidos resultados comparáveis aos dos melhores métodos de sumarização já propostos para o português, enquanto que, para o inglês, os resultados são menos expressivos. / Automatic Text Summarization has considerably importance in tasks such as finding and using relevant content in the enormous amount of information available nowadays in digital media. The focus in this field is on the development of techniques that allow someone to obtain the most relevant content of documents, in a condensed way, preserving the original meaning and with little (or even none) human help. The purpose of this MSc project was to investigate a way of applying concepts borrowed from the studies of Complex Networks to the Automatic Text Summarization field, specifically to the task of extractive summarization. Although the majority of works in summarization have focused on extractive techniques, it is still possible to obtain better levels of informativity in extracts automatically generated. In this work, texts were represented as networks, from which the most significant sentences were selected through the use of ranking algorithms. Such networks are obtained from a text in the following manner: the sentences are represented as nodes, and an edge between two nodes is created if there is at least one repetition of a noun in both sentences, after the lemmatization step. Measurements typically employed in the characterization of complex networks, such as clustering coefficient, hierarchical degree and locality index, were used on the basis of the process of node (sentence) selection in order to build an extract. Each summarization technique proposed was applied to the TeMário corpus, which comprises newspaper articles in Portuguese, and to the DUC corpora, which comprises newspaper articles in English. Four evaluation experiments were carried out, by means of automatic evaluation measurements (Rouge-1 and sentence Precision/Recall) and comparison with the results obtained by other extractive summarization systems. The best summarizers are the ones based on the following concepts: d-ring, degree, k-core and shortest path. Performances comparable to the best summarization systems for Portuguese were achieved, whilst the results are less significant for English.
|
Page generated in 0.041 seconds