Spelling suggestions: "subject:"análise dde textos"" "subject:"análise dee textos""
1 |
Uma plataforma para sumarização automática de textos independente de idiomaCABRAL, Luciano de Souza 27 February 2015 (has links)
Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-01-22T17:09:48Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
lsc_tese_corrigida_rdl_versaoDigital.pdf: 5021349 bytes, checksum: f2a6ae799a13a092eef7727f6cc66e9e (MD5) / Made available in DSpace on 2016-01-22T17:09:48Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
lsc_tese_corrigida_rdl_versaoDigital.pdf: 5021349 bytes, checksum: f2a6ae799a13a092eef7727f6cc66e9e (MD5)
Previous issue date: 2015-02-27 / A Sumarização Automática de Textos é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar ou gerar sentenças relevantes a partir de documentos textuais. Claramente, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento, em sua maioria suportando o idioma inglês, com poucas variações de suporte a mais um idioma. A presente tese propõe uma plataforma de sumarização multi-idioma na qual, fornece 17 opções de algoritmos de sumarização, assim como a possibilidade de combinação dentre eles. Tais algoritmos são uma mescla de técnicas de sumarização extrativa utilizando modelos estatísticos (e.g. TF-IDF) e modelos linguísticos (PLN com WordNet). Além disso, a plataforma é 100% não-supervisionada, o que significa que não depende do ser humano em nenhuma parte de seu processamento, ainda possui um módulo de identificação de idiomas além de um processo de tradução intermediária, os quais provêm suporte a 25 idiomas até o momento. Os resultados obtidos nos experimentos sugerem que a plataforma apresenta bons níveis de sumarização com corpora relacionados com textos jornalísticos (CNN e Temário) em diferentes idiomas (Inglês, Espanhol e Português). Efetuando uma comparação com métodos conhecidos, e.g. SuPor e TextRank, a plataforma obteve 45% de
melhoria nos resultados para o corpus Temário no idioma português, se manteve dentre os melhores com o corpus CNN em inglês e resultados semelhantes com o corpus CNN em espanhol, no qual é novo e não possui resultados de outros sistemas até o momento. Além desses resultados, o seu tempo processamento é competitivo, atingindo-se em média 0,11 segundos por documento em inglês e 0,28 s para outras línguas. Desenvolvida em Java, a plataforma pode ser facilmente portável e reusada em pesquisas futuras, as quais podem ser direcionadas para preencher a lacuna da sumarização abstrativa, a qual é pouco explorada até o momento pela comunidade, tendo assim, muito a ser estudada e pesquisada. / Automatic Text Summarization is the branch of information retrieval that uses techniques and algorithms to identify, collect or generate relevant sentences from text documents. The use of Natural Language Processing (NLP) techniques has proven to be beneficial to the summarization process, especially when processing unstructured documents. Extractive summarization techniques are the best studied to date, mostly supporting the English language, with a few variations to support another language. This thesis proposes a multi-language summarization platform which implements 17 algorithms, as well as the possibility of combining them. Such extractive summarization techniques are based on statistical models (e.g. TF-IDF) or language models (e.g. N.L.P. with WordNet). Furthermore, the platform is 100% unsupervised, this means that processing does not need human interference. There is a module for language identification and an intermediate translation process, in which provides support to 25 languages, so far. The experimental results obtained suggest that the platform reached acceptable summarization levels tested on news text corpora (CNN and Temário) in English, Spanish and Portuguese. Comparing with known methods, e.g. SuPor and TextRank, the platform obtained an improvement of 45% in the results for the TeMário corpus in Portuguese language remained among the best in the CNN corpus in English and similar results with the CNN corpus in Spanish, which is new and not have results of competitors yet. In addition to these results, its processing time is competitive,
reaching an average of 0.11 seconds per document in English and 0.28 for the other languages tested. The platform was developed in Java, thus it is portable and can be easily reused in future research in abstractive summarization, a research area still little explored.
|
2 |
Mapeamento de dados multidimensionais usando árvores filogenéticas: foco em mapeamento de textos / Mapping multidimensional data using phylogenetic tress: focus text mappingValdivia, Ana Maria Cuadros 01 October 2007 (has links)
A Visualização Computacional trata de técnicas para representar e interagir graficamente com dados complexos, em geral de alta dimensionalidade. Dados de alta dimensionalidade são caracterizados por pontos representados em espaços vetoriais de alta dimensão, cada coordenada representando um atributo do vetor. Num grande número de aplicações da visualização multidimensional uma medida de similaridade existe entre esses vetores. Técnicas de projeção multidimensional podem ser utilizadas para posicionamento desses dados num plano de forma a facilitar a interpretação das relações de similaridade. Entretanto alguns problemas dessas técnicas comprometem a interpretação dos resultados obtidos. Este trabalho identifica esses problemas e propõe, uma técnica para posicionar os pontos no plano, através da formação de árvores filogenéticas a partir de relações de similaridade. Em geral árvores filogenéticas são utilizadas para codificação de relações de ancestralidade. Um algoritmo de geração e um algoritmo de traçado dessas árvores foram implementados no contexto do sistema PEx (Projection Explorer) e a solução é comparada com a funcionalidade das projeções na interpretação de dados multidimensionais em geral e, em particular, na representação de coleções de documentos, uma aplicação bastante estratégica da visualização computacional e da mineração visual de dados / Computational Visualization is concerned with graphical representation and exploration of complex data, usually bearing high dimensionality. Multidimensional data are characterized by points represented in vector spaces of many dimensions, each coordinate representing an attribute of the vector. In many applications a similarity measure can be found to highlight relationships of proximity between the vectors. In this environment projection techniques offer an alternative to ease interpretation coded by the similarity measures through proximity on the display. They do so by positioning the points on a bidimensional plane. Projection techniques are very useful to display and interact with data, but present some drawbacks that in some cases compromise the interpretation of certain features in data sets. This work discusses such problems and proposes, as an alternative to represent similarity relationships and to provide point placement on a plane, the use of phylogenetic trees, a representation typically employed to represent ancestrality relationships. An algorithm for generation and an algorithm for drawing such trees were implemented in a system called Projection Explorer. The approach is compared to that of multidimensional projections for multidimensional data in general and, in particular, for document data sets, an strategic application for multidimensional visualizations, since text can be represented and interpreted as multi-dimensional entities
|
3 |
Mapeamento de dados multidimensionais usando árvores filogenéticas: foco em mapeamento de textos / Mapping multidimensional data using phylogenetic tress: focus text mappingAna Maria Cuadros Valdivia 01 October 2007 (has links)
A Visualização Computacional trata de técnicas para representar e interagir graficamente com dados complexos, em geral de alta dimensionalidade. Dados de alta dimensionalidade são caracterizados por pontos representados em espaços vetoriais de alta dimensão, cada coordenada representando um atributo do vetor. Num grande número de aplicações da visualização multidimensional uma medida de similaridade existe entre esses vetores. Técnicas de projeção multidimensional podem ser utilizadas para posicionamento desses dados num plano de forma a facilitar a interpretação das relações de similaridade. Entretanto alguns problemas dessas técnicas comprometem a interpretação dos resultados obtidos. Este trabalho identifica esses problemas e propõe, uma técnica para posicionar os pontos no plano, através da formação de árvores filogenéticas a partir de relações de similaridade. Em geral árvores filogenéticas são utilizadas para codificação de relações de ancestralidade. Um algoritmo de geração e um algoritmo de traçado dessas árvores foram implementados no contexto do sistema PEx (Projection Explorer) e a solução é comparada com a funcionalidade das projeções na interpretação de dados multidimensionais em geral e, em particular, na representação de coleções de documentos, uma aplicação bastante estratégica da visualização computacional e da mineração visual de dados / Computational Visualization is concerned with graphical representation and exploration of complex data, usually bearing high dimensionality. Multidimensional data are characterized by points represented in vector spaces of many dimensions, each coordinate representing an attribute of the vector. In many applications a similarity measure can be found to highlight relationships of proximity between the vectors. In this environment projection techniques offer an alternative to ease interpretation coded by the similarity measures through proximity on the display. They do so by positioning the points on a bidimensional plane. Projection techniques are very useful to display and interact with data, but present some drawbacks that in some cases compromise the interpretation of certain features in data sets. This work discusses such problems and proposes, as an alternative to represent similarity relationships and to provide point placement on a plane, the use of phylogenetic trees, a representation typically employed to represent ancestrality relationships. An algorithm for generation and an algorithm for drawing such trees were implemented in a system called Projection Explorer. The approach is compared to that of multidimensional projections for multidimensional data in general and, in particular, for document data sets, an strategic application for multidimensional visualizations, since text can be represented and interpreted as multi-dimensional entities
|
4 |
Um método para predição de ligações a partir de mineração em textos e métricas em redes sociaisAlberto Messias da Costa Souza 15 July 2010 (has links)
As redes sociais conseguem modelar diversos sistemas complexos existentes no mundo real. Conseguir prever o crescimento destas redes é um desafio de pesquisa atual, especialmente ao se tratar das redes sociais tecnológicas usadas na atualidade. Estas redes possuem grandes quantidades de textos que certamente refletem as características inerentes à própria rede. Esta tese procura desvendar a relação existente entre as palavras presentes nos textos das redes sociais e a sua estrutura. Nesta tese, é apresentada a entropia condicional das palavras existentes nas redes sociais em relação aos seus nós como um critério estável para a redução da dimensionalidade encontrada na análise dos textos. É proposta também uma medida de similaridade entre os nós da rede, baseada na probabilidade do uso de palavras pelos nós e, por fim, é proposto um processo de predição de ligações baseado na medida de similaridade proposta, juntamente com aspectos topológicos das redes sociais. Testes com uma rede social real foram realizados para avaliar o desempenho das técnicas propostas.
|
5 |
Refinamento interativo de mapas de documentos apoiado por extração de tópicos / Interactive refinement of document maps supported by topic extractionSilva, Renato Rodrigues Oliveira da 15 December 2010 (has links)
Mapas de documentos são representações visuais que permitem analisar de forma eficiente diversas relações entre documentos de uma coleção. Técnicas de projeção multidimensional podem ser empregadas para criar mapas que refletem a similaridade de conteúdo, favorecendo a identificação de agrupamentos com conteúdo similar. Este trabalho aborda uma evolução do arcabouço genérico oferecido pelas projeções multidimensionais para apoiar a análise interativa de documentos textuais, implementado na plataforma PEx. Foram propostas e implementadas técnicas que permitem ao usuário interagir com o mapa de documentos utilizando tópicos extraídos do próprio corpus. Assim a representação visual pode gradualmente evoluir para refletir melhor os interesses do usuário, e apoiá-lo de maneira mais efetiva em tarefas exploratórias. A interação foi avaliada utilizando uma técnica de inspeção de usabilidade, que visa identificar os principais problemas enfrentados pelos usuários ao interagir com as funcionalidades desenvolvidas. Adicionalmente, a utilidade das funcionalidades foi avaliada pela condução de dois estudos de caso, em que foram definidas tarefas a serem conduzidas pelo usuário sobre os mapas de documentos. Os resultados mostram que com o auxílio das visualizações foi possível conduzir as tarefas satisfatoriamente, permitindo manipular de forma eficiente milhares de documentos sem a necessidade de ler individualmente cada texto / Content-based document maps are visualizations that help users to identify and explore relationships among documents in a collection. Multidimensional projection techniques have been employed to create similaritybased maps that can help identifying documents of similar content. This work aims to enhance the generic framework offered by the multidimensional projection techniques in the PEx visualization platform to support interactive analysis of textual data. Several interaction functions and visual representations have been proposed and implemented that allow users to interact with document maps aided by topics automatically extracted from the corpus. By exploring the topics and maps in an integrated manner, users can refine and evolve the visual representations gradually to better reflect their needs and interests, enhancing support to exploratory tasks. The proposed interaction functions were evaluated employing a usability inspection technique, seeking to detect interface problems. Moreover, two illustrative case studies were conducted to evaluate the usefulness of the proposed interactions, based on typical user tasks defined over different document collections. They illustrate how the developed visualizations can assist the proposed tasks, allowing users to interactively explore large document corpora and refine document maps
|
6 |
Normalização textual de conteúdo gerado por usuário / User-generated content text normalizationBertaglia, Thales Felipe Costa 18 August 2017 (has links)
Conteúdo Gerado por Usuário (CGU) é a denominação dada ao conteúdo criado de forma espontânea por indivíduos comuns, sem vínculos com meios de comunicação. Esse tipo de conteúdo carrega informações valiosas e pode ser explorado por diversas áreas do conhecimento. Muito do CGU é disponibilizado em forma de textos avaliações de produtos, comentários em fóruns sobre filmes e discussões em redes sociais são exemplos. No entanto, a linguagem utilizada em textos de CGU diverge, de várias maneiras, da norma culta da língua, dificultando seu processamento por técnicas de PLN. A linguagem de CGU é fortemente ligada à língua utilizada no cotidiano, contendo, assim, uma grande quantidade de ruídos. Erros ortográficos, abreviações, gírias, ausência ou mau uso de pontuação e de capitalização são alguns ruídos que dificultam o processamento desses textos. Diversos trabalhos relatam perda considerável de desempenho ao testar ferramentas do estado-daarte de PLN em textos de CGU. A Normalização Textual é o processo de transformar palavras ruidosas em palavras consideradas corretas e pode ser utilizada para melhorar a qualidade de textos de CGU. Este trabalho relata o desenvolvimento de métodos e sistemas que visam a (a) identificar palavras ruidosas em textos de CGU, (b) encontrar palavras candidatas a sua substituição, e (c) ranquear os candidatos para realizar a normalização. Para a identificação de ruídos, foram propostos métodos baseados em léxicos e em aprendizado de máquina, com redes neurais profundas. A identificação automática apresentou resultados comparáveis ao uso de léxicos, comprovando que este processo pode ser feito com baixa dependência de recursos. Para a geração e ranqueamento de candidatos, foram investigadas técnicas baseadas em similaridade lexical e word embeddings. Concluiu-se que o uso de word embeddings é altamente adequado para normalização, tendo atingido os melhores resultados. Todos os métodos propostos foram avaliados com base em um córpus de CGU anotado no decorrer do projeto, contendo textos de diferentes origens: fóruns de discussão, reviews de produtos e publicações no Twitter. Um sistema, Enelvo, combinando todos os métodos foi implementado e comparado a um outro sistema normalizador existente, o UGCNormal. Os resultados obtidos pelo sistema Enelvo foram consideravelmente superiores, com taxa de correção entre 67% e 97% para diferentes tipos de ruído, com menos dependência de recursos e maior flexibilidade na normalização. / User Generated Content (UGC) is the name given to content created spontaneously by ordinary individuals, without connections to the media. This type of content carries valuable information and can be exploited by several areas of knowledge. Much of the UGC is provided in the form of texts product reviews, comments on forums about movies, and discussions on social networks are examples. However, the language used in UGC texts differs, in many ways, from the cultured norm of the language, making it difficult for NLP techniques to handle them. UGC language is strongly linked to the language used in daily life, containing a large amount of noise. Spelling mistakes, abbreviations, slang, absence or misuse of punctuation and capitalization are some noises that make it difficult to process these texts. Several works report considerable loss of performance when testing NLP state-of-the-art tools in UGC texts. Textual Normalization is the process of turning noisy words into words considered correct and can be used to improve the quality of UGC texts. This work reports the development of methods and systems that aim to (a) identify noisy words in UGC, (b) find candidate words for substitution, and (c) rank candidates for normalization. For the identification of noisy words, lexical-based methods and machine learning ones using deep neural networks were proposed. The automatic identification presented results comparable to the use of lexicons, proving that this process can be done with low dependence of resources. For the generation and ranking of candidates, techniques based on lexical similarity and word embeddings were investigated. It was concluded that the use of embeddings is highly suitable for normalization, having achieved the best results. All proposed methods were evaluated based on a UGC corpus annotated throughout the project, containing texts from different sources: discussion forums, product reviews and tweets. A system, Enelvo, combining all methods was implemented and compared to another existing normalizing system, UGCNormal. The results obtained by the Enelvo system were considerably higher, with a correction rate between 67 % and 97 % for different types of noise, with less dependence on resources and greater flexibility in normalization.
|
7 |
Refinamento interativo de mapas de documentos apoiado por extração de tópicos / Interactive refinement of document maps supported by topic extractionRenato Rodrigues Oliveira da Silva 15 December 2010 (has links)
Mapas de documentos são representações visuais que permitem analisar de forma eficiente diversas relações entre documentos de uma coleção. Técnicas de projeção multidimensional podem ser empregadas para criar mapas que refletem a similaridade de conteúdo, favorecendo a identificação de agrupamentos com conteúdo similar. Este trabalho aborda uma evolução do arcabouço genérico oferecido pelas projeções multidimensionais para apoiar a análise interativa de documentos textuais, implementado na plataforma PEx. Foram propostas e implementadas técnicas que permitem ao usuário interagir com o mapa de documentos utilizando tópicos extraídos do próprio corpus. Assim a representação visual pode gradualmente evoluir para refletir melhor os interesses do usuário, e apoiá-lo de maneira mais efetiva em tarefas exploratórias. A interação foi avaliada utilizando uma técnica de inspeção de usabilidade, que visa identificar os principais problemas enfrentados pelos usuários ao interagir com as funcionalidades desenvolvidas. Adicionalmente, a utilidade das funcionalidades foi avaliada pela condução de dois estudos de caso, em que foram definidas tarefas a serem conduzidas pelo usuário sobre os mapas de documentos. Os resultados mostram que com o auxílio das visualizações foi possível conduzir as tarefas satisfatoriamente, permitindo manipular de forma eficiente milhares de documentos sem a necessidade de ler individualmente cada texto / Content-based document maps are visualizations that help users to identify and explore relationships among documents in a collection. Multidimensional projection techniques have been employed to create similaritybased maps that can help identifying documents of similar content. This work aims to enhance the generic framework offered by the multidimensional projection techniques in the PEx visualization platform to support interactive analysis of textual data. Several interaction functions and visual representations have been proposed and implemented that allow users to interact with document maps aided by topics automatically extracted from the corpus. By exploring the topics and maps in an integrated manner, users can refine and evolve the visual representations gradually to better reflect their needs and interests, enhancing support to exploratory tasks. The proposed interaction functions were evaluated employing a usability inspection technique, seeking to detect interface problems. Moreover, two illustrative case studies were conducted to evaluate the usefulness of the proposed interactions, based on typical user tasks defined over different document collections. They illustrate how the developed visualizations can assist the proposed tasks, allowing users to interactively explore large document corpora and refine document maps
|
8 |
Normalização textual de conteúdo gerado por usuário / User-generated content text normalizationThales Felipe Costa Bertaglia 18 August 2017 (has links)
Conteúdo Gerado por Usuário (CGU) é a denominação dada ao conteúdo criado de forma espontânea por indivíduos comuns, sem vínculos com meios de comunicação. Esse tipo de conteúdo carrega informações valiosas e pode ser explorado por diversas áreas do conhecimento. Muito do CGU é disponibilizado em forma de textos avaliações de produtos, comentários em fóruns sobre filmes e discussões em redes sociais são exemplos. No entanto, a linguagem utilizada em textos de CGU diverge, de várias maneiras, da norma culta da língua, dificultando seu processamento por técnicas de PLN. A linguagem de CGU é fortemente ligada à língua utilizada no cotidiano, contendo, assim, uma grande quantidade de ruídos. Erros ortográficos, abreviações, gírias, ausência ou mau uso de pontuação e de capitalização são alguns ruídos que dificultam o processamento desses textos. Diversos trabalhos relatam perda considerável de desempenho ao testar ferramentas do estado-daarte de PLN em textos de CGU. A Normalização Textual é o processo de transformar palavras ruidosas em palavras consideradas corretas e pode ser utilizada para melhorar a qualidade de textos de CGU. Este trabalho relata o desenvolvimento de métodos e sistemas que visam a (a) identificar palavras ruidosas em textos de CGU, (b) encontrar palavras candidatas a sua substituição, e (c) ranquear os candidatos para realizar a normalização. Para a identificação de ruídos, foram propostos métodos baseados em léxicos e em aprendizado de máquina, com redes neurais profundas. A identificação automática apresentou resultados comparáveis ao uso de léxicos, comprovando que este processo pode ser feito com baixa dependência de recursos. Para a geração e ranqueamento de candidatos, foram investigadas técnicas baseadas em similaridade lexical e word embeddings. Concluiu-se que o uso de word embeddings é altamente adequado para normalização, tendo atingido os melhores resultados. Todos os métodos propostos foram avaliados com base em um córpus de CGU anotado no decorrer do projeto, contendo textos de diferentes origens: fóruns de discussão, reviews de produtos e publicações no Twitter. Um sistema, Enelvo, combinando todos os métodos foi implementado e comparado a um outro sistema normalizador existente, o UGCNormal. Os resultados obtidos pelo sistema Enelvo foram consideravelmente superiores, com taxa de correção entre 67% e 97% para diferentes tipos de ruído, com menos dependência de recursos e maior flexibilidade na normalização. / User Generated Content (UGC) is the name given to content created spontaneously by ordinary individuals, without connections to the media. This type of content carries valuable information and can be exploited by several areas of knowledge. Much of the UGC is provided in the form of texts product reviews, comments on forums about movies, and discussions on social networks are examples. However, the language used in UGC texts differs, in many ways, from the cultured norm of the language, making it difficult for NLP techniques to handle them. UGC language is strongly linked to the language used in daily life, containing a large amount of noise. Spelling mistakes, abbreviations, slang, absence or misuse of punctuation and capitalization are some noises that make it difficult to process these texts. Several works report considerable loss of performance when testing NLP state-of-the-art tools in UGC texts. Textual Normalization is the process of turning noisy words into words considered correct and can be used to improve the quality of UGC texts. This work reports the development of methods and systems that aim to (a) identify noisy words in UGC, (b) find candidate words for substitution, and (c) rank candidates for normalization. For the identification of noisy words, lexical-based methods and machine learning ones using deep neural networks were proposed. The automatic identification presented results comparable to the use of lexicons, proving that this process can be done with low dependence of resources. For the generation and ranking of candidates, techniques based on lexical similarity and word embeddings were investigated. It was concluded that the use of embeddings is highly suitable for normalization, having achieved the best results. All proposed methods were evaluated based on a UGC corpus annotated throughout the project, containing texts from different sources: discussion forums, product reviews and tweets. A system, Enelvo, combining all methods was implemented and compared to another existing normalizing system, UGCNormal. The results obtained by the Enelvo system were considerably higher, with a correction rate between 67 % and 97 % for different types of noise, with less dependence on resources and greater flexibility in normalization.
|
9 |
Inteligência práxis: estudo sobre o uso das tecnologias de informação para a gestão da análise do conteúdo de texto / Intelligence Praxis: study on the use of information technologies for the analysis of the management of the content of textsSantos, Melquizedek Fernandes dos 08 February 2017 (has links)
O objetivo deste estudo foi o de apresentar uma nova tecnologia de software especialista, denominada Inteligência Práxis (IP), para a gestão da análise do conteúdo de textos de dissertações, relatórios e indicadores da produção. Este software demonstra através de gráficos lineares e da nuvem de palavras, o foco do texto em análise. Ele também permite a visualização do conteúdo, a partir das palavras contidas no texto e transportadas para um dicionário de dados criado pelas evidências relacionadas, organizando e apresentando para análise do pesquisador o conteúdo proposto como base do conhecimento (Corpus). O software foi implementado em linguagem de programação Delphi, Versão 7 e para armazenamento de dados foi utilizado o banco de dados Absolute Database. A metodologia utilizada para a análise dos dados foi a Metodologia Delphi e a Lógica Fuzzy. Esta tecnologia traz uma inovação na análise do conteúdo dos textos consultados, demonstrando a imagem consolidada do foco do corpus, a partir do dicionário de evidências contidas e pontualmente relacionadas. O mapeamento produzido e a interpretação dos diversos indicadores conduzem a um maior grau de acerto na análise do conteúdo contido no documento, inferindo um melhor entendimento das diversas demandas envolvidas, desveladas pela análise, na expectativa do melhor resultado possível. Assim, pode-se concluir, que a ferramenta desenvolvida atendeu aos objetivos propostos com eficiência e agilidade. / The objective of this study was to present a new specialized software technology, called Intelligence Práxis (IP), for the management of content analysis of dissertations, reports and production indicators. This software demonstrates through linear graphs and the word cloud, the focus of the text under analysis. It also allows the visualization of the content, from the words contained in the text and transported to a data dictionary created by the related evidences, organizing and presenting to the researcher the proposed content as the basis of knowledge (Corpus). The software was implemented in Delphi programming language version 7 and for data storage the Absolute Database was used. The methodology used for the data analysis was the Delphi Methodology and the Fuzzy Logic. This technology brings an innovation in the analysis of the content of the texts consulted, demonstrating the consolidated image of the corpus focus, from the dictionary of contained and punctually related evidences. The mapping produced and the interpretation of the various indicators lead to a greater degree of accuracy in the analysis of the content contained in the document, inferring a better understanding of the diverse demands involved, revealed by the analysis, in the expectation of the best possible result. Thus, it can be concluded that the tool developed met the proposed objectives with efficiency and agility.
|
10 |
Uma análise da produção textual escrita de alunos do sexto ano do ensino fundamental do Colégio de Aplicação da Universidade Federal de SergipeBispo, Marlucy Mary Gama 05 August 2011 (has links)
This work has as main objective to analyze the written text production of graduates of the lower grades of primary education in public and private schools in the state of Sergipe. This requires a reflection on aspects that involve the teaching/learning of mother tongue in primary education in Brazil. Held at the College of Application of the Federal University of Sergipe (Codap-UFS), this research has as corpus forty texts, chosen randomly. Twenty of them were
produced by students who entered the College, as approved at the last examination for selection to the 6th grade of elementary school, 2009, identified here as texts in Group A and twenty produced by students who entered the College, through the public lottery of vacancies for the 2010 school year, identified as texts of Group B. From a historical survey about the College of Application of UFS, recover important aspects with emphasis on political and pedagogical, which provides a better context and characterization of the corpus. Include considerations on the subjects involved in research and proposals that generated the production of textual analysis. The study methodology adopted, mostly of qualitative nature, is based on documentary analysis, without disregarding the quantitative data that anchor this approach. The categories of analysis, based primarily on principles of text linguistics, were divided into two levels: the macrostructural aspects, considering the semantic-pragmatictextual and microstructural level, observing the orthographic and morphosyntactic. To support the analysis were elected studies of Koch and Traváglia (1999), Fávero (2001), Koch and Elias (2007) and Antunes (2010). We also consider studies that focus on studies of essays, though at other levels of education, like Carvalho (1997), Val (2006), Ferreira (2007) and Machado (2009). As a result of the analysis, it could observe that the texts produced by
students in both groups, regardless of the form for admission to college, had higher satisfaction scores in the analysis of the semantic-pragmatic-textual in the context of this
study, considered the most relevant aspects of the analysis. / Este trabalho tem como principal objetivo analisar a produção textual escrita de egressos das séries iniciais do Ensino Fundamental, de escolas da rede pública e privada do estado de Sergipe. O que requer uma reflexão sobre aspectos que envolvem o ensino/aprendizagem de língua materna na escola básica brasileira. Realizada no Colégio de Aplicação da
Universidade Federal de Sergipe, (Codap-UFS), esta pesquisa tem como corpus quarenta textos, escolhidos de forma aleatória. Vinte deles foram produzidos por alunos que
ingressaram no Colégio, mediante aprovação no último exame de seleção ao 6º ano do Ensino Fundamental, ano 2009, aqui identificados como textos do Grupo A, e vinte produzidos por
alunos que ingressaram no Colégio, através do sorteio público das vagas, para o ano escolar de 2010, identificados como textos do Grupo B. Partindo de um resgate histórico sobre o
Colégio de Aplicação da UFS, recuperam-se aspectos importantes com ênfase no políticopedagógico, o que possibilita uma melhor contextualização e caracterização do corpus. Destacam-se considerações sobre os sujeitos envolvidos na pesquisa e as propostas que geraram as produções textuais da análise. A metodologia de estudo adotada, majoritariamente, de natureza qualitativa, baseia-se na análise documental, sem desconsiderar os dados
quantitativos que ancoram a referida abordagem. As categorias de análise, fundamentadas, prioritariamente, em princípios da Linguística Textual, foram distribuídas em dois níveis: o macroestrutural, considerando os aspectos semântico-pragmático-textuais e o nível microestrutural, observando os aspectos ortográficos e morfossintáticos. Para sustentar a análise foram eleitos estudos de Koch e Traváglia (1999), Fávero (2001), Koch e Elias (2007) e Antunes (2010). Consideramos também, trabalhos que enfocam estudos de redações, ainda que em outros níveis de escolaridade, a exemplo de Carvalho (1997), Val (2006), Ferreira (2007) e Machado (2009). Como resultado da análise, pode-se observar que os textos produzidos pelos alunos de ambos os Grupos, independente da forma de ingresso no Colégio,
apresentaram melhores índices de satisfação na análise dos aspectos semântico-pragmáticotextuais, no contexto deste estudo, considerados como os mais relevantes aspectos da análise
|
Page generated in 0.0607 seconds