Global ETD Search

461	[en] CLUSTERING TEXT STRUCTURED DATA BASED ON TEXT SIMILARITY / [pt] AGRUPAMENTO DE REGISTROS TEXTUAIS BASEADO EM SIMILARIDADE ENTRE TEXTOS IAN MONTEIRO NUNES 18 February 2016 (has links) [pt] O presente trabalho apresenta os resultados que obtivemos com a aplicação de grande número de modelos e algoritmos em um determinado conjunto de experimentos de agrupamento de texto. O objetivo de tais testes é determinar quais são as melhores abordagens para processar as grandes massas de informação geradas pelas crescentes demandas de data quality em diversos setores da economia. O processo de deduplicação foi acelerado pela divisão dos conjuntos de dados em subconjuntos de itens similares. No melhor cenário possível, cada subconjunto tem em si todas as ocorrências duplicadas de cada registro, o que leva o nível de erro na formação de cada grupo a zero. Todavia, foi determinada uma taxa de tolerância intrínseca de 5 porcento após o agrupamento. Os experimentos mostram que o tempo de processamento é significativamente menor e a taxa de acerto é de até 98,92 porcento. A melhor relação entre acurácia e desempenho é obtida pela aplicação do algoritmo K-Means com um modelo baseado em trigramas. / [en] This document reports our findings on a set of text clusterig experiments, where a wide variety of models and algorithms were applied. The objective of these experiments is to investigate which are the most feasible strategies to process large amounts of information in face of the growing demands on data quality in many fields. The process of deduplication was accelerated through the division of the data set into individual subsets of similar items. In the best case scenario, each subset must contain all duplicates of each produced register, mitigating to zero the cluster s errors. It is established, although, a tolerance of 5 percent after the clustering process. The experiments show that the processing time is significantly lower, showing a 98,92 percent precision. The best accuracy/performance relation is achieved with the K-Means Algorithm using a trigram based model. [pt] APRENDIZADO DE MAQUINA [en] MACHINE LEARNING [pt] RECUPERACAO DE INFORMACAO [en] INFORMATION RETRIEVAL [pt] MINERACAO DE TEXTOS [en] TEXTS MINING [pt] DEDUPLICACAO
462	O efeito do uso de diferentes formas de extração de termos na compreensibilidade e representatividade dos termos em coleções textuais na língua portuguesa / The effect of using different forms of terms extraction on its comprehensibility and representability in Portuguese textual domains Conrado, Merley da Silva 10 September 2009 (has links) A extração de termos em coleções textuais, que é uma atividade da etapa de Pré-Processamento da Mineração de Textos, pode ser empregada para diversos fins nos processos de extração de conhecimento. Esses termos devem ser cuidadosamente extraídos, uma vez que os resultados de todo o processo dependerão, em grande parte, da \"qualidade\" dos termos obtidos. A \"qualidade\" dos termos, neste trabalho, abrange tanto a representatividade dos termos no domínio em questão como sua compreensibilidade. Tendo em vista sua importância, neste trabalho, avaliou-se o efeito do uso de diferentes técnicas de simplificação de termos na compreensibilidade e representatividade dos termos em coleções textuais na Língua Portuguesa. Os termos foram extraídos seguindo os passos da metodologia apresentada neste trabalho e as técnicas utilizadas durante essa atividade de extração foram a radicalização, lematização e substantivação. Para apoiar tal metodologia, foi desenvolvida uma ferramenta, a ExtraT (Ferramenta para Extração de Termos). Visando garantir a \"qualidade\" dos termos extraídos, os mesmos são avaliados objetiva e subjetivamente. As avaliações subjetivas, ou seja, com o auxílio de especialistas do domínio em questão, abrangem a representatividade dos termos em seus respectivos documentos, a compreensibilidade dos termos obtidos ao utilizar cada técnica e a preferência geral subjetiva dos especialistas em cada técnica. As avaliações objetivas, que são auxiliadas por uma ferramenta desenvolvida (a TaxEM - Taxonomia em XML da Embrapa), levam em consideração a quantidade de termos extraídos por cada técnica, além de abranger tambéem a representatividade dos termos extraídos a partir de cada técnica em relação aos seus respectivos documentos. Essa avaliação objetiva da representatividade dos termos utiliza como suporte a medida CTW (Context Term Weight). Oito coleções de textos reais do domínio de agronegócio foram utilizadas na avaliaçao experimental. Como resultado foram indicadas algumas das características positivas e negativas da utilização das técnicas de simplificação de termos, mostrando que a escolha pelo uso de alguma dessas técnicas para o domínio em questão depende do objetivo principal pré-estabelecido, que pode ser desde a necessidade de se ter termos compreensíveis para o usuário até a necessidade de se trabalhar com uma menor quantidade de termos / The task of term extraction in textual domains, which is a subtask of the text pre-processing in Text Mining, can be used for many purposes in knowledge extraction processes. These terms must be carefully extracted since their quality will have a high impact in the results. In this work, the quality of these terms involves both representativity in the specific domain and comprehensibility. Considering this high importance, in this work the effects produced in the comprehensibility and representativity of terms were evaluated when different term simplification techniques are utilized in text collections in Portuguese. The term extraction process follows the methodology presented in this work and the techniques used were radicalization, lematization and substantivation. To support this metodology, a term extraction tool was developed and is presented as ExtraT. In order to guarantee the quality of the extracted terms, they were evaluated in an objective and subjective way. The subjective evaluations, assisted by domain specialists, analyze the representativity of the terms in related documents, the comprehensibility of the terms with each technique, and the specialist\'s opinion. The objective evaluations, which are assisted by TaxEM and by Thesagro (National Agricultural Thesaurus), consider the number of extracted terms by each technique and their representativity in the related documents. This objective evaluation of the representativity uses the CTW measure (Context Term Weight) as support. Eight real collections of the agronomy domain were used in the experimental evaluation. As a result, some positive and negative characteristics of each techniques were pointed out, showing that the best technique selection for this domain depends on the main pre-established goal, which can involve obtaining better comprehensibility terms for the user or reducing the quantity of extracted terms Extração de termos Lematização Lemmatization Mineração de textos Pré-processamento Pre-processing Radicalização Stemming Substantivação Substantivation Term extraction Text mining
463	Diálogo entre diferentes temporalidades refratadas e textos verbo-visuais de periódicos brasileiros contemporâneos / Dialogue between different time frames refracted in verbal-visual texts of contemporary Brazilian journals Souza, Elaine Hernandez de 12 November 2015 (has links) Nesta investigação, refletimos sobre as avaliações impressas em textos de periódicos contemporâneos tiras e crônicas , que retomam narrativas da tradição oral, em circulação entre os séculos XVII e XIX, a fim de compreender aspectos de diferentes visões de mundo e o posicionamento valorativo do sujeito-autor e do sujeito-contemplador previsto, como forma de resposta compromissada com seu tempo. Ao longo das edições dos periódicos, a tematização dessas narrativas aconteceu de forma aleatória, em meio a conteúdos diversos e como parte do repertório cultural dos artistas. Em levantamento realizado, o corpus de análise ficou composto da seguinte forma: (1) cinquenta e quatro tiras do cartunista Fernando Gonsales que, publicadas no jornal Folha de S. Paulo entre os anos de 2004 e 2011, tematizam os contos maravilhosos Chapeuzinho Vermelho, Branca de Neve e A história dos três porquinhos; (2) três crônicas de Millôr Fernandes, que circularam nas revistas semanais Veja e IstoÉ na década de 1980, tematizando os mesmos contos, o que viabiliza um trabalho comparativo. Para orientar nosso olhar, fundamentamos nossa análise na concepção bakhtiniana de arquitetônica, desenvolvida principalmente nos primeiros textos produzidos por Bakhtin e o Círculo, na década de 1920. Essa concepção nos permite compreender como os elementos do texto forma, conteúdo e material são organizados pelos centros de valores estabelecidos na relação autor-criador, herói, autor-contemplador. Associadas a essa noção, tratamos das categorias de espaço e tempo, desenvolvidas pelo pensador Bakhtin (1937-1938, 1973). Essas categorias nos instrumentalizam para a compreensão da interação entre autor-criador e/ou autor-contemplador e objeto artístico, em determinado contexto espaço-temporal. No diálogo com o objeto de pesquisa, partimos da seguinte hipótese: se todo texto é um ato responsivo ao tempo de que emerge, então a visão de mundo contemporânea é refratada em textos de humor da esfera periodística que circularam no final do século XX e início do XXI, quando esses textos retomam narrativas da tradição oral difundidas entre os séculos XVII e XIX. Ao final do trabalho, mostra-se que, no entrecruzamento das tiras de Fernando Gonsales e das crônicas de Millôr Fernandes com os contos maravilhosos, transita a paródia de um mundo idealizado: nas tiras, ela se configura também como deboche do modo de vida contemporâneo; nas crônicas, como crítica social e reflexão sobre a existência humana. / In this thesis, we reflect on the standpoints printed on contemporary journal texts - strips and chronics that retake oral tradition narratives, between the seventeenth and nineteenth centuries, in order to understand aspects of different worldviews and the evaluative positioning of the subject-author and of the expected subject-contemplator as a way to give a committed answer to their time. Along the issues of the journals, the theming of these narratives was done at random, amid diverse contents and as part of the cultural repertoire of the artists. In the survey that was conducted, the corpus was composed as follows: (1) fifty-four strips by the cartoonist Fernando Gonsales, published in the newspaper Folha de S. Paulo between 2004 and 2011, that bring as the theme the fairy tales Little Red Riding Hood, Snow White and The story of the three little pigs; (2) three chronics by Millor Fernandes, that circulated in the weekly magazines Veja and IstoÉ in the 1980s, thematising the same tales, which enables a comparative work. To guide our vision, we base our analysis on Bakhtin\'s architectonic design, developed mainly in the first texts written by Bakhtin and the Circle in the 1920s. This concept allows us to understand how the text elements - form, content and materials - are organized by centers of values established in the relation between author-creator, hero, author-contemplator. Associated with this notion, we deal with the categories of space and time, developed by Bakhtin (1937-1938, 1973). These categories lead us to the understanding of the interaction between author-creator and/or author-contemplator and artistic object, in a particular spatial-temporal context. In dialogue with the research object, we start from the following hypothesis: if all text is a responsive act to the time that it emerges from, then the contemporary world view is refracted in humor texts from the journal sphere that circulated in the late twentieth and early twenty-first centuries, when these texts resume narratives of the oral tradition spread between the seventeenth and nineteenth centuries. At the end of the work, it is shown that, in the crossing of the strips by Fernando Gonsalves and the chronics by Millor Fernandes with the fairy tales, the parody moves from an idealized world: in the strips, it also sets as a mockery of the contemporary way of life; in the chronics, as a social critique and reflection on human existence. Architectonics Arquitetônica Chronics Comic strips Contos maravilhosos Crônicas Fairy tales Textos verbo-visuais Tiras de humor Verbal-visual texts
464	As expressões idiomáticas do português do Brasil e do espanhol da Argentina: recurso complementar para a construção de uma argumentação irônica, implicações e usos / The idiomatic expressions of the portuguese of Brazil and the spanish of Argentina: additional resources to build an ironic argument, implications an uses Joyce Villela de Andrade 03 August 2011 (has links) As expressões idiomáticas (EIs), com suas características peculiares, são utilizadas com certa frequência como recurso para a construção da argumentação irônica em textos opinativos. Este trabalho pretendeu analisar, com base nos estudos discursivos, as consequências de seu emprego. Nosso primeiro passo foi diferenciá-las de outros conceitos como os provérbios, ditos populares, frases feitas. Consideramos três como as principais características identificadoras de uma EI: combinabilidade de no mínimo duas palavras, idiomaticidade e inserção dentro de uma memória da língua e discursiva. Num segundo momento investigamos as características presentes nos textos opinativos de jornais, como a Folha de São Paulo e o Clarín de Buenos Aires, para que se pudesse justificar a presença das EIs. Tal investigação nos levou a associar a sua presença ao surgimento da ironia. Características como a mudança de registro, a necessidade de inscrever-se dentro de uma memória discursiva que possa ser compartilhada entre enunciador e enunciatário são as mais evidentes. As EIs, ao serem incorporadas a um discurso, podem sofrer algumas modificações que as relacionam à enunciação, como por exemplo, inserções de palavras ou substituições de outras. São reformulações que se apresentam a fim de melhor contribuírem para a construção de uma argumentação irônica que exigem do enunciador e enunciatário uma capacidade discursiva essencial para que possam atingir sua plenitude semântica. A observação das EIs, nos levou, também, a questionar o modo peculiar como a sua reformulação se apresenta. Concluímos que elas estão muito além de lugares comuns; podem, com seu jogo entre transparente/idiomático, coloquial/institucional, exercer um papel significativo para que se possa instaurar a ironia, revelando-se como importantes elementos participantes da memória de uma língua. / The Idiomatic Expressions (IE) with their peculiar characteristics, are used quite frequently as a resource for the construction of ironic argumentation in opinionated texts. This research aimed to analyse, based on discursive studies, the consequences of their use. Our first step was to differentiate them from other concepts like proverbs, sayings, ready-made expressions . We considered three of them as the main identifiers of an Idiomatic Expression: combinability of at least two words, idiomaticity and insertion in the memory of the language and in the discursive memory . Our second step was to investigate the characteristics present in opinionated texts in newspapers such as a Folha de São Paulo and a Buenos Aires newspaper, Clarín, so that the presence of IE could be justified. Such investigation led us to associate their presence with the appearance of irony. Characteristics such as the change of register , the necessity of inscribing itself in a discursive memory that could be shared between the enunciator and enunciatee are the most evident. When IE are incorporated into a discourse, they can undergo some modifications that relate them to the enunciation, like for example, the insertion of words or substitution of others. These are reformulations thar arise in order to make a major contribution to the construction of a an ironic argumentation that demand of the enunciator and the enunciatee essencial discursive skills so that they can reach their semantic fullness. The observation of IEs also led us to question the peculiar way how their reformulation arises We conclude they are far beyond common places, they can, with their game between transparent/idiomatic, colloquial/institutional, exert a significant role so that irony can be established, constituing themselves as important integrated elements in the memory of a language. expressões idiomáticas ironia língua espanhola memória discursiva textos opinativos discursive memory idiomatic expressions irony opinionated texts spanish language
465	Religião e direito, mulher e violência: reflexões a partir de textos do Novo Testamento. Fideles, Erika Rejane Rodrigues de Souza 04 February 2015 (has links) Made available in DSpace on 2016-07-27T13:48:40Z (GMT). No. of bitstreams: 1 ERIKA REJANE RODRIGUES DE SOUZA FIDELES.pdf: 3986777 bytes, checksum: c3fc7991e62d4f4525aa944efd404c18 (MD5) Previous issue date: 2015-02-04 / In this research we aim to analyze the influence of sacred text interpretations of 1 Timothy 2: 11-15, which deals with the submission and silence of women, and the direct or indirect influence of their interpretations and traditions crests in the development of Civil Code articles 1916 , Criminal Code of 1940 which regulated and govern the social and family situation of submission and oppression of women, with regard to social and legal problems of various forms of violence committed until today against women. Also analyze the release process developed by feminist hermeneutics in search of the end of the silence and of female oppression. The readings, reinterpretations and reconstruction of that macho tradition and the many interpretations of sacred texts as 1 Timothy 2: 11-15 that legitimized all this silence condition and subordination of women in stems from the Christian religious and social history. And finally, the achievements made by these women in religious and social life and the reflection of the whole process of struggle and liberation in Brazilian law. We will reflect on historical moments that guided the Brazilian legislation from the standpoint of history and women s movements. Finally, we discuss the origin and the facts that led to the drafting and enactment of Law 11.340 - 2006, popularly nicknamed by Maria da Penha Law, as well as news and advances brought about by this law to the Brazilian laws related to women. / Nesta pesquisa analisaremos a influência direta ou indireta de interpretações do texto sagrado 1Timóteo 2, 11-15, que trata da submissão e do silêncio da mulher, sobre tradições cristãs, bem como na elaboração de artigos do Código Civil de 1916 e do Código Penal de 1940, que disciplinaram e ainda disciplinam a condição social e familiar de submissão e opressão da mulher no que diz respeito à problemática social e jurídica das várias formas de violência cometidas até os dias atuais contra as mulheres. Pesquisaremos sobre o processo de libertação desenvolvido pela hermenêutica feminista na busca do fim do silêncio e da opressão feminina, bem como as releituras, reinterpretações e reconstrução dessa tradição machista e das muitas interpretações de textos sagrados que legitimaram essa condição de silêncio e subordinação das mulheres no decorrer da história religiosa cristã e social como, por exemplo, 1Timóteo 2, 11-15. Investigaremos também sobre as conquistas alcançadas por essas mulheres na vida religiosa e social e o reflexo desse processo de luta e libertação na legislação brasileira. Refletiremos ainda sobre momentos históricos que nortearam a legislação brasileira sob o enfoque da história e dos movimentos de mulheres. Por fim, abordaremos a origem e os fatos que levaram à elaboração e promulgação da lei n. 11.340 - 2006, alcunhada popularmente por Lei Maria da Penha, bem como as novidades e os avanços promovidos por essa lei para a legislação brasileira em relação à mulher. Textos bíblicos legislação brasileira mulher violência submissão e libertação Biblical texts Brazilian law woman violence submission and release CNPQ::CIENCIAS HUMANAS::TEOLOGIA
466	Um método para predição de ligações a partir de mineração em textos e métricas em redes sociais Alberto Messias da Costa Souza 15 July 2010 (has links) As redes sociais conseguem modelar diversos sistemas complexos existentes no mundo real. Conseguir prever o crescimento destas redes é um desafio de pesquisa atual, especialmente ao se tratar das redes sociais tecnológicas usadas na atualidade. Estas redes possuem grandes quantidades de textos que certamente refletem as características inerentes à própria rede. Esta tese procura desvendar a relação existente entre as palavras presentes nos textos das redes sociais e a sua estrutura. Nesta tese, é apresentada a entropia condicional das palavras existentes nas redes sociais em relação aos seus nós como um critério estável para a redução da dimensionalidade encontrada na análise dos textos. É proposta também uma medida de similaridade entre os nós da rede, baseada na probabilidade do uso de palavras pelos nós e, por fim, é proposto um processo de predição de ligações baseado na medida de similaridade proposta, juntamente com aspectos topológicos das redes sociais. Testes com uma rede social real foram realizados para avaliar o desempenho das técnicas propostas. Redes complexas Redes sociais (eletrônicas) Mineração de dados Análise de textos Métricas (software) Entropia Redes de comunicação Computação Absorvedores de radiação
467	Extração de informação contextual utilizando mineração de textos para sistemas de recomendação sensíveis ao contexto / Contextual information extraction using text mining for recommendation systems context sensitive Sundermann, Camila Vaccari 20 March 2015 (has links) Com a grande variedade de produtos e serviços disponíveis na Web, os usuários possuem, em geral, muita liberdade de escolha, o que poderia ser considerado uma vantagem se não fosse pela dificuldade encontrada em escolher o produto ou serviço que mais atenda a suas necessidades dentro do vasto conjunto de opções disponíveis. Sistemas de recomendação são sistemas que têm como objetivo auxiliar esses usuários a identificarem itens de interesse em um conjunto de opções. A maioria das abordagens de sistemas de recomendação foca em recomendar itens mais relevantes para usuários individuais, não levando em consideração o contexto dos usuários. Porém, em muitas aplicações é importante também considerar informações contextuais para fazer as recomendações. Por exemplo, um usuário pode desejar assistir um filme com a sua namorada no sábado à noite ou com os seus amigos durante um dia de semana, e uma locadora de filmes na Web pode recomendar diferentes tipos de filmes para este usuário dependendo do contexto no qual este se encontra. Um grande desafio para o uso de sistemas de recomendação sensíveis ao contexto é a falta de métodos para aquisição automática de informação contextual para estes sistemas. Diante desse cenário, neste trabalho é proposto um método para extrair informações contextuais do conteúdo de páginas Web que consiste em construir hierarquias de tópicos do conteúdo textual das páginas considerando, além da bag-of-words tradicional (informação técnica), também informações mais valiosas dos textos como entidades nomeadas e termos do domínio (informação privilegiada). Os tópicos extraídos das hierarquias das páginas Web são utilizados como informações de contexto em sistemas de recomendação sensíveis ao contexto. Neste trabalho foram realizados experimentos para avaliação do contexto extraído pelo método proposto em que foram considerados dois baselines: um sistema de recomendação que não considera informação de contexto e um método da literatura de extração de contexto implementado e adaptado para este mestrado. Além disso, foram utilizadas duas bases de dados. Os resultados obtidos foram, de forma geral, muito bons apresentando ganhos significativos sobre o baseline sem contexto. Com relação ao baseline que extrai informação contextual, o método proposto se mostrou equivalente ou melhor que o mesmo. / With the wide variety of products and services available on the web, it is difficult for users to choose the option that most meets their needs. In order to reduce or even eliminate this difficulty, recommender systems have emerged. A recommender system is used in various fields to recommend items of interest to users. Most recommender approaches focus only on users and items to make the recommendations. However, in many applications it is also important to incorporate contextual information into the recommendation process. For example, a user may want to watch a movie with his girlfriend on Saturday night or with his friends during a weekday, and a video store on the Web can recommend different types of movies for this user depending on his context. Although the use of contextual information by recommendation systems has received great focus in recent years, there is a lack of automatic methods to obtain such information for context-aware recommender systems. For this reason, the acquisition of contextual information is a research area that needs to be better explored. In this scenario, this work proposes a method to extract contextual information of Web page content. This method builds topic hierarchies of the pages textual content considering, besides the traditional bag-of-words, valuable information of texts as named entities and domain terms (privileged information). The topics extracted from the hierarchies are used as contextual information in context-aware recommender systems. By using two databases, experiments were conducted to evaluate the contextual information extracted by the proposed method. Two baselines were considered: a recommendation system that does not use contextual information (IBCF) and a method proposed in literature to extract contextual information (\\methodological\" baseline), adapted for this research. The results are, in general, very good and show significant gains over the baseline without context. Regarding the \"methodological\" baseline, the proposed method is equivalent to or better than this baseline. Context Contexto Hierarchies topics Hierarquias de tópicos Mineração de textos Text mining
468	Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos / Evaluation of unsupervised feature selection methods for Text Mining Nogueira, Bruno Magalhães 27 March 2009 (has links) Selecionar atributos é, por vezes, uma atividade necessária para o correto desenvolvimento de tarefas de aprendizado de máquina. Em Mineração de Textos, reduzir o número de atributos em uma base de textos é essencial para a eficácia do processo e a compreensibilidade do conhecimento extraído, uma vez que se lida com espaços de alta dimensionalidade e esparsos. Quando se lida com contextos nos quais a coleção de textos é não-rotulada, métodos não-supervisionados de redução de atributos são utilizados. No entanto, não existe forma geral predefinida para a obtenção de medidas de utilidade de atributos em métodos não-supervisionados, demandando um esforço maior em sua realização. Assim, este trabalho aborda a seleção não-supervisionada de atributos por meio de um estudo exploratório de métodos dessa natureza, comparando a eficácia de cada um deles na redução do número de atributos em aplicações de Mineração de Textos. Dez métodos são comparados - Ranking porTerm Frequency, Ranking por Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Método de Luhn, Método LuhnDF, Método de Salton e Zone-Scored Term Frequency - sendo dois deles aqui propostos - Método LuhnDF e Zone-Scored Term Frequency. A avaliação se dá em dois focos, supervisionado, pelo medida de acurácia de quatro classificadores (C4.5, SVM, KNN e Naïve Bayes), e não-supervisionado, por meio da medida estatística de Expected Mutual Information Measure. Aos resultados de avaliação, aplica-se o teste estatístico de Kruskal-Wallis para determinação de significância estatística na diferença de desempenho dos diferentes métodos de seleção de atributos comparados. Seis bases de textos são utilizadas nas avaliações experimentais, cada uma relativa a um grande domínio e contendo subdomínios, os quais correspondiam às classes usadas para avaliação supervisionada. Com esse estudo, este trabalho visa contribuir com uma aplicação de Mineração de Textos que visa extrair taxonomias de tópicos a partir de bases textuais não-rotuladas, selecionando os atributos mais representativos em uma coleção de textos. Os resultados das avaliações mostram que não há diferença estatística significativa entre os métodos não-supervisionados de seleção de atributos comparados. Além disso, comparações desses métodos não-supervisionados com outros supervisionados (Razão de Ganho e Ganho de Informação) apontam que é possível utilizar os métodos não-supervisionados em atividades supervisionadas de Mineração de Textos, obtendo eficiência compatível com os métodos supervisionados, dado que não detectou-se diferença estatística nessas comparações, e com um custo computacional menor / Feature selection is an activity sometimes necessary to obtain good results in machine learning tasks. In Text Mining, reducing the number of features in a text base is essential for the effectiveness of the process and the comprehensibility of the extracted knowledge, since it deals with high dimensionalities and sparse contexts. When dealing with contexts in which the text collection is not labeled, unsupervised methods for feature reduction have to be used. However, there aren\'t any general predefined feature quality measures for unsupervised methods, therefore demanding a higher effort for its execution. So, this work broaches the unsupervised feature selection through an exploratory study of methods of this kind, comparing their efficacies in the reduction of the number of features in the Text Mining process. Ten methods are compared - Ranking by Term Frequency, Ranking by Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Luhn\'s Method, LuhnDF Method, Salton\'s Method and Zone-Scored Term Frequency - and two of them are proposed in this work - LuhnDF Method and Zone-Scored Term Frequency. The evaluation process is done in two ways, supervised, through the accuracy measure of four classifiers (C4.5, SVM, KNN and Naïve Bayes), and unsupervised, using the Expected Mutual Information Measure. The evaluation results are submitted to the statistical test of Kruskal-Wallis in order to determine the statistical significance of the performance difference of the different feature selection methods. Six text bases are used in the experimental evaluation, each one related to one domain and containing sub domains, which correspond to the classes used for supervised evaluation. Through this study, this work aims to contribute with a Text Mining application that extracts topic taxonomies from unlabeled text collections, through the selection of the most representative features in a text collection. The evaluation results show that there is no statistical difference between the unsupervised feature selection methods compared. Moreover, comparisons of these unsupervised methods with other supervised ones (Gain Ratio and Information Gain) show that it is possible to use unsupervised methods in supervised Text Mining activities, obtaining an efficiency compatible with supervised methods, since there isn\'t any statistical difference the statistical test detected in these comparisons, and with a lower computational effort Aprendizado de máquina Aprendizado não-supervisionado Feature selection Machine learning Mineração de textos Seleção de atributos Text mining Unsupervised learning
469	Busca indexada de padrões em textos comprimidos / Indexed search of compressed texts Machado, Lennon de Almeida 07 May 2010 (has links) A busca de palavras em uma grande coleção de documentos é um problema muito recorrente nos dias de hoje, como a própria utilização dos conhecidos \"motores de busca\" revela. Para que as buscas sejam realizadas em tempo que independa do tamanho da coleção, é necessário que a coleção seja indexada uma única vez. O tamanho destes índices é tipicamente linear no tamanho da coleção de documentos. A compressão de dados é outro recurso bastante utilizado para lidar com o tamanho sempre crescente da coleção de documentos. A intenção deste estudo é aliar a indexação utilizada nas buscas à compressão de dados, verificando alternativas às soluções já propostas e visando melhorias no tempo de resposta das buscas e no consumo de memória utilizada nos índices. A análise das estruturas de índice com os algoritmos de compressão mostra que arquivo invertido por blocos em conjuntos com compressão Huffman por palavras é uma ótima opção para sistemas com restrição de consumo de memória, pois proporciona acesso aleatório e busca comprimida. Neste trabalho também são propostas novas codificações livres de prefixo a fim de melhorar a compressão obtida e capaz de gerar códigos auto-sincronizados, ou seja, com acesso aleatório realmente viável. A vantagem destas novas codificações é que elas eliminam a necessidade de gerar a árvore de codificação Huffman através dos mapeamentos propostos, o que se traduz em economia de memória, codificação mais compacta e menor tempo de processamento. Os resultados obtidos mostram redução de 7% e 9% do tamanho dos arquivos comprimidos com tempos de compressão e descompressão melhores e menor consumo de memória. / Pattern matching over a big document collection is a very recurrent problem nowadays, as the growing use of the search engines reveal. In order to accomplish the search in a period of time independent from the collection size, it is necessary to index the collecion only one time. The index size is typically linear in the size of document collection. Data compression is another powerful resource to manage the ever growing size of the document collection. The objective in this assignment is to ally the indexed search to data compression, verifying alternatives to the current solutions, seeking improvement in search time and memory usage. The analysis on the index structures and compression algorithms indicates that joining the block inverted les with Huffman word-based compression is an interesting solution because it provides random access and compressed search. New prefix free codes are proposed in this assignment in order to enhance the compression and facilitate the generation of self-sinchronized codes, furthermore, with a truly viable random access. The advantage in this new codes is that they eliminate the need of generating the Huffman-code tree through the proposed mappings, which stands for economy of memory, compact encoding and shorter processing time. The results demonstrate gains of 7% and 9% in the compressed le size, with better compression and decompression times and lower memory consumption. busca indexada de textos comprimidos códigos-prefixos compressão de dados compressão Huffman data compression Huffman coding indexed search in compressed texts prex code
470	É sendo ensinado que se aprende: resultados de um treino em inferências na compreensão de textos de crianças do 4º ano Yacalos, Ioana da Cunha Pereira 01 June 2012 (has links) Made available in DSpace on 2016-04-28T20:56:31Z (GMT). No. of bitstreams: 1 Ioana da Cunha Pereira Yacalos.pdf: 2335995 bytes, checksum: d1e4b2648a8e9acda7bf3282f275bca9 (MD5) Previous issue date: 2012-06-01 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / This research aimed to test the utilization of a inferential training, to evaluates its effects on the text comprehension skill, in a class with students on the fourth grade of the Basic Education. For this, the 38 participants were divided in groups: 19 children to Intervention s Group and 19 children to the Control Group. For the GI's children, was performed one intervention in class whom students were stimulated and taught to seek clue that would lead them to make inferences and justified the generating bases of these inferences, relating text's information with previous knowledge, and to integrate information mentioned in the same text. No significant differences were found between the two groups in the pre-test. In the pos-test, every GI s children were significantly more successful than those in the CG. Only the children in the GI showed improvement of their comprehension skills when compared in the pre- and in the post-test 1 and 2. These intervention proceedings and their educational implication are analyzed and discussed in terms of finding useful ways of teaching comprehension in the school setting / A presente pesquisa teve como objetivo testar a utilização de um procedimento de treino em fazer inferências, para verificar seus efeitos sobre a habilidade de compreensão de textos em uma turma de alunos de 4º ano do Ensino Fundamental. Para isso, os 38 participantes do estudo foram divididos em 19 crianças para um Grupo de Intervenção, e 19 crianças para um Grupo Controle. Com as crianças do GI foi realizada uma intervenção em sala de aula, na qual os alunos foram estimulados e ensinados a procurar pistas que os levassem a fazer inferências e justificar as bases geradoras destas inferências, relacionando informações textuais com seu conhecimento de mundo e relacionando informações diferentes presentes no mesmo texto. Não foram identificadas diferenças significativas entre os grupos no Pré-teste. No Pós-teste, todas as crianças do GI tiveram desempenho melhor do que as do GC. Foram as únicas que melhoraram significativamente seu desempenho do Pré-teste para os Pós-testes 1 e 2. Os procedimentos de intervenção e suas implicações educacionais são analisados e discutidos em termos de práticas de ensino que possam ser utilizadas para desenvolver a compreensão de texto em sala de aula Compreensão de textos Inferências Crianças Sala de aula Text comprehension Inferences Children School setting

Search results