Global ETD Search

161	Metodologia para mapeamento de informações não estruturadas descritas em laudos médicos para uma representação atributo-valor / A methodology for mapping non-structured medical findings to the attribute-value table format Honorato, Daniel de Faveri 29 April 2008 (has links) Devido à facilidade com que informações biomédicas em língua natural são registras e armazenadas no formato digital, a recuperação de informações a partir de registros de pacientes nesse formato não estruturado apresenta diversos problemas a serem solucionados. Assim, a extração de informações estruturadas (por exemplo, no formato atributo-valor) a partir de registros não estruturados é um importante problema de pesquisa. Além disso, a representação de registros médicos não estruturados no formato atributo-valor, permite a aplicação de uma grande variedade de métodos de extração de padrões. Para mapear registros médicos não estruturados no formato atributo-valor, propomos uma metodologia que pode ser utilizada para automaticamente (ou semi-automaticamente, com a ajuda de um especialista do domínio) mapear informações médicas de interesse armazenadas nos registros médicos e descritas em linguagem natural em um formato estruturado. Essa metodologia foi implementada em um sistema computacional chamado TP-DISCOVER, o qual gera uma tabela no formato atributo-valor a partir de um conjunto de registros de pacientes (documentos). De modo a identificar entidades importantes no conjunto de documentos, assim como relacionamentos significantes entre essas entidades, propomos uma abordagem de extração de terminologia híbrida (lingüística/estatística) a qual seleciona palavras e frases que aparecem com freqüência acima de um dado limiar por meio da aplicação de medidas estatísticas. A idéia geral dessa abordagem híbrida de extração de terminologia é que documentos especializados são caracterizados por repetir o uso de certas unidades léxicas ou construções morfo-sintáticas. Nosso objetivo é reduzir o esforço despendido na modelagem manual por meio da observação de regularidades no texto e o mapeamento dessas regularidades como nomes de atributos na representação atributo-valor. A metodologia proposta foi avaliada realizando a estruturação automática de uma coleção de 6000 documentos com informações de resultados de exames de Endoscopia Digestiva Alta descritos em língua natural. Os resultados experimentais, os quais podem ser considerados os piores resultados, uma vez que esses resultados poderiam ser muito melhores caso a metodologia for utilizada semi-automaticamente junto com um especialista do domínio, mostram que a metodologia proposta é adequada e permite reduzir o tempo usado pelo especialista para analisar grande quantidade de registros médicos / The information retrieval from text stored in computer-based patient records is an important open-ended research problem, as the ease in which biomedical information recorded and stored in digital form grows. Thus, means to extract structured information (for example, in the so-called attribute-value format) from free-text records is an important research endeavor. Furthermore, by representing the free-text records in the attribute-value format, available pattern extraction methods can be directly applied. To map free-text medical records into the attribute-value format, we propose a methodology that can be used to automatically (or semi-automatically, with the help of a medical expert) map the important medical information stored in patient records which are described in natural language into an structured format. This methodology has been implemented in a computational system called TP-DISCOVER, which generates a database in the attribute-value format from a set of patient records (documents). In order to identify important entities in the set of documents, as well as significant relations among these entities, we propose a hybrid linguistic/statistical terminology extraction approach which filters out words and phrases that appear with a frequency higher than a given threshold by applying statistical measures. The underlying assumption of this hybrid approach to terminology extraction is that specialized documents are characterized by repeated use of certain lexical units or morpho-syntactic constructions. Our goal is to reduce the effort spent in manual modelling by observing regularities in the texts and by mapping them into suitable attribute names in the attribute-value representation format. The proposed methodology was evaluated to automatically structure a collection of 6000 documents which contains High Digestive Endoscopies exams´ results described in natural language. The experimental results, all of which can be considered lower bound results as they would greatly improve in case the methodology is applied semi-automatically together with a medical expert, show that the proposed methodology is suitable to reduce the medical expert workload in analysing large amounts of medical records Extração de terminologia Mineração de textos Pré-processamento de textos Terminology extraction Text mining Text pre-processing
162	Aspectos semânticos na representação de textos para classificação automática / Semantic aspects in the representation of texts for automatic classification Sinoara, Roberta Akemi 24 May 2018 (has links) Dada a grande quantidade e diversidade de dados textuais sendo criados diariamente, as aplicações do processo de Mineração de Textos são inúmeras e variadas. Nesse processo, a qualidade da solução final depende, em parte, do modelo de representação de textos adotado. Por se tratar de textos em língua natural, relações sintáticas e semânticas influenciam o seu significado. No entanto, modelos tradicionais de representação de textos se limitam às palavras, não sendo possível diferenciar documentos que possuem o mesmo vocabulário, mas que apresentam visões diferentes sobre um mesmo assunto. Nesse contexto, este trabalho foi motivado pela diversidade das aplicações da tarefa de classificação automática de textos, pelo potencial das representações no modelo espaço-vetorial e pela lacuna referente ao tratamento da semântica inerente aos dados em língua natural. O seu desenvolvimento teve o propósito geral de avançar as pesquisas da área de Mineração de Textos em relação à incorporação de aspectos semânticos na representação de coleções de documentos. Um mapeamento sistemático da literatura da área foi realizado e os problemas de classificação foram categorizados em relação à complexidade semântica envolvida. Aspectos semânticos foram abordados com a proposta, bem como o desenvolvimento e a avaliação de sete modelos de representação de textos: (i) gBoED, modelo que incorpora a semântica obtida por meio de conhecimento do domínio; (ii) Uni-based, modelo que incorpora a semântica por meio da desambiguação lexical de sentidos e hiperônimos de conceitos; (iii) SR-based Terms e SR-based Sentences, modelos que incorporam a semântica por meio de anotações de papéis semânticos; (iv) NASARIdocs, Babel2Vec e NASARI+Babel2Vec, modelos que incorporam a semântica por meio de desambiguação lexical de sentidos e embeddings de palavras e conceitos. Representações de coleções de documentos geradas com os modelos propostos e outros da literatura foram analisadas e avaliadas na classificação automática de textos, considerando datasets de diferentes níveis de complexidade semântica. As propostas gBoED, Uni-based, SR-based Terms e SR-based Sentences apresentam atributos mais expressivos e possibilitam uma melhor interpretação da representação dos documentos. Já as propostas NASARIdocs, Babel2Vec e NASARI+Babel2Vec incorporam, de maneira latente, a semântica obtida de embeddings geradas a partir de uma grande quantidade de documentos externos. Essa propriedade tem um impacto positivo na performance de classificação. / Text Mining applications are numerous and varied since a huge amount of textual data are created daily. The quality of the final solution of a Text Mining process depends, among other factors, on the adopted text representation model. Despite the fact that syntactic and semantic relations influence natural language meaning, traditional text representation models are limited to words. The use of such models does not allow the differentiation of documents that use the same vocabulary but present different ideas about the same subject. The motivation of this work relies on the diversity of text classification applications, the potential of vector space model representations and the challenge of dealing with text semantics. Having the general purpose of advance the field of semantic representation of documents, we first conducted a systematic mapping study of semantics-concerned Text Mining studies and we categorized classification problems according to their semantic complexity. Then, we approached semantic aspects of texts through the proposal, analysis, and evaluation of seven text representation models: (i) gBoED, which incorporates text semantics by the use of domain expressions; (ii) Uni-based, which takes advantage of word sense disambiguation and hypernym relations; (iii) SR-based Terms and SR-based Sentences, which make use of semantic role labels; (iv) NASARIdocs, Babel2Vec and NASARI+Babel2Vec, which take advantage of word sense disambiguation and embeddings of words and senses.We analyzed the expressiveness and interpretability of the proposed text representation models and evaluated their classification performance against different literature models. While the proposed models gBoED, Uni-based, SR-based Terms and SR-based Sentences have improved expressiveness, the proposals NASARIdocs, Babel2Vec and NASARI+Babel2Vec are latently enriched by the embeddings semantics, obtained from the large training corpus. This property has a positive impact on text classification performance. Classificação de textos Mineração de Textos Representação de textos Semântica Semantics Text classification Text mining Text representation
163	Organização flexível de documentos / Flexible organization of documents Rios, Tatiane Nogueira 25 March 2013 (has links) Diversos métodos têm sido desenvolvidos para a organização da crescente quantidade de documentos textuais. Esses métodos frequentemente fazem uso de algoritmos de agrupamento para organizar documentos que referem-se a um mesmo assunto em um mesmo grupo, supondo que conteúdos de documentos de um mesmo grupo são similares. Porém, existe a possibilidade de que documentos pertencentes a grupos distintos também apresentem características semelhantes. Considerando esta situação, há a necessidade de desenvolver métodos que possibilitem a organização flexível de documentos, ou seja, métodos que possibilitem que documentos sejam organizados em diferentes grupos com diferentes graus de compatibilidade. O agrupamento fuzzy de documentos textuais apresenta-se como uma técnica adequada para este tipo de organização, uma vez que algoritmos de agrupamento fuzzy consideram que um mesmo documento pode ser compatível com mais de um grupo. Embora tem-se desenvolvido algoritmos de agrupamento fuzzy que possibilitam a organização flexível de documentos, tal organização é avaliada em termos do desempenho do agrupamento de documentos. No entanto, considerando que grupos de documentos devem possuir descritores que identifiquem adequadamente os tópicos representados pelos mesmos, de maneira geral os descritores de grupos tem sido extraídos utilizando alguma heurística sobre um conjunto pequeno de documentos, realizando assim, uma avaliação simples sobre o significado dos grupos extraídos. No entanto, uma apropriada extração e avaliação de descritores de grupos é importante porque os mesmos são termos representantes da coleção que identificam os tópicos abordados nos documentos. Portanto, em aplicações em que o agrupamento fuzzy é utilizado para a organização flexível de documentos, uma descrição apropriada dos grupos obtidos é tão importante quanto um bom agrupamento, uma vez que, neste tipo de agrupamento, um mesmo descritor pode indicar o conteúdo de mais de um grupo. Essa necessidade motivou esta tese, cujo objetivo foi investigar e desenvolver métodos para a extração de descritores de grupos fuzzy para a organização flexível de documentos. Para cumprir esse objetivo desenvolveu se: i) o método SoftO-FDCL (Soft Organization - Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy at são extraídos após o processo de agrupamento fuzzy, visando identicar tópicos da organização flexível de documentos independentemente do algoritmo de agrupamento fuzzy utilizado; ii) o método SoftO-wFDCL ( Soft Organization - weighted Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy at também são extraídos após o processo de agrupamento fuzzy utilizando o grau de pertinência dos documentos em cada grupo, obtidos do agrupamento fuzzy, como fator de ponderação dos termos candidatos a descritores; iii) o método HSoftO-FDCL (Hierarchical Soft Organization - Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy hierárquicos são extraídos após o processo de agrupamento hierárquico fuzzy, identificando tópicos da organização hierárquica flexível de documentos. Adicionalmente, apresenta-se nesta tese uma aplicação do método SoftO-FDCL no contexto do programa de educação médica continuada canadense, reforçando a utilidade e aplicabilidade da organização flexível de documentos / Several methods have been developed to organize the growing number of textual documents. Such methods frequently use clustering algorithms to organize documents with similar topics into clusters. However, there are situations when documents of dffierent clusters can also have similar characteristics. In order to overcome this drawback, it is necessary to develop methods that permit a soft document organization, i.e., clustering documents into different clusters according to different compatibility degrees. Among the techniques that we can use to develop methods in this sense, we highlight fuzzy clustering algorithms (FCA). By using FCA, one of the most important steps is the evaluation of the yield organization, which is performed considering that all analyzed topics are adequately identified by cluster descriptors. In general, cluster descriptors are extracted using some heuristic over a small number of documents. The adequate extraction and evaluation of cluster descriptors is important because they are terms that represent the collection and identify the topics of the documents. Therefore, an adequate description of the obtained clusters is as important as a good clustering, since the same descriptor might identify one or more clusters. Hence, the development of methods to extract descriptors from fuzzy clusters obtained for soft organization of documents motivated this thesis. Aiming at investigating such methods, we developed: i) the SoftO-FDCL (Soft Organization - Fuzzy Description Comes Last) method, in which descriptors of fuzzy clusters are extracted after clustering documents, identifying topics regardless the adopted fuzzy clustering algorithm; ii) the SoftO-wFDCL (Soft Organization - weighted Fuzzy Description Comes Last) method, in which descriptors of fuzzy clusters are also extracted after the fuzzy clustering process using the membership degrees of the documents as a weighted factor for the candidate descriptors; iii) the HSoftO-FDCL (Hierarchical Soft Organization - Fuzzy Description Comes Last) method, in which descriptors of hierarchical fuzzy clusters are extracted after the hierarchical fuzzy clustering process, identifying topics by means of a soft hierarchical organization of documents. Besides presenting these new methods, this thesis also discusses the application of the SoftO-FDCL method on documents produced by the Canadian continuing medical education program, presenting the utility and applicability of the soft organization of documents in real-world scenario Agrupamento fuzzy Documents organization Fuzzy clustering Mineração de Textos Organização de documentos Text mining
164	Uso do minerador de textos sobek como ferramenta de apoio à compreensão textual Epstein, Daniel January 2017 (has links) A presente tese tem por objetivo investigar os efeitos do uso do minerador de textos Sobek no processo de leitura e compreensão textual de estudantes. Este minerador de textos é capaz de extrair informações relevantes de textos e representá-las de forma gráfica. Esta tese está apoiada nas teorias de aprendizagem significativa, de uso de mapas conceituais para representação de conhecimento e em pesquisas que apontam que representações gráficas de palavras auxiliam na leitura de textos e na sua decodificação. De acordo com a pesquisa de David Ausubel, a aprendizagem significativa ocorre através da assimilação de novos conceitos e ideias e associação destas ao conhecimento que a pessoa já possui. Através da utilização de um minerador de textos com representação gráfica de informações, busca-se apresentar aos estudantes uma representação visual de textos. Esta representação se assemelha a de um mapa conceitual, de forma a auxiliar no processo de compreensão e assimilação de informações pelos estudantes. Nesta representação, ligações entre termos considerados relevantes pelo minerador auxiliam no entendimento destes termos e simbolizam relações presentes no texto, fato esse que pode auxiliar os estudantes a compreenderem melhor o texto e relacionarem novas informações àquelas que já possuem Nesta tese, foi realizado um estudo para auxiliar estudantes nas atividades relacionadas ao letramento. A pesquisa se caracteriza como mista (qualitativa e quantitativa). A coleta de dados se deu a partir da aplicação de questionários com professores e alunos, além de avaliações com o objetivo de verificar contribuições do uso da ferramenta a partir de seu uso do ponto de vista do letramento. Como resultado, encontramos que estudantes que utilizaram o Sobek obtiveram um número mais elevado de respostas corretas nas atividades de interpretação de textos. Em média, os alunos acertaram 66% das questões quando utilizando o minerador de textos Sobek, contra apenas 47% das questões que eram respondidas sem o apoio do minerador. Outro resultado apresentado é o alto grau de satisfação de alunos e professores quanto à tecnologia e seu uso em sala de aula. Além destes resultados, obtivemos uma avaliação acerca da capacidade do minerador de textos de extrair termos considerados relevantes ao texto. / This thesis aimed to investigate the effects of using Sobek Text Miner to improve literacy. Sobek is a tool capable of extracting relevant information from texts and representing them in a graphical way. The thesis is supported by meaningful learning theory, conceptual maps theory and several research theories which indicate that graphical representation of words may improve reading capability and word decoding. According to David Ausubel, meaningful learning occurs through the assimilation of new concepts and ideas and association of those to what the person already knows. Using text mining with graphical representation of information, we seek to provide students with a graphical representation of a text. This text representation is similar to a concept map, helping students assimilate and comprehend that information. In Sobek’s representation, the relationship between terms considered relevant to text comprehension may assist students to better understand the meaning of each term and demonstrate relationships that are presented in the text, improving context comprehension. Furthermore, the relationship between terms may help information assimilation, once it relates the new information with previous known information This project conducted a study using Sobek text miner in classroom to support student’s literacy. In order to assess the tool’s possible benefits in reading and comprehension activities, we designed a series of classroom activities. To evaluate those activities, qualitative and quantitative approaches were used. The study was conducted in two primary schools, with students from 5th grade and 8th grade. Interviews were also made with the teachers and students, inquiring them about the tool's and main functions and its ability to help students from a literacy point of view. The study shows that students answered more correct question when using Sobek than when no support technology was used. Also, both students and teachers approved the software and agreed that it does improve student’s text comprehension. It also describes an evaluation of Sobek's capability to extract terms considered relevant for text comprehension. Tecnologia educacional Aprendizagem significativa Compreensão de texto Text Comprehension Sobek Reading Meenaningful learning Text mining Graphs Literacy
165	Mineração de textos aplicada na previsão e detecção de eventos adversos no Hospital de Clínicas de Porto Alegre Silva, Daniel Antonio da January 2017 (has links) Este trabalho apresenta os resultados de uma pesquisa que teve como objetivo avaliar o desempenho de métodos de mineração de textos na previsão e detecção de Eventos Adversos (EA). A primeira etapa foi a revisão sistemática da literatura que buscou identificar os métodos de mineração de textos e as áreas da saúde que esses estão sendo aplicados para prever e detectar EA. Após essa etapa foi realizada uma aplicação de métodos de mineração de textos para prever Infecções do Sítio Cirúrgico (ISC) a partir do texto livre de descrições cirúrgicas no Hospital de Clínicas de Porto Alegre (HCPA). Por fim, métodos de mineração de textos foram aplicados para detectar ISC a partir do texto das evoluções de pacientes 30 (trinta) dias após uma cirurgia. Como resultados, destaca-se a identificação dos melhores métodos de pré-processamento e mineração de textos para prever e detectar ISC no HCPA, podendo ser aplicados a outros EA. O método Stochastic Gradient Descent (SGD) apresentou o melhor desempenho, 79,7% de ROC-AUC na previsão de EA. Já para detecção de EA o melhor método foi o Logistic Regression, com desempenho 80,6% de ROC-AUC. Os métodos de mineração de textos podem ser usados para apoiar de maneira eficaz a previsão e detecção de EA, direcionando ações de vigilância para a melhoria da segurança do paciente. / This work presents the results of a research that aimed to evaluate the performance of text mining methods in the prediction and detection of Adverse Events (AE). The first step was the systematic review of the literature that sought to identify the methods of text mining and the health areas they are being applied to predict and detect AE. After this step, an application of text mining methods was performed to predict Surgical Site Infections (SSI) from the free text of medical records at Hospital de Clínicas de Porto Alegre (HCPA). Finally, text mining methods were applied to detect SSI from the text of medical records 30 (thirty) days after surgery. As results, is highlight the identification of the best methods of pre-processing and text mining to predict and detect SSI in the HCPA, and can be applied to other AE. The Stochastic Gradient Descent (SGD) presented the best performance, 79.7% of ROC-AUC in the prediction of AE. Already for the detection of AE the best method was the Logistic Regression, with performance 80.6% of ROC-AUC. Text mining methods can be used to effectively support the prediction and detection of AE by directing surveillance actions to improve patient safety. Mineração de dados Controle de infecções Hospital de Clínicas de Porto Alegre Adverse Events Surgical Infection Text Mining
166	An empirical study on object-oriented software dependencies : logical, structural and semantic Ajienka, Nemitari Miebaka January 2018 (has links) Three of the most widely studied software dependency types are the structural, logical and semantic dependencies. Logical dependencies capture the degree of co-change between software artifacts. Semantic dependencies capture the degree to which artifacts, comments and names are related. Structural dependencies capture the dependencies in the source code of artifacts. Prior studies show that a combination of dependency analysis (e.g., semantic and logical analysis) improves accuracy when predicting which artifacts are likely to be impacted by ripple effects of software changes (though not to a large extent) compared to individual approaches. In addition, some dependencies could be hidden dependencies when an analysis of one dependency type (e.g., logical) does not reveal artifacts only linked by another dependency type (semantic). While previous studies have focused on combining dependency information with minimal benefits, this Thesis explores the consistency of these measurements, and whether hidden dependencies arise between artifacts, and in any of the axes studied. In this Thesis, 79 Java projects are empirically studied to investigate (i) the direct influence and the degree of overlap between dependency types on three axes (logical - structural (LSt); logical - semantic (LSe); structural - semantic (StSe)) (structural, logical and semantic), and (ii) the presence of hidden coupling on the axes. The results show that a high proportion of hidden dependencies can be detected on the LSt and StSe axes. Notwithstanding, the LSe axis shows a much smaller proportion of hidden dependencies. Practicable refactoring methods to mitigate hidden dependencies are proposed in the Thesis and discussed with examples.
167	Sistema de recomendação de objeto de aprendizagem baseado em postagens extraídas do ambiente virtual de aprendizagem Silva, Reinaldo de Jesus da January 2016 (has links) Os fóruns de discussões apresentam-se com umas das ferramentas de interação utilizadas nos ambientes virtuais de aprendizagem (AVAs). Esta pesquisa tem como objetivo propor um sistema computacional para recomendação de Objeto de Aprendizagem (OA), levando em consideração as postagens feitas de dentro dos fóruns de um Ambiente Virtual de Aprendizagem (AVA). A metodologia utilizada foi a pesquisa qualitativa, dos tipos descritiva e explicativa. Esse sistema identifica as palavras-chave nos fóruns de um AVA; usam as palavras-chave como indícios dos interesses dos usuários; classifica (atributos pesos) as palavras mais relevantes (Hot Topics); submete a um mecanismo de busca (repositório), neste trabalho foram usados os motores de busca, para fins de teste e oferece os resultados da busca aos usuários. As contribuições deste sistema para os sujeitos participantes desta pesquisa são: recomendação automática de OA para os alunos e professores; aplicação de mineração de dados para sistema gestão educacional; técnica de mineração de textos, utilizando algoritmo TFPDF (Term Frequency Proportional Document Frequency) e integração do AVA com repositório digital. Para validar o sistema de recomendação de OA em um AVA foi desenvolvido protótipo do sistema com uma amostra, contendo vinte e cinco alunos e cinco professores de duas turmas das disciplinas de Modelagem de Banco de Dados e Interface de Usuários e Sistemas Computacionais do curso de Engenharia de Computação da Universidade Estadual do Maranhão. O estudo realizado sobre o tema, e relatado nessa tese, tem como foco a recomendação de OA nos fóruns de um AVA. A avaliação e validação realizadas, através de protótipo do sistema com professores e alunos evidenciaram que o sistema de recomendação de Web Services (RECOAWS) proposto atende às expectativas e pode apoiar professores e alunos, nas suas atividades pedagógicas, dentro dos fóruns. / Discussion forums get present with one of interaction tools used in virtual learning environments (VLEs). This research aims to propose a computational system for Learning Object recommendation (LO), taking into account the posts made from within the forums of a Virtual Learning Environment (VLE). The methodology used was a qualitative study of descriptive and explanatory types. This system identifies the keywords in the forums of a VLE; It uses the keywords as evidence of the interests of users; ranks (attributes weights) the most relevant words (Hot Topics); It submits to a search engine (repository), this work were used search engines for testing purposes and provides the search results to users. The contributions of this system to the participants in this study are: automatic recommendation of LO for students and teachers; data mining application to educational management system; text mining techniques, using TF * PDF algorithm (Term Frequency * Proportional Document Frequency) and integration of the VLE with digital repository. To validate the LO recommendation system in a VLE was developed prototype system with a sample, with twenty-five students and five teachers from two classes of database modeling disciplines and User Interface and Computational Systems of Engineering course Computing of the State University of Maranhão. The study on the subject, and reported in this thesis is focused on LO recommendation in the forums of a VLE. The evaluation and validation performed by the prototype system with teachers and students showed that the Web Services recommendation system (RecoaWS) proposed meets expectations and can support teachers and students in their educational activities within the forums. Ambiente virtual Objeto de aprendizagem Aluno Professor Virtual learning environment Learning object Text mining Recommendation
168	Aprendizado não supervisionado de hierarquias de tópicos a partir de coleções textuais dinâmicas / Unsupervised learning of topic hierarchies from dynamic text collections Ricardo Marcondes Marcacini 19 May 2011 (has links) A necessidade de extrair conhecimento útil e inovador de grandes massas de dados textuais, tem motivado cada vez mais a investigação de métodos para Mineração de Textos. Dentre os métodos existentes, destacam-se as iniciativas para organização de conhecimento por meio de hierarquias de tópicos, nas quais o conhecimento implícito nos textos é representado em tópicos e subtópicos, e cada tópico contém documentos relacionados a um mesmo tema. As hierarquias de tópicos desempenham um papel importante na recupera ção de informação, principalmente em tarefas de busca exploratória, pois permitem a análise do conhecimento de interesse em diversos níveis de granularidade e exploração interativa de grandes coleções de documentos. Para apoiar a construção de hierarquias de tópicos, métodos de agrupamento hierárquico têm sido utilizados, uma vez que organizam coleções textuais em grupos e subgrupos, de forma não supervisionada, por meio das similaridades entre os documentos. No entanto, a maioria dos métodos de agrupamento hierárquico não é adequada em cenários que envolvem coleções textuais dinâmicas, pois são exigidas frequentes atualizações dos agrupamentos. Métodos de agrupamento que respeitam os requisitos existentes em cenários dinâmicos devem processar novos documentos assim que são adicionados na coleção, realizando o agrupamento de forma incremental. Assim, neste trabalho é explorado o uso de métodos de agrupamento incremental para o aprendizado não supervisionado de hierarquias de tópicos em coleções textuais dinâmicas. O agrupamento incremental é aplicado na construção e atualização de uma representação condensada dos textos, que mantém um sumário das principais características dos dados. Os algoritmos de agrupamento hierárquico podem, então, ser aplicados sobre as representa ções condensadas, obtendo-se a organização da coleção textual de forma mais eficiente. Foram avaliadas experimentalmente três estratégias de agrupamento incremental da literatura, e proposta uma estratégia alternativa mais apropriada para hierarquias de tópicos. Os resultados indicaram que as hierarquias de tópicos construídas com uso de agrupamento incremental possuem qualidade próxima às hierarquias de tópicos construídas por métodos não incrementais, com significativa redução do custo computacional / The need to extract new and useful knowledge from large textual collections has motivated researchs on Text Mining methods. Among the existing methods, initiatives for the knowledge organization by topic hierarchies are very popular. In the topic hierarchies, the knowledge is represented by topics and subtopics, and each topic contains documents of similar content. They play an important role in information retrieval, especially in exploratory search tasks, allowing the analysis of knowledge in various levels of granularity and interactive exploration of large document collections. Hierarchical clustering methods have been used to support the construction of topic hierarchies. These methods organize textual collections in clusters and subclusters, in an unsupervised manner, using similarities among documents. However, most existing hierarchical clustering methods is not suitable for scenarios with dynamic text collections, since frequent clustering updates are necessary. Clustering methods that meet these requirements must process new documents that are inserted into textual colections, in general, through incremental clustering. Thus, we studied the incremental clustering methods for unsupervised learning of topic hierarchies for dynamic text collections. The incremental clustering is used to build and update a condensed representation of texts, which maintains a summary of the main features of the data. The hierarchical clustering algorithms are applied in these condensed representations, obtaining the textual organization more efficiently. We experimentally evaluate three incremental clustering algorithms available in the literature. Also, we propose an alternative strategy more appropriate for construction of topic hieararchies. The results indicated that the topic hierarchies construction using incremental clustering have quality similar to non-incremental methods. Furthermore, the computational cost is considerably reduced using incremental clustering methods Agrupamento de documentos Hierarquias de tópicos Mineração de textos Document clustering Text mining Topic hierarchies
169	Mineração textual e produção de fanfictions : processos desencadeadores de oportunidades de letramento no ensino de língua estrangeira Barcellos, Patrícia da Silva Campelo Costa January 2013 (has links) Esta tese tem por objetivo investigar como o letramento em língua estrangeira (LE) pode ser apoiado pelo uso de um recurso digital passível de auxiliar os processos de leitura e produção textual. Assim, a presente pesquisa baseia-se nos estudos de Feldman e Sanger (2006) acerca da mineração de textos e nas pesquisas de Black (2007, 2009) sobre a incorporação de um gênero textual característico da internet (fanfiction) na aprendizagem de línguas. Através da utilização de um recurso de mineração de texto (Sobek), a partir do qual ocorre a extração dos termos mais recorrentes em um texto, os participantes deste estudo criaram narrativas, em meio digital. Os doze alunos participantes da pesquisa utilizaram a ferramenta Sobek como mediadora da produção de histórias conhecidas como fanfictions, nas quais novas tramas são criadas a partir de elementos culturais já reconhecidos na mídia. Os informantes eram seis graduandos em Letras e seis alunos de um curso de extensão, ambos os grupos na Universidade Federal do Rio Grande do Sul (UFRGS). Na tarefa proposta, cada aprendiz leu uma fanfiction de sua escolha, publicada na web, e utilizou a ferramenta de mineração para formar grafos com os termos mais recorrentes da história. Durante tal processo, o aluno tinha oportunidade de fazer associações entre as expressões do texto, de modo a formar, na ferramenta Sobek, uma imagem em rede (grafo) que representasse termos recorrentes nesse gênero textual (tais como o uso de tempos verbais no passado e adjetivos para caracterizar personagens e contexto). Posteriormente, esse grafo foi repassado a um colega, que assim iniciou seu processo de composição com base nessa imagem representativa do texto. A partir da análise dos dados, observou-se que a utilização da ferramenta digital deu suporte à produção textual em LE, e sua subsequente prática de letramento, visto que os autores se apoiaram no recurso de mineração para criar suas narrativas fanfiction. / This doctoral thesis aims at investigating how literacy in a foreign language (FL) may be supported by the use of a digital resource which can help the processes of reading and writing. Thus, the present research is based on studies by Feldman and Sanger (2006) about text mining, and on research by Black (2007, 2009) about the incorporation of a textual genre characteristic of the Internet (fanfiction) in language learning. Through the use of a text mining resource (Sobek), which promotes the extraction of frequent terms present in a text, the participants of this study created narratives, in digital media. The twelve students who participated in the research used the tool Sobek to mediate the production of stories known as fanfictions, in which new plots are created from cultural elements already recognized in the media. The participants were six undergraduate students of Languages and six students who were part of an extension course, both groups at the Federal University of Rio Grande do Sul (UFRGS). In the proposed task, each student read a fanfiction of his/her choice, which was published on a website, and used the mining tool to develop graphs with the recurrent terms found in the story. During this process, the student had the opportunity to make associations between expressions from the text, using the software Sobek, so as to form an image (graph) that represented terms used in this textual genre (such as the use of verbal tenses in the past and adjectives to describe characters and context). Later, this graph was forwarded to a peer, who then began his/her writing process based on this picture originated from a text. From the data analysis, it was observed that the use of a digital tool supported the text production in the FL, and its following practice of literacy, as the authors relied on the mining resource to create their fanfictions. Letramento Língua estrangeira Produção textual Ficção Conto Romance Text mining Fanfiction Foreign language literacy
170	Systematic Analysis of the Factors Contributing to the Variation and Change of the Microbiome January 2018 (has links) abstract: Understanding changes and trends in biomedical knowledge is crucial for individuals, groups, and institutions as biomedicine improves people’s lives, supports national economies, and facilitates innovation. However, as knowledge changes what evidence illustrates knowledge changes? In the case of microbiome, a multi-dimensional concept from biomedicine, there are significant increases in publications, citations, funding, collaborations, and other explanatory variables or contextual factors. What is observed in the microbiome, or any historical evolution of a scientific field or scientific knowledge, is that these changes are related to changes in knowledge, but what is not understood is how to measure and track changes in knowledge. This investigation highlights how contextual factors from the language and social context of the microbiome are related to changes in the usage, meaning, and scientific knowledge on the microbiome. Two interconnected studies integrating qualitative and quantitative evidence examine the variation and change of the microbiome evidence are presented. First, the concepts microbiome, metagenome, and metabolome are compared to determine the boundaries of the microbiome concept in relation to other concepts where the conceptual boundaries have been cited as overlapping. A collection of publications for each concept or corpus is presented, with a focus on how to create, collect, curate, and analyze large data collections. This study concludes with suggestions on how to analyze biomedical concepts using a hybrid approach that combines results from the larger language context and individual words. Second, the results of a systematic review that describes the variation and change of microbiome research, funding, and knowledge are examined. A corpus of approximately 28,000 articles on the microbiome are characterized, and a spectrum of microbiome interpretations are suggested based on differences related to context. The collective results suggest the microbiome is a separate concept from the metagenome and metabolome, and the variation and change to the microbiome concept was influenced by contextual factors. These results provide insight into how concepts with extensive resources behave within biomedicine and suggest the microbiome is possibly representative of conceptual change or a preview of new dynamics within science that are expected in the future. / Dissertation/Thesis / Doctoral Dissertation Biology 2018 Biology Sociology History bioinformatics digital humanities history microbiome social networks text mining

Search results