"Tichý hlas, který vypráví..." aneb když hudba promlouvá i textem / "The silent voice which is on about..." or when the music speaks to us even through lyric

SUP, Michal January 2008 (has links)
The diploma thesis is focused on works of Hana and Petr Ulrych, an explanation of their art work and an interpretation of their poetics. The main point of the interest is an author`s text as well as non-author`s text {--} adapted text in their songs. The thesis is mainly focused on a comparison of the text in each record, searching connections in topics, motives and differences. It also describes a relationship between literature and musical text. The result is compacted work about their production from 60s till today.

Literární text ve výuce francouzštiny jako cizího jazyka / Literary text in courses of french as a foreign language

ZEZULOVÁ, Veronika January 2010 (has links)
Literary text in courses of french as a foreign language This graduation theses (thesis) researches the use of artistic text in the textbooks for French as a foreign language. It monitors both its quantitative and qualitative developments linked with increasing language level of students and incorporated exercises. It is concentrated on the corpus of textbooks available on the Czech market of which it analyzes the five French and two Czech textbooks that represent the didactic production from the 90th of the 20th century to the present. The essential part of this work is to create a typology of accompanying activities of artistic texts. The goal is to compare the results obtained by analyzing of the selected material. It is evaluated in term of books publishing, their provenance, range and character of the artistic text.

Metodologia para mapeamento de informações não estruturadas descritas em laudos médicos para uma representação atributo-valor / A methodology for mapping non-structured medical findings to the attribute-value table format

Daniel de Faveri Honorato 29 April 2008 (has links)
Devido à facilidade com que informações biomédicas em língua natural são registras e armazenadas no formato digital, a recuperação de informações a partir de registros de pacientes nesse formato não estruturado apresenta diversos problemas a serem solucionados. Assim, a extração de informações estruturadas (por exemplo, no formato atributo-valor) a partir de registros não estruturados é um importante problema de pesquisa. Além disso, a representação de registros médicos não estruturados no formato atributo-valor, permite a aplicação de uma grande variedade de métodos de extração de padrões. Para mapear registros médicos não estruturados no formato atributo-valor, propomos uma metodologia que pode ser utilizada para automaticamente (ou semi-automaticamente, com a ajuda de um especialista do domínio) mapear informações médicas de interesse armazenadas nos registros médicos e descritas em linguagem natural em um formato estruturado. Essa metodologia foi implementada em um sistema computacional chamado TP-DISCOVER, o qual gera uma tabela no formato atributo-valor a partir de um conjunto de registros de pacientes (documentos). De modo a identificar entidades importantes no conjunto de documentos, assim como relacionamentos significantes entre essas entidades, propomos uma abordagem de extração de terminologia híbrida (lingüística/estatística) a qual seleciona palavras e frases que aparecem com freqüência acima de um dado limiar por meio da aplicação de medidas estatísticas. A idéia geral dessa abordagem híbrida de extração de terminologia é que documentos especializados são caracterizados por repetir o uso de certas unidades léxicas ou construções morfo-sintáticas. Nosso objetivo é reduzir o esforço despendido na modelagem manual por meio da observação de regularidades no texto e o mapeamento dessas regularidades como nomes de atributos na representação atributo-valor. A metodologia proposta foi avaliada realizando a estruturação automática de uma coleção de 6000 documentos com informações de resultados de exames de Endoscopia Digestiva Alta descritos em língua natural. Os resultados experimentais, os quais podem ser considerados os piores resultados, uma vez que esses resultados poderiam ser muito melhores caso a metodologia for utilizada semi-automaticamente junto com um especialista do domínio, mostram que a metodologia proposta é adequada e permite reduzir o tempo usado pelo especialista para analisar grande quantidade de registros médicos / The information retrieval from text stored in computer-based patient records is an important open-ended research problem, as the ease in which biomedical information recorded and stored in digital form grows. Thus, means to extract structured information (for example, in the so-called attribute-value format) from free-text records is an important research endeavor. Furthermore, by representing the free-text records in the attribute-value format, available pattern extraction methods can be directly applied. To map free-text medical records into the attribute-value format, we propose a methodology that can be used to automatically (or semi-automatically, with the help of a medical expert) map the important medical information stored in patient records which are described in natural language into an structured format. This methodology has been implemented in a computational system called TP-DISCOVER, which generates a database in the attribute-value format from a set of patient records (documents). In order to identify important entities in the set of documents, as well as significant relations among these entities, we propose a hybrid linguistic/statistical terminology extraction approach which filters out words and phrases that appear with a frequency higher than a given threshold by applying statistical measures. The underlying assumption of this hybrid approach to terminology extraction is that specialized documents are characterized by repeated use of certain lexical units or morpho-syntactic constructions. Our goal is to reduce the effort spent in manual modelling by observing regularities in the texts and by mapping them into suitable attribute names in the attribute-value representation format. The proposed methodology was evaluated to automatically structure a collection of 6000 documents which contains High Digestive Endoscopies exams´ results described in natural language. The experimental results, all of which can be considered lower bound results as they would greatly improve in case the methodology is applied semi-automatically together with a medical expert, show that the proposed methodology is suitable to reduce the medical expert workload in analysing large amounts of medical records

A revisão textual nos anos iniciais da escolaridade: percursos e procedimentos / Text revision in early years of schooling: pathways and procedures

Érica de Faria Dutra 28 March 2011 (has links)
Escrever um texto com sentido, garantindo a compreensão para um destinatário e atendendo a um dado propósito não é tarefa simples, principalmente quando quem escreve são crianças recém-alfabéticas. Revisar o texto, nesta perspectiva, contribui significativamente para uma produção mais ajustada à interlocução posta pela escrita. Por isso, a revisão é uma prática que torna possível a reflexão sobre muitos aspectos da língua escrita, podendo ser vista como um conteúdo essencial para apropriação das habilidades textuais. Os pressupostos que embasam este trabalho estão apoiados na concepção de ensino e aprendizagem sócio-histórica que ressalta a importância da interação e a complexidade do processo redacional. De fato, além da constituição da situação interlocutiva, a escrita pressupõe a familiaridade com o gênero e as possibilidades de planejar, textualizar, revisar e até editar, quando for o caso. Partimos da concepção bakhtiniana de linguagem, que considera a escrita como processo dialógico, e do ensino da escrita centrado nas práticas interlocutivas entre sujeitos ativos e responsivos. A partir deste referencial, pretendemos estudar a prática de revisão como fonte inesgotável de reflexões e aprendizagens. Nosso objetivo é investigar as principais tendências de revisão em crianças do primeiro e segundo ano do Ensino Fundamental, em um intervalo de sete meses, comparando versões feitas individualmente e em duplas. Interessa-nos também analisar os recursos utilizados nas alterações feitas nos textos. Para tanto, foi proposto a alunos de uma escola, situada em São Paulo, a reescrita do conto Diamantes e sapos e a revisão desta produção em dois momentos distintos. Com base nos 54 textos que compõem o corpus da presente pesquisa (18 de reescrita e 36 de revisão), pudemos situar dois relevantes eixos de análise, o discursivo e o notacional, a partir dos quais cinco critérios apareceram como ocorrências significativas: enredo, linguagem, pontuação, segmentação de palavras e ortografia. Os dados coletados permitem constatar que, mesmo sem ter conhecimentos sistemáticos sobre os aspectos revisados, as crianças foram capazes de variadas reflexões acerca da língua, o que nos permite repensar os paradigmas do tradicional cenário pedagógico: mais do que corrigir a ortografia e aprimorar a legibilidade do texto, as crianças recém-alfabéticas são também capazes de lidar com aspectos da linguagem, procedimento este que normalmente é considerado viável apenas a escritores mais experientes. Além disso, a pesquisa evidencia que a própria prática de revisar proporciona a construção de saberes que se processam ao longo da sistemática participação em situações nas quais os alunos são estimulados a aprimorar sua produção textual. Os resultados, entretanto, não são imediatos; as conquistas colhidas nas práticas de revisão são tributárias de um percurso que, para além dos ganhos pontuais (a revisão em cada texto), justificam a longo prazo o desenvolvimento da aprendizagem da língua escrita. / It is not really a simple task to write a text with meaning, in a way that the recipient will understand it, as well as serving a given purpose, mainly when the writers are newly alphabetic children. In such a perspective, revising and correcting the text significantly contributes to a text production which more properly suits the dialogue set by the writing process. Therefore, the practice of revising and correcting a text makes it possible to reflect upon many aspects of the written language and can be considered as an essential content for the appropriation of textual skills. The assumptions on which this work is based are supported on a social and historical teaching and learning conception, which highlights the importance of interaction and the complexity of the writing process. In fact, besides the establishment of the interlocutory situation, writing requires familiarity with the genre and the possibilities of textualization, planning, revising and even editing, if it is the case. We are based on the Bakhtins conception of language which considers writing as a dialogic process, and the teaching of writing focused on interlocutory practices between active and responsive subjects. From this benchmark, we will study the practice of revising a text as an inexhaustible source of reflection and learning. Our goal is to investigate the main trends in revising texts by children attending the first and second grade of elementary school, within a gap of seven months. Individual and in pairs versions were compared. We are also interested in examining the resources used in the amendments performed on the texts. Therefore, students of a school in Sao Paulo were proposed the rewriting of the tale \"Toads and Diamonds\", and then the revising and correcting that text production, which took place at two different moments. Based on 54 papers comprising the corpus of this research (18 on rewriting and 36 on revising and correcting), we were able to establish two important lines of analysis, the discursive and notational ones, from which five criteria emerged as significant events: plot, language, punctuation, spelling and word segmentation. The data collected indicate that, even without systematic knowledge on the issues revised, children were able of developing varied reflections on language, which allows us to reconsider the paradigms of the traditional pedagogical setting: more than correcting spelling and improving the readability in the text, newly alphabetic children are also able to deal with aspects of the language, a procedure which is generally considered suitable only for more experienced writers. Moreover, the research shows that the practice of revising texts provides the building up of acquaintances which take place over the systematic involvement in situations where students are encouraged to improve their textual production. The results, however, are not immediate; achievements gathered in text revising practices are due to a pursue which, in addition to the specific achievements (revising each text), justifies the long-term development of learning how to deal with written language.

Um método para a fusão automática de sentenças similares em português / A method for automatic fusion of similar sentence in portuguese

Eloize Rossi Marques Seno 24 May 2010 (has links)
Nos últimos anos, há um crescente interesse por aplicações do Processamento de Língua Natural (PLN) que processam uma coleção de textos sobre um mesmo assunto e produzem um novo texto de saída, quer seja um sumário ou uma resposta para uma dada pergunta. Para se produzir textos com qualidade, essas aplicações precisam lidar adequadamente com vários fenômenos, tais como a redundância, a contradição e a complementaridade de informações. Nesse contexto, um processo que permita a identificação de informações comuns em um conjunto de sentenças relacionadas, e gere uma nova sentença a partir da fusão de informações das sentenças de entrada, sem redundâncias e sem contradições, é de grande relevância para as aplicações que processam múltiplos textos. A fusão automática de sentenças é um tema de pesquisa relativamente recente na literatura de PLN e para a língua portuguesa, em particular, não se tem conhecimento de trabalhos dessa natureza. Neste trabalho propõe-se um método inédito para a fusão de sentenças similares em português, baseado em uma abordagem simbólica e independente de domínio, e produz-se o Zíper, um sistema de fusão sentencial que implementa o método proposto. O Zíper é o primeiro sistema a contemplar a geração de sentenças que expressam todas as informações das sentenças de entrada, ou seja, que representam a união do conjunto. Além disso, ele permite a geração de sentenças que expressam apenas as informações redundantes do conjunto (consideradas mais importantes), isto é, que representam a interseção das sentenças de entrada. O sistema foi avaliado intrinsecamente e os resultados obtidos mostram que, de modo geral, as sentenças produzidas são bem formadas e preservam a mensagem original do conjunto (isto é, a mensagem toda, na fusão por união e apenas a mensagem principal, na fusão por interseção). Zíper também foi avaliado extrinsecamente no contexto de um sumarizador multidocumento do português. Os resultados alcançados sugerem que o método proposto contribui para melhorar a qualidade dos sumários, reduzindo a redundância de informações, que frequentemente provoca a perda de coesão e de coerência / In recent years, there is increasing interest in applications of Natural Language Processing (NLP) that process a collection of texts on the same subject and generate a new output text, for instance, a summary or an answer to a given question. In order to generate quality texts, these applications need to cope with various phenomena such as information redundancy, contradiction and complementarity. In this context, a process that is able to identify common information in a set of related sentences and generate a new sentence by merging information from the input sentences, without redundancies and contradictions, is of great relevance for applications that process multiple texts. Automatic sentence fusion is a relatively new research topic in NLP literature and for Portuguese, in particular, we are not aware of any such work. This work proposes a new method for fusing similar sentences in Portuguese, based on a symbolic and domainindependent approach, and produces Zíper, a sentence fusion system that implements the proposed method. Zíper is the first such system to generate sentences that express all the information from input sentences, i.e., the union of the input set. Moreover, it allows generating sentences that express only the redundant information of the set (considered more important), i.e., the intersection of the input sentences. The system was evaluated intrinsically and the results show that, in general, the generated sentences are well formed and preserve the original message of the set (i.e. the entire message in the fusion by union, and only the main message in the fusion by intersection). Zíper was also evaluated extrinsically in the context of a Portuguese multi-document summarizer. The results suggest that it can improve the quality of summaries by reducing redundancy, which often causes loss of cohesion and coherence

Disorderclassifier: classificação de texto para categorização de transtornos mentais

NUNES, Francisca Pâmela Carvalho 23 August 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-04-19T13:35:36Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) DISSERTAÇÃO_Franscisca Pamela Carvalho.pdf: 2272114 bytes, checksum: 83ff79a7d05409b93fe71ce4c307dc30 (MD5) / Made available in DSpace on 2017-04-19T13:35:36Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) DISSERTAÇÃO_Franscisca Pamela Carvalho.pdf: 2272114 bytes, checksum: 83ff79a7d05409b93fe71ce4c307dc30 (MD5) Previous issue date: 2016-08-23 / Nos últimos anos, através da Internet, a comunicação se tornou mais ampla e acessível. Com o grande crescimento das redes sociais, blogs, sites em geral, foi possível estabelecer uma extensa base de conteúdo diversificado, onde os usuários apresentam suas opiniões e relatos pessoais. Esses informes podem ser relevantes para observações futuras ou até mesmo para o auxílio na tomada de decisão de outras pessoas. No entanto, essa massa de informação está esparsa na Web, em formato livre, dificultando a análise manual dos textos para categorização dos mesmos. Tornar esse trabalho automático é a melhor opção, porém a compreensão desses textos em formato livre não é um trabalho simples para o computador, devido a irregularidades e imprecisões da língua natural. Nessas circunstâncias, estão surgindo sistemas que classificam textos, de forma automática, por tema, gênero, características, entre outros, através dos conceitos da área de Mineração de Texto (MT). A MT objetiva extrair informações importantes de um texto, através da análise de um conjunto de documentos textuais. Diversos trabalhos de MT foram sugeridos em âmbitos variados como, por exemplo, no campo da psiquiatria. Vários dos trabalhos propostos, nessa área, buscam identificar características textuais para percepção de distúrbios psicológicos, para análise dos sentimentos de pacientes, para detecção de problemas de segurança de registros médicos ou até mesmo para exploração da literatura biomédica. O trabalho aqui proposto, busca analisar depoimentos pessoais de potenciais pacientes para categorização dos textos por tipo de transtorno mental, seguindo a taxonomia DSM-5. O procedimento oferecido classifica os relatos pessoais coletados, em quatro tipos de transtorno (Anorexia, TOC, Autismo e Esquizofrenia). Utilizamos técnicas de MT para o pré-processamento e classificação de texto, com o auxilio dos pacotes de software do Weka. Resultados experimentais mostraram que o método proposto apresenta alto índice de precisão e que a fase de pré-processamento do texto tem impacto nesses resultados. A técnica de classificação Support Vector Machine (SVM) apresentou melhor desempenho, para os fins apresentados, em comparação a outras técnicas usadas na literatura. / In the last few years, through the internet, communication became broader and more accessible. With the growth of social media, blogs, and websites in general, it became possible to establish a broader, diverse content base, where users present their opinions and personal stories. These data can be relevant to future observations or even to help other people’s decision process. However, this mass information is dispersing on the web, in free format, hindering the manual analysis for text categorization. Automating is the best option. However, comprehension of these texts in free format is not a simple task for the computer, taking into account irregularities and imprecisions of natural language. Giving these circumstances, automated text classification systems, by theme, gender, features, among others, are arising, through Text Mining (MT) concepts. MT aims to extract information from a text, by analyzing a set of text documents. Several MT papers were suggested on various fields, as an example, psychiatric fields. A number of proposed papers, in this area, try to identify textual features to perceive psychological disorders, to analyze patient’s sentiments, to detect security problems in medical records or even biomedical literature exploration. The paper here proposed aim to analyze potential patient’s personal testimonies for text categorization by mental disorder type, according to DSM-5 taxonomy. The offered procedure classifies the collected personal testimonies in four disorder types (anorexia, OCD, autism, and schizophrenia). MT techniques were used for pre-processing and text classification, with the support of software packages of Weka. Experimental results showed that the proposed method presents high precision values and the text pre-processing phase has impact in these results. The Support Vector Machine (SVM) classification technique presented better performance, for the presented ends, in comparison to other techniques used in literature.

CompreensÃo de Textos Narrativos e Argumentativos DialÃgicos por Leitores do Ensino Fundamental / Comprehension of Narrative and Argumentative Texts by middle school Readers

Antonia Valdelice de Sousa 10 March 2009 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / O presente trabalho intitulado CompreensÃo de Textos Narrativos e Argumentativos DialÃgicos por Leitores do Ensino Fundamental examina a compreensÃo desses tipos textuais a partir da anÃlise de material produzido pela reescritura de tais textos por vinte sujeitos que participaram como voluntÃrios na pesquisa Estudantes de ensino fundamental na faixa etÃria de 13 a 15 anos leram dois tipos de textos argumentativos (narrativo â TNA e argumentativo dialÃgico-TAD) e foram solicitados a produzir reescrituras de cada um desses textos As reescrituras obtidas foram analisadas de acordo com vÃrios aspectos (explicitude das macrorregras de sumarizaÃÃo qualidade das estratÃgias coerÃncia macro e superestrutural) de modo a verificar diferenÃas de compreensÃo relacionadas à recuperaÃÃo da macro e superestrutura textual e à organizaÃÃo global de cada texto reescrito Trabalhamos com a hipÃtese bÃsica de que leitores proficientes ao realizarem uma tarefa de reescritura apresentariam melhor desempenho quanto à recuperaÃÃo da macroestrutura textual e quanto ao reconhecimento da organizaÃÃo global do texto TNA do que do TAD tendo em vista a maior explicitude da organizaÃÃo interna deste primeiro tipo de texto As hipÃteses secundÃrias procuraram testar primeiramente se o conhecimento mÃnimo do esquema canÃnico dos textos (TNA/TAD) seria fator determinante para uma melhor compreensÃo das formas de estruturaÃÃo dessas tipologias se existe um esquema textual para cada tipologia que deveria ser atingido para que leitores independentes pudessem empregar as estratÃgias de leitura e (re) construir a macroestrutura e por Ãltimo se a diferenÃa entre o desempenho leitor do aluno e o tipo de texto (TNA/TAD) deveria ser demonstrada claramente a partir de estratÃgias cognitivas utilizadas no processamento Nas vÃrias anÃlises procedidas foram encontradas evidÃncias quanto ao melhor desempenho para o TNA em relaÃÃo ao TAD Quanto ao conhecimento do esquema canÃnico os leitores recuperaram respectivamente 40% total 20% parcial e 40% (ausÃncia) para o TNA a 30% 10% e 60% para o TAD A anÃlise das estratÃgias de reescritura evidenciou que os leitores utilizaram estratÃgias mais sofisticadas (produÃÃo de inferÃncias integraÃÃo de informaÃÃes) para o TNA em relaÃÃo ao TAD A anÃlise de (re) construÃÃo macroestrutural demonstrou que os leitores das reescrituras TNAs revelaram menos problemas de continuidade sequencial e progressÃo semÃntica em relaÃÃo aos textos TADs / The present work entitled Comprehension of Narrative and Argumentative Texts by middle school Readers examines the comprehension of these two text types from the analysis of summaries produced by 20 volunteers who participated in the research Students from middle school aged 13 to 15 years read two types of argumentative texts (a narrative text â TNA and an argumentative dialogical text â TAD) and were asked to produce summaries of each one of these texts types The summaries were analyzed according to several aspects (explicitness of the summarization macro-rules strategies quality and macro and super-structural coherence) in order to verify differences in comprehension related to the recuperation of the texts macro and super-structures and the overall organization of each summarized text Our basic hypothesis is that due to the higher degree of explicitude and internal organization of TNA proficient readers would show better performance on macro-structure recovery of this type of text in comparison to TAD A secondary hypothesis sought to verify first if the minimum knowledge of the scheme of canonical texts (TNA / TAD) would be a determining factor for a better understanding of ways to structure these text types second if a textual schema for each type should be reached for independent readers to apply reading strategies and (re)construct the macrostructure and third if the difference between the performance of the student reader and the type of text (TNA / TAD) should be clearly demonstrated from strategies used in cognitive processing The analyses revealed evidence of better performance to TNA compared to TAD As regards the canonical scheme readers recovered respectively 40% total 20% partial and 40% (absence) for the TNA as compared to 30% 10% and 60% for the TAD The analysis of summarization strategies showed that readers used more sophisticated strategies (production of inferences integration of information) for the TNA than for TAD As for the (re)construction of TNAs summaries the macroestructural aspects of this type of text revealed fewer problems of continuity sequence and semantic progression than the TADs

Classificação de textos com redes complexas / Using complex networks to classify texts

Diego Raphael Amancio 29 October 2013 (has links)
A classificação automática de textos em categorias pré-estabelecidas tem despertado grande interesse nos últimos anos devido à necessidade de organização do número crescente de documentos. A abordagem dominante para classificação é baseada na análise de conteúdo dos textos. Nesta tese, investigamos a aplicabilidade de atributos de estilo em tarefas tradicionais de classificação, usando a modelagem de textos como redes complexas, em que os vértices representam palavras e arestas representam relações de adjacência. Estudamos como métricas topológicas podem ser úteis no processamento de línguas naturais, sendo a tarefa de classificação apoiada por métodos de aprendizado de máquina, supervisionado e não supervisionado. Um estudo detalhado das métricas topológicas revelou que várias delas são informativas, por permitirem distinguir textos escritos em língua natural de textos com palavras distribuídas aleatoriamente. Mostramos também que a maioria das medidas de rede depende de fatores sintáticos, enquanto medidas de intermitência são mais sensíveis à semântica. Com relação à aplicabilidade da modelagem de textos como redes complexas, mostramos que existe uma dependência significativa entre estilo de autores e topologia da rede. Para a tarefa de reconhecimento de autoria de 40 romances escritos por 8 autores, uma taxa de acerto de 65% foi obtida com métricas de rede e intermitência de palavras. Ainda na análise de estilo, descobrimos que livros pertencentes ao mesmo estilo literário tendem a possuir estruturas topológicas similares. A modelagem de textos como redes também foi útil para discriminar sentidos de palavras ambíguas, a partir apenas de informação topológica dos vértices, evidenciando uma relação não trivial entre sintaxe e semântica. Para algumas palavras, a discriminação com redes complexas foi ainda melhor que a estratégia baseada em padrões de recorrência contextual de palavras polissêmicas. Os estudos desenvolvidos nesta tese confirmam que aspectos de estilo e semânticos influenciam na organização estrutural de conceitos em textos modelados como rede. Assim, a modelagem de textos como redes de adjacência de palavras pode ser útil não apenas para entender mecanismos fundamentais da linguagem, mas também para aperfeiçoar aplicações reais quando combinada com métodos tradicionais de processamento de texto. / The automatic classification of texts in pre-established categories is drawing increasing interest owing to the need to organize the ever growing number of electronic documents. The prevailing approach for classification is based on analysis of textual contents. In this thesis, we investigate the applicability of attributes based on textual style using the complex network (CN) representation, where nodes represent words and edges are adjacency relations. We studied the suitability of CN measurements for natural language processing tasks, with classification being assisted by supervised and unsupervised machine learning methods. A detailed study of topological measurements in texts revealed that several measurements are informative in the sense that they are able to distinguish meaningful from shuffled texts. Moreover, most measurements depend on syntactic factors, while intermittency measurements are more sensitive to semantic factors. As for the use of the CN model in practical scenarios, there is significant correlation between authors style and network topology. We achieved an accuracy rate of 65% in discriminating eight authors of novels with the use of network and intermittency measurements. During the stylistic analysis, we also found that books belonging to the same literary movement could be identified from their similar topological features. The network model also proved useful for disambiguating word senses. Upon employing only topological information to characterize nodes representing polysemous words, we found a strong relationship between syntax and semantics. For several words, the CN approach performed surprisingly better than the method based on recurrence patterns of neighboring words. The studies carried out in this thesis confirm that stylistic and semantic aspects play a crucial role in the structural organization of word adjacency networks. The word adjacency model investigated here might be useful not only to provide insight into the underlying mechanisms of the language, but also to enhance the performance of real applications implementing both CN and traditional approaches.

Entity-Centric Text Mining for Historical Documents

Coll Ardanuy, Maria 07 July 2017 (has links)
No description available.

Jag är min egen lärare : En interventionsstudie om självständig textbearbetning av elever i årskurs 6 / I am my own teacher : An experimental study of independent text revision by pupils ingrade 6

Joakim, Heining, Emmely, Heiman January 2017 (has links)
The aim of the study was to investigate how an independent revision of a self- produced text for the national examinations in Swedish for grade 6 changes its quality. An additional aim was to study whether this change in quality led to a change in the grade awarded to the text. In this study the pupils were viewed as independent individuals with an ability to think and act on their own, and therefore a cognitive perspective was applied to the result. The study used the texts produced by the pupils during the national examination, and the accompanying grading matrix was used as a yardstick. After the pupils had revised their text, it was graded again and this was compared with the previous grade to manifest the change. When the grading had been done, the texts were divided into one of three categories: improved, deteriorated, or unchanged quality, which enabled a quantification of the results of the study. This shows a general improvement in text quality after the revision. Of the 36 participants in the study, 28 improved the quality of their texts, and 6 of these were judged to have earned higher grades. Only one text was deemed to have declined in quality and earned a lower grade. It is relevant for teachers in today’s school to know that a revision should not just be viewed as a final correction but as part of the entire writing process. The study also shows that pupils who revise a text on their own improve its quality. In some cases it may be appropriate for a teacher to give a response in order to allow pupils a better chance to improve the quality of their texts.

