• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 611
  • 146
  • 20
  • 14
  • 9
  • 9
  • 9
  • 8
  • 7
  • 5
  • 5
  • 4
  • 2
  • 1
  • Tagged with
  • 808
  • 179
  • 170
  • 156
  • 156
  • 120
  • 107
  • 98
  • 92
  • 84
  • 84
  • 84
  • 83
  • 79
  • 77
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
81

Diseño y aplicación de una metodología para análisis de noticias policiales utilizando minería de textos

Torres Silva, Daniel Alejandro January 2013 (has links)
Ingeniero Civil Industrial / En esta memoria se presenta el diseño y la aplicación de una metodología, basada en técnicas de minería de textos, para el procesamiento de grandes volúmenes de noticias que permita descubrir interesantes patrones en los datos para desarrollar un acabado análisis de la cobertura de distintas temáticas policiales y estudiar su relación con las estadísticas de casos reales de delincuencia. Las noticias policiales han sido objeto de constante análisis, cuyo interés se debe a la probable distorsión que provocaría sobre los niveles de preocupación frente al delito en la población. Los artículos noticiosos poseen valiosa información que muchas veces no es explotada, dado que requiere de un proceso de análisis manual, intensivo en tiempo y recursos. Actualmente existen herramientas tecnológicas que permiten manejar crecientes volúmenes de datos, particularmente datos no estructurados como los textos, tomando cada vez más protagonismo la minería de textos en el descubrimiento de nuevo e interesante conocimiento. La metodología de investigación propuesta se basa en las etapas del modelo de procesos CRISP-DM, para lo cual se debe integrar la comprensión de la naturaleza del problema, la comprensión y preparación de los datos, la construcción y evaluación de los modelos y los posteriores desarrollos a partir del conocimiento generado. La aplicación de la metodología se realiza sobre un conjunto de noticias policiales en formato RSS recopiladas a partir de cuatro medios de prensa nacionales durante el segundo semestre del año 2011. Se logran identificar siete temáticas policiales dentro de las noticias, caracterizando cada una de ellas a partir de diferentes herramientas basadas en las palabras más relevantes. Se detecta que las distintas temáticas presentan diferentes niveles de cobertura entre sí, así como también según región y según medio de prensa. También se logra constatar una relativa proporcionalidad entre el número de noticias y el número de habitantes según región, mientras que la posible relación entre el número de casos reales y el número de noticias podría explicar una proporción importante de la variabilidad experimentada por los niveles de noticias para cada temática policial. La metodología implementada permite cumplir exitosamente con los objetivos propuestos, facilitando la comprensión y manejo de las distintas interacciones entre las etapas involucradas en el proceso. Como trabajo futuro se plantea un sistema de monitoreo continuo de los niveles de cobertura policial en medios de prensa escritos, apoyándose en la propuesta de este trabajo.
82

Extracción de conocimiento nuevo desde los reclamos recibidos en el Servicio Nacional del Consumidor mediante técnicas de text mining

Contreras Piña, Constanza Daniela January 2014 (has links)
Ingeniera Civil Industrial / El Servicio Nacional del Consumidor (SERNAC) es el organismo estatal que se encarga de que se cumpla la Ley del Consumidor. Para esto, media los conflictos entre consumidores y proveedores tramitando los reclamos de los primeros. Desde el 2010 a la fecha posee más de 1 millón de reclamos, los cuales son utilizados para realizar estudios que establecen las políticas institucionales de los próximos años. Se considera que SERNAC tiene valiosa información para analizar profundamente permitiéndole mejorar sus funciones y disminuir los tiempos que tardan los estudios. Dado esto, el objetivo de este trabajo es extraer conocimiento nuevo y específico de los reclamos de SERNAC utilizando técnicas de minería de textos. En la literatura existen muchas técnicas para realizar minería de textos. En este trabajo se utilizaron modelos de tópicos por su capacidad de encontrar semántica subyacente dentro de una colección de documentos. Dado que no queda claro cuál modelo de tópicos es mejor, se compararon 4 de ellos: Latent Dirichlet Allocation (LDA), Pitman-Yor Topic Model (PYTM), Latent Semantic Analysis (LSA) y Non-Negative Matrix Factorization (NMF). Primero se validó el uso de modelo de tópicos experimentando con LDA. Se logró extraer problemas comunes entre los consumidores, temas de contingencia nacional, problemas específicos de productos o servicios y caracterizar el comportamiento de empresas y consumidores frente a ciertas problemáticas. Esto fue validado por los miembros de SERNAC, definiendo que un tema agrega valor si entrega información específica o revela información no observada. Después, se fijó un conjunto de datos para trabajar con los modelos (reclamos de tarjetas de multitiendas). Los temas encontrados por cada modelo fueron evaluados por SERNAC en términos de valor. Además, fueron encuestados a opinión popular para ver si eran fáciles de entender y se les calculó su grado de coherencia con respecto a los otros temas del modelo. Comparando los resultados por modelo se concluye que tanto LSA como NMF son modelos difíciles de interpretar debido a las palabras que utilizan para caracterizar los temas. Los modelos bayesianos en cambio (LDA y PYTM) no poseen ese inconveniente. En particular PYTM logro extraer temas valiosos más específicos para SERNAC que LDA, por lo cual fue el modelo finalmente escogido. Sin embargo, se considera que las métricas utilizadas en este trabajo no son suficientes para realizar una buena comparación del valor (y calidad) de un modelo. Se propone el continuar la investigación en encontrar métricas que logren este objetivo.
83

Escrita e reescrita como forma de assunção e desenvolvimento de projetos de dizer de alunos do 7º ano de uma escola pública de São José

Scaranto, Daniela Carla Soares January 2016 (has links)
Dissertação (mestrado profissional) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Letras, Florianópolis, 2016. / Made available in DSpace on 2016-05-24T17:54:00Z (GMT). No. of bitstreams: 1 339420.pdf: 6626839 bytes, checksum: c1a8045bd3eb1512d57955e37452cd93 (MD5) Previous issue date: 2016 / Esta pesquisa tem como tema o ensino da reescrita no 7º ano, tendo como delimitação temática a relevância dos processos de reescrita para a assunção do projeto de dizer do aluno na escola. Este estudo estruturou-se para responder à seguinte questão de pesquisa: De que maneira a reescrita contribui para o projeto de dizer do aluno e, consequentemente, para o aprimoramento de sua produção escrita? O objetivo geral do projeto foi depreender o quanto o percurso de escrita e reescrita de resenhas produzidas por alunos 7º ano de uma escola estadual, auxiliados por um protocolo de procedimento de reescrita, contribuiu para que os estudantes envolvidos assumissem e desenvolvessem seus projetos de dizer (GERALDI, 2013 [1991]) na escola. Para tal propósito, o estudo se estruturou em um projeto de letramento (KLEIMAN, 2009), e valemo-nos dos estudos do letramento (KLEIMAN, 1995) e dos estudos dialógicos da linguagem (BAKHTIN, 2003 [1952/53]); (BRONCKART, 1999; 2006); GERALDI, 2013 [1991]), e da reescrita (MENEGASSI, 2013; FIAD, 2010) como orientação para a geração e a análise dos dados. Tal pesquisa se caracterizou por uma pesquisa-ação (THIOLLENT, 2011[1985]) com abordagem qualitativa de base interpretativa (GIL, 2002) e foi realizada com alunos do sétimo ano de uma escola pública estadual de São José (SC) no ano de 2015. Os dados foram gerados a partir da escrita e reescrita das resenhas produzidas pelos participantes, dos protocolos de reescrita, das entrevistas e dos registros realizados em diário de campo ao longo da ação do projeto. Estes dados foram analisados considerando-se as interações pedagógicas do ensino da escrita e reescrita, o contexto em que os textos foram produzidos e o percurso da escrita e da reescrita realizado pelo aluno. As versões finais das resenhas sinalizam de forma positiva que os alunos ao longo do projeto de letramento desenvolveram seus projetos de dizer auxiliados pelos protocolos de reescrita e compreenderam que a reescrita é uma etapa constitutiva da produção textual escrita. Entendemos, enfim, a relevância da inclusão da etapa da reescrita no ensino da produção textual através de atividades pedagógicas que deem voz ao projeto de dizer dos alunos.<br> / Abstract : The theme of this research is the teaching of rewriting to the 7th grade. Its thematic delimitation is the relevance of the process of the rewriting to the developing of the Saying Project of the students. The research question is: In which way does the re-writing contribute to the Saying Project of the student and consequently to the improvement of his writing production? Our main goal was to understand how the writing and rewriting of the essays produced by the 7th grade students from a state school, using a protocol of rewriting procedures, helped them to get involved and develop their Saying Project. To reach such a goal, this study was organized as a literacy project (KLEIMAN, 2009), and the theoretical background was based in the literacy studies (KLEIMAN, 1995), in the language studies (BAKHTIN, 2003 [1952/53]; BRONCKART, 1999; 2006); GERALDI, 2013 [1991]), and also in the rewriting studies (MENEGASSI, 2013; FIAD, 2010). This study is classified as action-research (THIOLLENT, 2011) with an interpretative base (GIL, 2002) and was carried out with 7th grade students of a public school of São José (in Santa Catarina, Brazil) in 2015. The writing and rewriting of the essays produced by the participants, the rewriting protocols, the interviews and the notes taken during all the project were our data. They were analyzed taking into consideration the pedagogic interactions of the writing and rewriting during the teaching process, the context of the text production and the route undertaken by the students. In the final versions of their essays we noticed that the students developed their Saying Projects with the help of the rewriting protocols and they understood that the rewriting is a fundamental step of the textual production. Finally, we emphasize the importance of including the rewriting step in the teaching of textual production by means of pedagogic activities that give voice to the Saying Projects of the students.
84

Produção de textos escritos nos anos iniciais do ensino fundamental: a ação docente no Brasil e em Portugal

ANDRADE, Renata Maria Barros Lessa de 27 October 2015 (has links)
Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-04-22T18:59:37Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Renata Lessa PPGE 2015.pdf: 7738965 bytes, checksum: d8764422c88bf719ef7c11864bd091d8 (MD5) / Made available in DSpace on 2016-04-22T18:59:37Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Renata Lessa PPGE 2015.pdf: 7738965 bytes, checksum: d8764422c88bf719ef7c11864bd091d8 (MD5) Previous issue date: 2015-10-27 / CAPES / Este estudo teve como objetivo analisar práticas docentes em situações de produção de textos, buscando investigar saberes pedagógicos subjacentes ao ensino da escrita. A base teórica central do estudo foi o sociointeracionismo, sobretudo pautado no interacionismo instrumental e as reflexões sobre os gêneros discursivos. Participaram da pesquisa duas professoras e seus alunos, de duas turmas de escolas públicas, uma do último ano do Ensino Fundamental 1 (5° ano) do Recife e uma do último ano do 1° ciclo do Ensino Básico (4° ano) de Aveiro. A metodologia constou de entrevista com as duas professoras e observações de aulas nas duas turmas. Nas entrevistas, foi percebido que elas acreditavam que a formação inicial para o ensino de produção de textos tinha sido insuficiente, sobretudo porque reconheciam que as demandas escolares e concepções sobre o que seria ensinar a língua materna tinham mudado. Em contrapartida, foi percebido que elas valorizavam os conhecimentos produzidos nos cursos de formação continuada e em diferentes momentos da entrevista indicaram diferentes fontes de conhecimentos para a organização do trabalho pedagógico. As docentes também evidenciaram que os conhecimentos oriundos desses diferentes espaços e materiais de formação passavam por um processo de validação que ocorria na prática de ensino, que, segundo elas, também favorecia a construção de conhecimentos. Quanto às observações da prática das duas professoras, foi possível identificar algumas dimensões pedagógicas que estão presentes no dia a dia da sala de aula, que estão relacionadas aos saberes específicos relativos ao ensino de produção de textos, e dimensões que não estão restritas ao trabalho com o eixo de produção de textos, mas que influenciam tal trabalho: forma de agrupamento dos alunos; retomada de atividades anteriores para iniciar a escrita do texto; realização de atividades prévias para a escrita do texto; leitura de textos de apoio; discussão sobre o texto lido; exibição de vídeo; projeção de textos; escrita do texto com intervenção da professora (durante o processo); e retomada do que foi escrito a fim de refletir sobre a continuidade da escrita. Desse modo, foi possível concluir que o ensino de produção de textos demanda diferentes saberes que possibilitam o desenvolvimento de variadas estratégias didáticas de ensino de produção de textos. Foi possível também evidenciar que os diferentes saberes emergem das variadas concepções sobre o que é ensinar Língua Portuguesa. Os dados mostraram que as duas docentes proporcionaram boas condições de produção de textos aos seus alunos, entretanto apresentaram oscilações quanto à concepção de um ensino mais tradicional, em que as crianças escrevem textos a serem lidos apenas pela professora e colegas, sem delimitação de propósitos que extrapolam os objetivos didáticos, e ênfase em conteúdos gramaticais normativos, e um ensino mais voltado para as concepções do ensino a partir dos gêneros discursivos, em que as crianças escrevem para dar conta de propósitos de interação que extrapolam os objetivos didáticos, de modo a interagir por meio dos textos escritos, com leitores que não fazem parte do contexto da sala de aula. Essas oscilações na prática do professor decorrem de que os professores não buscam uma coerência teórica na construção e seleção dos saberes docentes que são mobilizados no desenvolvimento das atividades didáticas. Foi possível concluir que os saberes docentes norteiam os modos como os professores tecem suas práticas e as redes de ensino precisam levar em consideração esse movimento de profissionalização docente para subsidiarem o professor em seu trabalho. / This study aims to analyze teachers’ practice in writing situations investigating pedagogical knowledge subjacent to teaching of writing. The central theoretical basis of the study was social interactionism, meanly in instrumental social interactionism and reflections about textual genres. Two teachers and students participated of this study. The students were from two classrooms of public schools: one last year of elementary school (5th year) from Recife and one last year from 1st cycle of Basic School (4th year) from Aveiro. The methodology was through interviews with the two teachers and class observations in both classrooms mentioned before. In interviews, it was observed that teachers believed that their initial formation about teaching of writing had been insufficient, meanly because they recognized that school demands and conceptions about what would be mother tongue teaching had changed. In the other side, it was observed they valued knowledge constructed in continual formations courses and, in different moments of the interviews, they indicated different sources of knowledge in order to organize pedagogic work. The teachers also evidenced that knowledge came from different spaces and material of formations were validated in a process that occurred in teaching practice and this favored knowledge construction as well. In relation to teachers’ practices observed, it was possible to identify some pedagogic dimensions that occur in classroom routine, which it is related to specific knowledge about writing (articulation among different curricular components; relation among axes of language teaching; articulation of classes; articulation of activities in classes; diversity of activities; utilization of didactic recourses; stimulus to collaboration among students; incentive to explicit knowledge by students; among others), and dimensions which are not restrict to the teaching of writing but influence this work: the way students are grouped; resumption of previous activities to initiate text writing; realization of previous activities to text writing; reading of support texts; discussion about text read; exhibition of video; projections of texts; writing with teacher’s intervention (during the process); and resumption of what was written in order to reflect about writing continuity. Thus, it was possible conclude that teaching of writing demands different knowledge which allows the development of several didactic strategies. It was also possible evidence that different knowledge emerges from several conceptions of what is teaching Portuguese language. Data pointed out that two teachers provide good writing conditions to their students, however they presented oscillations related to a more traditional conceptions of teaching, in which children write texts to be read only by teacher and classmates, without delimitation of purposes that extrapolate didactic objectives, and emphasis on normative grammar contents, and a teaching more related to teaching conceptions from textual genres, in which children write based on purposes of interaction that extrapolate didactic objectives, in way that they can interact through written texts, considering readers that do not belong to classroom context. This oscillations in teachers’ practice are due to the fact the teacher do not search a theoretic coherence in construction and selection of teaching knowledge mobilized in the development of didactic activities. It was possible to conclude that teachers’ knowledge guides the way they conduct their practices and teaching systems needs to consider this movement of teacher’s professionalization in order to support teacher in his work.
85

Um estudo com crianças de escola pública sobre o conceito de diferentes gêneros de textos

SILVA, Ana Paula da January 2005 (has links)
Made available in DSpace on 2014-06-12T23:02:52Z (GMT). No. of bitstreams: 2 arquivo8888_1.pdf: 467332 bytes, checksum: 951baed2b4562e60bf898a2fc44e6061 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2005 / O presente estudo teve como objetivo analisar o desenvolvimento da consciência metatextual entre crianças de escola pública de diferentes séries (1ª e 3ª), através do conceito que estas crianças apresentavam em relação a diferentes gêneros de textos (história, carta e notícia de jornal). Participaram do estudo 40 crianças com idades entre 7 e 9 anos, freqüentando 1ª e 3ª séries do ensino fundamental. Todos os sujeitos foram submetidos individualmente a duas tarefas: (1) pedia-se que a criança definisse de forma aleatória uma história, uma carta e uma notícia de jornal. (2) Foram lidos seis textos de forma randômica para cada criança (sendo dois de cada gênero), pedindo-se após a leitura que a criança identificasse a qual gênero pertencia cada texto. Os dados foram analisados de acordo com as categorias criadas por meio das respostas fornecidas pelas crianças, sendo as mesmas categorias para ambas as tarefas. De modo geral, observou-se que tanto na tarefa de definição, quanto na tarefa de identificação as crianças da 3ª série, demonstraram melhor habilidade em conceituar os textos, tanto por meio de respostas mistas (que combinam vários atributos definidores de cada texto) quanto por meio das isoladas, um maior número de respostas nas várias categorias. Os resultados indicam um progresso significativo com a idade e a escolaridade em relação ao desenvolvimento da consciência metatextual de textos. As discussões deste estudo focalizam aspectos relevantes sobre a consciência metatextual, pouco discutidos na literatura
86

A escrita de gêneros textuais por alunos do ensino fundamental /

Santos, Flávio Renato dos. January 2018 (has links)
Orientador: Andreia Osti / Banca: João Pedro Pezzato / Banca: Neide de Brito Cunha / Resumo: A presente pesquisa, de natureza qualitativa, discute a escrita de gêneros textuais por alunos do último ano do Ensino Fundamental I, procurando avaliar sobretudo os componentes formais do gênero escrito, tais como estrutura composicional, estilo de linguagem e conteúdo temático. Este estudo divide-se em duas fases: 1. Discussão teórico-bibliográfica e levantamento de estudos acadêmicos; 2. Estudo de campo com a análise dos textos escritos pelos alunos. A bibliografia estudada apontou para a necessidade do letramento escolar e, portanto, para a obrigatoriedade do ensino dos gêneros textuais nas escolas de modo sistematizado (de seus componentes internos e externos), uma vez que seu aprendizado propicia a participação dos sujeitos em práticas sociais de uso da escrita. Constatou-se também, pela leitura de teses, dissertações e artigos acadêmicos, que os alunos escreveram gêneros textuais funcionais nas escolas, contudo, houve diferentes problemas na construção de seus componentes internos que comprometeram o uso social de tais textos. Para resolvê-los, essas pesquisas sugeriram o uso das Sequências Didáticas, já que, por meio delas, é possível identificar os problemas de escrita do gênero e construir atividades direcionadas à sua solução. No mesmo sentido, também estão os resultados obtidos no estudo de campo, constatou-se, na escrita de poemas e de narrativas de terror, a capacidade escritora de gêneros textuais pelos alunos, porém, com fragilidades no desenvolvimento de seus... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: The present research, of a qualitative nature, discusses the writing of textual genres by students of the last year of Elementary School I, trying to evaluate, in particular, the formal components of the written genre, such as compositional structure, language style and thematic content. This study was divided into two phases: 1. Theoretical - bibliographic discussion and survey of academic studies; 2. Field study with the analysis of texts written by the students. The bibliography studied pointed to the necessity of school literacy and, therefore, to the compulsory teaching of the textual genres in schools in a systematized way (of their internal and external components), since their learning provides the participat ion of the subjects in social practices of use of the writing. It was also verified by reading theses, dissertations and academic articles, that students wrote functional textual genres in schools; however, there were different problems in the construction of its internal components that compromised the social use of such texts. In order to solve them, these researches suggested the use of Didactic Sequences, since, through these, it is possible to identify the problems of writing of the genre and the const ruction of activities directed to its solution. In this way, are also the results obtained in the field study; it was verified, in the writing of poems and horror narratives the writing ability of textual genres by the students; however, with weaknesses in the... (Complete abstract click electronic access below) / Mestre
87

Du texto vers la norme : traduire automatiquement le langage SMS

Munger, Jessy 02 February 2024 (has links)
De nouvelles technologies comme le téléphone cellulaire ont révolutionné nos échanges comme jamais auparavant. Pour les utilisateurs, ces nouveaux canaux de communication représentent un contexte informel propice à l'exploration d'une forme récente d'écriture qui s'éloigne considérablement de la norme académique : le langage SMS. Devant l'ascension de cette forme d'expression, différentes méthodes ont été testées par le passé pour tenter de normaliser l'écrit SMS, c'est-à-dire le convertir en un français normé en vue de l'appliquer à d'éventuelles tâches de traitement automatique du langage. Or, très rares sont les études réalisées en français qui adoptent les réseaux de neurones comme solution de normalisation. La présente étude vise donc à produire un logiciel prototype pour normaliser automatiquement le langage SMS, en se servant d'une architecture encodeur-décodeur constituée de réseaux de neurones à mémoire à long et à court terme (LSTM). L'architecture neuronale est entraînée et évaluée sur la base du corpus belge de Fairon et al. (2006), en testant le mot et le caractère comme unités de base. Au-delà du logiciel prototype, cette étude se veut surtout une occasion d'explorer les points forts et les points faibles d'une telle approche neuronale dans le cadre de la normalisation du langage SMS. Avec un score BLEU-4 encourageant -- compte tenu de la taille limitée du corpus -- de près de 0,5, le modèle à base de mots est supérieur à celui à base de caractères. Malgré tout, la méthode produit un nombre considérable d'erreurs que nous attribuons en grande partie à la taille modeste du corpus, mais aussi à la nature même des réseaux de neurones.
88

Cultura, neoliberalismo y educación : la construcción de la subjetividad desde los textos escolares de nivel secundario (periodo 2008-2012 y 2012-2016)

Pillaca Lizarbe, Gladys Reyna 03 November 2016 (has links)
Tesis
89

Metodologia para mapeamento de informações não estruturadas descritas em laudos médicos para uma representação atributo-valor / A methodology for mapping non-structured medical findings to the attribute-value table format

Honorato, Daniel de Faveri 29 April 2008 (has links)
Devido à facilidade com que informações biomédicas em língua natural são registras e armazenadas no formato digital, a recuperação de informações a partir de registros de pacientes nesse formato não estruturado apresenta diversos problemas a serem solucionados. Assim, a extração de informações estruturadas (por exemplo, no formato atributo-valor) a partir de registros não estruturados é um importante problema de pesquisa. Além disso, a representação de registros médicos não estruturados no formato atributo-valor, permite a aplicação de uma grande variedade de métodos de extração de padrões. Para mapear registros médicos não estruturados no formato atributo-valor, propomos uma metodologia que pode ser utilizada para automaticamente (ou semi-automaticamente, com a ajuda de um especialista do domínio) mapear informações médicas de interesse armazenadas nos registros médicos e descritas em linguagem natural em um formato estruturado. Essa metodologia foi implementada em um sistema computacional chamado TP-DISCOVER, o qual gera uma tabela no formato atributo-valor a partir de um conjunto de registros de pacientes (documentos). De modo a identificar entidades importantes no conjunto de documentos, assim como relacionamentos significantes entre essas entidades, propomos uma abordagem de extração de terminologia híbrida (lingüística/estatística) a qual seleciona palavras e frases que aparecem com freqüência acima de um dado limiar por meio da aplicação de medidas estatísticas. A idéia geral dessa abordagem híbrida de extração de terminologia é que documentos especializados são caracterizados por repetir o uso de certas unidades léxicas ou construções morfo-sintáticas. Nosso objetivo é reduzir o esforço despendido na modelagem manual por meio da observação de regularidades no texto e o mapeamento dessas regularidades como nomes de atributos na representação atributo-valor. A metodologia proposta foi avaliada realizando a estruturação automática de uma coleção de 6000 documentos com informações de resultados de exames de Endoscopia Digestiva Alta descritos em língua natural. Os resultados experimentais, os quais podem ser considerados os piores resultados, uma vez que esses resultados poderiam ser muito melhores caso a metodologia for utilizada semi-automaticamente junto com um especialista do domínio, mostram que a metodologia proposta é adequada e permite reduzir o tempo usado pelo especialista para analisar grande quantidade de registros médicos / The information retrieval from text stored in computer-based patient records is an important open-ended research problem, as the ease in which biomedical information recorded and stored in digital form grows. Thus, means to extract structured information (for example, in the so-called attribute-value format) from free-text records is an important research endeavor. Furthermore, by representing the free-text records in the attribute-value format, available pattern extraction methods can be directly applied. To map free-text medical records into the attribute-value format, we propose a methodology that can be used to automatically (or semi-automatically, with the help of a medical expert) map the important medical information stored in patient records which are described in natural language into an structured format. This methodology has been implemented in a computational system called TP-DISCOVER, which generates a database in the attribute-value format from a set of patient records (documents). In order to identify important entities in the set of documents, as well as significant relations among these entities, we propose a hybrid linguistic/statistical terminology extraction approach which filters out words and phrases that appear with a frequency higher than a given threshold by applying statistical measures. The underlying assumption of this hybrid approach to terminology extraction is that specialized documents are characterized by repeated use of certain lexical units or morpho-syntactic constructions. Our goal is to reduce the effort spent in manual modelling by observing regularities in the texts and by mapping them into suitable attribute names in the attribute-value representation format. The proposed methodology was evaluated to automatically structure a collection of 6000 documents which contains High Digestive Endoscopies exams´ results described in natural language. The experimental results, all of which can be considered lower bound results as they would greatly improve in case the methodology is applied semi-automatically together with a medical expert, show that the proposed methodology is suitable to reduce the medical expert workload in analysing large amounts of medical records
90

Uso de informações lingüísticas na etapa de pré - processamento em mineração de textos

Silva, Cassiana Fagundes da 27 February 2004 (has links)
Made available in DSpace on 2015-03-05T13:53:43Z (GMT). No. of bitstreams: 0 Previous issue date: 27 / Nenhuma / Este trabalho apresenta estudos, com realização de experimentos e análise de resultados, da aplicação de informações lingüísticas na etapa de pré-processamento no processo de Mineração de Textos para as tarefas de Categorização e Agrupamento de Documentos. Usualmente, o pré-processamento utilizado no processo de Mineração de Textos para estas tarefas consiste na remoção de termos irrelevantes (tais como, preposição, artigos, pronomes, entre outros), normalização morfológica e seleção dos termos (ao que denominamos baseado em métodos usuais). Propõe-se, ao longo deste trabalho, um pré-processamento que faz o uso de informações lingüísticas, ou seja, um préprocessamento baseado em combinações gramaticais, visando avaliar a repercussão do uso dessas informações nos resultados de tarefas de Mineração de Textos. Foram realizados diversos experimentos para a validação da abordagem proposta junto à língua portuguesa. O corpus utilizado nos experimentos consiste de um extrato do corpus NILC (Núcleo Inter

Page generated in 0.0438 seconds