Global ETD Search

511	Herramienta para gestión de proyectos basada en XPDL para el proyecto Competisoft: análisis y diseño Silva Lazo, Anita Yesenia, Villegas Ortega, Sara Mirella 09 December 2011 (has links) En el ambiente de negocios de hoy, más que nunca las organizaciones dependen del buen resultado de sus proyectos para estar en condiciones de alcanzar una multitud de objetivos; desde objetivos estratégicos hasta las mejoras operacionales diarias. El mundo en la actualidad está cambiando a velocidades inusitadas y las organizaciones deben reaccionar rápidamente abordando proyectos que las ayuden a alcanzar nuevos objetivos. La gestión de proyectos basada en una metodología ordenada, sistemática y rigurosa facilita el trabajo en los proyectos que enfrentan cada día las empresas y sus administradores. El adecuado conocimiento y aplicación de alguna metodología para la gestión de proyectos permite crear un ambiente de trabajo propicio y con menor variabilidad para obtener resultados efectivos. XPDL (XML Process Definition Language) es un lenguaje para la definición de un flujo de trabajo propuesto por la WfMC (Workflow Management Coalition). El objetivo de este lenguaje es proporcionar marco de referencia estándar que permita la importación y exportación de las definiciones de procesos. El presente trabajo de tesis presenta el desarrollo de una herramienta software basada en el lenguaje XPDL, la cual fue concebida con el propósito de realizar el seguimiento y control de cualquier tipo de proyecto de software, gestionando su avance, plazos, esfuerzos, recursos y ofreciendo la información necesaria sobre cada elemento para su administración oportuna, permite crear la instancia de una metodología a través de una interfaz grafica, así como apoyar con el manejo de otros elementos críticos en los proyectos informáticos como es la gestión de la configuración. Cabe resaltar que el presente proyecto es parte del componente de desarrollo de herramientas que viene realizando el Grupo de Investigación y Desarrollo en Ingeniería de Software y Sistemas de Información de la PUCP como parte del Proyecto COMPETISOFT (Mejora de Procesos para Fomentar la Competitividad de la Pequeña y Mediana Industria de Software de Ibero América). Administración de proyectos XML (Lenguaje de marcado de documentos) Control de procesos--Automatización Pequeñas empresas--Estudio de casos Programas para computadoras--Desarrollo
512	[en] METHOD FOR AUTOMATIC DETECTION OF STAMPS IN SCANNED DOCUMENTS USING DEEP LEARNING AND SYNTHETIC DATA GENERATION BY INSTANCE AUGMENTATION / [pt] MÉTODO PARA DETECÇÃO AUTOMÁTICA DE CARIMBOS EM DOCUMENTOS ESCANEADOS USANDO DEEP LEARNING E GERAÇÃO DE DADOS SINTÉTICOS ATRAVÉS DE INSTANCE AUGMENTATION THALES LEVI AZEVEDO VALENTE 11 August 2022 (has links) [pt] Documentos digitalizados em ambientes de negócios substituíram grandes volumes de papéis. Profissionais autorizados usam carimbos para certificar informações críticas nesses documentos. Muitas empresas precisam verificar o carimbo adequado de documentos de entrada e saída. Na maioria das situações de inspeção, as pessoas realizam inspeção visual para identificar carimbos. Assim sendo, a verificação manual de carimbos é cansativa, suscetível a erros e ineficiente em termos de tempo gasto e resultados esperados. Erros na verificação manual de carimbos podem gerar multas de órgãos reguladores, interrupção de operações e até mesmo comprometer fluxos de trabalho e transações financeiras. Este trabalho propõe dois métodos que combinados podem resolver esse problema, automatizando totalmente a detecção de carimbos em documentos digitalizados do mundo real. Os métodos desenvolvidos podem lidar com conjuntos de dados contendo muitos tipos de carimbos de tamanho de amostra pequena, com múltiplas sobreposições, combinações diferentes por página e dados ausentes. O primeiro método propõe uma arquitetura de rede profunda projetada a partir da relação entre os problemas identificados em carimbos do mundo real e os desafios e soluções da tarefa de detecção de objetos apontados na literatura. O segundo método propõe um novo pipeline de aumento de instâncias de conjuntos de dados de carimbos a partir de dados reais e investiga se é possível detectar tipos de carimbos com amostras insuficientes. Este trabalho avalia os hiperparâmetros da abordagem de aumento de instâncias e os resultados obtidos usando um método Deep Explainability. Foram alcançados resultados de última geração para a tarefa de detecção de carimbos combinando com sucesso esses dois métodos, alcançando 97.3 por cento de precisão e 93.2 por cento de recall. / [en] Scanned documents in business environments have replaced large volumes of papers. Authorized professionals use stamps to certify critical information in these documents. Many companies need to verify the adequate stamping of incoming and outgoing documents. In most inspection situations, people perform a visual inspection to identify stamps. Therefore, manual stamp checking is tiring, susceptible to errors, and inefficient in terms of time spent and expected results. Errors in manual checking for stamps can lead to fines from regulatory bodies, interruption of operations, and even compromise workflows and financial transactions. This work proposes two methods that combined can address this problem, by fully automating stamp detection in real-world scanned documents. The developed methods can handle datasets containing many small sample-sized types of stamps, multiples overlaps, different combinations per page, and missing data. The first method proposes a deep network architecture designed from the relationship between the problems identified in real-world stamps and the challenges and solutions of the object detection task pointed out in the literature. The second method proposes a novel instance augmentation pipeline of stamp datasets from real data to investigate whether it is possible to detect stamp types with insufficient samples. We evaluate the hyperparameters of the instance augmentation approach and the obtained results through a Deep Explainability method. We achieve state-of-the-art results for the stamp detection task by successfully combining these two methods, achieving 97.3 percent of precision and 93.2 percent of recall. [pt] APRENDIZADO PROFUNDO [pt] AUMENTO DE INSTANCIAS [pt] DOCUMENTOS DIGITALIZADOS [pt] FASTER R-CNN [pt] DETECCAO DE CARIMBOS [en] DEEP LEARNING [en] INSTANCE AUGMENTATION [en] SCANNED DOCUMENTS [en] FASTER R-CNN [en] STAMP DETECTION
513	Deep Learning Methodologies for Textual and Graphical Content-Based Analysis of Handwritten Text Images Prieto Fontcuberta, José Ramón 08 July 2024 (has links) [ES] En esta tesis se abordan problemas no resueltos en el campo de la Inteligencia Artificial aplicada a documentos históricos manuscritos. Primero haremos un recorrido por diversas técnicas y conceptos que se utilizarán durante la tesis. Se explorarán diferentes formas de representar datos, incluidas imágenes, texto y grafos. Se introducirá el concepto de Índices Probabilísticos (PrIx) para la representación textual y se explicará su codificación usando TfIdf. También se discutirá la selección de las mejores características de entrada para redes neuronales mediante Information Gain (IG). En el ámbito de las redes neuronales, se abordarán modelos específicos como Multilayer Perceptron (MLP), Redes Neuronales Convolucionales (CNNs) y redes basadas en grafos (GNNs), además de una breve introducción a los transformers. El primer problema que aborda la tesis es la segmentación de libros históricos manuscritos en unidades semánticas, un desafío complejo y recurrente en archivos de todo el mundo. A diferencia de los libros modernos, donde la segmentación en capítulos es más sencilla, los libros históricos presentan desafíos únicos debido a su irregularidad y posible mala conservación. La tesis define formalmente este problema por primera vez y propone un pipeline para extraer consistentemente las unidades semánticas en dos variantes: una con restricciones del corpus y otra sin ellas. Se emplearán diferentes tipos de redes neuronales, incluidas CNNs para la clasificación de partes de la imagen y RPNs y transformers para detectar y clasificar regiones. Además, se introduce una nueva métrica para medir la pérdida de información en la detección, alineación y transcripción de estas unidades semánticas. Finalmente, se comparan diferentes métodos de ``decoding'' y se evalúan los resultados en hasta cinco conjuntos de datos diferentes. En otro capítulo, la tesis aborda el desafío de clasificar documentos históricos manuscritos no transcritos, específicamente actos notariales en el Archivo Provincial Histórico de Cádiz. Se desarrollará un framework que utiliza Índices Probabilísticos (PrIx) para clasificar estos documentos y se comparará con transcripciones 1-best obtenidas mediante técnicas de Reconocimiento de Texto Manuscrito (HTR). Además de la clasificación convencional en un conjunto cerrado de clases (Close Set Classification, CSC), la tesis introduce el framework de Open Set Classification (OSC). Este enfoque no solo clasifica documentos en clases predefinidas, sino que también identifica aquellos que no pertenecen a ninguna de las clases establecidas, permitiendo que un experto los etiquete. Se compararán varias técnicas para este fin y se propondrán dos. Una sin umbral en las probabilidades a posteriori generadas por el modelo de red neuronal, y otra que utiliza un umbral en las mismas, con la opción de ajustarlo manualmente según las necesidades del experto. En un tercer capítulo, la tesis se centra en la Extracción de Información (IE) de documentos tabulares manuscritos. Se desarrolla un pipeline que comienza con la detección de texto en imágenes con tablas, línea por línea, seguido de su transcripción mediante técnicas de HTR. De forma paralela, se entrenarán diferentes modelos para identificar la estructura de las tablas, incluidas filas, columnas y secciones de cabecera. El pipeline también aborda problemas comunes en tablas manuscritas, como el multi-span de columnas y la sustitución de texto entre comillas. Además, se emplea un modelo de lenguaje entrenado específicamente para detectar automáticamente las cabeceras de las tablas. Se utilizarán dos conjuntos de datos para demostrar la eficacia del pipeline en la tarea de IE, y se identificarán las áreas de mejora en el propio pipeline para futuras investigaciones. / [CA] En aquesta tesi s'aborden problemes no resolts en el camp de la Intel·ligència Artificial aplicada a documents històrics manuscrits. Primer farem un recorregut per diverses tècniques i conceptes que s'utilitzaran durant la tesi. S'exploraran diferents formes de representar dades, incloses imatges, text i grafos. S'introduirà el concepte d'Índexs Probabilístics (PrIx) per a la representació textual i s'explicarà la seva codificació usant TfIdf. També es discutirà la selecció de les millors característiques d'entrada per a xarxes neuronals mitjançant Information Gain (IG). En l'àmbit de les xarxes neuronals, s'abordaran models específics com Multilayer Perceptron (MLP), Xarxes Neuronals Convolucionals (CNNs) i xarxes basades en grafos (GNNs), a més d'una breu introducció als transformers. El primer problema que aborda la tesi és la segmentació de llibres històrics manuscrits en unitats semàntiques, un desafiament complex i recurrent en arxius de tot el món. A diferència dels llibres moderns, on la segmentació en capítols és més senzilla, els llibres històrics presenten desafiaments únics degut a la seva irregularitat i possible mala conservació. La tesi defineix formalment aquest problema per primera vegada i proposa un pipeline per extreure consistentment les unitats semàntiques en dues variants: una amb restriccions del corpus i una altra sense elles. S'empraran diferents tipus de xarxes neuronals, incloses CNNs per a la classificació de parts de la imatge i RPNs i transformers per detectar i classificar regions. A més, s'introdueix una nova mètrica per mesurar la pèrdua d'informació en la detecció, alineació i transcripció d'aquestes unitats semàntiques. Finalment, es compararan diferents mètodes de ``decoding'' i s'avaluaran els resultats en fins a cinc conjunts de dades diferents. En un altre capítol, la tesi aborda el desafiament de classificar documents històrics manuscrits no transcrits, específicament actes notarials a l'Arxiu Provincial Històric de Càdiz. Es desenvoluparà un marc que utilitza Índexs Probabilístics (PrIx) per classificar aquests documents i es compararà amb transcripcions 1-best obtingudes mitjançant tècniques de Reconèixer Text Manuscrit (HTR). A més de la classificació convencional en un conjunt tancat de classes (Close Set Classification, CSC), la tesi introdueix el marc d'Open Set Classification (OSC). Aquest enfocament no només classifica documents en classes predefinides, sinó que també identifica aquells que no pertanyen a cap de les classes establertes, permetent que un expert els etiqueti. Es compararan diverses tècniques per a aquest fi i es proposaran dues. Una sense llindar en les probabilitats a posteriori generades pel model de xarxa neuronal, i una altra que utilitza un llindar en les mateixes, amb l'opció d'ajustar-lo manualment segons les necessitats de l'expert. En un tercer capítol, la tesi es centra en l'Extracció d'Informació (IE) de documents tabulars manuscrits. Es desenvolupa un pipeline que comença amb la detecció de text en imatges amb taules, línia per línia, seguit de la seva transcripció mitjançant tècniques de HTR. De forma paral·lela, s'entrenaran diferents models per identificar l'estructura de les taules, incloses files, columnes i seccions de capçalera. El pipeline també aborda problemes comuns en taules manuscrites, com ara el multi-span de columnes i la substitució de text entre cometes. A més, s'empra un model de llenguatge entrenat específicament per detectar automàticament les capçaleres de les taules. S'utilitzaran dos conjunts de dades per demostrar l'eficàcia del pipeline en la tasca de IE, i s'identificaran les àrees de millora en el propi pipeline per a futures investigacions. / [EN] This thesis addresses unresolved issues in the field of Artificial Intelligence as applied to historical handwritten documents. The challenges include not only the degradation of the documents but also the scarcity of available data for training specialized models. This limitation is particularly relevant when the trend is to use large datasets and massive models to achieve significant breakthroughs. First, we provide an overview of various techniques and concepts used throughout the thesis. Different ways of representing data are explored, including images, text, and graphs. Probabilistic Indices (PrIx) are introduced for textual representation and its encoding using TfIdf is be explained. We also discuss selecting the best input features for neural networks using Information Gain (IG). In the realm of neural networks, specific models such as Multilayer Perceptron (MLP), Convolutional Neural Networks (CNNs), and graph-based networks (GNNs) are covered, along with a brief introduction to transformers. The first problem addressed in this thesis is the segmentation of historical handwritten books into semantic units, a complex and recurring challenge in archives worldwide. Unlike modern books, where chapter segmentation is relatively straightforward, historical books present unique challenges due to their irregularities and potential poor preservation. To the best of our knowledge, this thesis formally defines this problem. We propose a pipeline to consistently extract these semantic units in two variations: one with corpus-specific constraints and another without them. Various types of neural networks are employed, including Convolutional Neural Networks (CNNs) for classifying different parts of the image and Region Proposal Networks (RPNs) and transformers for detecting and classifying regions. Additionally, a new metric is introduced to measure the information loss in the detection, alignment, and transcription of these semantic units. Finally, different decoding methods are compared, and the results are evaluated across up to five different datasets. In another chapter, we tackle the challenge of classifying non-transcribed historical handwritten documents, specifically notarial deeds, from the Provincial Historical Archive of Cádiz. A framework is developed that employs Probabilistic Indices (PrIx) for classifying these documents, and this is compared to 1-best transcriptions obtained through Handwritten Text Recognition (HTR) techniques. In addition to conventional classification within a closed set of classes (Close Set Classification, CSC), this thesis introduces the Open Set Classification (OSC) framework. This approach not only classifies documents into predefined classes but also identifies those that do not belong to any of the established classes, allowing an expert to label them. Various techniques are compared, and two are proposed. One approach without using a threshold on the posterior probabilities generated by the neural network model. At the same time, the other employs a threshold on these probabilities, with the option for manual adjustment according to the expert's needs. In a third chapter, this thesis focuses on Information Extraction (IE) from handwritten tabular documents. A pipeline is developed that starts with detecting text in images containing tables, line by line, followed by its transcription using HTR techniques. In parallel, various models are trained to identify the structure of the tables, including rows, columns, and header sections. The pipeline also addresses common issues in handwritten tables, such as multi-span columns and substituting ditto marks. Additionally, a language model specifically trained to detect table headers automatically is employed. Two datasets are used to demonstrate the effectiveness of the pipeline in the IE task, and areas for improvement within the pipeline itself are identified for future research. / Prieto Fontcuberta, JR. (2024). Deep Learning Methodologies for Textual and Graphical Content-Based Analysis of Handwritten Text Images [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/206075 Reconocimiento de textos Aprendizaje profundo Análisis del diseño Extracción de información Clasificación de documentos Handwriting text recognition Deep learning Layout analysis Information extraction Document classification
514	Criação de vetores temáticos de domínios para a desambiguação polissêmica de termos. / Creation of thematic vectors of domains for the polysemic disambiguation of terms. BISPO, Magna Celi Tavares. 01 August 2018 (has links) Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-01T17:34:31Z No. of bitstreams: 1 MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) / Made available in DSpace on 2018-08-01T17:34:31Z (GMT). No. of bitstreams: 1 MAGNA CELI TAVARES BISPO - DISSERTAÇÃO PPGCC 2012..pdf: 13590339 bytes, checksum: 3903bd3ab6c0c474a6a7e9bf8b04e08a (MD5) Previous issue date: 2012-11-30 / A ambiguidade de termos é um dos fatores que dificulta o processo de indexação de documentos e recuperação de informação desejada por um usuário. O presente trabalho se baseia na hipótese de que parte deste problema pode ser minimizado sabendo-se de antemão o domínio do documento que contém termos ambíguos. Para determinar este domínio foram construídos vocabulários temáticos por meio da extração de termos de documentos de domínios de conhecimento pré-determinados, com o uso de regras sintáticas. A Wikipédia foi usada como base de consulta, por ser uma enciclopédia digital contendo as categorias definidas semelhantes à Classificação Decimal Universal (CDU), e cada categoria com uma vasta quantidade de documentos específicos, sendo essa característica fundamental para formação de um vocabulário específico do domínio de um conhecimento. A escolha das categorias foi baseada na CDU, composta de 10 domínios e seus respectivos subdomínios. Os vocabulários obtidos, denominados de Vetores Temáticos de Domínio (VTD), serviram de base para a classificação de novos documentos. Para validação dos VTD's, foram realizados três tipos de experimentos diferentes, o primeiro foi classificar novos documentos utilizando o método vetorial, tendo o VTD como base de consulta. O segundo experimento foi uma classificação utilizando outro classificador, o Intellexer Categorizer, e o terceiro experimento, criou-se um vetor de termos através do Weka, o qual foi submetido a servir de base de consulta para classificar novos documentos, utilizando o modelo vetorial. Os resultados foram satisfatórios, pois mostrou que o VTD obteve uma melhor classificação em relação aos outros métodos, dos 14 novos documentos, classificou 10 corretamente e 4 errados, apresentando uma acurácia de 80%, contra a acurácia de 57% do Intellexer Categorizer e de 50% da classificação utilizando o vetor de termos criado pelo Weka. / Terms ambiguity is one of the factors that hinders the document indexation and information retrieval processes desired by a user. This work is based on the hypothesis that part of this problem can be minimized by knowing beforehand the field of the document that contains ambiguous terms. To determine this domain, typical vocabularies were created through the extraction of terms from documents of predetermined knowledge domains, with the use of syntactical rules. Wikipedia was used as a consultation base because it is a digital encyclopedia that contains the categories defined similar to the Universal Decimal Classification (UDC), each category containing a vast amount of specific documents, being this feature essential for the formation of a domain-specific vocabulary. The choice of the categories was based on the UDC, composed of 10 domains and their respective subdomains. The vocabularies obtained, denominated as Thematic Domain Vectors (TDV), served as the basis for the classification of new documents. For the validation of the TDVs, three different types of experiments were performed: the first was to classify new documents using the vectorial method, with the TDV as a basis of consultation. The second experiment was a classification using another classifier, the Intellexer Categorizer. For the third experiment was created a vector of terms through Weka, which was submitted to serve as a a consultation base to classify new documents using the vectorial model. The results were satisfactory, because they showed that the TDV obtained a better classification relative to other methods. Of the 14 new documents, properly it rated 10 and 4 incorrectly, with an accuracy of 80%, against 57% accuracy of the Intellexer Categorizer program and 50% of the classification using the Weka created vector of terms. Ciência da Computação. Ciência da Informação. Vetores temáticos de domínios Desambiguação polissêmica de termos Indexação de documentos Ambiguidade de termos - indexação Vocabulários temáticos Recuperação da informação Classificação Decimal Universal - CDU Vocabulário controlado Intellexer Categorizer Processamento da linguagem natural Postagger Thematic vocabulaires Document indexing Information retrieval
515	Compreendendo o sofrimento decorrente do trabalho nos motoboys de Fortaleza-CE GONDIM, Andressa Alencar January 2009 (has links) GONDIM , Andressa Alencar. Compreendendo o sofrimento decorrente do trabalho nos motoboys de Fortaleza-CE . 2009. 106f. Dissertação (Mestrado em Psicologia) – Universidade Federal do Ceará, Departamento de Psicologia, Programa de Pós-Graduação em Psicologia, Fortaleza-CE, 2009. / Submitted by moises gomes (celtinha_malvado@hotmail.com) on 2011-11-30T20:14:36Z No. of bitstreams: 1 2009_dis_AAGondim.PDF: 807684 bytes, checksum: ebca05c3606e6eb6ce0c8547c6554943 (MD5) / Approved for entry into archive by Maria Josineide Góis(josineide@ufc.br) on 2012-01-09T15:26:47Z (GMT) No. of bitstreams: 1 2009_dis_AAGondim.PDF: 807684 bytes, checksum: ebca05c3606e6eb6ce0c8547c6554943 (MD5) / Made available in DSpace on 2012-01-09T15:26:47Z (GMT). No. of bitstreams: 1 2009_dis_AAGondim.PDF: 807684 bytes, checksum: ebca05c3606e6eb6ce0c8547c6554943 (MD5) Previous issue date: 2009 / Contemporaneously, motorcycle delivery workers – also known as motoboys – have become popular due to their capacity of accomplishing tasks in a short period of time. Nonetheless, because of the risks the motoboys accept to take, they have been labeled as irresponsible riders by drivers and pedestrians. Hence considering that this group is formed by subcontracted workers who have to perform their job under dangerous circumstances, the present study aimed to research the link between the labor precarization experienced by the motoboys and the accident/violence risks they’re subject to. Their strategies to remain employed as well as the consequences of this relation were also discussed. Semi-structured interviews were undertaken with five motoboys from Fortaleza-CE, adopting the qualitative paradigm. The interviews were analyzed using thematic content analysis, methodology through which we came to understand that the job demands are directly related to the risks the motoboys are subject to on a regular basis. Since they need to optimize their time, trying to perform as much tasks as they can, in the shortest period of time possible, it turns out that they work under pressure and eventually violate traffic laws. The fact that they have no stable salary and that their income is proportional to their production is also another factor that increases the potential risks of work accidents. Urban violence is another important risk element against the motoboys, causing them to fear their work and forcing them to adopt defense strategies to remain on the job. / O trabalho dos motoboys tem ganhado espaço na contemporaneidade pela agilidade desses profissionais em realizar serviços em tempo reduzido – o que os torna indispensáveis quando deles se necessita. Em contrapartida, esses trabalhadores são rotulados de irresponsáveis em virtude dos riscos a que se expõem. Por isso, têm uma imagem negativa para a maioria dos atores do trânsito. Considerando, pois, que os motoboys se encontram sob condições laborais precarizadas, trabalhando na informalidade e submetendo-se a riscos constantes, o presente estudo buscou compreender a relação entre essa situação de precarização laboral vivenciada por esses profissionais e os riscos de acidentes e de violência a que estão expostos, assim como as conseqüências desse cenário para esses trabalhadores e as estratégias que desenvolvem para permanecer na ocupação. Para isso, foram realizadas entrevistas semi-estruturadas com cinco motoboys de Fortaleza (CE), seguindo o paradigma qualitativo. Posteriormente, os dados foram analisados a partir da Análise de Conteúdo Temática. Foi possível perceber que a organização do trabalho está diretamente relacionada aos riscos a que os motoboys estão submetidos em seu cotidiano. Essa organização laboral provoca um aumento de pressão sobre esses profissionais, já que, visando à redução de tempo na realização das atividades, faz com que os trabalhadores conduzam suas motocicletas em velocidade elevada, muitas vezes infringindo as leis de trânsito. O trabalho por produção, uma vez que não há salário fixo, também é outro fator que potencializa os riscos de acidentes no trabalho dos motoboys, que aceleram suas motos para aumentar a renda e garantir a subsistência. A violência urbana é outro relevante elemento de risco para os motoboys, causando-lhes medo e obrigando-os a desenvolverem estratégias de defesa para continuarem na profissão. Trabalho Sofrimento Motoboys Work, suffering, motoboys
516	Retrato de uma disciplina ameaçada : a literatura nos documentos oficiais e no Exame Nacional do Ensino Médio (Enem) Luft, Gabriela Fernanda Cé January 2014 (has links) Esta pesquisa se constitui em um trabalho de intervenção: propõe-se a discutir a crise que ameaça, conforme expressão utilizada por Antonio Candido, o “direito à literatura” na sala de aula, ou seja, o processo de desvalorização da literatura como disciplina escolar, formalmente retirada como área de conhecimento do currículo de ensino médio a partir das reformas educacionais realizadas nos últimos anos e da imposição do Exame Nacional do Ensino Médio (Enem) como o virtual vestibular único no país. A partir da exposição dos resultados de diferentes instrumentos que visam à verificação de habilidades leitoras e de uma pesquisa de campo realizada com alunos de terceiro ano do ensino médio de escolas públicas e particulares dos municípios gaúchos de Porto Alegre e Passo Fundo, apresentam-se as problemáticas concernentes ao ensino de literatura na atualidade, recupera-se a trajetória histórica do ensino da disciplina, investiga-se sua abordagem em documentos oficiais (Parâmetros Curriculares Nacionais para o Ensino Médio, Orientações Complementares aos Parâmetros Curriculares Nacionais para o Ensino Médio e Orientações Curriculares Nacionais para o Ensino Médio) e, de modo especial, analisam-se, quantitativa e qualitativamente, as questões de literatura presentes nas provas do Enem realizadas entre 1998 e 2013. Revela-se, com base nos dados levantados, uma tendência a ser combatida, haja vista a gradual perda de espaço da disciplina no exame – e, consequentemente, nos currículos escolares –, a negligência das especificidades do texto literário e a excessiva valorização da leitura funcional, entre outros aspectos. Finalmente, analisam-se as consequências, para o ensino de literatura nas escolas, da adoção dos preceitos arrolados em documentos oficiais e do Enem como processo seletivo nacional e, por meio de uma concepção que privilegia a leitura cultural em detrimento da abordagem do texto literário em sua vertente funcional, evocam-se, conforme concepções de Candido, Ceia, Colomer, Fischer, Giardinelli, Todorov, Yunes, Zilberman, entre outros, os valores implicados na difusão da tradição literária. / This is an intervention study that discusses the crisis which threatens the “right to literature” (expression used by Antonio Candido, a renowned theoretician in Brazilian Literature) in schools regarding the process of devaluing literature as a school subject. In later years, it has been formally removed as an area of knowledge from the secondary school curriculum, in current educational reforms. Additionally, there is a growing tendency to an imposition of Enem (Brazilian Portuguese acronym that stands for Exame Nacional do Ensino Médio; in English, National Secondary Education Examination) as the virtually sole admission test for enrollment in universities in Brazil. This thesis is comprised of different instruments which aimed at verifying reading abilities, as well as the results of a field research done with secondary school seniors from public and private schools in Porto Alegre and Passo Fundo (cities in the south of Brazil). This study presents the historical path of the teaching of literature in Brazil and identifies problems concerning the current teaching of this subject by investigating the way it is approached in official documents (National Curriculum Parameters for Secondary Education, Supplementary Orientations to the National Curriculum Parameters for Secondary Education and National Curriculum Orientations for Secondary Education). Additionally, questions about literature extracted from Enem tests from 1998 to 2013 were subject to quantitative and qualitative analyzes. The data show a tendency to be countered: the gradual loss of ground of the subject in the admission exam – and, as a consequence, in school curricula –, as well as the neglecting of the literary text specificities and the overvaluation of functional reading, inter alia. Finally, this thesis analyzes the consequences of the adoption of the aforementioned official documents precepts and of Enem as a national college admission exam, and adopts a standpoint which privileges cultural reading (to the detriment of a functional approach to the literary text) and the values implied in the dissemination of the literary tradition (according to concepts by Candido, Ceia, Colomer, Fischer, Giardinelli, Todorov, Yunes, Zilberman and others). / Esta investigación se constituye en un trabajo de intervención: se propone discutir la crisis que amenaza, según expresión utilizada por Antonio Candido, el “derecho a la literatura” en aula, o sea, el proceso de desvalorización de la literatura como asignatura escolar en Brasil, formalmente retirada como área de conocimiento del currículo de enseñanza media a partir de las reformas educacionales realizadas en los últimos años y de la imposición del “Exame Nacional do Ensino Médio (Enem)” como el único examen de ingreso universitario en el país. A partir de la exposición de los resultados de distintos instrumentos que pretenden verificar habilidades lectoras y de un estudio de campo realizado con alumnos del tercer año de la enseñanza media de escuelas públicas y privadas de los municipios de Porto Alegre y Passo Fundo (ambos de Rio Grande do Sul/Brasil), se presentan las problemáticas concernientes a la enseñanza de literatura en la actualidad, se recupera la trayectoria histórica de la enseñanza de la asignatura, se investiga su enfoque en documentos oficiales (“Parâmetros Curriculares Nacionais para o Ensino Médio”, “Orientações Complementares aos Parâmetros Curriculares Nacionais para o Ensino Médio” y “Orientações Curriculares Nacionais para o Ensino Médio”) y, de manera especial, se analizan, desde el punto de vista cuantitativo y cualitativo, las cuestiones de literatura presentes en las pruebas de “Enem” realizadas entre 1998 y 2013. Se revela, a partir de los datos obtenidos, una tendencia que debe ser combatida, en vista de la gradual pérdida de espacio de la asignatura en dicho examen – y, consecuentemente, en los currículos escolares –, la negligencia de las especificidades del texto literario y la excesiva valoración de la lectura funcional, entre otros aspectos. Finalmente, se analizan las consecuencias, para la enseñanza de literatura en las escuelas, de la adopción de los preceptos listados en documentos oficiales y de “Enem” como proceso selectivo nacional y, a partir de una concepción que privilegia la lectura cultural en detrimento del enfoque del texto literario en su vertiente funcional, se evocan, según concepciones de Candido, Ceia, Colomer, Fischer, Giardinelli, Todorov, Yunes, Zilberman, entre otros, los valores implicados en la difusión de la tradición literaria. Práticas educativas Documentos oficiais Exame Nacional do Ensino Médio (ENEM) Textualidade Formação de leitores Leitura e escrita Ensino médio Ensino de literatura Ensino e aprendizagem Literature teaching in Brazil Readers development Enseñanza de literatura en Brasil Formación del lector
517	Retrato de uma disciplina ameaçada : a literatura nos documentos oficiais e no Exame Nacional do Ensino Médio (Enem) Luft, Gabriela Fernanda Cé January 2014 (has links) Esta pesquisa se constitui em um trabalho de intervenção: propõe-se a discutir a crise que ameaça, conforme expressão utilizada por Antonio Candido, o “direito à literatura” na sala de aula, ou seja, o processo de desvalorização da literatura como disciplina escolar, formalmente retirada como área de conhecimento do currículo de ensino médio a partir das reformas educacionais realizadas nos últimos anos e da imposição do Exame Nacional do Ensino Médio (Enem) como o virtual vestibular único no país. A partir da exposição dos resultados de diferentes instrumentos que visam à verificação de habilidades leitoras e de uma pesquisa de campo realizada com alunos de terceiro ano do ensino médio de escolas públicas e particulares dos municípios gaúchos de Porto Alegre e Passo Fundo, apresentam-se as problemáticas concernentes ao ensino de literatura na atualidade, recupera-se a trajetória histórica do ensino da disciplina, investiga-se sua abordagem em documentos oficiais (Parâmetros Curriculares Nacionais para o Ensino Médio, Orientações Complementares aos Parâmetros Curriculares Nacionais para o Ensino Médio e Orientações Curriculares Nacionais para o Ensino Médio) e, de modo especial, analisam-se, quantitativa e qualitativamente, as questões de literatura presentes nas provas do Enem realizadas entre 1998 e 2013. Revela-se, com base nos dados levantados, uma tendência a ser combatida, haja vista a gradual perda de espaço da disciplina no exame – e, consequentemente, nos currículos escolares –, a negligência das especificidades do texto literário e a excessiva valorização da leitura funcional, entre outros aspectos. Finalmente, analisam-se as consequências, para o ensino de literatura nas escolas, da adoção dos preceitos arrolados em documentos oficiais e do Enem como processo seletivo nacional e, por meio de uma concepção que privilegia a leitura cultural em detrimento da abordagem do texto literário em sua vertente funcional, evocam-se, conforme concepções de Candido, Ceia, Colomer, Fischer, Giardinelli, Todorov, Yunes, Zilberman, entre outros, os valores implicados na difusão da tradição literária. / This is an intervention study that discusses the crisis which threatens the “right to literature” (expression used by Antonio Candido, a renowned theoretician in Brazilian Literature) in schools regarding the process of devaluing literature as a school subject. In later years, it has been formally removed as an area of knowledge from the secondary school curriculum, in current educational reforms. Additionally, there is a growing tendency to an imposition of Enem (Brazilian Portuguese acronym that stands for Exame Nacional do Ensino Médio; in English, National Secondary Education Examination) as the virtually sole admission test for enrollment in universities in Brazil. This thesis is comprised of different instruments which aimed at verifying reading abilities, as well as the results of a field research done with secondary school seniors from public and private schools in Porto Alegre and Passo Fundo (cities in the south of Brazil). This study presents the historical path of the teaching of literature in Brazil and identifies problems concerning the current teaching of this subject by investigating the way it is approached in official documents (National Curriculum Parameters for Secondary Education, Supplementary Orientations to the National Curriculum Parameters for Secondary Education and National Curriculum Orientations for Secondary Education). Additionally, questions about literature extracted from Enem tests from 1998 to 2013 were subject to quantitative and qualitative analyzes. The data show a tendency to be countered: the gradual loss of ground of the subject in the admission exam – and, as a consequence, in school curricula –, as well as the neglecting of the literary text specificities and the overvaluation of functional reading, inter alia. Finally, this thesis analyzes the consequences of the adoption of the aforementioned official documents precepts and of Enem as a national college admission exam, and adopts a standpoint which privileges cultural reading (to the detriment of a functional approach to the literary text) and the values implied in the dissemination of the literary tradition (according to concepts by Candido, Ceia, Colomer, Fischer, Giardinelli, Todorov, Yunes, Zilberman and others). / Esta investigación se constituye en un trabajo de intervención: se propone discutir la crisis que amenaza, según expresión utilizada por Antonio Candido, el “derecho a la literatura” en aula, o sea, el proceso de desvalorización de la literatura como asignatura escolar en Brasil, formalmente retirada como área de conocimiento del currículo de enseñanza media a partir de las reformas educacionales realizadas en los últimos años y de la imposición del “Exame Nacional do Ensino Médio (Enem)” como el único examen de ingreso universitario en el país. A partir de la exposición de los resultados de distintos instrumentos que pretenden verificar habilidades lectoras y de un estudio de campo realizado con alumnos del tercer año de la enseñanza media de escuelas públicas y privadas de los municipios de Porto Alegre y Passo Fundo (ambos de Rio Grande do Sul/Brasil), se presentan las problemáticas concernientes a la enseñanza de literatura en la actualidad, se recupera la trayectoria histórica de la enseñanza de la asignatura, se investiga su enfoque en documentos oficiales (“Parâmetros Curriculares Nacionais para o Ensino Médio”, “Orientações Complementares aos Parâmetros Curriculares Nacionais para o Ensino Médio” y “Orientações Curriculares Nacionais para o Ensino Médio”) y, de manera especial, se analizan, desde el punto de vista cuantitativo y cualitativo, las cuestiones de literatura presentes en las pruebas de “Enem” realizadas entre 1998 y 2013. Se revela, a partir de los datos obtenidos, una tendencia que debe ser combatida, en vista de la gradual pérdida de espacio de la asignatura en dicho examen – y, consecuentemente, en los currículos escolares –, la negligencia de las especificidades del texto literario y la excesiva valoración de la lectura funcional, entre otros aspectos. Finalmente, se analizan las consecuencias, para la enseñanza de literatura en las escuelas, de la adopción de los preceptos listados en documentos oficiales y de “Enem” como proceso selectivo nacional y, a partir de una concepción que privilegia la lectura cultural en detrimento del enfoque del texto literario en su vertiente funcional, se evocan, según concepciones de Candido, Ceia, Colomer, Fischer, Giardinelli, Todorov, Yunes, Zilberman, entre otros, los valores implicados en la difusión de la tradición literaria. Práticas educativas Documentos oficiais Exame Nacional do Ensino Médio (ENEM) Textualidade Formação de leitores Leitura e escrita Ensino médio Ensino de literatura Ensino e aprendizagem Literature teaching in Brazil Readers development Enseñanza de literatura en Brasil Formación del lector
518	Retrato de uma disciplina ameaçada : a literatura nos documentos oficiais e no Exame Nacional do Ensino Médio (Enem) Luft, Gabriela Fernanda Cé January 2014 (has links) Esta pesquisa se constitui em um trabalho de intervenção: propõe-se a discutir a crise que ameaça, conforme expressão utilizada por Antonio Candido, o “direito à literatura” na sala de aula, ou seja, o processo de desvalorização da literatura como disciplina escolar, formalmente retirada como área de conhecimento do currículo de ensino médio a partir das reformas educacionais realizadas nos últimos anos e da imposição do Exame Nacional do Ensino Médio (Enem) como o virtual vestibular único no país. A partir da exposição dos resultados de diferentes instrumentos que visam à verificação de habilidades leitoras e de uma pesquisa de campo realizada com alunos de terceiro ano do ensino médio de escolas públicas e particulares dos municípios gaúchos de Porto Alegre e Passo Fundo, apresentam-se as problemáticas concernentes ao ensino de literatura na atualidade, recupera-se a trajetória histórica do ensino da disciplina, investiga-se sua abordagem em documentos oficiais (Parâmetros Curriculares Nacionais para o Ensino Médio, Orientações Complementares aos Parâmetros Curriculares Nacionais para o Ensino Médio e Orientações Curriculares Nacionais para o Ensino Médio) e, de modo especial, analisam-se, quantitativa e qualitativamente, as questões de literatura presentes nas provas do Enem realizadas entre 1998 e 2013. Revela-se, com base nos dados levantados, uma tendência a ser combatida, haja vista a gradual perda de espaço da disciplina no exame – e, consequentemente, nos currículos escolares –, a negligência das especificidades do texto literário e a excessiva valorização da leitura funcional, entre outros aspectos. Finalmente, analisam-se as consequências, para o ensino de literatura nas escolas, da adoção dos preceitos arrolados em documentos oficiais e do Enem como processo seletivo nacional e, por meio de uma concepção que privilegia a leitura cultural em detrimento da abordagem do texto literário em sua vertente funcional, evocam-se, conforme concepções de Candido, Ceia, Colomer, Fischer, Giardinelli, Todorov, Yunes, Zilberman, entre outros, os valores implicados na difusão da tradição literária. / This is an intervention study that discusses the crisis which threatens the “right to literature” (expression used by Antonio Candido, a renowned theoretician in Brazilian Literature) in schools regarding the process of devaluing literature as a school subject. In later years, it has been formally removed as an area of knowledge from the secondary school curriculum, in current educational reforms. Additionally, there is a growing tendency to an imposition of Enem (Brazilian Portuguese acronym that stands for Exame Nacional do Ensino Médio; in English, National Secondary Education Examination) as the virtually sole admission test for enrollment in universities in Brazil. This thesis is comprised of different instruments which aimed at verifying reading abilities, as well as the results of a field research done with secondary school seniors from public and private schools in Porto Alegre and Passo Fundo (cities in the south of Brazil). This study presents the historical path of the teaching of literature in Brazil and identifies problems concerning the current teaching of this subject by investigating the way it is approached in official documents (National Curriculum Parameters for Secondary Education, Supplementary Orientations to the National Curriculum Parameters for Secondary Education and National Curriculum Orientations for Secondary Education). Additionally, questions about literature extracted from Enem tests from 1998 to 2013 were subject to quantitative and qualitative analyzes. The data show a tendency to be countered: the gradual loss of ground of the subject in the admission exam – and, as a consequence, in school curricula –, as well as the neglecting of the literary text specificities and the overvaluation of functional reading, inter alia. Finally, this thesis analyzes the consequences of the adoption of the aforementioned official documents precepts and of Enem as a national college admission exam, and adopts a standpoint which privileges cultural reading (to the detriment of a functional approach to the literary text) and the values implied in the dissemination of the literary tradition (according to concepts by Candido, Ceia, Colomer, Fischer, Giardinelli, Todorov, Yunes, Zilberman and others). / Esta investigación se constituye en un trabajo de intervención: se propone discutir la crisis que amenaza, según expresión utilizada por Antonio Candido, el “derecho a la literatura” en aula, o sea, el proceso de desvalorización de la literatura como asignatura escolar en Brasil, formalmente retirada como área de conocimiento del currículo de enseñanza media a partir de las reformas educacionales realizadas en los últimos años y de la imposición del “Exame Nacional do Ensino Médio (Enem)” como el único examen de ingreso universitario en el país. A partir de la exposición de los resultados de distintos instrumentos que pretenden verificar habilidades lectoras y de un estudio de campo realizado con alumnos del tercer año de la enseñanza media de escuelas públicas y privadas de los municipios de Porto Alegre y Passo Fundo (ambos de Rio Grande do Sul/Brasil), se presentan las problemáticas concernientes a la enseñanza de literatura en la actualidad, se recupera la trayectoria histórica de la enseñanza de la asignatura, se investiga su enfoque en documentos oficiales (“Parâmetros Curriculares Nacionais para o Ensino Médio”, “Orientações Complementares aos Parâmetros Curriculares Nacionais para o Ensino Médio” y “Orientações Curriculares Nacionais para o Ensino Médio”) y, de manera especial, se analizan, desde el punto de vista cuantitativo y cualitativo, las cuestiones de literatura presentes en las pruebas de “Enem” realizadas entre 1998 y 2013. Se revela, a partir de los datos obtenidos, una tendencia que debe ser combatida, en vista de la gradual pérdida de espacio de la asignatura en dicho examen – y, consecuentemente, en los currículos escolares –, la negligencia de las especificidades del texto literario y la excesiva valoración de la lectura funcional, entre otros aspectos. Finalmente, se analizan las consecuencias, para la enseñanza de literatura en las escuelas, de la adopción de los preceptos listados en documentos oficiales y de “Enem” como proceso selectivo nacional y, a partir de una concepción que privilegia la lectura cultural en detrimento del enfoque del texto literario en su vertiente funcional, se evocan, según concepciones de Candido, Ceia, Colomer, Fischer, Giardinelli, Todorov, Yunes, Zilberman, entre otros, los valores implicados en la difusión de la tradición literaria. Práticas educativas Documentos oficiais Exame Nacional do Ensino Médio (ENEM) Textualidade Formação de leitores Leitura e escrita Ensino médio Ensino de literatura Ensino e aprendizagem Literature teaching in Brazil Readers development Enseñanza de literatura en Brasil Formación del lector
519	Recuperação Contextualizada de Documentos Integrados pelo Protocolo OAI-PMH / Contextualized Retrieval of Documents Integrated by Protocol OAI-PMH OLIVEIRA, Renan Rodrigues de 09 April 2010 (has links) Made available in DSpace on 2014-07-29T14:57:53Z (GMT). No. of bitstreams: 1 Renan Rodrigues 1.pdf: 1818012 bytes, checksum: b12a88acdfeb11f473ab5b1087c11311 (MD5) Previous issue date: 2010-04-09 / This work focuses on two aspects: the integration of a set of digital libraries, repositories and other data providers through the OAI-PMH protocol (Open Archives Initiative Protocol for Metadata Harvesting) and contextualized documents retrieval in this integrated repository. It is proposed the use of ontologies and content analysis of articles in wiki environments in the context definition. The interest in ontologies is in its use as artifacts of specification domain. An ontology is a data model that represents a set of concepts and their relationships within a domain of knowledge. A wiki is a collaborative environment, containing a collection of items connected by hyperlinks, which can be edited collectively by using a web browser. In this work, the wiki environments are used as an auxiliary repository of knowledge to the extraction of relevant terms. Thus, several concepts and relationships that may not be present in the ontology that specifies the domain of knowledge (since the construction of ontologies is a complex process) can be identified. The result of the developed tool processing is a ranking of documents ordered by a higher degree of importance with respect to the query provided by a user and a particular domain of knowledge, which is specified by an ontology. / Este trabalho aborda duas vertentes: a integração de um conjunto de bibliotecas digitais, repositórios e outros provedores de dados por meio do protocolo OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) e a recuperação contextualizada de documentos neste repositório integrado. Propõe-se a definição dos contextos utilizando ontologias e a análise do conteúdo de artigos de ambientes wiki. O interesse em ontologias está no seu uso como artefatos de especificação de domínios. Uma ontologia é um modelo de dados que representa um conjunto de conceitos e seus relacionamentos, dentro de um domínio de conhecimento. Um wiki é um ambiente colaborativo, que contêm uma coleção de artigos conectados através de hiperlinks, que podem ser editados coletivamente, através da utilização de um navegador web. Neste trabalho, os ambientes wiki são utilizados como um repositório de conhecimento auxiliar, para a extração de termos relevantes. Dessa forma, diversos conceitos e relacionamentos que podem não estar presentes na ontologia que especifica o domínio de conhecimento (uma vez que a construção de ontologias é um processo complexo) podem ser identificados. O resultado do processamento da ferramenta desenvolvida é um ranking de documentos ordenado por maior grau de relevância com relação à consulta fornecida por um usuário e a um determinado domínio de conhecimento, que é especificado por uma ontologia. OAI-PMH Integração de Repositórios Digitais Ontologias Ambientes Wiki Contextualização de Documentos OAI-PMH Integration of Digital Repositories Ontologies Wiki Environments Contextualization of Documents
520	Layout Analysis for Handwritten Documents. A Probabilistic Machine Learning Approach Quirós Díaz, Lorenzo 21 March 2022 (has links) [ES] El Análisis de la Estructura de Documentos (Document Layout Analysis), aplicado a documentos manuscritos, tiene como objetivo obtener automáticamente la estructura intrínseca de dichos documentos. Su desarrollo como campo de investigación se extiende desde los sistemas de segmentación de caracteres desarrollados a principios de la década de 1960 hasta los sistemas complejos desarrollados en la actualidad, donde el objetivo es analizar estructuras de alto nivel (líneas de texto, párrafos, tablas, etc.) y la relación que existe entre ellas. Esta tesis, en primer lugar, define el objetivo del Análisis de la Estructura de Documentos desde una perspectiva probabilística. A continuación, la complejidad del problema se reduce a un conjunto de subproblemas complementarios bien conocidos, de manera que pueda ser gestionado por medio de recursos informáticos modernos. Concretamente se abordan tres de los principales problemas del Análisis de la Estructura de Documentos siguiendo una formulación probabilística. Específicamente se aborda la Detección de Línea Base (Baseline Detection), la Segmentación de Regiones (Region Segmentation) y la Determinación del Orden de Lectura (Reading Order Determination). Uno de los principales aportes de esta tesis es la formalización de los problemas de Detección de Línea Base y Segmentación de Regiones bajo un marco probabilístico, donde ambos problemas pueden ser abordados por separado o de forma integrada por los modelos propuestos. Este último enfoque ha demostrado ser muy útil para procesar grandes colecciones de documentos con recursos informáticos limitados. Posteriormente se aborda el subproblema de la Determinación del Orden de Lectura, que es uno de los subproblemas más importantes, aunque subestimados, del Análisis de la Extructura de Documentos, ya que es el nexo que permite convertir los datos extraídos de los sistemas de Reconocimiento Automático de Texto (Automatic Text Recognition Systems) en información útil. Por lo tanto, en esta tesis abordamos y formalizamos la Determinación del Orden de Lectura como un problema de clasificación probabilística por pares. Además, se proponen dos diferentes algoritmos de decodificación que reducen la complejidad computacional del problema. Por otra parte, se utilizan diferentes modelos estadísticos para representar la distribución de probabilidad sobre la estructura de los documentos. Estos modelos, basados en Redes Neuronales Artificiales (desde un simple Perceptrón Multicapa hasta complejas Redes Convolucionales y Redes de Propuesta de Regiones), se estiman a partir de datos de entrenamiento utilizando algoritmos de aprendizaje automático supervisados. Finalmente, todas las contribuciones se evalúan experimentalmente, no solo en referencias académicas estándar, sino también en colecciones de miles de imágenes. Se han considerado documentos de texto manuascritos y documentos musicales manuscritos, ya que en conjunto representan la mayoría de los documentos presentes en bibliotecas y archivos. Los resultados muestran que los métodos propuestos son muy precisos y versátiles en una amplia gama de documentos manuscritos. / [CA] L'Anàlisi de l'Estructura de Documents (Document Layout Analysis), aplicada a documents manuscrits, pretén automatitzar l'obtenció de l'estructura intrínseca d'un document. El seu desenvolupament com a camp d'investigació comprén des dels sistemes de segmentació de caràcters creats al principi dels anys 60 fins als complexos sistemes de hui dia que busquen analitzar estructures d'alt nivell (línies de text, paràgrafs, taules, etc) i les relacions entre elles. Aquesta tesi busca, primer de tot, definir el propòsit de l'anàlisi de l'estructura de documents des d'una perspectiva probabilística. Llavors, una vegada reduïda la complexitat del problema, es processa utilitzant recursos computacionals moderns, per a dividir-ho en un conjunt de subproblemes complementaris més coneguts. Concretament, tres dels principals subproblemes de l'Anàlisi de l'Estructura de Documents s'adrecen seguint una formulació probabilística: Detecció de la Línia Base Baseline Detection), Segmentació de Regions (Region Segmentation) i Determinació de l'Ordre de Lectura (Reading Order Determination). Una de les principals contribucions d'aquesta tesi és la formalització dels problemes de la Detecció de les Línies Base i dels de Segmentació de Regions en un entorn probabilístic, sent els dos problemes tractats per separat o integrats en conjunt pels models proposats. Aquesta última aproximació ha demostrat ser de molta utilitat per a la gestió de grans col·leccions de documents amb uns recursos computacionals limitats. Posteriorment s'ha adreçat el subproblema de la Determinació de l'Ordre de Lectura, sent un dels subproblemes més importants de l'Anàlisi d'Estructures de Documents, encara així subestimat, perquè és el nexe que permet transformar en informació d'utilitat l'extracció de dades dels sistemes de reconeixement automàtic de text. És per això que el fet de determinar l'ordre de lectura s'adreça i formalitza com un problema d'ordenació probabilística per parells. A més, es proposen dos algoritmes descodificadors diferents que reducix la complexitat computacional del problema. Per altra banda s'utilitzen diferents models estadístics per representar la distribució probabilística sobre l'estructura dels documents. Aquests models, basats en xarxes neuronals artificials (des d'un simple perceptron multicapa fins a complexes xarxes convolucionals i de propostes de regió), s'estimen a partir de dades d'entrenament mitjançant algoritmes d'aprenentatge automàtic supervisats. Finalment, totes les contribucions s'avaluen experimentalment, no només en referents acadèmics estàndard, sinó també en col·leccions de milers d'imatges. S'han considerat documents de text manuscrit i documents musicals manuscrits, ja que representen la majoria de documents presents a biblioteques i arxius. Els resultats mostren que els mètodes proposats són molt precisos i versàtils en una àmplia gamma de documents manuscrits. / [EN] Document Layout Analysis, applied to handwritten documents, aims to automatically obtain the intrinsic structure of a document. Its development as a research field spans from the character segmentation systems developed in the early 1960s to the complex systems designed nowadays, where the goal is to analyze high-level structures (lines of text, paragraphs, tables, etc) and the relationship between them. This thesis first defines the goal of Document Layout Analysis from a probabilistic perspective. Then, the complexity of the problem is reduced, to be handled by modern computing resources, into a set of well-known complementary subproblems. More precisely, three of the main subproblems of Document Layout Analysis are addressed following a probabilistic formulation, namely Baseline Detection, Region Segmentation and Reading Order Determination. One of the main contributions of this thesis is the formalization of Baseline Detection and Region Segmentation problems under a probabilistic framework, where both problems can be handled separately or in an integrated way by the proposed models. The latter approach is proven to be very useful to handle large document collections under restricted computing resources. Later, the Reading Order Determination subproblem is addressed. It is one of the most important, yet underestimated, subproblem of Document Layout Analysis, since it is the bridge that allows us to convert the data extracted from Automatic Text Recognition systems into useful information. Therefore, Reading Order Determination is addressed and formalized as a pairwise probabilistic sorting problem. Moreover, we propose two different decoding algorithms that reduce the computational complexity of the problem. Furthermore, different statistical models are used to represent the probability distribution over the structure of the documents. These models, based on Artificial Neural Networks (from a simple Multilayer Perceptron to complex Convolutional and Region Proposal Networks), are estimated from training data using supervised Machine Learning algorithms. Finally, all the contributions are experimentally evaluated, not only on standard academic benchmarks but also in collections of thousands of images. We consider handwritten text documents and handwritten musical documents as they represent the majority of documents in libraries and archives. The results show that the proposed methods are very accurate and versatile in a very wide range of handwritten documents. / Quirós Díaz, L. (2022). Layout Analysis for Handwritten Documents. A Probabilistic Machine Learning Approach [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/181483 Análisis de la estructura de documentos Comprensión de documentos Detección de líneas de base Segmentación de regiones Orden de lectura Reconocimiento de patrones Manuscritos históricos Redes neuronales artificiales Aprendizaje automático Aprendizaje profundo Document layout analysis Handwritten text recognition Document understanding Baseline detection Region segmentation Reading order Pattern recognition Historical manuscripts Artificial neural networks Machine learning Deep learning

Search results