51 |
Reconnaissance et classification d’images de documents / Document image retrieval and classificationAugereau, Olivier 14 February 2013 (has links)
Ces travaux de recherche ont pour ambition de contribuer à la problématique de la classification d’images de documents. Plus précisément, ces travaux tendent à répondre aux problèmes rencontrés par des sociétés de numérisation dont l’objectif est de mettre à disposition de leurs clients une version numérique des documents papiers accompagnés d’informations qui leurs sont relatives. Face à la diversité des documents à numériser, l’extraction d’informations peut s’avérer parfois complexe. C’est pourquoi la classification et l’indexation des documents sont très souvent réalisées manuellement. Ces travaux de recherche ont permis de fournir différentes solutions en fonction des connaissances relatives aux images que possède l’utilisateur ayant en charge l’annotation des documents.Le premier apport de cette thèse est la mise en place d’une méthode permettant, de manière interactive, à un utilisateur de classer des images de documents dont la nature est inconnue. Le second apport de ces travaux est la proposition d’une technique de recherche d’images de documents par l’exemple basée sur l’extraction et la mise en correspondance de points d’intérêts. Le dernier apport de cette thèse est l’élaboration d’une méthode de classification d’images de documents utilisant les techniques de sacs de mots visuels. / The aim of this research is to contribute to the document image classification problem. More specifically, these studies address digitizing company issues which objective is to provide the digital version of paper document with information relating to them. Given the diversity of documents, information extraction can be complex. This is why the classification and the indexing of documents are often performed manually. This research provides several solutions based on knowledge of the images that the user has. The first contribution of this thesis is a method for classifying interactively document images, where the content of documents and classes are unknown. The second contribution of this work is a new technique for document image retrieval by giving one example of researched document. This technique is based on the extraction and matching of interest points. The last contribution of this thesis is a method for classifying document images by using bags of visual words techniques.
|
52 |
Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia / Representation of documents combining text and image : application to categorization and multimedia information retrievalMoulin, Christophe 22 June 2011 (has links)
L'exploitation des documents multimédias pose des problèmes de représentation des informations textuelles et visuelles contenues dans ces documents. Notre but est de proposer un modèle permettant de représenter chacune de ces informations et de les combiner en vue de deux tâches : la catégorisation et la recherche d'information. Ce modèle représente les documents sous forme de sacs de mots nécessitant la création de vocabulaires spécifiques. Le vocabulaire textuel, généralement de très grande taille, est constitué des mots apparaissant dans les documents. Le vocabulaire visuel est quant à lui construit en extrayant des caractéristiques de bas niveau des images. Nous étudions les différentes étapes de sa création et la pondération tfidf des mots visuels dans les images, inspirée des approches classiquement utilisées pour les mots textuels. Dans le contexte de la catégorisation de documents textuels, nous introduisons un critère qui sélectionne les mots les plus discriminants pour les catégories afin de réduire la taille du vocabulaire sans dégrader les résultats du classement. Nous présentons aussi dans le cadre multilabel, une méthode permettant de sélectionner les différentes catégories à associer à un document. En recherche d’information, nous proposons une approche analytique par apprentissage pour combiner linéairement les résultats issus des informations textuelles et visuelles, permettant d'améliorer significativement la recherche. Notre modèle est validé pour ces différentes tâches en participant à des compétitions internationales telles que XML Mining et ImageCLEF et sur des collections de taille conséquente / Exploiting multimedia documents leads to representation problems of the textual and visual information within documents. Our goal is to propose a model to represent these both information and to combine them for two tasks: categorization and information retrieval. This model represents documents as bags of words, which requires to define adapted vocabularies. The textual vocabulary, usually very large, corresponds to the words of documents while the visual one is created by extracting low-level features from images. We study the different steps of its creation and the tf.idf weighting of visual words in images usually used for textual words. In the context of the text categorization, we introduce a criterion to select the most discriminative words for categories in order to reduce the vocabulary size without degrading the results of classification. We also present in the multilabel context, a method that lets us to select the number of categories which must be associated with a document. In multimedia information retrieval, we propose an analytical approach based on machine learning techniques to linearly combine the results from textual and visual information which significantly improves research results. Our model has shown its efficiency on different collections of important size and was evaluated in several international competitions such as XML Mining and ImageCLEF
|
53 |
Contribution à l'analyse complexe de documents anciens, application aux lettrines / Complex analysis of historical documents, application to lettrinesCoustaty, Mickaël 20 October 2011 (has links)
De nombreux projets de numérisation sont actuellement menés en France et en Europe pour sauvegarder le contenu de dizaines de milliers de documents anciens. Les images de ces documents sont utilisées par les historiens pour identifier l’historique des livres. Cette thèse s’inscrit dans le projet Navidomass (ANR-06-MDCA-012) qui a pour but de valoriser le patrimoine écrit français de la Renaissance, en proposant d’identifier ses images pour les indexer. Dans le cadre de cette thèse, nous nous sommes particulièrement intéressés aux images graphiques. Ces documents,qui sont apparus avec le début de l’imprimerie, sont composées d’images complexes puisque composées de différentes couches d’informations (images de traits).Afin de répondre à ce problème, nous proposons un modèle ontologique d’analyse complexe d’images de documents anciens. Ce modèle permet d’intégrer dans une même base les connaissances propres aux historiens, et les connaissances extraites par des traitements d’images. De par la nature complexe de ces images, les méthodes habituelles d’analyse d’images et d’extraction automatique de connaissances sont inopérantes. Nous proposons donc une nouvelle approche d’analyse des images de documents anciens qui permet de les caractériser à partir de leurs spécificités. Cette approche commence par simplifier les images en les séparant en différentes couches d’informations (formes et traits). Puis, pour chaque couche, nous venons extraire des motifs utilisés pour décrire les images. Ainsi, les images sont caractérisées à l’aide de sacs de motifs fréquents, et de sacs de traits. Pour ces deux couches d’informations, nous venons également extraire des graphes de régions qui permettent d’extraire une connaissance structurelle des images. La complexification de ces deux descriptions est insérée dans la base de connaissances, pour permettre des requêtes complexes. Le but de cette base est de proposer à l’utilisateur de rechercher une image en indiquant soit un exemple d’images recherchées, soit des éléments caractéristiques des images. / In the general context of cultural heritage preservation campaigns, many digitization projects are being conducted in France and Europe to save the contents of thousands of ancient documents. Images of these documents are used by historians to identify the history of books. This thesis was led into the Navidomass project (ANR-06-MDCA-012) which aims at promoting the written heritage of the documents from the Renaissance, by proposing to identify its images. As part of this thesis, we are particularly interested in graphical images, and more specifically to dropcaps. These graphical images, which emerged with the beginning of printing, are complex images which can be seen as composed of different layers of information (images composed of strokes). To address this problem, we propose an ontological model of complex analysis of images of old documents. This model allows to integrate the knowledge specific to historians, and the knowledge extracted by image processing, into a single database. Due to the complex nature of these images, the usual methods of image analysis and automatic extraction of knowledge are inefficient. We therefore propose a new approach for analyzing images of old documents that can be characterized on their features basis. This approach begins by simplifying the images, separated in different layers of information (shapes and lines). Then, for each layer, we extract patterns used to describe the images. Thus, images are described with most common bags of patterns, and bags of stroke. For these two layers of information, we have also extracted graphs of regions that allow extracting a more structural knowledge of the images. A more complex description is then inserted into the knowledge base in order to allow complex queries. The purpose of this database is to offer the possiblity to make either query by example, or query by specific features of the images, to user.
|
54 |
Interoperabilidade de documentos digitais usando ontologias / Digital Documents Interoperability using OntologiesSuca, Erika Guetti 17 October 2012 (has links)
As organizações precisam trocar informações de forma simples e eficiente, com custos tão baixos quanto possível. Essas informações às vezes são apresentadas na forma de documentos com formato e conteúdos pré-definidos. Esses documentos podem ser equivalentes ou quase equivalentes, porém bastantes distintos em diferentes organizações. Numa mesma organização, os documentos podem ser diferentes em contextos históricos. O propósito deste trabalho é facilitar a distribuição dos documentos, superando o problema dos formatos com os quais foram criados. O objetivo é possibilitar a interoperabilidade de documentos e atingir a portabilidade simples e confiável de documentos através da reutilização de formatos e conteúdos, em diferentes combinações plausíveis. Propomos, usar ontologias como solução ao problema da falta de interoperabilidade nas implementações de formatos de documentos. Como prova de conceito consideramos a portabilidade entre os formatos padrão ODF(Open Document Format) e (Office Open XML). / Organizations need to exchange information simple and efficient, with costs as low as possible. Such information is sometimes presented as documents and with pre-defined content. These documents may be equivalent or nearly equivalent, but quite distinct in different organizations. In the same organization, documents can be different historical contexts. The purpose of this work is to enable interoperability of documents and achieve portability of digital documents through the reuse of content and format in different plausible combinations. We propose the characterization of digital documents using ontologies as a solution to the problem of lack of interoperability in the implementations of document formats. As proof of concept we consider the portability between ODF(Open Document Format) and OOXML (Office Open XML) document formats.
|
55 |
O ensino de temas relacionados à saúde em um espaço escolar : analisando a sua abordagem a partir de documentos oficiais da educação, de documentos escolares e do componente curricular de biologiaJesus, Rhenan Ferraz de January 2018 (has links)
Este trabalho buscou analisar as possíveis articulações da abordagem de temas em torno da saúde no ensino de Biologia no Ensino Médio, contextualizando essa abordagem desde os documentos oficiais da educação até as práticas educativas que acontecem em uma escola pública, referentes a esse componente curricular. De natureza quali-quantitativa, esta pesquisa adotou a metodologia do tipo de estudo de caso, tendo como partícipes uma escola central de um município da fronteira oeste do Rio Grande do Sul e professores de Biologia que nela atuam. O método de análise utilizado nos materiais coletados foi a análise de conteúdo. Dos documentos oficiais analisados, um deles apresentou elementos suficientes que o identificasse como um importante documento que visa dar suporte pedagógico aos professores, trazendo possibilidades e exemplos, de fácil compreensão, em como trabalhar os assuntos relacionados à saúde no componente curricular de Biologia, e envolvendo outras áreas do conhecimento. Quanto às concepções e às recomendações a respeito da abordagem de temas alusivos à saúde, constatou-se que os aspectos biológicos e socioambientais, para as questões que envolvem à saúde, estão articulados em consonância nos documentos oficiais, nos documentos escolares e para a área das Ciências da Natureza (CN), bem como no ensino de Biologia. Isso demonstra a importância e a necessidade de se discutir os aspectos sociais para a construção do conhecimento com os estudantes, além dos biológicos, bem como a ampliação da percepção sobre saúde e os seus determinantes. Outro fato importante na pesquisa foi que a maior parte das concepções analisadas nos registros dos documentos oficias da educação e dos documentos escolares estudados estão pautados, prioritariamente, na promoção da Literacia em saúde. Além disso, percebeu-se a existência de distintas concepções de saúde nos diferentes materiais de estudo, embora cada uma ressaltou as suas teorias e epistemologias, todas assinalam caraterísticas e elementos essenciais para entender e perceber a importância da abordagem de temas relativos à saúde dentro do contexto escolar. Também, notou-se que a escola estudada é vista como um espaço importante para estimular discussões em torno da saúde, associando o ensino de Biologia como uma área essencial para trabalhar os diversos assuntos relacionados à saúde em sala de aula com os estudantes. Espera-se que os conhecimentos atuais e mais relevantes em relação à saúde, traçados na escola e trabalhados no ensino de Biologia, sejam contemplados e considerados, com mais ênfase, na elaboração dos documentos oficiais estudados, bem como as diversas problemáticas que cercam as práticas de vida dos estudantes, os quais carecem de maiores esclarecimentos e orientações a respeito da abordagem de temas relacionados à saúde no contexto do Ensino Médio. / This study aims to analyse possible articulations of health themes approach in Biology teaching on High School, contextualizing this approach since official education documents until educational practices that happens at a public school, in relation this curriculum component. With qualitative and quantitative nature, this research adopted a methodology of type case study, having as participants a central school of front county Rio Grande do Sul State and its Biology teachers. The analyse method used in materials collected are content analysis. One of official documents analysed presents sufficient elements that identifies it as an important document that aim to give pedagogical support to teacher, bringing possibilities and examples of easy understanding in how to work issues relational to health in Biology, and involving others knowledge areas. About conceptions, recommendations regarding of health issue approach, we verify that socio-environmental, and biologic aspects has articulated in consonance on official documents, scholar documents and to Science Nature (SN) area, as well in Biology teaching. This demonstrate the importance and necessity of argue the social aspect for as knowledge construction with students, besides biological, as too enlargement of perception about health and its determinants. Other research important fact was that main part of conceptions analysed in education official and scholar documents registers, it primarily based in health literacy promotion. Beside this, we perceive existence of different health conceptions in the study materials, although each one evidence its theories and epistemologies, all of it appoints characteristics and elements essentials for understanding and perceiving the importance of health issue approach in of scholar context. In addition, we notes researched school it has seen as unique space for encouraging argue around of health, associating Biology teaching as one essential area for working several health themes in classroom with students. It will expected that current and more relevant health knowledge, traced on school and in Biology teaching, it might be contemplate and considered in the studied official documents elaboration with more emphasis, as well the different issues around students’ lifestyle, which needs major clarifications and orientations about health issue approach in High School context.
|
56 |
Um estudo comparativo de métodos de segmentação de documentos antigos / A comparative study of segmentation methods of historical documentsYanque, Nury Yuleny Arosquipa 29 November 2018 (has links)
Há uma vasta quantidade de informação nos textos antigos manuscritos e tipografados, e grandes esforços para a digitalização e disponibilização desses documentos têm sido feitos nos últimos anos. No entanto, os sistemas de Reconhecimento Óptico de Caracteres (OCR) não têm grande sucesso nesses documentos por diversas razões, por exemplo, devido a defeitos por envelhecimento do papel, manchas, iluminação desigual, dobras, escrita do verso transparecendo na frente, pouco contraste entre texto e fundo, entre outros. Uma das etapas importantes para o sucesso de um OCR é a boa segmentação da parte escrita e do fundo da imagem (binarização) e essa etapa é particularmente sensível a esses efeitos que são próprios de documentos históricos. Tanto assim que nos últimos oito anos foram realizadas competições de métodos de binarização de documentos históricos que levaram ao avanço do estado da arte na área. Neste trabalho fizemos um estudo comparativo de diversos métodos de segmentação de documentos antigos e propusemos um método baseado em aprendizado de máquina que resgata as vantagens dos métodos heurísticos. Esse estudo abrangeu documentos históricos manuscritos e tipografados e foi comparado com os métodos do estado da arte via métricas usuais e via um sistema de OCR de código aberto. Os resultados obtidos pelo método proposto são comparáveis com os métodos do estado da arte respeito no resultado do OCR, mostrando algumas vantagens em imagens específicas. / There is a vast amount of information in the ancient handwritten and machine-printed texts, and great efforts for the digitization and availability of these documents have been made in recent years. However, Optical Character Recognition (OCR) systems do not have much success in these documents for a variety of reasons, for example, due to paper aging defects, faded ink, stains, uneven lighting, folds, bleed-through, gosthing, poor contrast between text and background, among others. One of the important steps for the success of an OCR system is the good segmentation of the written part and the background of the image (binarization) and this step is particularly sensitive to those defects that are typical of historical documents. So much so that in the last eight years a competition for the binarization methods of historical documents have been held which led to the advance of the state of the art in the area. In this work we have done a comparative study of several methods of segmentation of historical documents and propose a method based on machine learning that rescues the advantages of the heuristic methods. This study covered both handwritten and typography historical documents and was compared to state-of-the-art methods via DIBCO standard metrics and via an open source OCR system. The results obtained by the proposed method are comparable with the methods of the state of the art respect in the OCR result, showing some advantages in specific images.
|
57 |
Les bases de données textuelles : étude du concept de document et application à deux réalisationsKowarski, Irène 05 July 1983 (has links) (PDF)
Etude du concept de document en vue de l'intégration des textes dans les bases de données. Les documents comportent des aspects externes permettant leur classement et leur recherche, ainsi que des aspects internes. Les documents sont regroupés selon des types, définis en fonction de leur structure. La présentation physique des documents imprimés que l'on produit peut être liée à leur structure. Deux réalisations pratiques sont décrites.
|
58 |
Modélisation, indexation et recherche de documents structurésFourel, Franck 05 February 1998 (has links) (PDF)
Les systèmes actuels de recherche de documents électroniques, que ce soit des systèmes de gestion de bases de données ou des systèmes de recherche d'informations, n'exploitent pas suffisament la richesse des documents. Les uns n'analysent pas le contenu des documents et se laissent diriger par la structure du document alors que les autres délaissent l'aspect structurel en s'appuyant sur des méthodes trop peu adaptées aux nouvelles caractéristiques de ces documents. Le but de notre travail, situé à l'intersection de ces deux types de systèmes, est de réconcilier les différentes modalités d'accès aux documents électroniques et de rendre accessible tout document ou toute partie de documents qui peut résoudre le problème d'informations d'un utilisateur. Notre travail comporte plusieurs phases : la définition de modèles de représentation des documents structurés ainsi que de leurs composantes monomédias et multimédias (texte et image fixe) et la mise en place d'un processus d'indexation structurelle support du processus d'interrogation. Le modèle de représentation des documents structurés s'articule autour de trois relations de structure que nous avons particulièrement identifiées dans les documents textuels : la relation de composition, la relation de séquence et la relation de référence. Elles établissent l'organisation syntaxique des parties des documents, appelées éléments de structure, qui comme nous le montrons, possède une organisation duale, la structure sémantique. Nous exploitons les caractéristiques de cette dernière pour définir des propriétés sur les descripteurs des éléments de structure. Ces propriétés sont formalisées par la notion de portées des attributs et par la classification des attributs qui s'en suit. Pour chaque attribut d'un élément de structure, sa portée indique les autres éléments de structure concernés par l'attribut et par sa valeur. C'est en suivant les relations de structure que nous retrouvons les éléments concernés, puis nous leur assignons un attribut et une valeur dépendante de la valeur de l'attribut de l'élément qui est à la source de l'information. L'application des portées fournit une représentation du document au sein de laquelle les informations, si elles ne sont pas modifiées, sont mieux réparties et pour laquelle la plupart des informations sont explicitées pour chaque élément de structure et sont rendues dépendantes les unes des autres. Le processus d'interrogation utilise ces dépendances pour retrouver le ou les éléments de structure pertinents d'un document structuré. Nous avons validé ce travail par le développement du prototype my Personal Daily News qui permet d'interroger une base constituée de quotidiens d'informations en mêlant dans les requêtes des critères structurels et des critères de contenu. Nous montrons ainsi que notre approche rend des éléments accessibles et augmente la flexibilité d'interrogation en autorisant une connaissance imparfaite de la structure des documents.
|
59 |
Reconnaissance et classification d'images de documentsAugereau, Olivier 14 February 2013 (has links) (PDF)
Ces travaux de recherche ont pour ambition de contribuer à la problématique de la classification d'images de documents. Plus précisément, ces travaux tendent à répondre aux problèmes rencontrés par des sociétés de numérisation dont l'objectif est de mettre à disposition de leurs clients une version numérique des documents papiers accompagnés d'informations qui leurs sont relatives. Face à la diversité des documents à numériser, l'extraction d'informations peut s'avérer parfois complexe. C'est pourquoi la classification et l'indexation des documents sont très souvent réalisées manuellement. Ces travaux de recherche ont permis de fournir différentes solutions en fonction des connaissances relatives aux images que possède l'utilisateur ayant en charge l'annotation des documents.Le premier apport de cette thèse est la mise en place d'une méthode permettant, de manière interactive, à un utilisateur de classer des images de documents dont la nature est inconnue. Le second apport de ces travaux est la proposition d'une technique de recherche d'images de documents par l'exemple basée sur l'extraction et la mise en correspondance de points d'intérêts. Le dernier apport de cette thèse est l'élaboration d'une méthode de classification d'images de documents utilisant les techniques de sacs de mots visuels.
|
60 |
Elektroniniai archyvai ir jų plėtra / Electronic archives and their developmentGrabytė, Emilija 01 February 2008 (has links)
Šalia tradicinių informacijos srautų vis didesnę reikšmę ir vietą užima elektroninė informacija, tačiau informacijos amžiaus paradoksas yra tas, kad didesnė dalis elektroninės informacijos yra sunkiau prieinama nei anksčiau sukurtoji arba neprieinama visiškai. Elektroninė informacija kuriama, valdoma, perduodama ir saugoma naudojant dinamiškas, greitai kintančias informacinių technologijų priemones. Dėl greito technologijų senėjimo informacija, sukurta jas naudojant, prarandama arba tampa sunkiai prieinama ir dėl to negalima naudoti.
Informacijos elektroninėje aplinkoje atsiradimas ir sklaida neišvengiamai keičia požiūrius ir sampratas. Atsiranda būtinybė peržiūrėti ir pateikti naujus archyvų veiklos organizavimo principus bei metodus.
Dokumentų saugojimas paprastai yra apibrėžiamas kaip archyvo veiklos uždavinys, įgyvendinamas per archyvo vykdomas funkcijas, kurių tikslas – apsaugoti dokumentus nuo sugadinimo, sunykimo ar praradimo, sudaryti prieigos prie saugomų dokumentų galimybes, kad būtų tenkinami visuomenės socialiniai, teisiniai, kultūriniai, informaciniai poreikiai, taip pat išsaugoti dokumentus ateities kartoms kaip kolektyvinės atminties šaltinius.
Dėl išaugusio informacinių technologijų naudojimo institucijų bei ūkio subjektų veikloje vis daugiau dokumentų sudaroma tik skaitmeniniame formate. Elektroninis dokumentas nuo tradicinio dokumento skiriasi tuo, kad jis yra sukurtas, laikomas, naudojamas ir saugojamas skaitmeniniame formate, tačiau, nepriklausomai nuo... [toliau žr. visą tekstą] / The collective memory of the peoples of the world is of fundamental importance to preserve. Documentary heritage in the form of records or documents (archives) is an essential part of this memory. Over the last decade, the social role of local cultural institutions of all kinds has changed. A shift from the use of information on traditional paper-based carriers to electronic formats has taken place. The implementation of technology has brought about the modernisation of basic work processes and widened the range of services and channels of access.
Memory institutions such as archives are adjusting themselves to the digital age.
Originally, any computer data were considered as something internal — the final data output was always on paper. However, the development of computer networks have resulted in that in most cases it is much more convenient to distribute electronic documents than printed ones. And the improvements in electronic display technologies mean that in most cases it is possible to view documents on screen instead of printing them .
However, using electronic documents instead of paper ones have created the problem of multiple incompatible file formats.
Preservation and access to electronic records in electronic form is an important and difficult issue. Archival institutions have a distinctive mission − to give guidance on these problems to the creators of electronic records, to receive transfers of the electronic records, and to preserve and give access to... [to full text]
|
Page generated in 0.0686 seconds