Cet élaborât veut donner un nouvel approche à l’étude du corpus jābirien, en prenant compte de la littérature et des études précédents et des problématiques inhérentes à ce particulier corpus (synonymie, polysémie, dispersion du savoir, citations d’autres auteurs, hypertextualité). Grace aux nouvelles technologies d’analyse computationnelle ce travail vise à la digitalisation de textes édités (Muḫtār Rasāʾil, Tabdīr al-iksīr al-aʿẓam, Kitāb al- ahjār), pour créer un corpus numérique annoté selon le Text Encoding Initiative (TEI), le système d’annotation le plus utilisé dans le Natural Language Processing (NLP). La première section de la thèse comprend une introduction historique, prenant compte de la figure de Jābir et de son travail, de la querelle sur son existence et de l’histoire de la science Arabe médiévale ; et méthodologique, qui explique les outils utilisés pour l’analyse. La deuxième section est opérationnelle : le travail est expliqué dans tous ses détails et où les choix de numérisation et analyse sont exposés. Les problématiques présentées dans la première section trouvent ici des réponses pour ce qui concerne leur analyse. Le noyau de ce travail est représenté cependant par les Appendices, divisées en quatre parties : Les Appendices A, B et C sont des extraits bruts de la numérisation, qui donnent une idée du processus d’annotation selon le standard TEI. Les trois textes édités sont représentés par le premier livre de l’édition. L’Appendice D est un échantillon de concordances qui se base sur la lemmatisation des deux premiers livres du Tadbīr. L’Appendice E est une liste de fréquence du même échantillon utilisé pour la création des concordances. / This work presents a novel approach to the study of the Jābirian corpus while taking into consideration the existent works and literature and the problems of this peculiar corpus (synonymy, polysemy, dispersion of the knowledge, quotes od other authors, hypertextuality). Thanks to the modern technologies of computational analysis, this thesis aims to the digitalization of edited texts (Muḫtār Rasāʾil, Tabdīr al-iksīr al-aʿẓam, Kitāb al- ahjār) in order to create a digitalized corpus tagged following the Text Encoding Initiative (TEI), the most used annotation in Natural Language Processing (NLP). Section I is an introduction on the historical setting and remarks of the subject of the texts studied, comprising also an excursus on the figure of Jābir Ibn Hayyān and the querelle on his existence; and an explanation of the methodological setting in which this work is settled. Section II is the operational part, where are shown the compromises used in the realization of the digitalized corpus, as well as the strategies used so as to render the various issues presented in Section I. Section II presents the set of choices that tried to aswer to the questions made in Section I. The core of the work is represented by the Appendices, divided in four parts: Appendix A, B and C are extracts of the digitalized corpus, it was decided to include the first section of all the three source books, in order to represent every detail of the digitalization strategies and processes. Appendix D comprise a sample of concordances based on the lemmatization of the edition of the first two books of the Tadbīr. Appendix E is the frequency list of the same sample used for the concordances.
Identifer | oai:union.ndltd.org:theses.fr/2016EPHE5056 |
Date | 17 October 2016 |
Creators | Cicola, Ilaria |
Contributors | Paris, EPHE, Università degli studi La Sapienza (Rome), Lory, Pierre, Lancioni, Giuliano |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English, Arabic, French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0017 seconds