Global ETD Search

11	Flerspråkiga elevers svårigheter i matematiska textuppgifter, årskurs F-3 : En kvalitativ studie om lärarens arbetssätt utifrån olika strategier med flerspråkiga elever kring textuppgifter / Multilingual students' difficulties in mathematical textual data, grade F-3 : A qualitative study of the teacher's approach based on different strategies with multilingual pupils around textual data Jabbar, Sozan, Jabbar, Shadan January 2019 (has links) Syftet med studien är att undersöka hur lärare arbetar med textuppgifter inom matematikundervisning, när det gäller flerspråkiga elever med språksvårigheter. I och med detta vill vi även undersöka lärarnas användning av olika strategier för att kunna stötta flerspråkiga elever inom området matematiska textuppgifter. Studien är uppbyggd kring kvalitativa, semistrukturerade intervjuer med fyra legitimerade lärare i olika skolor i en och samma kommun. Resultatet av vår studie visar att flerspråkiga elever har svårigheter med matematiska textuppgifter på grund av deras språksvårigheter, och att språket har en stor betydelse för flerspråkiga elever, när det gäller textuppgifter inom ämnet matematik. Vidare visar resultatet att det är väsentligt att lärare belyser matematiska begrepp som uppkommer i textuppgifter i undervisningen. Resultatet visar även att det är viktigt att flerspråkiga elever får tillgång till sitt modersmål för att utveckla matematiska färdigheter. Dessutom visar resultatet att elevers grupparbete och klassrumsdiskussion kan främja flerspråkiga elevers förståelse för matematiska textuppgifter, och elevernas språkutveckling kan berikas. multilingual students mathematical textual data reading comprehension communication signal words flerspråkiga elever matematiska textuppgifter läsförståelse kommunikation signalord Mathematics Matematik
12	Paralelní a distribuované zpracování rozsáhlých textových dat / Parallel and Distributed Processing of Large Textual Data Matoušek, Martin January 2017 (has links) This master thesis deals with task scheduling and allocation of resources in parallel and distributed enviroment. Thesis subscribes design and implementation of application for executeing of data processing with optimal resources usage.
13	中文資訊擷取結果之錯誤偵測 / Error Detection on Chinese Information Extraction Results 鄭雍瑋, Cheng, Yung-Wei Unknown Date (has links) 資訊擷取是從自然語言文本中辨識出特定的主題或事件的描述，進而萃取出相關主題或事件元素中的對應資訊，再將其擷取之結果彙整至資料庫中，便能將自然語言文件轉換成結構化的核心資訊。然而資訊擷取技術的結果會有錯誤情況發生，若單只依靠人工檢查及更正錯誤的方式進行，將會是耗費大量人力及時間的工作。在本研究論文中，我們提出字串圖形結構與字串特徵值兩種錯誤資料偵測方法。前者是透過圖形結構比對各資料內字元及字元間關聯，接著由公式計算出每筆資料的比對分數，藉由分數高低可判斷是否為錯誤資料；後者則是利用字串特徵值，來描述字串外表特徵，再透過SVM和C4.5機器學習分類方法歸納出決策樹，進而分類正確與錯誤二元資料。而此兩種偵測方法的差異在於前者隱含了圖學理論之節點位置與鄰點概念，直接比對原始字串內容；後者則是將原始字串轉換成特徵數值，進行分類等動作。在實驗方面，我們以「總統府人事任免公報」之資訊擷取成果資料庫作為測試資料。實驗結果顯示，本研究所提出的錯誤偵測方法可以有效偵測出不合格的值組，不但能節省驗證資料所花費的成本，甚至可確保高資料品質的資訊擷取成果產出，促使資訊擷取技術更廣泛的實際應用。 / Given a targeted subject and a text collection, information extraction techniques provide the capability to populate a database in which each record entry is a subject instance documented in the text collection. However, even with the state-of-the-art IE techniques, IE task results are expected to contain errors. Manual error detection and correction are labor intensive and time consuming. This validation cost remains a major obstacle to actual deployment of practical IE applications with high validity requirement. In this paper, we propose string graph structure and string feature-based methods. The former takes advantage of graph structure to compare characters and the relation between characters. Next step, we count the corresponding score via formula, and then the scores are takes to estimate the data correctness. The latter uses string features to describe a certain characteristics of each string, after that decision tree is generated by the C4.5 and SVM machine learning algorithms. And then classify the data is valid or not. These two detection methods have the ability to describe the feature of data and verify the correctness further. The difference between these two methods is that, we deal with string of row data directly in the previous method. Besides, it indicates the concept of node position and neighbor node in graphic theory. By contrast, the row string was transformed into feature value, and then be classified in the latter method. In our experiments, we use IE task results of government personnel directives as test data. We conducted experiments to verify that effective detection of IE invalid values can be achieved by using the string graph structure and string feature-based methods. The contribution of our work is to reduce validation cost and enhance the quality of IE results, even provide both analytical and empirical evidences for supporting the effective enhancement of IE results usability as well. 錯誤偵測資訊擷取文本資料描述 Error Detection Information Extraction Textual Data Profiling
14	Des chiffres et des êtres : impact de l’expérience sociale des parents sur la scolarité des enfants : le cas des minorités originaires d’Afrique du nord dans les enquêtes de l’Ined (1945-2011) / Figures and human beings : impact of parents’ social experience on the children school career : the case of the North-African minorities in the surveys of the French Institute for Demographic Studies (1945-2011) Oumeddour, Leila-Fatiha 23 November 2016 (has links) La recherche porte sur la construction de la catégorie statistique immigré qui désigne les personnes résidant en France, nées étrangères à l’étranger. La catégorie statistique est déconstruite au travers de l’exemple des descendants de Maghrébins, diplômés de l’enseignement supérieur, et des conditions d’émigration et d’immigration de leur famille. L’étude s’appuie sur l’analyse de deux corpus : le premier est constitué de deux travaux de l’Institut national d’études démographiques (Ined) qui ont pour objet l’étude des populations étrangères puis immigrées et leurs descendants ; le second est composé de quarante-trois récits biographiques de descendants de Maghrébins recueillis dans le cadre de la dernière enquête représentative de l’Ined, Trajectoires et Origines.Les résultats montrent qu’en dépit d’une transformation du profil des immigrants, la démographie aborde l’immigration maghrébine dans des approches similaires à celles qui caractérisent la période coloniale, à savoir, ethniciste et culturaliste. Cette conception a été réactivée en France depuis l’institutionnalisation de la catégorie statistique immigré (1990) qui ne tient pas compte de la dimension historique des immigrations. Elle ne permet pas, notamment, de contextualiser les vagues migratoires dans leurs cadres historiques différenciés. Les spécificités coloniales et postcoloniales des « Algériens », dont le statut juridique a varié selon les périodes, est néanmoins perceptible dans les deux corpus. Or, la prise en compte des ruptures qui ont rythmées les relations entre la métropole et ses possessions d’Afrique du Nord révèlent les effets, encore actifs, de l’héritage colonial sur les parcours scolaires des descendants de Maghrébins et ceux de leurs parents. L’analyse des trajectoires dans leurs dimensions temporelle et comparative permet d’avancer que la réussite scolaire des descendants dépend davantage du capital scolaire, socioculturel et économique de leurs parents que de traits culturels particuliers. De l’immigrant colonial illettré des années 1940 à l’intellectuel transnational Maghrébin des années 1990, la recherche française doit intégrer les transformations à l’œuvre dans cette composante de la population française. / The research is centered on the construction of statistical categories in France. In particular it focuses on the notional deficit that shows the immigré category which designates the individuals who are born abroad of foreign nationality. The category is deconstructed through the example of graduates’ trajectories of Maghreb ascendance as well as the circumstances which led their parents to emigrate and the conditions of their settlement in France. The analyzed materials are of two different natures: the first one is composed of two studies performed by the French Institute for Demographic Studies (Ined) which address the foreign and immigrant populations in France, and the second one, gathers forty-three biographical narratives of graduates of Maghreb ascendance. These later were collected within the frame of the last representative survey implemented by Ined: Trajectoires et Origines. The results show that despite a transformation of the immigrants’ profile, the French demography’s approach of the Maghreb immigration is largely similar to the one characterizing the colonial era: an ethnic and cultural conception. This approach has been reactivated in France when the statistical category “immigré” was institutionalized in 1990. This category, which only takes into account the country of birth of the migrants, displays a significant notional deficit in its definition and its application. In particular, it doesn’t contextualize the immigration waves in their differentiated historical realities. The colonial and postcolonial specificities of “Algerians”, whose legal status has varied across the different periods of time, are nonetheless noticeable in both the demographical studies and the biographical narratives.Yet, when the ruptures which have marked the relationships between France and its ex-possessions in North-Africa reveal the effects of the colonial heritage, which is still active, on the school careers of the Maghreb descendants’ and those of their parents. The analysis of the trajectories in their temporal and comparative dimensions proves that succeeding at school for the Maghreb descendant depends more on the sociocultural and economic capital that the parents possess, than cultural patterns. Indeed, from the illiterate colonial immigrant of the 1940 to the Maghreb transnational intellectuals of the 1990, the French research must integrate the changes occurring in this component of the French population. Catégorisation Immigration Scolarisation Enseignement supérieur Descendants de Maghrébins Récits biographiques Analyse textuelle Categorization Immigration Education Higher education Maghreb descendants Biographical narratives Textual data analysis 306 370
15	Locating Information in Heterogeneous log files / Localisation d'information dans les fichiers logs hétérogènes Saneifar, Hassan 02 December 2011 (has links) Cette thèse s'inscrit dans les domaines des systèmes Question Réponse en domaine restreint, la recherche d'information ainsi que TALN. Les systèmes de Question Réponse (QR) ont pour objectif de retrouver un fragment pertinent d'un document qui pourrait être considéré comme la meilleure réponse concise possible à une question de l'utilisateur. Le but de cette thèse est de proposer une approche de localisation de réponses dans des masses de données complexes et évolutives décrites ci-dessous.. De nos jours, dans de nombreux domaines d'application, les systèmes informatiques sont instrumentés pour produire des rapports d'événements survenant, dans un format de données textuelles généralement appelé fichiers log. Les fichiers logs représentent la source principale d'informations sur l'état des systèmes, des produits, ou encore les causes de problèmes qui peuvent survenir. Les fichiers logs peuvent également inclure des données sur les paramètres critiques, les sorties de capteurs, ou une combinaison de ceux-ci. Ces fichiers sont également utilisés lors des différentes étapes du développement de logiciels, principalement dans l'objectif de débogage et le profilage. Les fichiers logs sont devenus un élément standard et essentiel de toutes les grandes applications. Bien que le processus de génération de fichiers logs est assez simple et direct, l'analyse de fichiers logs pourrait être une tâche difficile qui exige d'énormes ressources de calcul, de temps et de procédures sophistiquées. En effet, il existe de nombreux types de fichiers logs générés dans certains domaines d'application qui ne sont pas systématiquement exploités d'une manière efficace en raison de leurs caractéristiques particulières. Dans cette thèse, nous nous concentrerons sur un type des fichiers logs générés par des systèmes EDA (Electronic Design Automation). Ces fichiers logs contiennent des informations sur la configuration et la conception des Circuits Intégrés (CI) ainsi que les tests de vérification effectués sur eux. Ces informations, très peu exploitées actuellement, sont particulièrement attractives et intéressantes pour la gestion de conception, la surveillance et surtout la vérification de la qualité de conception. Cependant, la complexité de ces données textuelles complexes, c.-à-d. des fichiers logs générés par des outils de conception de CI, rend difficile l'exploitation de ces connaissances. Plusieurs aspects de ces fichiers logs ont été moins soulignés dans les méthodes de TALN et Extraction d'Information (EI). Le grand volume de données et leurs caractéristiques particulières limitent la pertinence des méthodes classiques de TALN et EI. Dans ce projet de recherche nous cherchons à proposer une approche qui permet de répondre à répondre automatiquement aux questionnaires de vérification de qualité des CI selon les informations se trouvant dans les fichiers logs générés par les outils de conception. Au sein de cette thèse, nous étudions principalement "comment les spécificités de fichiers logs peuvent influencer l'extraction de l'information et les méthodes de TALN?". Le problème est accentué lorsque nous devons également prendre leurs structures évolutives et leur vocabulaire spécifique en compte. Dans ce contexte, un défi clé est de fournir des approches qui prennent les spécificités des fichiers logs en compte tout en considérant les enjeux qui sont spécifiques aux systèmes QR dans des domaines restreints. Ainsi, les contributions de cette thèse consistent brièvement en :〉Proposer une méthode d'identification et de reconnaissance automatique des unités logiques dans les fichiers logs afin d'effectuer une segmentation textuelle selon la structure des fichiers. Au sein de cette approche, nous proposons un type original de descripteur qui permet de modéliser la structure textuelle et le layout des documents textuels.〉Proposer une approche de la localisation de réponse (recherche de passages) dans les fichiers logs. Afin d'améliorer la performance de recherche de passage ainsi que surmonter certains problématiques dûs aux caractéristiques des fichiers logs, nous proposons une approches d'enrichissement de requêtes. Cette approches, fondée sur la notion de relevance feedback, consiste en un processus d'apprentissage et une méthode de pondération des mots pertinents du contexte qui sont susceptibles d'exister dans les passage adaptés. Cela dit, nous proposons également une nouvelle fonction originale de pondération (scoring), appelée TRQ (Term Relatedness to Query) qui a pour objectif de donner un poids élevé aux termes qui ont une probabilité importante de faire partie des passages pertinents. Cette approche est également adaptée et évaluée dans les domaines généraux.〉Etudier l'utilisation des connaissances morpho-syntaxiques au sein de nos approches. A cette fin, nous nous sommes intéressés à l'extraction de la terminologie dans les fichiers logs. Ainsi, nous proposons la méthode Exterlog, adaptée aux spécificités des logs, qui permet d'extraire des termes selon des patrons syntaxiques. Afin d'évaluer les termes extraits et en choisir les plus pertinents, nous proposons un protocole de validation automatique des termes qui utilise une mesure fondée sur le Web associée à des mesures statistiques, tout en prenant en compte le contexte spécialisé des logs. / In this thesis, we present contributions to the challenging issues which are encounteredin question answering and locating information in complex textual data, like log files. Question answering systems (QAS) aim to find a relevant fragment of a document which could be regarded as the best possible concise answer for a question given by a user. In this work, we are looking to propose a complete solution to locate information in a special kind of textual data, i.e., log files generated by EDA design tools.Nowadays, in many application areas, modern computing systems are instrumented to generate huge reports about occurring events in the format of log files. Log files are generated in every computing field to report the status of systems, products, or even causes of problems that can occur. Log files may also include data about critical parameters, sensor outputs, or a combination of those. Analyzing log files, as an attractive approach for automatic system management and monitoring, has been enjoying a growing amount of attention [Li et al., 2005]. Although the process of generating log files is quite simple and straightforward, log file analysis could be a tremendous task that requires enormous computational resources, long time and sophisticated procedures [Valdman, 2004]. Indeed, there are many kinds of log files generated in some application domains which are not systematically exploited in an efficient way because of their special characteristics. In this thesis, we are mainly interested in log files generated by Electronic Design Automation (EDA) systems. Electronic design automation is a category of software tools for designing electronic systems such as printed circuit boards and Integrated Circuits (IC). In this domain, to ensure the design quality, there are some quality check rules which should be verified. Verification of these rules is principally performed by analyzing the generated log files. In the case of large designs that the design tools may generate megabytes or gigabytes of log files each day, the problem is to wade through all of this data to locate the critical information we need to verify the quality check rules. These log files typically include a substantial amount of data. Accordingly, manually locating information is a tedious and cumbersome process. Furthermore, the particular characteristics of log files, specially those generated by EDA design tools, rise significant challenges in retrieval of information from the log files. The specific features of log files limit the usefulness of manual analysis techniques and static methods. Automated analysis of such logs is complex due to their heterogeneous and evolving structures and the large non-fixed vocabulary.In this thesis, by each contribution, we answer to questions raised in this work due to the data specificities or domain requirements. We investigate throughout this work the main concern "how the specificities of log files can influence the information extraction and natural language processing methods?". In this context, a key challenge is to provide approaches that take the log file specificities into account while considering the issues which are specific to QA in restricted domains. We present different contributions as below:> Proposing a novel method to recognize and identify the logical units in the log files to perform a segmentation according to their structure. We thus propose a method to characterize complex logicalunits found in log files according to their syntactic characteristics. Within this approach, we propose an original type of descriptor to model the textual structure and layout of text documents.> Proposing an approach to locate the requested information in the log files based on passage retrieval. To improve the performance of passage retrieval, we propose a novel query expansion approach to adapt an initial query to all types of corresponding log files and overcome the difficulties like mismatch vocabularies. Our query expansion approach relies on two relevance feedback steps. In the first one, we determine the explicit relevance feedback by identifying the context of questions. The second phase consists of a novel type of pseudo relevance feedback. Our method is based on a new term weighting function, called TRQ (Term Relatedness to Query), introduced in this work, which gives a score to terms of corpus according to their relatedness to the query. We also investigate how to apply our query expansion approach to documents from general domains.> Studying the use of morpho-syntactic knowledge in our approaches. For this purpose, we are interested in the extraction of terminology in the log files. Thus, we here introduce our approach, named Exterlog (EXtraction of TERminology from LOGs), to extract the terminology of log files. To evaluate the extracted terms and choose the most relevant ones, we propose a candidate term evaluation method using a measure, based on the Web and combined with statistical measures, taking into account the context of log files. Recherche d'Information Traitement de la langue naturelle Fouille de textes Système Question Réponse Données Textuelles Complexes Information Retrieval Natural Language Processing Text Mining Question Answering Systems Complex Textual Data
16	Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français / Multi-level approach for the analysis of non-standardized textual data : corpus of texts in middle french Aouini, Mourad 19 March 2018 (has links) Cette thèse présente une approche d'analyse des textes non-standardisé qui consiste à modéliser une chaine de traitement permettant l’annotation automatique de textes à savoir l’annotation grammaticale en utilisant une méthode d’étiquetage morphosyntaxique et l’annotation sémantique en mettant en œuvre un système de reconnaissance des entités nommées. Dans ce contexte, nous présentons un système d'analyse du Moyen Français qui est une langue en pleine évolution dont l’orthographe, le système flexionnel et la syntaxe ne sont pas stables. Les textes en Moyen Français se singularisent principalement par l’absence d’orthographe normalisée et par la variabilité tant géographique que chronologique des lexiques médiévaux.L’objectif est de mettre en évidence un système dédié à la construction de ressources linguistiques, notamment la construction des dictionnaires électroniques, se basant sur des règles de morphologie. Ensuite, nous présenterons les instructions que nous avons établies pour construire un étiqueteur morphosyntaxique qui vise à produire automatiquement des analyses contextuelles à l’aide de grammaires de désambiguïsation. Finalement, nous retracerons le chemin qui nous a conduits à mettre en place des grammaires locales permettant de retrouver les entités nommées. De ce fait, nous avons été amenés à constituer un corpus MEDITEXT regroupant des textes en Moyen Français apparus entre le fin du XIIIème et XVème siècle. / This thesis presents a non-standardized text analysis approach which consists a chain process modeling allowing the automatic annotation of texts: grammar annotation using a morphosyntactic tagging method and semantic annotation by putting in operates a system of named-entity recognition. In this context, we present a system analysis of the Middle French which is a language in the course of evolution including: spelling, the flexional system and the syntax are not stable. The texts in Middle French are mainly distinguished by the absence of normalized orthography and the geographical and chronological variability of medieval lexicons.The main objective is to highlight a system dedicated to the construction of linguistic resources, in particular the construction of electronic dictionaries, based on rules of morphology. Then, we will present the instructions that we have carried out to construct a morphosyntactic tagging which aims at automatically producing contextual analyzes using the disambiguation grammars. Finally, we will retrace the path that led us to set up local grammars to find the named entities. Hence, we were asked to create a MEDITEXT corpus of texts in Middle French between the end of the thirteenth and fifteenth centuries. Approche multi-Niveaux Données textuelles non-Standardisées Moyen Français Étiquetage morphosyntaxique Reconnaissance des entités nommées Tal MEDITEXT Multi-Level approach Standardized textual data Middle French Morphosyntactic tagging Named-Entity recognition Nlp 402
17	Recomendação semântica de documentos de texto mediante a personalização de agregações OLAP. / Semantic recommendation of text documents through personalizing OLAP aggregation Berbel, Talita dos Reis Lopes 23 March 2015 (has links) Made available in DSpace on 2016-06-02T19:07:09Z (GMT). No. of bitstreams: 1 BERBEL_Talita_2015.pdf: 2383674 bytes, checksum: 3c3c42908a145864cffb9aa42b7d45b7 (MD5) Previous issue date: 2015-03-23 / With the rapid growth of unstructured data, such as text documents, it becomes more and more interesting and necessary to extract such information to support decision making in business intelligence systems. Recommendations can be used in the OLAP process, because they allow users to have a particular experience in exploiting data. The process of recommendation, together with the possibility of query personalisation, allows recommendations to be increasingly relevant. The main contribution of this work is to propose an effective solution for semantic recommendation of documents through personalisation of OLAP aggregation queries in a data warehousing environment. In order to aggregate and recommend documents, we propose the use of semantic similarity. Domain ontology and the statistical measure of frequency are used in order to verify the similarity between documents. The threshold of similarity between documents in the recommendation process is adjustable and this is the personalisation that provides to the user an interactive way to improve the relevance of the results. The proposed case study is based on articles from PubMed and its domain ontology in order to create a prototype using real data. The results of the experiments are presented and discussed, showing that good recommendations and aggregations are possible with the suggested approach. The results are discussed on the basis of evaluation measures: precision, recall and F1-measure. / Com o crescimento do volume dos dados não estruturados, como os documentos de texto, torna-se cada vez mais interessante e necessário extrair informações deste tipo de dado para dar suporte à tomada de decisão em sistemas de Business Intelligence. Recomendações podem ser utilizadas no processo OLAP, pois permitem que os usuários tenham uma experiência diferenciada na exploração dos dados. O processo de recomendação, aliado à possibilidade da personalização das consultas dos usuários, tomadores de decisão, permite que as recomendações possam ser cada vez mais relevantes. A principal contribuição deste trabalho é a proposta de uma solução eficaz para a recomendação semântica de documentos mediante a personalização de consultas de agregação OLAP em um ambiente de Data Warehousing. Com o intuito de agregar e recomendar documentos propõe-se a utilização da similaridade semântica. A ontologia de domínio e a medida estatística de frequência são utilizadas com o objetivo de verificar a similaridade entre os documentos. O limiar de similaridade entre os documentos no processo de recomendação pode ser parametrizado e é esta a personalização que oferece ao usuário uma maneira interativa de melhorar a relevância dos resultados obtidos. O estudo de caso proposto se baseia em artigos da PubMed e em sua ontologia de domínio com o propósito de criar um protótipo utilizando dados reais. Os resultados dos experimentos realizados são expostos e analisados, mostrando que boas recomendações e agregações são possíveis utilizando a abordagem sugerida. Os resultados são discutidos com base nas métricas de avaliação: precision, recall e F1-measure. data warehouse OLAP dados textuais agregação recomendação semântica ontologia LCA personalização de consultas MeSH Tecnologia OLAP ontologia semântica data warehouse OLAP textual data aggregation recommendation semantic ontology LCA Query Personalization MeSH
18	Entrepôt de textes : de l'intégration à la modélisation multidimensionnelle de données textuelles / Text Warehouses : from the integration to the multidimensional modeling of textual data Aknouche, Rachid 26 April 2014 (has links) Le travail présenté dans ce mémoire vise à proposer des solutions aux problèmes d'entreposage des données textuelles. L'intérêt porté à ce type de données est motivé par le fait qu'elles ne peuvent être intégrées et entreposées par l'application de simples techniques employées dans les systèmes décisionnels actuels. Pour aborder cette problématique, nous avons proposé une démarche pour la construction d'entrepôts de textes. Elle couvre les principales phases d'un processus classique d'entreposage des données et utilise de nouvelles méthodes adaptées aux données textuelles. Dans ces travaux de thèse, nous nous sommes focalisés sur les deux premières phases qui sont l'intégration des données textuelles et leur modélisation multidimensionnelle. Pour mettre en place une solution d'intégration de ce type de données, nous avons eu recours aux techniques de recherche d'information (RI) et du traitement automatique du langage naturel (TALN). Pour cela, nous avons conçu un processus d'ETL (Extract-Transform-Load) adapté aux données textuelles. Il s'agit d'un framework d'intégration, nommé ETL-Text, qui permet de déployer différentes tâches d'extraction, de filtrage et de transformation des données textuelles originelles sous une forme leur permettant d'être entreposées. Certaines de ces tâches sont réalisées dans une approche, baptisée RICSH (Recherche d'information contextuelle par segmentation thématique de documents), de prétraitement et de recherche de données textuelles. D'autre part, l'organisation des données textuelles à des fins d'analyse est effectuée selon TWM (Text Warehouse Modelling), un nouveau modèle multidimensionnel adapté à ce type de données. Celui-ci étend le modèle en constellation classique pour prendre en charge la représentation des textes dans un environnement multidimensionnel. Dans TWM, il est défini une dimension sémantique conçue pour structurer les thèmes des documents et pour hiérarchiser les concepts sémantiques. Pour cela, TWM est adossé à une source sémantique externe, Wikipédia, en l'occurrence, pour traiter la partie sémantique du modèle. De plus, nous avons développé WikiCat, un outil pour alimenter la dimension sémantique de TWM avec des descripteurs sémantiques issus de Wikipédia. Ces deux dernières contributions complètent le framework ETL-Text pour constituer le dispositif d'entreposage des données textuelles. Pour valider nos différentes contributions, nous avons réalisé, en plus des travaux d'implémentation, une étude expérimentale pour chacune de nos propositions. Face au phénomène des données massives, nous avons développé dans le cadre d'une étude de cas des algorithmes de parallélisation des traitements en utilisant le paradigme MapReduce que nous avons testés dans l'environnement Hadoop. / The work, presented in this thesis, aims to propose solutions to the problems of textual data warehousing. The interest in the textual data is motivated by the fact that they cannot be integrated and warehoused by using the traditional applications and the current techniques of decision-making systems. In order to overcome this problem, we proposed a text warehouses approach which covers the main phases of a data warehousing process adapted to textual data. We focused specifically on the integration of textual data and their multidimensional modeling. For the textual data integration, we used information retrieval (IR) techniques and automatic natural language processing (NLP). Thus, we proposed an integration framework, called ETL-Text which is an ETL (Extract- Transform- Load) process suitable for textual data. The ETL-Text performs the extracting, filtering and transforming tasks of the original textual data in a form allowing them to be warehoused. Some of these tasks are performed in our RICSH approach (Contextual information retrieval by topics segmentation of documents) for pretreatment and textual data search. On the other hand, the organization of textual data for the analysis is carried out by our proposed TWM (Text Warehouse Modelling). It is a new multidimensional model suitable for textual data. It extends the classical constellation model to support the representation of textual data in a multidimensional environment. TWM includes a semantic dimension defined for structuring documents and topics by organizing the semantic concepts into a hierarchy. Also, we depend on a Wikipedia, as an external semantic source, to achieve the semantic part of the model. Furthermore, we developed WikiCat, which is a tool permit to feed the TWM semantic dimension with semantics descriptors from Wikipedia. These last two contributions complement the ETL-Text framework to establish the text warehouse device. To validate the different contributions, we performed, besides the implementation works, an experimental study for each model. For the emergence of large data, we developed, as part of a case study, a parallel processing algorithms using the MapReduce paradigm tested in the Apache Hadoop environment. Intégration des données textuelles Entrepôts de textes ETL Text RICSH TWM Recherche d'information MapReduce Enrichissement de documents Wikipédia Integration of textual data Text Warehouses ETL Text RICSH Text Warehouse Model TWM Information Retrieval MapReduce Enrichment of textual documents Wikipedia
19	ANALISI DEL CONTENUTO E PEOPLE CENTRED APPROACH NELLE POLITICHE SANITARIE: UNA PROPOSTA METODOLOGICA / Content Analysis and People Centred Health policies: proposal for a methodology SAONARA, IRENE 16 April 2018 (has links) La ricerca svolta si propone di esplorare la possibilità di utilizzare le metodologie quantitative di analisi del contenuto per determinare, tramite l’analisi dei testi già disponibili (dati testuali secondari, non raccolti ad hoc) le affinità tra una politica sanitaria regionale ed il Framework on integrated, people-centred health services (IPCHS, WHO, 2016).. La scelta di utilizzare come fonti di dati i testi è dovuta principalmente alle tempistiche di elaborazione del lavoro. Il Framework IPCHS è stato diffuso nella sua versione ufficiale nell’aprile 2016 e al momento della consegna di questo lavoro (settembre 2017) non è stata ancora adottata nessuna strategia ufficiale per il monitoraggio dell’implementazione delle politiche people centred. Anche il caso di studio scelto, ovvero la Riforma sociosanitaria lombarda, cominciata nel 2015, è ancora in fase di implementazione.La natura metodologico-sperimentale della tesi e la metodologia scelta hanno determinato l’adozione di un approccio basato sul paradigma dei Mixed methods. Il lavoro è strutturato nel seguente modo. Nel primo capitolo sono ripresi gli elementi metodologici essenziali della Analisi del contenuto applicata alla analisi delle politiche pubbliche. Vengono inoltre illustrati i risultati di un approfondimento condotto sul concetto di parola chiave. Nel secondo capitolo viene descritto il Framework IPCHS e viene illustrato il processo di composizione delle liste di parole chiave (dizionario PCA) nella loro duplice versione in inglese e in italiano attraverso una analisi tematica. Nel capitolo III è descritta una prima applicazione del dizionario PCA ad un corpus composto da 13 note relative ad interviste svolte durante il progetto Stop TB partnership. Il fine della analisi svolta nel terzo capitolo è testare la capacità di ricognizione delle liste rispetto ai contenuti attinenti al People Centred Approach. Per questa ragione i risultati ottenuti sono stati sottoposti a validazione qualitativa. Nel capitolo IV invece, il dizionario PCA (versione italiana) è stato utilizzato per analizzare un corpus relativo alla Riforma Sociosanitaria lombarda (l.r. 23/2015 ed alcune delibere attuative). Anche in questo caso i risultati ottenuti sono stati sottoposti a validazione, secondo un approccio mixed methods, anche per individuare l’impatto della traduzione in italiano sulla efficacia delle liste di parole chiave. / The aim of this research is to investigate the possibility to develop a secondary textual-data based protocol in order to use textual material such as interviews, national strategic plans and other official documents to classify a health policy as “integrated and people centred”. According to WHO resolution A69/39 “An integrated people-centred approach is crucial to the development of health systems that can respond to emerging and varied health challenges, including urbanization, the global tendency towards unhealthy lifestyles, ageing populations, the dual disease burden of communicable and non communicable diseases, multi-morbidities, rising health care costs, disease outbreaks and other health-care crises.” But how can we determine if a health policy is integrated and people centred? In this study, I try to develop a mixed methods based protocol to analyse textual material and evaluate his relevance with WHO Framework on integrated, people-centred health services. In the first chapter, there is a literature review about content analysis methodologies applied to policy analysis. Then I examine two different health policies, one implemented at international level by WHO (Stop TB Partnership Program) and one implemented at the regional level by Regione Lombardia (Health System Reform). While the first analysis aim is to text the dictionary created by a thematic analysis of the Framework on integrated people-centred health services (described in chapter 2), the second analysis is to apply the dictionary to an Italian case, characterized by textual materials written in Italian. SECS-P/02: POLITICA ECONOMICA SPS/07: SOCIOLOGIA GENERALE SPS/04: SCIENZA POLITICA
20	Caractérisation différentielle de forums de discussion sur le VIH en vietnamien et en français : Éléments pour la fouille comportementale du web social / Differential characterization of discussion forums on HIV in Vietnamese and French : Elements for behaviour mining on the social web Hô Dinh, Océane 22 December 2017 (has links) Les discours normés que produisent les institutions sont concurrencés par les discours informels ou faiblement formalisés issus du web social. La démocratisation de la prise de parole redistribue l’autorité en matière de connaissance et modifie les processus de construction des savoirs. Ces discours spontanés sont accessibles par tous et dans des volumes exponentiels, ce qui offre aux sciences humaines et sociales de nouvelles possibilités d’exploration. Pourtant elles manquent encore de méthodologies pour appréhender ces données complexes et encore peu décrites. L’objectif de la thèse est de montrer dans quelle mesure les discours du web social peuvent compléter les discours institutionnels. Nous y développons une méthodologie de collecte et d’analyse adaptée aux spécificités des discours natifs du numérique (massivité, anonymat, volatilité, caractéristiques structurelles, etc.). Nous portons notre attention sur les forums de discussion comme environnements d’élaboration de ces discours et appliquons la méthodologie développée à une problématique sociale définie : celle de l’épidémie du VIH/SIDA au Viêt Nam. Ce terrain applicatif recouvre plusieurs enjeux de société : sanitaire et social, évolutions des moeurs, concurrence des discours. L’étude est complétée par l’analyse d’un corpus comparable de langue française, relevant des mêmes thématique, genre et discours que le corpus vietnamien, de manière à mettre en évidence les spécificités de contextes socioculturels distincts. / The standard discourse produced by official organisations is confronted with the unofficial or informal discourse of the social web. Empowering people to express themselves results in a new balance of authority, when it comes to knowledge and changes the way people learn. Social web discourse is available to each and everyone and its size is growing fast, which opens up new fields for both humanities and social sciences to investigate. The latter, however, are not equipped to engage with such complex and little-analysed data. The aim of this dissertation is to investigate how far social web discourse can help supplement official discourse. In it we set out a method to collect and analyse data that is in line with the characteristics of a digital environment, namely data size, anonymity, transience, structure. We focus on forums, where such discourse is built, and test our method on a specific social issue, ie the HIV/AIDS epidemic in Vietnam. This field of investigation encompasses several related questions that have to do with health, society, the evolution of morals, the mismatch between different kinds of discourse. Our study is also grounded in the analysis of a comparable French corpus dealing with the same topic, whose genre and discourse characteristics are equivalent to those of the Vietnamese one: this two-pronged research highlights the specific features of different socio-cultural environments. Web social Discours institutionnel Corpus comparables Analyse contrastive Analyse de Données Textuelles Linguistique de corpus Sémantique Santé sexuelle Social Web Institutional Discourse Comparable Corpora Contrastive Analysis Textual Data Analysis Corpus Linguistics Semantics Sexual Health

Search results