Spelling suggestions: "subject:"filtrage d'information"" "subject:"filtragem d'information""
1 |
Filtrage et agrégation d'informations vitales relatives à des entités / Filtering and aggregating vital information related to entitiesAbbes, Rafik 11 December 2015 (has links)
Aujourd'hui, les bases de connaissances telles que Wikipedia et DBpedia représentent les sources principales pour accéder aux informations disponibles sur une grande variété d'entités (une entité est une chose qui peut être distinctement identifiée par exemple une personne, une organisation, un produit, un événement, etc.). Cependant, la mise à jour de ces sources avec des informations nouvelles en rapport avec une entité donnée se fait manuellement par des contributeurs et avec un temps de latence important en particulier si cette entité n'est pas populaire. Concevoir un système qui analyse les documents dès leur publication sur le Web pour filtrer les informations importantes relatives à des entités pourra sans doute accélérer la mise à jour de ces bases de connaissances. Dans cette thèse, nous nous intéressons au filtrage d'informations pertinentes et nouvelles, appelées vitales, relatives à des entités. Ces travaux rentrent dans le cadre de la recherche d'information mais visent aussi à enrichir les techniques d'ingénierie de connaissances en aidant à la sélection des informations à traiter. Nous souhaitons répondre principalement aux deux problématiques suivantes: (1) Comment détecter si un document est vital (c.à.d qu'il apporte une information pertinente et nouvelle) par rapport à une entité donnée? et (2) Comment extraire les informations vitales à partir de ces documents qui serviront comme référence pour mettre à jour des bases de connaissances? Concernant la première problématique, nous avons proposé deux méthodes. La première proposition est totalement supervisée. Elle se base sur un modèle de langue de vitalité. La deuxième proposition mesure la fraîcheur des expressions temporelles contenues dans un document afin de décider de sa vitalité. En ce qui concerne la deuxième problématique relative à l'extraction d'informations vitales à partir des documents vitaux, nous avons proposé une méthode qui sélectionne les phrases comportant potentiellement ces informations vitales, en nous basant sur la présence de mots déclencheurs récupérés automatiquement à partir de la connaissance déjà représentée dans la base de connaissances (comme la description d'entités similaires).L'évaluation des approches proposées a été effectuée dans le cadre de la campagne d'évaluation internationale TREC sur une collection de 1.2 milliard de documents avec différents types d'entités (personnes, organisations, établissements et événements). Pour les approches de filtrage de documents vitaux, nous avons mené nos expérimentations dans le cadre de la tâche "Knwoledge Base Acceleration (KBA)" pour les années 2013 et 2014. L'exploitation des expressions temporelles dans le document a permis d'obtenir de bons résultats dépassant le meilleur système proposé dans la tâche KBA 2013. Pour évaluer les contributions concernant l'extraction des informations vitales relatives à des entités, nous nous sommes basés sur le cadre expérimental de la tâche "Temporal Summarization (TS)". Nous avons montré que notre approche permet de minimiser le temps de latence des mises à jour de bases de connaissances. / Nowadays, knowledge bases such as Wikipedia and DBpedia are the main sources to access information on a wide variety of entities (an entity is a thing that can be distinctly identified such a person, an organization, a product, an event, etc.). However, the update of these sources with new information related to a given entity is done manually by contributors with a significant latency time particularly if that entity is not popular. A system that analyzes documents when published on the Web to filter important information about entities will probably accelerate the update of these knowledge bases. In this thesis, we are interested in filtering timely and relevant information, called vital information, concerning the entities. We aim at answering the following two issues: (1) How to detect if a document is vital (i.e., it provides timely relevant information) to an entity? and (2) How to extract vital information from these documents to build a temporal summary about the entity that can be seen as a reference for updating the corresponding knowledge base entry? Regarding the first issue, we proposed two methods. The first proposal is fully supervised. It is based on a vitality language model. The second proposal measures the freshness of temporal expressions in a document to decide its vitality. Concerning the second issue, we proposed a method that selects the sentences based on the presence of triggers words automatically retrieved from the knowledge already represented in the knowledge base (such as the description of similar entities). We carried out our experiments on the TREC Stream corpus 2013 and 2014 with 1.2 billion documents and different types of entities (persons, organizations, facilities and events). For vital documents filtering approaches, we conducted our experiments in the context of the task "knowledge Base Acceleration (KBA)" for the years 2013 and 2014. Our method based on leveraging the temporal expressions in the document obtained good results outperforming the best participant system in the task KBA 2013. In addition, we showed the importance of our generated temporal summaries to accelerate the update of knowledge bases.
|
2 |
Generalization of cyberbullying tracesLarochelle, Marc-André 02 February 2024 (has links)
De nos jours, la cyberintimidation est un problème courant dans les communautés en ligne. Filtrer automatiquement ces messages de cyberintimidation des conversations en ligne c’est avéré être un défi qui a mené à la création de plusieurs ensembles de données, dont plusieurs disponibles comme ressources pour l’entraînement de classificateurs. Toutefois, sans consensus sur la définition de la cyberintimidation, chacun des ensembles de données se retrouve à documenter différentes formes de comportements. Cela rend difficile la comparaison des performances obtenues par de classificateurs entraînés sur de différents ensembles de données, ou même l’application d’un de ces classificateurs à un autre ensemble de données. Dans ce mémoire, on utilise une variété de ces ensembles de données afin d’explorer les différentes définitions, ainsi que l’impact que cela occasionne sur le langage utilisé. Par la suite, on explore la portabilité d’un classificateur entraîné sur un ensemble de données vers un autre ensemble, nous donnant ainsi une meilleure compréhension de la généralisation des classificateurs. Finalement, on étudie plusieurs architectures d’ensemble de modèles, qui par la combinaison de ces différents classificateurs, nous permet de mieux comprendre les interactions des différentes définitions. Nos résultats montrent qu’il est possible d’obtenir une meilleure généralisation en combinant tous les ensembles de données en un seul ensemble de données plutôt que d’utiliser un ensemble de modèles composé de plusieurs classificateurs, chacun entraîné individuellement sur un ensemble de données différent. / Cyberbullying is a common problem in today’s ubiquitous online communities. Automatically filtering it out of online conversations has proven a challenge, and the efforts have led to the creation of many different datasets, which are distributed as resources to train classifiers. However, without a consensus for the definition of cyberbullying, each of these datasets ends up documenting a different form of the behavior. This makes it difficult to compare the results of classifiers trained on different datasets, or to apply one such classifier on a different dataset. In this thesis, we will use a variety of these datasets to explore the differences in their definitions of cyberbullying and the impact it has on the language used in the messages. We will then explore the portability of a classifier trained on one dataset to another in order to gain insight on the generalization power of classifiers trained from each of them. Finally, we will study various architectures of ensemble models combining these classifiers in order to understand how they interact with each other. Our results show that by combining all datasets together into a single bigger one, we can achieve a better generalization than by using an ensemble model of individual classifiers trained on each dataset.
|
3 |
Utilisation des méthodes de recherche d'information pour le filtrage des News de UsenetJolicoeur, Lucie January 1994 (has links)
Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.
|
4 |
Approches catégoriques et non catégoriques en linguistique des corpus spécialisés, application à un système de filtrage d'informationBalvet, Antonio 11 December 2002 (has links) (PDF)
Cette thèse s'inscrit dans le cadre des études linguistiques sur corpus, centrées sur les productions effectives, dans des domaines de spécialité. La thèse reprend les présupposés théoriques et les méthodes des approches guidées par les observables linguistiques, afin d'extraire des corpus étudiés des unités lexicales complexes fortement corrélées à des sous-thèmes clairement identifiés. Ainsi, la thèse aboutit à une description et à un recensement de ces unités lexicales complexes, appelées signatures thématiques, pour un sous-thème du domaine financier : les cessions et acquisitions de sociétés. Le travail d'analyse des corpus, faisant principalement appel à une approche distributionnelle classique, tente également d'évaluer l'apport d'approches non catégoriques et non logiques (essentiellement des approches statistiques) dans la détection de signatures thématiques. Les signatures identifiées servent de base à un système de filtrage d'information, déployé en milieu industriel : le système CORAIL, issu d'un projet de recherches financé par le Ministère de la Recherche et de l'Industrie.
|
5 |
Approche renouvelée de l'acte de consommation numérique : étude sur l'application du droit de la consommation aux mécanismes de recommandation présents sur les plateformes socialesOsmond, Théo 13 December 2023 (has links)
Maîtrise en droit avec Mémoire - Bidiplôme en droit de la propriété intellectuelle fondamentale et technologies numériques / À une époque où la majorité de l'offre informationnelle et culturelle est accessible par le biais des plateformes numériques, le contrôle de ces canaux de diffusion est une activité éminemment politique aux conséquences souvent liberticides. Les systèmes de recommandation massivement déployés par ces acteurs contribuent alors à l'organisation de cette masse de contenus aux dépends des internautes utilisateurs de ces services qui se trouvent manipulés et lésés dans l'exercice de nombre de leurs droits fondamentaux. Malgré ce constat alarmant, le droit actuel ne présente qu'un intérêt mineur pour ces systèmes de recommandation. Cette étude franco-québécoise vise ainsi à présenter une adaptation possible du dispositif consumériste actuel pour proposer un encadrement novateur de ces mécanismes de recommandation. Le droit de la consommation porte en lui l'ensemble des éléments propres à son évolution en faveur d'une protection grandissante des internautes, notamment aux regards des atteintes aux droits et libertés liées aux nouveaux modes de consommation numériques. Proposant une vision renouvelée de l'acte de consommation pour l'adapter à nos sociétés numériques, l'étude entend ainsi détailler une des possibilités offerte aux organes judiciaires et législatifs pour renforcer la protection des individus face aux dangers technologiques propres aux plateformes numériques.
|
6 |
Mesures de similarité et cosinus généralisé : une approche d'apprentissage supervisé fondée sur les k plus proches voisinsQamar, Ali Mustafa 19 November 2010 (has links) (PDF)
Les performances des algorithmes d'apprentissage automatique dépendent de la métrique utilisée pour comparer deux objets, et beaucoup de travaux ont montré qu'il était préférable d'apprendre une métrique à partir des données plutôt que se reposer sur une métrique simple fondée sur la matrice identité. Ces résultats ont fourni la base au domaine maintenant qualifié d'apprentissage de métrique. Toutefois, dans ce domaine, la très grande majorité des développements concerne l'apprentissage de distances. Toutefois, dans certaines situations, il est préférable d'utiliser des similarités (par exemple le cosinus) que des distances. Il est donc important, dans ces situations, d'apprendre correctement les métriques à la base des mesures de similarité. Il n'existe pas à notre connaissance de travaux complets sur le sujet, et c'est une des motivations de cette thèse. Dans le cas des systèmes de filtrage d'information où le but est d'affecter un flot de documents à un ou plusieurs thèmes prédéfinis et où peu d'information de supervision est disponible, des seuils peuvent être appris pour améliorer les mesures de similarité standard telles que le cosinus. L'apprentissage de tels seuils représente le premier pas vers un apprentissage complet des mesures de similarité. Nous avons utilisé cette stratégie au cours des campagnes CLEF INFILE 2008 et 2009, en proposant des versions en ligne et batch de nos algorithmes. Cependant, dans le cas où l'on dispose de suffisamment d'information de supervision, comme en catégorisation, il est préférable d'apprendre des métriques complètes, et pas seulement des seuils. Nous avons développé plusieurs algorithmes qui visent à ce but dans le cadre de la catégorisation à base de k plus proches voisins. Nous avons tout d'abord développé un algorithme, SiLA, qui permet d'apprendre des similarités non contraintes (c'est-à-dire que la mesure peut être symétrique ou non). SiLA est une extension du perceptron par vote et permet d'apprendre des similarités qui généralisent le cosinus, ou les coefficients de Dice ou de Jaccard. Nous avons ensuite comparé SiLA avec RELIEF, un algorithme standard de re-pondération d'attributs, dont le but n'est pas sans lien avec l'apprentissage de métrique. En effet, il a récemment été suggéré par Sun et Wu que RELIEF pouvait être considéré comme un algorithme d'apprentissage de métrique avec pour fonction objectif une approximation de la fonction de perte 0-1. Nous montrons ici que cette approximation est relativement mauvaise et peut être avantageusement remplacée par une autre, qui conduit à un algorithme dont les performances sont meilleurs. Nous nous sommes enfin intéressés à une extension directe du cosinus, extension définie comme la forme normalisée d'un produit scalaire dans un espace projeté. Ce travail a donné lieu à l'algorithme gCosLA. Nous avons testé tous nos algorithmes sur plusieurs bases de données. Un test statistique, le s-test, est utilisé pour déterminer si les différences entre résultats sont significatives ou non. gCosLA est l'algorithme qui a fourni les meilleurs résultats. De plus, SiLA et gCosLA se comparent avantageusement à plusieurs algorithmes standard, ce qui illustre leur bien fondé.
|
7 |
Agents de recommandation et intelligence artificielle : la protection de l'autonomie de la personneSouquet-Basiege, Jean 26 March 2024 (has links)
Mémoire en cotutelle : Université Laval, Québec, Canada, Maître en droit (LL. M.) et Université Paris-Saclay, Cachan, France, Master (M.) / Dans le cadre du commerce électronique, pour aider les consommateurs dans leur prise de décision, des plateformes ont créé des agents de recommandation. Ces outils fonctionnent aujourd'hui grâce à des systèmes d'intelligence artificielle. En récoltant les données de leurs utilisateurs, les solutions de recommandation déduisent les produits susceptibles de les intéresser. De plus, en analysant l'ensemble de leur navigation, elles modélisent les éléments irrationnels de leur processus décisionnel de façon à influencer leur consommation. La superposition de ces fonctionnalités déséquilibre la relation unissant plateformes commerciales et consommateurs. Elle donne aux premiers un ascendant sur les seconds. Les plateformes profitent de cet ascendant pour manipuler leurs utilisateurs et limiter ainsi largement leur liberté d'autodétermination. Ces atteintes au principe d'autonomie de la personne appellent à un encadrement de ces utilisations par le droit. Au Canada et en Europe, les réglementations spécifiques à l'intelligence artificielle, en cours d'adoption, ainsi que les réglementations générales des comportements des entreprises en ligne manquent cependant d'efficacité pour réduire ces atteintes. Elles peinent à envisager la relation se développant entre plateformes et consommateurs et à la réguler. Pour réguler au mieux ces usages, il est nécessaire de les étudier, comprendre comment la réglementation s'applique à eux et faire des recommandations pour mieux l'adapter. / Recommendation systems appeared with the development of the web in order to help consumers in their decision-making process in e-commerce. These tools use artificial intelligence systems to collect personal data from their customers. Thanks to these tools, they are allowed to predict the users' preferences and their irrational decision-making criteria. By superimposing those two functionalities, recommendation agents can break the equilibrium in the relationship between platforms and their users. An asymmetry benefitting the platform is born. They can use the gained ascendant to manipulate the user and thus limit their liberty of choice. This limitation of consumer's decision-making freedom must be regulated by law. In Canada and Europe, legislations specific to artificial intelligence are being adopted. Furthermore, a panoply of legislations already exists to regulate companies' behavior online. However, they struggle to apprehend the relationship developing between platforms and their users and thus have trouble regulating it. In order to regulate these uses, it is necessary to study them, analyse how legislation apply to them and make recommendation in order for it to be more effective.
|
Page generated in 0.436 seconds