Global ETD Search

1	Parameter-free agglomerative hierarchical clustering to model learners' activity in online discussion forums Cobo Rodríguez, Germán 22 April 2014 (has links) L'anàlisi de l'activitat dels estudiants en els fòrums de discussió online implica un problema de modelització altament depenent del context, el qual pot ser plantejat des d'aproximacions tant teòriques com empíriques. Quan aquest problema és abordat des de l'àmbit de la mineria de dades, l'enfocament més comunament adoptat és el de la classificació no supervisada (o clustering), donant lloc, d'aquesta manera, a un escenari de clustering en el qual el nombre real de clústers és a priori desconegut. Per tant, aquesta aproximació revela una qüestió subjacent, la qual no és sinó un dels problemes més coneguts del paradigma del clustering: l'estimació del nombre de clústers, habitualment seleccionat per l'usuari concorde a algun tipus de criteri subjectiu que pot comportar fàcilment l'aparició de biaixos indesitjats en els models obtinguts. Amb l'objectiu d'evitar qualsevol intervenció de l'usuari en l'etapa de clustering, dos nous criteris d'unió entre clústers són proposats en la present tesi, els quals, al seu torn, permeten la implementació d'un nou algorisme de clustering jeràrquic aglomeratiu lliure de paràmetres. Un complet conjunt d'experiments indica que el nou algorisme de clustering és capaç de proporcionar solucions de clustering òptimes enfront d'una gran varietat d'escenaris de clustering, sent capaç de bregar amb diferents classes de dades, així com de millorar el rendiment ofert pels algorismes de clustering més àmpliament emprats en la pràctica. Finalment, una estratègia d'anàlisi de dues etapes basada en el paradigma del clustering subespaial és proposada a fi d'abordar adequadament el problema de la modelització de la participació dels estudiants en les discussions asíncrones. Combinada amb el nou algorisme clustering, l'estratègia proposada demostra ser capaç de limitar la intervenció subjectiva de l'usuari a les etapes d'interpretació del procés d'anàlisi i de donar lloc a una completa modelització de l'activitat duta a terme pels estudiants en els fòrums de discussió online. / El análisis de la actividad de los estudiantes en los foros de discusión online acarrea un problema de modelización altamente dependiente del contexto, el cual puede ser planteado desde aproximaciones tanto teóricas como empíricas. Cuando este problema es abordado desde el ámbito de la minería de datos, el enfoque más comúnmente adoptado es el de la clasificación no supervisada (o clustering), dando lugar, de este modo, a un escenario de clustering en el que el número real de clusters es a priori desconocido. Por tanto, esta aproximación revela una cuestión subyacente, la cual no es sino uno de los problemas más conocidos del paradigma del clustering: la estimación del número de clusters, habitualmente seleccionado por el usuario acorde a algún tipo de criterio subjetivo que puede conllevar fácilmente la aparición de sesgos indeseados en los modelos obtenidos. Con el objetivo de evitar cualquier intervención del usuario en la etapa de clustering, dos nuevos criterios de unión entre clusters son propuestos en la presente tesis, los cuales, a su vez, permiten la implementación de un nuevo algoritmo de clustering jerárquico aglomerativo libre de parámetros. Un completo conjunto de experimentos indica que el nuevo algoritmo de clustering es capaz de proporcionar soluciones de clustering óptimas frente a una gran variedad de escenarios de clustering, siendo capaz de lidiar con diferentes clases de datos, así como de mejorar el rendimiento ofrecido por los algoritmos de clustering más ampliamente utilizados en la práctica. Finalmente, una estrategia de análisis de dos etapas basada en el paradigma del clustering subespacial es propuesta a fin de abordar adecuadamente el problema de la modelización de la participación de los estudiantes en las discusiones asíncronas. Combinada con el nuevo algoritmo clustering, la estrategia propuesta demuestra ser capaz de limitar la intervención subjetiva del usuario a las etapas de interpretación del proceso de análisis y de dar lugar a una completa modelización de la actividad llevada a cabo por los estudiantes en los foros de discusión online. / The analysis of learners' activity in online discussion forums leads to a highly context-dependent modelling problem, which can be posed from both theoretical and empirical approaches. When this problem is tackled from the data mining field, a clustering-based perspective is usually adopted, thus giving rise to a clustering scenario where the real number of clusters is a priori unknown. Hence, this approach reveals an underlying problem, which is one of the best-known issues of the clustering paradigm: the estimation of the number of clusters, habitually selected by user according to some kind of subjective criterion that may easily lead to the appearance of undesired biases in the obtained models. With the aim of avoiding any user intervention in the cluster analysis stage, two new cluster merging criteria are proposed in the present thesis, which allow to implement a novel parameter-free agglomerative hierarchical algorithm. A complete set of experiments indicate that the new clustering algorithm is able to provide optimal clustering solutions in the face of a great variety of clustering scenarios, both having the ability to deal with different kinds of data and outperforming clustering algorithms most widely used in practice. Finally, a two-stage analysis strategy based on the subspace clustering paradigm is proposed to properly tackle the issue of modelling learners' participation in the asynchronous discussions. In combination with the new clustering algorithm, the proposed strategy proves to be able to limit user's subjective intervention to the interpretation stages of the analysis process and to lead to a complete modelling of the activity performed by learners in online discussion forums. 004 - Informàtica 378 - Ensenyament superior. Universitats
2	Definició d'una metodologia experimental per a l'estudi de resultats en sistemes d'aprenentatge artificial Martorell Rodon, Josep Maria 23 November 2007 (has links) El treball presentat s'emmarca dins del camp d'actuació propi del Grup de Recerca en Sistemes Intel·ligents: l'aprenentatge artificial. Les grans àrees són la computació evolutiva i el raonament basat en casos, tot dirigint la recerca a problemes de classificació, diagnosi i predicció. En tots aquests camps són objecte d'estudi grans conjunts de dades, pels quals es treballen diferents tècniques que en permeten l'extracció de coneixement i l'aplicació als problemes citats. Els grans avenços en aquestes àrees (sovint en forma de nous algorismes) conviuen amb treballs molt parcials sobre les metodologies adequades per a l'avaluació d'aquestes noves propostes. En front d'aquesta situació, la tesi que aquí es presenta proposa un nou marc general per a l'avaluació del comportament d'un conjunt d'M algorismes que, per tal de ser analitzats, són assajats sobre N problemes de prova. La tesi sosté que l'anàlisi habitual que es fa d'aquests resultats és clarament insuficient, i que degut a això les conclusions que s'exposen en els treballs publicats són sovint parcials, i en alguns casos fins i tot errònies.El treball s'inicia amb un estudi introductori sobre les mesures que permeten expressar la bondat d'un algorisme, a través de l'assaig sobre una col·lecció de problemes de prova. En aquest punt, es demostra la necessitat d'un estudi previ de les propietats inherents d'aquests problemes (a partir, per exemple, de les mètriques de complexitat) si es vol assegurar la fiabilitat de les conclusions que s'obtindran.A continuació, es defineix el marc d'aplicació de tot un conjunt de tècniques d'inferència estadística per les quals, essent aquestes prou ben conegudes, s'analitzen els factors a tenir en compte en la determinació del seu domini d'ús. La tesi proposa un protocol general per a l'estudi, des d'un punt de vista estadístic, del comportament d'un conjunt d'algorismes, incloent uns nous models gràfics que en faciliten l'anàlisi, i l'estudi detallat de les propietats inherents als problemes de prova utilitzats. Aquest protocol determina el domini d'ús de les metodologies per a la comparació dels resultats obtinguts en cada problema. La tesi demostra, a més, com aquest domini està directament relacionat amb la capacitat d'aquesta metodologia per a determinar diferències significatives, i també amb la seva replicabilitat.Finalment, es proposen un conjunt de casos sobre resultats ja publicats amb anterioritat, fruit de nous algorismes desenvolupats pel nostre Grup de Recerca, molt en especial en l'aplicació del raonament basat en casos. En tots ells es mostra la correcta aplicació de les metodologies desenvolupades en els capítols anteriors, i es destaquen els errors comesos habitualment, que duen a conclusions no fiables. / El trabajo presentado se enmarca dentro del campo de actuación propio del Grupo de Investigación en Sistemas Inteligentes: el aprendizaje artificial. Las grandes áreas son la computación evolutiva y el razonamiento basado en casos, dirigiendo la investigación a problemas de clasificación, diagnóstico y predicción. En todos estos campos son objeto de estudio grandes conjuntos de datos, para los cuales se trabajan diferentes técnicas que permiten la extracción de conocimiento y la aplicación a los citados problemas. Los grandes avances en estas áreas (muchas veces en forma de nuevos algoritmos) conviven con trabajos muy parciales sobre las metodologías adecuadas para la evaluación de estas nuevas propuestas.Frente a esta situación, la tesis que aquí se presenta propone un nuevo marco general para la evaluación del comportamiento de un conjunto de M algoritmos que, para poder ser analizados, son ensayados sobre N problemas de prueba. La tesis sostiene que el análisis habitual que se hace de estos resultados es claramente insuficiente, i que debido a esto las conclusiones que se exponen en los trabajos publicados son muchas veces parciales, y en algunos casos hasta erróneas.El trabajo se inicia con un estudio introductoria sobre las medidas que permiten expresar la bondad de un algoritmo, a través del ensayo sobre una colección de problemas de prueba. En este punto, se demuestra la necesidad de un estudio previo de las propiedades inherentes de estos problemas (a partir, por ejemplo, de las métricas de complejidad) si se quiere asegurar la fiabilidad de las conclusiones que se obtendrán.A continuación, se define el marco de aplicación de todo un conjunto de técnicas de inferencia estadística para las cuales, siendo éstas bien conocidas, se analizan los factores a tener en cuenta en la determinación de su dominio de uso. La tesis propone un protocolo general para el estudio, desde un punto de vista estadístico, del comportamiento de un conjunto de algoritmos, incluyendo unos nuevos modelos gráficos que facilitan su análisis, y el estudio detallado de las propiedades inherentes a los problemas de prueba utilizados.Este protocolo determina el dominio de uso de las metodologías para la comparación de resultados obtenidos en cada problema. La tesis demuestra, además, como este dominio está directamente relacionado con la capacidad de esta metodología para determinar diferencias significativas, y también con su replicabilidad.Finalmente, se proponen un conjunto de casos sobre resultados ya publicados con anterioridad, fruto de nuevos algoritmos desarrollados por nuestro Grupo de Investigación, muy en especial en la aplicación del razonamiento basado en casos. En todos ellos se muestra la correcta aplicación de las metodologías desarrolladas en los capítulos anteriores, y se destacan los errores cometidos habitualmente, que llevan a conclusiones no fiables. / The present work is all part of the work field of the Research Group in Intelligent Systems: the machine learning. The main areas are the evolutive computation and the case based reasoning, the investigation being focused on the classification, diagnosis and prediction issues. In all of these fields, great groups of data are studied, for which different techniques are applied, enabling the knowledge extraction and the application of the aforementioned problems. The big breakthroughs in these areas (many times in ways of algorithms) coexist with very partial works on suitable methodologies for the evaluation of these new proposals. Before this situation, the thesis herein presented proposes a new general approach for the assessment of a set of M algorithms behaviour which, in order to be analysed, are tested over N datasets. The thesis maintains that the analysis made for these results is clearly insufficient and consequently the conclusions put forward in the works published are very often partial and in some cases even erroneous.This work begins with an introductory study on the measures allowing to express the performance of an algorithm, through the test over a collection of datasets. At this point it is evidenced that a prior study of the inherent properties of these problems (for instance, based on complexity metrics) is needed, in order to assure the reliability of the conclusions that will be drawn. Next, the scope of application of a whole set of well known techniques of statistical inference is defined, for which the factors to be taken into account in the determination of their application analysed. The thesis proposes a general protocol for the study, from a statistical point of view, of the behaviour of a set of algorithms, including new graphic patterns which facilitate its analysis, as well as the detailed study of the inherent properties of the test problems used.This protocol determines the application domains of the methodologies for the comparison of the results obtained in each problem. The thesis demonstrates furthermore how this domain is directly related to the capability of this methodology to determine significant differences, as well as to its replicability.Finally, a set of cases on results already published are proposed, resulting from new algorithms developed by our Research Group, very specially in the application of the case-based reasoning. In all these cases the application of the methodologies developed in the previous chapters is proved to be correct, and the errors incurred in repeatedly, leading to unreliable conclusions, are highlighted. statistical inference experimental methodologies metodologías experimentales Machine learning inferencia estadística Aprendizaje artificial inferència estadística metodologies experimentals Aprenentatge artificial Les TIC i la seva gestió 004
3	Consensus and analia: new challenges in detection and management of security vulnerabilities in data networks Corral Torruella, Guiomar 10 September 2009 (has links) A mesura que les xarxes passen a ser un element integral de les corporacions, les tecnologies de seguretat de xarxa es desenvolupen per protegir dades i preservar la privacitat. El test de seguretat en una xarxa permet identificar vulnerabilitats i assegurar els requisits de seguretat de qualsevol empresa. L'anàlisi de la seguretat permet reconèixer informació maliciosa, tràfic no autoritzat, vulnerabilitats de dispositius o de la xarxa, patrons d'intrusió, i extreure conclusions de la informació recopilada en el test. Llavors, on està el problema? No existeix un estàndard de codi obert ni un marc integral que segueixi una metodologia de codi obert per a tests de seguretat, la informació recopilada després d'un test inclou moltes dades, no existeix un patró exacte i objectiu sobre el comportament dels dispositius de xarxa ni sobre les xarxes i, finalment, el nombre de vulnerabilitats potencials és molt extens. El desafiament d'aquest domini resideix a tenir un gran volum de dades complexes, on poden aparèixer diagnòstics inconsistents. A més, és un domini no supervisat on no s'han aplicat tècniques d'aprenentatge automàtic anteriorment. Per això cal una completa caracterització del domini. Consensus és l'aportació principal d'aquesta tesi: un marc integrat que inclou un sistema automatitzat per millorar la realització de tests en una xarxa i l'anàlisi de la informació recollida. El sistema automatitza els mecanismes associats a un test de seguretat i minimitza la durada de l'esmentat test, seguint la metodologia OSSTMM. Pot ser usat en xarxes cablejades i sense fils. La seguretat es pot avaluar des d'una perspectiva interna, o bé externa a la pròpia xarxa. Es recopilen dades d'ordinadors, routers, firewalls i detectors d'intrusions. Consensus gestionarà les dades a processar per analistes de seguretat. Informació general i específica sobre els seus serveis, sistema operatiu, la detecció de vulnerabilitats, regles d'encaminament i de filtrat, la resposta dels detectors d'intrusions, la debilitat de les contrasenyes, i la resposta a codi maliciós o a atacs de denegació de servei són un exemple de les dades a emmagatzemar per cada dispositiu. Aquestes dades són recopilades per les eines de test incloses a Consensus.La gran quantitat de dades per cada dispositiu i el diferent número i tipus d'atributs que els caracteritzen, compliquen l'extracció manual d'un patró de comportament. Les eines de test automatitzades poden obtenir diferents resultats sobre el mateix dispositiu i la informació recopilada pot arribar a ser incompleta o inconsistent. En aquest entorn sorgeix la segona principal aportació d'aquesta tesi: Analia, el mòdul d'anàlisi de Consensus. Mentre que Consensus s'encarrega de recopilar dades sobre la seguretat dels dispositius, Analia inclou tècniques d'Intel·ligència Artificial per ajudar als analistes després d'un test de seguretat. Diferents mètodes d 'aprenentatge no supervisat s'han analitzat per ser adaptats a aquest domini. Analia troba semblances dins dels dispositius analitzats i l'agrupació dels esmentats dispositius ajuda als analistes en l'extracció de conclusions. Les millors agrupacions són seleccionades mitjançant l'aplicació d'índexs de validació. A continuació, el sistema genera explicacions sobre cada agrupació per donar una resposta més detallada als analistes de seguretat.La combinació de tècniques d'aprenentatge automàtic en el domini de la seguretat de xarxes proporciona beneficis i millores en la realització de tests de seguretat mitjançant la utilització del marc integrat Consensus i el seu sistema d'anàlisi de resultats Analia. / A medida que las redes pasan a ser un elemento integral de las corporaciones, las tecnologías de seguridad de red se desarrollan para proteger datos y preservar la privacidad. El test de seguridad en una red permite identificar vulnerabilidades y asegurar los requisitos de seguridad de cualquier empresa. El análisis de la seguridad permite reconocer información maliciosa, tráfico no autorizado, vulnerabilidades de dispositivos o de la red, patrones de intrusión, y extraer conclusiones de la información recopilada en el test. Entonces, ¿dónde está el problema? No existe un estándar de código abierto ni un marco integral que siga una metodología de código abierto para tests de seguridad, la información recopilada después de un test incluye muchos datos, no existe un patrón exacto y objetivo sobre el comportamiento de los dispositivos de red ni sobre las redes y, finalmente, el número de vulnerabilidades potenciales es muy extenso. El desafío de este dominio reside en tener un gran volumen de datos complejos, donde pueden aparecer diagnósticos inconsistentes. Además, es un dominio no supervisado donde no se han aplicado técnicas de aprendizaje automático anteriormente. Por ello es necesaria una completa caracterización del dominio.Consensus es la aportación principal de esta tesis: un marco integrado que incluye un sistema automatizado para mejorar la realización de tests en una red y el análisis de la información recogida. El sistema automatiza los mecanismos asociados a un test de seguridad y minimiza la duración de dicho test, siguiendo la metodología OSSTMM. Puede ser usado en redes cableadas e inalámbricas. La seguridad se puede evaluar desde una perspectiva interna, o bien externa a la propia red. Se recopilan datos de ordenadores, routers, firewalls y detectores de intrusiones. Consensus gestionará los datos a procesar por analistas de seguridad. Información general y específica sobre sus servicios, sistema operativo, la detección de vulnerabilidades, reglas de encaminamiento y de filtrado, la respuesta de los detectores de intrusiones, la debilidad de las contraseñas, y la respuesta a código malicioso o a ataques de denegación de servicio son un ejemplo de los datos a almacenar por cada dispositivo. Estos datos son recopilados por las herramientas de test incluidas en Consensus. La gran cantidad de datos por cada dispositivo y el diferente número y tipo de atributos que les caracterizan, complican la extracción manual de un patrón de comportamiento. Las herramientas de test automatizadas pueden obtener diferentes resultados sobre el mismo dispositivo y la información recopilada puede llegar a ser incompleta o inconsistente. En este entorno surge la segunda principal aportación de esta tesis: Analia, el módulo de análisis de Consensus. Mientras que Consensus se encarga de recopilar datos sobre la seguridad de los dispositivos, Analia incluye técnicas de Inteligencia Artificial para ayudar a los analistas después de un test de seguridad. Distintos métodos de aprendizaje no supervisado se han analizado para ser adaptados a este dominio. Analia encuentra semejanzas dentro de los dispositivos analizados y la agrupación de dichos dispositivos ayuda a los analistas en la extracción de conclusiones. Las mejores agrupaciones son seleccionadas mediante la aplicación de índices de validación. A continuación, el sistema genera explicaciones sobre cada agrupación para dar una respuesta más detallada a los analistas de seguridad.La combinación de técnicas de aprendizaje automático en el dominio de la seguridad de redes proporciona beneficios y mejoras en la realización de tests de seguridad mediante la utilización del marco integrado Consensus y su sistema de análisis de resultados Analia. / As networks become an integral part of corporations and everyone's lives, advanced network security technologies are being developed to protect data and preserve privacy. Network security testing is necessary to identify and report vulnerabilities, and also to assure enterprise security requirements. Security analysis is necessary to recognize malicious data, unauthorized traffic, detected vulnerabilities, intrusion data patterns, and also to extract conclusions from the information gathered in the security test. Then, where is the problem? There is no open-source standard for security testing, there is no integral framework that follows an open-source methodology for security testing, information gathered after a security test includes large data sets, there is not an exact and objective pattern of behavior among network devices or, furthermore, among data networks and, finally, there are too many potentially vulnerabilities. The challenge of this domain resides in having a great volume of data; data are complex and can appear inconsistent diagnostics. It is also an unsupervised domain where no machine learning techniques have been applied before. Thus a complete characterization of the domain is needed.Consensus is the main contribution of this thesis. Consensus is an integrated framework that includes a computer-aided system developed to help security experts during network testing and analysis. The system automates mechanisms related to a security assessment in order to minimize the time needed to perform an OSSTMM security test. This framework can be used in wired and wireless networks. Network security can be evaluated from inside or from outside the system. It gathers data of different network devices, not only computers but also routers, firewalls and Intrusion Detection Systems (IDS). Consensus manages many data to be processed by security analysts after an exhaustive test. General information, port scanning data, operating system fingerprinting, vulnerability scanning data, routing and filtering rules, IDS response, answer to malicious code, weak passwords reporting, and response to denial of service attacks can be stored for each tested device. This data is gathered by the automated testing tools that have been included in Consensus.The great amount of data for every device and the different number and type of attributes complicates a manually traffic pattern finding. The automated testing tools can obtain different results, incomplete or inconsistent information. Then data obtained from a security test can be uncertain, approximate, complex and partial true. In this environment arises the second main contribution of this thesis: Analia, the data analysis module of Consensus. Whereas Consensus gathers security data, Analia includes Artificial Intelligence to help analysts after a vulnerability assessment. Unsupervised learning has been analyzed to be adapted to this domain. Analia finds resemblances within tested devices and clustering aids analysts in the extraction of conclusions. Afterwards, the best results are selected by applying cluster validity indices. Then explanations of clustering results are included to give a more comprehensive response to security analysts.The combination of machine learning techniques in the network security domain provides benefits and improvements when performing security assessments with the Consensus framework and processing its results with Analia. Vulnerability assessment Clustering Unsupervised Learning Machine Learning Network security Clustering Detección de vulnerabilidades Aprendizaje no supervisado Aprendizaje automático Seguridad en redes de datos Aprenentatge no supervisat Clustering Detecció de vulnerabilitats Aprenentatge Artificial Seguretat de xarxes de dades Les TIC i la seva Gestió 004 62 621.3

1

Page generated in 0.0778 seconds