Global ETD Search

1	Mitigación de Sesgos para la Automatización Justa de Tareas de Clasificación Consuegra-Ayala, Juan Pablo 19 January 2024 (has links) Los modelos de aprendizaje automático están siendo ampliamente utilizados en múltiples áreas de la vida humana. Tradicionalmente, se han aplicado en reconocimiento de voz, detección de rostros, clasificación de imágenes, sistemas de recomendación, etc. Con la reciente revolución de los modelos generativos, la popularidad de los chatbots conversacionales se ha disparado. Esto ha dado lugar a que los modelos de aprendizaje automático se utilicen cada vez más para abordar tareas para las que no estaban específicamente capacitados. El prompt engineering ha permitido que personas no expertas en aprendizaje automático (que comúnmente tampoco están familiarizadas con los problemas subyacentes al uso de modelos de aprendizaje automático para hacer predicciones) automaticen ciertas tareas. La incorporación de algoritmos de aprendizaje automático en tareas de toma de decisiones de alto riesgo ha levantado algunas alertas en la comunidad científica. Las tareas de toma de decisiones de alto riesgo denotan aquellas tareas que pueden tener un gran impacto en las vidas de las personas sobre quienes se toman las decisiones. Por ejemplo, se han utilizado modelos para decidir si una persona es contratada o no, si se le concede un préstamo, si se acepta una solicitud de cobertura ampliada de seguridad sanitaria y para predecir la probabilidad de reincidencia en un delito. Estudios han demostrado que la automatización inconsciente de este tipo de tareas contiene sesgos, lo cual provoca que decisiones injustas sean tomadas sobre determinados grupos de población. El peligro fundamental de ignorar este problema es que los métodos de aprendizaje automático podrían no sólo reflejar los sesgos presentes en nuestra sociedad, sino que también amplificarlos. Esta tesis presenta el diseño y validación de una tecnología para asistir la automatización justa de problemas de clasificación. En esencia, la propuesta se basa en diseñar una tecnología que saque provecho de las soluciones intermedias generadas durante la resolución de problemas de clasificación mediante el uso de herramientas de Auto-ML, en particular, AutoGOAL, con el propósito de crear clasificadores imparciales y justos. Cuatro componentes fundamentales conforman la propuesta: (I) una componente de Auto-ML, encargada de generar colecciones de modelos con hipótesis diferentes entre sí, cada uno debiendo ser capaz de transformar los datos de entrada a los de salida; (II) una componente de ensemble, responsable de combinar múltiples soluciones para producir una más robusta, exacta y justa, según criterios definidos por funciones de pérdida; (III) una componente de cuantificación de sesgos, encargada de medir la calidad de un modelo según varias definiciones de sesgo y equidad; y (IV) una componente de anotación automática de atributos protegidos, para permitir estimar los sesgos en situaciones donde normalmente no sería posible. Los resultados discutidos en este documento prueban la capacidad de la tecnología propuesta para automatizar tareas de clasificación a la par que se controla su equidad. Además, la experimentación muestra la competitividad de la propuesta respecto a otras alternativas para controlar los sesgos en el modelo de aprendizaje automático y colecciones de datos. La propuesta tiene la ventaja adicional de requerir poco o ningún conocimiento sobre arquitecturas de aprendizaje automático dada las componentes de Auto-ML que incorpora. Todo esto lo convierte en una tecnología valiosa y conveniente de explotar. Más allá de los resultados obtenidos sobre la línea principal de investigación, se obtuvieron algunos resultados secundarios de gran valor. Por un lado, se pudo demostrar que ciertas componentes de la tecnología pueden utilizarse para extender, de forma más robusta, corpus de texto con entidades y relaciones anotadas, asumiendo que se cuente con varias versiones de anotación que se quieran combinar; esta condición suele ser viable dada la existencia de competencias internacionales donde varios participantes compiten por generar la mejor solución. Muy ligado a esto, otro resultado secundario es la generación del eHealth-KD 2019 ensembled corpus a partir de ensamblar las soluciones participantes de la competencia eHealth-KD 2019. Otro resultado secundario se tiene en la componente de anotación automática de atributos protegidos, la cual puede funcionar independiente del flujo end-to-end de automatización justa, y por tanto puede utilizarse como fase de preprocesamiento para otros sistemas de cuantificación o mitigación de sesgos. En ese sentido, se publicó también el corpus Reviews' Gender} diseñado para auxiliar el entrenamiento y evaluación de modelos de anotación de atributos protegidos con el fin de usar sus predicciones como estimadores de equidad. Todos los recursos desarrollados en esta investigación están a disposición pública de la comunidad científica. / Esta investigación ha sido desarrollada de forma conjunta en la Universidad de Alicante (España) y la Universidad de La Habana (Cuba), entre enero de 2020 y septiembre de 2023, en sucesivas estancias de investigación co-financiadas por ambas instituciones. La Universidad de Alicante, el Departamento de Lenguajes y Sistemas Informáticos ha soportado esta investigación a través de los proyectos TRIVIAL (PID2021-122263OB-C22), CORTEX (PID2021-123956OB-I00), CLEARTEXT (TED2021-130707B-I00), SOCIALTRUST (PDC2022-133146-C22), NL4DISMIS (CIPROM/2021/21) y VIVES (2022-TL22-00215334). La Universidad de La Habana, la Facultad de Matemática y Computación y el Departamento de Inteligencia Artificial y Sistemas Computacionales han soportado esta investigación. Definiciones de equidad Mitigación de sesgos Métodos de ensemble Auto-ML Optimización
2	Metalinguistic information extraction from specialized texts to enrich computational lexicons Rodríguez Penagos, Carlos 03 February 2005 (has links) Este trabajo presenta un estudio empírico del uso y función del metalenguaje en el conocimiento científico experto y los lenguajes de especialidad en lengua inglesa, con especial atención al establecimiento, modificación y negociación de la terminología común del grupo de especialistas de cada área. Mediante enunciados discursivos llamados Operaciones Metalingüísticas Explícitas se formaliza y analiza el carácter dinámico de las estructuras conceptuales científicas y los sublenguajes que las vehiculan.Por otro lado, se presenta la implementación de un sistema automático de extracción de información metalingüística en textos de especialidad. El sistema MOP (Metalinguistic Operation Processor) extrae enunciados metalingüísticos y definiciones de documentos especializados, utilizando tanto autómatas de estados finitos como algoritmos de aprendizaje automático. El sistema crear bases semi-estructuradas de información terminológica llamadas Metalinguistic Information Databases (MID), de utilidad para la lexicografía especializada, el procesamiento del lenguaje natural y el estudio empírico de la evolución del conocimiento científico, entre otras aplicaciones. / This work presents an empirical study of the use and function of metalanguage in expert scientific knowledge and special-domain languages, with special focus on how each field's terminology is established, modified and negotiated within the group of experts. Through discourse statements called Explicit metalinguistic Operations the dynamic nature of conceptual structures and the sublanguages that embody them are formalized and analyzed.On the other hand, it presents a system implementation for the automatic extraction of metalinguistic information from specialized texts. The Metalinguistic Operation Processor (MOP) system extracts metalinguistic statements and definitions from special-domain documents, using finite-state machinery and machine-learning algorithms. The system creates semi-structured databases called Metalinguistic Information Databases (MID), useful for specialized lexicography, Natural Language Processing, and the empirical study of scientific knowledge, among other applications. definitions metalanguage natural language processing corpus especializados términos lexical acquisition conocimiento científico pragmatics discourse processing terminología procesamiento del lenguaje natural metalenguaje extracción de información definiciones semántica scientific knowledge information extraction terminology semantics specialized corpora pragmática procesamiento del discurso adquisición léxica terms 81

Search results

Mitigación de Sesgos para la Automatización Justa de Tareas de Clasificación

Metalinguistic information extraction from specialized texts to enrich computational lexicons