Global ETD Search

41	Efficient algorithms for convolutional dictionary learning via accelerated proximal gradient Silva Obregón, Gustavo Manuel 05 April 2019 (has links) Convolutional sparse representations and convolutional dictionary learning are mathematical models that consist in representing a whole signal or image as a sum of convolutions between dictionary filters and coefficient maps. Unlike the patch-based counterparts, these convolutional forms are receiving an increase attention in multiple image processing tasks, since they do not present the usual patchwise drawbacks such as redundancy, multi-evaluations and non-translational invariant. Particularly, the convolutional dictionary learning (CDL) problem is addressed as an alternating minimization between coefficient update and dictionary update stages. A wide number of different algorithms based on FISTA (Fast Iterative Shrinkage-Thresholding Algorithm), ADMM (Alternating Direction Method of Multipliers) and ADMM consensus frameworks have been proposed to efficiently solve the most expensive steps of the CDL problem in the frequency domain. However, the use of the existing methods on large sets of images is computationally restricted by the dictionary update stage. The present thesis report is strategically organized in three parts. On the first part, we introduce the general topic of the CDL problem and the state-of-the-art methods used to deal with each stage. On the second part, we propose our first computationally efficient method to solve the entire CDL problem using the Accelerated Proximal Gradient (APG) framework in both updates. Additionally, a novel update model reminiscent of the Block Gauss-Seidel (BGS) method is incorporated to reduce the number of estimated components during the coefficient update. On the final part, we propose another alternative method to address the dictionary update stage based on APG consensus approach. This last method considers particular strategies of theADMMconsensus and our first APG framework to develop a less complex solution decoupled across the training images. In general, due to the lower number of operations, our first approach is a better serial option while our last approach has as advantage its independent and highly parallelizable structure. Finally, in our first set of experimental results, which is composed of serial implementations, we show that our first APG approach provides significant speedup with respect to the standard methods by a factor of 1:6 5:3. A complementary improvement by a factor of 2 is achieved by using the reminiscent BGS model. On the other hand, we also report that the second APG approach is the fastest method compared to the state-of-the-art consensus algorithm implemented in serial and parallel. Both proposed methods maintain comparable performance as the other ones in terms of reconstruction metrics, such as PSNR, SSIM and sparsity, in denoising and inpainting tasks. / Tesis Visión por computadoras
42	Predicting market segmentation variables using Twitter following relations Brossard Núñez, Ian Paul 03 December 2018 (has links) From the beginning, social sciences have looked to categorize people into groups that share common characteristics, to better serve the population, giving a distinguished treatment to each group. Applying this approach to the planning of business activities, we can better understand people’s needs, choosing the most favorable marketing strategies for each stratum of customers (saving effort in advertising and distribution) and maximize the level of satisfaction of each of market segment. Social Media is not a stranger to this principle: a correct segmentation will allow companies to avoid bringing content to people that are not part of their target audience, and to better respond to comments and complaints about their products and brands. However, some Social Media like Twitter still haven’t included demographic markers about their users within their marketing platforms, rendering decision-making difficult. In this paper, we demonstrate that it is possible to estimate important demographic information in Social Media by analyzing the tastes and preferences of the users (represented through the Twitter accounts they follow). We present four predictive models that allowed us to estimate the gender, age, socio-economic level and LATIR Lifestyle of a Twitter user. These models were trained using machine learning algorithms / Trabajo de investigación Twitter Segmentación del mercado
43	Exploración de métodos de clasificación de proteínas repetidas basado en su información estructural utilizando aprendizaje de máquina Tenorio Ku, Luiggi Gianpiere 04 September 2020 (has links) En la actualidad, existen métodos complejos para la clasificación e identificación de proteínas repetidas a partir de su estructura, los cuales implican un uso intenso y costoso de recursos computacionales. Debido a ello, en el presente trabajo de investigación se busca explorar soluciones alternativas y complementarias a otros sistemas en la etapa de clasificación de proteínas repetidas con técnicas del área de estudio de aprendizaje de máquina. Estas técnicas son conocidas por ser efectivas y rápidas para la sistematización de varios procedimientos de clasificación, segmentación y transformación de datos con la condición de que se disponga de una cantidad considerable de datos. De esa forma, en consecuencia de la cantidad de datos estructurales que se han generado en los últimos años en el ambito de las proteínas y las proteínas repetidas, es posible utilizar técnicas de aprendizaje de máquina para la clasificación de las mismas. Por ello, en este trabajo, a partir de un análisis a los datos que se poseen en la actualidad y una revisión sistemática de la literatura, se proponen posibles soluciones que utilizan aprendizaje de máquina para la clasificación automatizada y rápida de proteínas repetidas a partir de su estructura. De estas posibles soluciones, se concluye que es posible la implementación de un clasificador con múltiples entradas utilizando información de los ángulos de torsión y distancia entre aminoácidos de una proteína, la cual va a ser implementada y evaluada en un trabajo futuro. Proteínas--Procesamiento de datos Algoritmos--Aplicaciones
44	Revisión de la literatura del comercio electrónico, el aprendizaje automático y sus aplicaciones en la industria y tiendas por departamento en línea Agama Espinoza, Aymar Sandro 25 October 2021 (has links) Este trabajo de investigación reseña los hallazgos más recientes acerca del comercio electrónico y el aprendizaje automático aplicado a ese ámbito. En los últimos años, el comercio electrónico se ha expandido, en particular, en el contexto de la pandemia del COVID-19 ha tenido un importante rol para mitigar las restricciones de las ventas de los negocios que han tenido que enfrentar en varios periodos de tiempo la suspensión de sus operaciones presenciales. Al respecto, la United Nations Conference on Trade and Develpment (UNCTAD, 2020) informa que en el año 2020, si bien los resultados de las empresas líderes a nivel mundial de ventas online B2C ha sido diverso, el resultado global en ese grupo fue un incremento del 20.5%; asimismo, en un grupo de países seleccionados el aumento fue 22% a pesar de la caída de 1% en el total de ventas del año 2020. En dicho escenario, se observa el crecimiento de esta nueva industria que ofrece la digitalización de los mercados en toda forma de actividad económica, facilitando la compraventa de bienes, servicios e información a través de canales online. De acuerdo con la literatura, el comercio electrónico brinda diversas ventajas a las empresas tales como la reducción de costos operativos, el incremento del intercambio de información, reducción del tiempo de comercialización, aumento de la eficiencia en la cadena de suministro, mejora de la retención de cliente, creación de canales eficientes de bajo costo, entre otras. Las ventajas también se observan en el ámbito de los consumidores, como la facilidad de acceso a bienes y servicios, interacción social para validar sus preferencias y alta disponibilidad para escoger vendedores, productos e información. Asimismo, la investigación sobre el comercio electrónico revela que sus ventajas se pueden reforzar con las cualidades tecnológicas de la industria 4.0 y en particular, con las que ofrece la aplicación del aprendizaje automático. Uno de los hallazgos de la literatura es la necesidad de que los negocios se enfoquen en el cliente, y que construyan relaciones sostenibles y de largo plazo. De esta manera, se puede obtener información relevante sobre sus hábitos de consumo, preferencias y el comportamiento mediante algoritmos y programas de aprendizaje automático. Sobre el aprendizaje automático, diversos estudios han revelado un incremento de las aplicaciones predictivas y prescriptivas que buscan la optimización en la toma de decisiones. Asimismo, para implementarlas, la industria está invirtiendo vastamente en inteligencia artificial teniendo como impulsor a la gran cantidad de información que recopilan. Esto es visible en muchos campos de aplicación de la vida diaria desde el cuidado de la salud, turismo y fabricación hasta el comercio electrónico con el potencial de impactar favorablemente y de manera significativa en la economía. Finalmente, en relación con lo expuesto, la revisión de la literatura revela que las ventajas que ofrece el comercio electrónico pueden generar posibilidades de crear nuevas oportunidades comerciales y así contribuir a fortalecer la ventaja competitiva del negocio en un entorno cambiante Comercio electrónico
45	Fusión de datos para segmentación semántica en aplicaciones urbanas de teledetección aérea usando algoritmos de aprendizaje profundo Chicchón Apaza, Miguel Angel 27 June 2019 (has links) La creciente urbanización requiere un mapeo y monitoreo preciso del sistema urbano para planificar futuros desarrollos. La teledetección permite obtener información de la superficie de la Tierra y a partir de esta comprender el proceso de urbanización. Esta información hoy en dia puede ser obtenida en forma masiva utilizando vehículos aéreos no tripulados. Esta información puede ser variada incluyendo imágenes ópticas rgb, multiespectrales y modelos digitales de superficie, generandose la necesida de contar con técnicas de fusión multisensorial eficientes y efectivas para explotarlas completamente. La segmentación semántica en teledetección urbana permite la interpretación automática de los datos y es útil en tareas como el mapeo de la cobertura terrestre y la planificación urbana. Actualmente, el aprendizaje profundo se ha vuelto de interés en Visión por computador y Teledetección, existiendo diferentes estudios de la aplicación de variantes de redes neuronales convolucionales (CNN) en segmentación semántica. En el presente trabajo de tesis se investiga la utilización de métodos de fusión de datos basado en algoritmos de aprendizaje profundo para la segmentación semántica en aplicaciones urbanas de teledetección. / Tesis Teledetección Algoritmos
46	Sobre la construcción de ensambles de clasificadores diversos en tanto que variación normalizada de información y su vínculo con su precisión / On diverse classifier's ensemble building by normalized variation of information and its link to its accuracy Guinea Ordóñez, Rodrigo José 07 November 2021 (has links) La hipótesis en cuestión afirma que, dado el contexto teórico (i.e., definiciones matemáticas consideradas apropiadas para describir los fenómenos que se pretende estudiar) descrito en el artículo, existe una relación entre diversidad global y precisión de un ensamble de clasificadores. Por lo tanto, el propósito de esta investigación es estudiar la relación entre la precisión de ensambles y su diversidad dentro de un contexto geométrico y de información. Para lograrlo, interpretamos el problema como uno geométrico introduciendo un espacio métrico, donde los puntos son predicciones de clasificadores; la función de distancia, la métrica Variación de Información Normalizada (NVI, por sus siglas en inglés); y la construcción de un ensamble diverso es reducida a un problema de criba y novedosamente transformado a uno de programación cuadrática. La significancia estadística es asegurada haciendo uso de métodos Monte Carlo sobre 53 conjuntos de datos apropiados. El resultado es un algoritmo basado en una métrica usada en el contexto de teoría de la información, ideal para estudiar conjuntos de datos de alta dimensionalidad e inherentemente ruidosos. Por tanto, es relevante cuando el costo de adquirir muestras es muy alto; y la cantidad de variables, enorme. El marco teórico incluye las definiciones (e.g., definiciones relacionadas al concepto de diversidad o al espacio métrico utilizado), los teoremas (e.g., propiedades de espacios métricos) y algoritmos base (i.e., programación cuadrática) usados para conseguir los resultados. Los resultados muestran que, en promedio, el exceso de precisión de un ensemble diverso respecto de su contraparte aleatoria es función del valor de la diversidad global del mismo. Esto confirma la hipótesis inicial. Además, la metodología introducida para modelar el algoritmo introduce un marco que permite esclarecer la relación entre diversidad y precisión, ya que la representa en términos geométricos. / Ensemble models for classification are a Machine Learning approach that have frequently proven useful in generating results with higher performance and robustness tan mono-classifier models. Common advantages include tolerance for input data noise, decreased variance, and bias in predictions. Many studies justify the fact that the diversity of an ensemble is related to accuracy insomeway. However, the correct definition of diversity and the conditions needed for those statements to hold true remain unclear. The present work addresses this issue from a geometrical perspective presenting a method to build diverse ensembles based on the Normalized Variation of Information and explore which conditions correlate to the variability in its accuracy. The knowledge generated from this analysis will make it possible to clarify and bring in sight into how ensemble diversity is related to en semble accuracy. Algoritmos Bioinformática
47	Comparación de modelos de aprendizaje de máquina en la predicción del incumplimiento de pago en el sector de las microfinanzas López Malca, Jiam Carlos 24 June 2021 (has links) Las instituciones financieras dedicadas a las Microfinanzas brindan sus servicios a un público objetivo que en su mayoría presentan bajos recursos económicos y/o cuyo acceso a los sistemas bancarios tradicionales es limitado, estas instituciones al desarrollarse en un contexto poco favorable los riesgos de incumplimiento en los pagos son mayores en comparación a la banca tradicional. Por tanto, se exige hacer una evaluación económica financiera con mayor grado de detalle, requiriendo para tal fin la participación de un experto del negocio que basado en información obtenida y pericia propia determine si el potencial cliente será un buen pagador. Esta forma de evaluar a un cliente ha evolucionado en el sector financiero en los últimos años, esto debido en gran medida a la aplicación de tecnologías como la inteligencia artificial y el aprendizaje de máquina, ofreciendo una singularidad que es la capacidad de aprender de los datos, demandando menos esfuerzo y participación humana, y redituando mayores niveles de precisión. Se presentan en este artículo los resultados de la experimentación realizada con los siguientes modelos de aprendizaje de maquina: Regresión Logística, XGBoost, Random Forest, Gradient Boosting, Perceptron Multicapa (MLP) y algoritmos de aprendizaje profundo para la predicción del incumplimiento de pagos, aplicándose técnicas de balanceo de submuestreo y sobremuestreo, incluida la técnica de SMOTE. Así mismo, se aplicó la técnica de One Hot Encoding para el tratamiento de variables categóricas. Los diferentes modelos de aprendizaje de maquina se aplicaron a un conjunto de datos proporcionado por una institución peruana líder en el sector de las microfinanzas, reportando los mejores resultados el modelo XGBoost, con una exactitud de 97.53% y un F1-Score de 0.1278. / The financial institutions dedicated to Microfinance offer their services to a target audience that, for the most part, has low economic resources and/or whose access to traditional banking systems is limited, these institutions to develop in an unfavorable context the risks of non-compliance in the payments are greater compared to traditional banking, therefore it is required to make a financial economic evaluation with a greater degree of detail, requiring for this purpose the participation of a business expert that based on information obtained and own expertise determine if the potential client will be a good payer, this way of evaluating a customer has evolved in the financial sector in recent years, this largely due to the application of technologies such as artificial intelligence and machine learning, offering a uniqueness that is the ability to learn from the data, demanding less effort and human participation mana, and yielding higher levels of accuracy. This article presents the results of the experimentation carried out with the following machine learning models: Logistic Regression, XGBoost, Random Forest, Gradient Boosting, Multilayer Perceptron (MLP) and deep learning algorithms for the prediction of non-payment, applying subsampling and oversampling balancing techniques, including the SMOTE technique, and the One Hot Encoding technique was applied for the treatment of categorical variables. The different models of machine learning were applied to a data set provided by a leading Peruvian institution in the microfinance sector, with the XGBoost model reporting the best results, with an accuracy of 97.53% and an F1-Score of 0.1278. Microfinanzas
48	Classifier based on straight line segments: an overview and theoretical improvements Medina Rodríguez, Rosario Alejandra 09 September 2022 (has links) Literature offers several supervised machine learning algorithms focused on binary classification for solving daily problems. Compared to well-known conventional classifiers, the Straight-line Segment Classifier (SLS Classifier) stands out for its low complexity and competitiveness. It takes advantage of some good characteristics of Learning Vector Quantization and Nearest Feature Line. In addition, it has lower computational complexity than Support Vector Machines. The SLS binary classifier is based on distances between a set of points and two sets of straight line segments. Therefore, it involves finding the optimal placement of straight line segment extremities to achieve the minimum mean square error. In previous works, we explored three different evolutive algorithms as optimization methods to increase the possibilities of finding a global optimum generating different solutions as the initial population. Additionally, we proposed a new way of estimating the number of straight line segments by applying an unsupervised clustering method. However, some interesting questions remained to be further analyzed, such as a detailed analysis of the parameters and base definitions of the optimization algorithm. Furthermore, it was straightforward that the straight-line segment lengths can grow significantly during the training phase, negatively impacting the classification rate. Therefore, the main goal of this thesis is to outline the SLS Classifier baseline and propose some theoretical improvements, such as (i) Formulating an optimization approach to provide optimal final positions for the straight line segments; (ii) Proposing a model selection approach for the SLS Classifier; and, (iii) Determining the SLS Classifier performance when applied on real problems (10 artificial and 8 UCI public datasets). The proposed methodology showed promising results compared to the original SLS Classifier version and other classifiers. Moreover, this classifier can be used in research and industry for decisionmaking problems due to the straightforward interpretation and classification rates. Algoritmos
49	Optimización y Procesamiento Inteligente de Grandes Volúmenes de Datos Categóricos Salvador-Meneses, Jaime 11 June 2019 (has links) El algoritmo de clasiﬁcación kNN (k-nearest neighbors) es uno de los métodos de clasiﬁcación no paramétrico más utilizados, sin embargo, está limitado debido al consumo de memoria relacionado con el tamaño del conjunto de datos, lo que hace poco práctica su aplicación a grandes volúmenes de datos. La investigación descrita en esta tesis fue motivada por la necesidad de una representación óptima de datos categóricos que puedan ser fácilmente incorporados en los algoritmos de aprendizaje automático que permiten un análisis y explotación inteligente de grandes volúmenes de datos. En esta tesis se propone el uso de un esquema de compresión a nivel de bits para comprimir el conjunto de datos de entrenamiento (training dataset) antes de entrenar un modelo de aprendizaje automático. Para utilizar el conjunto de datos, se propuso una descompresión en tiempo real que permite el uso del conjunto de datos sin necesidad de una descompresión completa. Para facilitar la incorporación del método de compresión propuesto en los frameworks de aprendizaje automático existentes, el método propuesto está alineado con el estándar Basic Linear Algebra Subprograms - BLAS de nivel 1 que deﬁne los bloques de construcción básicos en forma de funciones algebraicas. En particular, en esta tesis se propone el uso del algoritmo kNN para trabajar con datos categóricos comprimidos. El método propuesto permite mantener los datos comprimidos en memoria, con lo que se reduce drásticamente el consumo de memoria. Big Data Aprendizaje automático Compresión BLAS KNN
50	Propuesta metodológica para la optimización de modelos predictivos de generación de residuos sólidos municipales en zonas urbanas Izquierdo Horna, Luis Antonio 19 June 2024 (has links) El pronóstico de la generación de residuos sólidos municipales (RSM) desempeña un papel esencial en la toma de decisiones y proporciona información relevante para la gestión de residuos, así como una comprensión profunda de los factores que influyen en este proceso. En este trabajo, se desarrolló un modelo de predicción de RSM específico para Lima Metropolitana, basado en variables socioculturales, ambientales y económicas, teniendo al 2019 como año de referencia, debido a la influencia del COVID-19 en los datos sobre este tema en años posteriores a la pandemia. El modelo se construyó utilizando las cantidades per cápita de RSM generadas en cada distrito, junto con parámetros relacionados con el consumo de combustibles en el hogar (como gas natural, electricidad y gas licuado de petróleo) y características demográficas de la población (como edad, nivel de educación y gasto mensual). Dada la calidad y disponibilidad de datos, se optó por utilizar el algoritmo de random forest como técnica de predicción. Las variables analizadas se obtuvieron a partir de la Encuesta Residencial de Consumo y Uso de Energía (ERCUE) a nivel municipal. Los resultados indicaron que el algoritmo implementado explica el 51% de la variabilidad de los datos. Se espera que las recomendaciones presentadas en este estudio sirvan para investigaciones futuras relacionadas con la predicción de RSM, contribuyendo a obtener resultados más precisos y aplicables a contextos específicos. / Municipal solid waste (MSW) generation forecasting plays an essential role in decision making and provides relevant information for waste management, as well as a deep understanding of the factors that influence this process. In this work, a specific MSW prediction model was developed for Metropolitan Lima, based on sociocultural, environmental and economic variables, having 2019 as the reference year, due to the influence of COVID-19 on data on this topic in post-pandemic years. The model was constructed using per capita amounts of MSW generated in each district, along with parameters related to household fuel consumption (such as natural gas, electricity, and liquefied petroleum gas) and demographic characteristics of the population (such as age, education level, and monthly expenditure). Given the quality and availability of data, we chose to use the random forest algorithm as a prediction technique. The variables analyzed were obtained from the Residential Survey of Energy Consumption and Use (ERCUE) at the municipal level. The results indicated that the implemented algorithm explains 51% of the variability of the data. It is expected that the recommendations presented in this study will be useful for future research related to MSW prediction, contributing to obtain more accurate results applicable to specific contexts. Combustibles--Consumo Residuos sólidos

Search results