Spelling suggestions: "subject:"data warehouse."" "subject:"data warehouses.""
41 |
Diseño y construcción de un Data Mart para el análisis de preferencias del usuario en la web a partir de datos originados en el portal EducarchileArias Cuevas, Jaime Mijail January 2012 (has links)
Ingeniero Civil Industrial / El objetivo general del trabajo de título es diseñar y construir un Data Mart que permita obtener indicadores de uso de los escritorios del portal educarchile.
Educarchile es un portal administrado por la Fundación Chile, y que fue creado por esta última en conjunto con el Ministerio de Educación. Su misión es contribuir al mejoramiento de la calidad de la educación en todos sus niveles, para lo cual cuenta con un sitio dirigido a todos los miembros de la comunidad educativa nacional. Para esto, el diseño del sitio se basa en un Home y 4 escritorios enfocados en cada segmento de usuarios, los que constan de secciones que sirven de enlace al contenido del portal.
Educarchile, con el objetivo de obtener información acerca del comportamiento de sus usuarios, trabaja con dos herramientas de pago, Certifica y Google Analytics. Sin embargo, debido al tamaño del portal y el dinamismo del contenido publicado en sus escritorios, no obtiene de estas herramientas información acerca de las preferencias que tienen los usuarios respecto a las secciones de aquellas páginas, y las llamadas viñetas que las componen, que son recursos que permiten la publicación de contenido bajo la restricción que algunas sean visualizadas solo si se hace un click sobre ellas. Adicionalmente, el sitio permite la emisión de opiniones en los artículos, sin embargo, no existe ningún tipo de alerta o filtro para las publicaciones que no se ajustan al clima y objetivo del portal.
La hipótesis del trabajo plantea que a través de la creación de indicadores limpios y consolidados respecto del uso de las secciones y viñetas que componen el portal, y que se almacenarán en un Data Mart, el equipo de administración del sitio podrá acceder a información detallada acerca del comportamiento de sus visitantes, la que no ha sido obtenida hasta hoy.
Para llevar a cabo el trabajo, se diseñó una arquitectura que permite la extracción y el procesamiento de los datos, además de su posterior carga en un repositorio multidimensional, el que funciona como fuente de datos para consultas OLAP. La arquitectura consta de 3 elementos principales: los modelos de datos; el proceso de extracción, transformación y carga de los datos; y un modelo para clasificar y filtrar opiniones, basado en el algoritmo Naive Bayes. Para cada elemento se optó por la utilización de herramientas gratuitas.
Los indicadores obtenidos a través del procesamiento de los archivos weblog entregaron información desconocida y valiosa al equipo del portal. Uno de los principales resultados fue: comprobar que las viñetas que componen las secciones de los escritorios producen un alto sesgo en el comportamiento de los usuarios, principalmente en aquellas secciones que contienen información de actualidad. En ellas los usuarios no visualizan los recursos que son publicados en las viñetas que se encuentran ocultas por defecto, lo que se traduce en una política ineficiente de edición y publicación de artículos. Por su parte, el algoritmo Naive Bayes obtuvo un alto índice de recall para aquellas clases que se deseaba predecir (ayuda y planificación), que en ambos casos supera el 85%. Sin embargo, la clase que representa el resto de los comentarios tiene un menor recall, habiendo un 30% de las opiniones clasificadas erróneamente.
Como conclusión, el modelo propuesto es capaz de satisfacer las necesidades de información de la organización, entregando conocimiento útil a la hora de evaluar y definir nuevas políticas de publicación de contenidos que se ajusten a las reales preferencias de los usuarios. A pesar de aquello, se recomienda realizar una nueva medición de los indicadores una vez efectuados cambios en el diseño de las páginas, para así obtener resultados contundentes que permitan identificar las preferencias de diseño y contenido por parte de los usuarios. Además, se recomienda implementar en el sitio el modelo obtenido para las opiniones, y así detener la publicación de comentarios que no aportan valor al sitio.
|
42 |
Diseño y construcción de una data mart para el análisis del comportamiento de los usuarios de la web aplicado en EducarchileCerda Soto, Juan Antonio January 2012 (has links)
Ingeniero Civil Industrial / Autor no autoriza el acceso a texto completo de su tesis en el Repositorio Académico / El objetivo general del presente trabajo es diseñar y construir un data mart para almacenar indicadores que permitan el análisis del comportamiento de los usuarios del portal educarchile. Estos indicadores tienen como finalidad comprender el uso de las herramientas del sitio a partir del aprovechamiento de los datos generados por la navegación de los usuarios, los cuales hasta hoy no estaban siendo utilizados.
El sitio educarchile.cl es un portal de apoyo a la educación, autónomo y de servicio publico administrado por la Fundación Chile que tiene por misión el mejoramiento de la calidad de la educación en todos sus niveles, ámbitos y modalidades. Su estructura principal se encuentra dividida en una portada y 4 secciones llamadas escritorios, los que apuntan a los perfiles principales en los que se enfoca el portal, que son: docentes, directivos, estudiantes y familia.
Los analistas del sitio, a pesar de contar con estudios anteriores que se basan principalmente en encuestas, desconocen el impacto que tiene el actual diseño en la utilización de las herramientas, lectura de artículos y participación de los usuarios. Además se desea validar supuestos como que el ubicar artículos en determinadas partes de los escritorios logra dar una mayor visibilidad a aquellos contenidos.
En éste trabajo se plantea que la consolidación de los datos, provenientes de los web logs, en un data mart, permitirá la determinación indicadores de uso del sitio, tanto tradicionales como ajustados a las necesidades de los analistas. En específico se podrá dar respuesta a las interrogantes relacionadas con el impacto del diseño de los escritorios.
Con el apoyo de los integrantes de la fundación se establecieron las 14 páginas de las que se deseaba obtener información. Se procesaron cerca de 620 millones de registros, de los archivos de web logs, concernientes a los meses de septiembre y noviembre del 2011 lográndose obtener indicadores acerca de los escritorios, uso de viñetas y secciones.
Adicionalmente se hizo un estudio de las sesiones que visitaron el escritorio directivos, con el fin de conocer los contenidos más requeridos y el comportamiento de navegación. Para esto se utilizó técnicas de minería de datos que permitieron crear grupos de sesiones con características distintivas de los visitantes.
Como resultado, se concluyó que los indicadores obtenidos ayudaron a comprender de mejor forma el uso del portal y evidencian la necesidad de crear diseños personalizados a cada perfil de usuario, los que deben ir de la mano a sus competencias en el uso de la Web.
|
43 |
Aplicación de técnicas de minería de datos para mejorar el proceso de control de gestión de ENTELMartínez Álvarez, Clemente Antonio January 2012 (has links)
Magíster en Gestión de Operaciones / Ingeniero Civil Industrial / El presente estudio se enfoca en el análisis de ingresos no percibidos en la empresa de telecomunicaciones ENTEL, dentro del proceso de provisión de servicios privados de telefonía, internet y comunicaciones a los clientes de mercados no residenciales. Dicho proceso es controlado mediante indicadores de gestión, obtenidos a partir de la transformación de datos de clientes y servicios. La generación de estos indicadores demanda tiempo y esfuerzo por parte de los analistas de la empresa, debido a que es un trabajo realizado en forma manual.
El objetivo principal de esta tesis consiste en reducir el tiempo de cálculo de los indicadores de servicios privados de ENTEL, para lo cual se aplicó modelamiento multidimensional, técnicas de minería de datos y automatización de procesos, y de este modo poder entregar información más oportunamente.
La metodología de este trabajo se basa principalmente en las etapas del proceso conocido como Knowledge Discovery in Databases (KDD), implementadas de acuerdo a la metodología CRISP-DM, la cual es usada para el desarrollo de proyectos de minería de datos. Para comenzar, se hizo un levantamiento de las métricas existentes para la gestión de la provisión de servicios. Luego, se seleccionaron y procesaron las fuentes de datos para el estudio de forma automática, almacenando las variables más relevantes en un repositorio multidimensional (Data Mart), reduciendo drásticamente el tiempo de cálculo de indicadores y liberando recursos humanos altamente calificados. A partir de lo anterior, se aplicaron técnicas de clustering para obtener grupos de elementos con datos de clientes y servicios cuyas características fueran similares, asociándoles un valor de precio según información histórica de consumo. Por último, se generó un modelo de clasificación que asignara, de acuerdo a una medida de similitud, elementos que no habían sido facturados a los grupos previamente definidos, y de esta manera estimar los ingresos no percibidos.
Con ayuda de minería de datos se logró diseñar nuevas métricas para el proceso e identificar a los clientes y servicios más críticos, lo que permite llegar a valores más exactos de los ingresos perdidos en cada segmento, y aplicar estrategias diferenciadas para hacer el cobro a sus clientes.
El trabajo realizado permitió una reducción del tiempo de obtención de los indicadores en un 78%, pasando de un total de 14 horas inicialmente a tan sólo 3 horas, logrando además estimar los ingresos perdidos mensualmente por servicios no facturados en un monto de MM $ 210, con un error de la estimación menor al 5%. Se espera que, con ayuda de este estudio, la empresa pueda tomar decisiones informadas y mejorar su capacidad de control del proceso de provisión de servicios privados, con el fin de regularizar su flujo de ingreso mensual.
|
44 |
Analisando os dados do programa de melhoramento genético da raça nelore com data warehousing e data mining. / Analyzing the program of genetic improvement of nelore breed data with data warehousing and data mining.Valmir Ferreira Marques 28 October 2002 (has links)
A base de dados do Programa de Melhoramento Genético da Raça Nelore está crescendo consideravelmente, com isso, a criação de um ambiente que dê apoio à análise dos dados do Programa é de fundamental importância. As tecnologias que são utilizadas para a criação de um ambiente analítico são os processos de Data Warehousing e de Data Mining. Neste trabalho, foram construídos um Data Warehouse e consultas OLAP para fornecer visões multidimensionais dos dados. Além das análises realizadas com as consultas, também foi utilizada uma ferramenta de Data Mining Visual. O ambiente analítico desenvolvido proporciona aos pesquisadores e criadores do Programa um maior poder de análise de seus dados. Todo o processo de desenvolvimento desse ambiente é aqui apresentado. / The Program of Genetic Improvement of Nelore Breed database have been growing considerably. Therefore, the creation of an environment to support the data analysis of Program is very important. The technologies that are used for the creation of an analytical environment are the Data Warehousing and the Data Mining processes. In this work, a Data Warehouse and OLAP consultations had been constructed to supply multidimensional views of the data. Beyond the analyses carried through with the consultations, a tool of Visual Data Mining also was used. The developed analytical environment provides to the researchers and cattlemen of the Program a greater power of data analysis. The whole process of development of this environment is presented here.
|
45 |
Analisando os dados do programa de melhoramento genético da raça nelore com data warehousing e data mining. / Analyzing the program of genetic improvement of nelore breed data with data warehousing and data mining.Marques, Valmir Ferreira 28 October 2002 (has links)
A base de dados do Programa de Melhoramento Genético da Raça Nelore está crescendo consideravelmente, com isso, a criação de um ambiente que dê apoio à análise dos dados do Programa é de fundamental importância. As tecnologias que são utilizadas para a criação de um ambiente analítico são os processos de Data Warehousing e de Data Mining. Neste trabalho, foram construídos um Data Warehouse e consultas OLAP para fornecer visões multidimensionais dos dados. Além das análises realizadas com as consultas, também foi utilizada uma ferramenta de Data Mining Visual. O ambiente analítico desenvolvido proporciona aos pesquisadores e criadores do Programa um maior poder de análise de seus dados. Todo o processo de desenvolvimento desse ambiente é aqui apresentado. / The Program of Genetic Improvement of Nelore Breed database have been growing considerably. Therefore, the creation of an environment to support the data analysis of Program is very important. The technologies that are used for the creation of an analytical environment are the Data Warehousing and the Data Mining processes. In this work, a Data Warehouse and OLAP consultations had been constructed to supply multidimensional views of the data. Beyond the analyses carried through with the consultations, a tool of Visual Data Mining also was used. The developed analytical environment provides to the researchers and cattlemen of the Program a greater power of data analysis. The whole process of development of this environment is presented here.
|
46 |
A Practical Approach to Merging Multidimensional Data ModelsMireku Kwakye, Michael 30 November 2011 (has links)
Schema merging is the process of incorporating data models into an integrated, consistent schema from which query solutions satisfying all incorporated models can be derived. The efficiency of such a process is reliant on the effective semantic representation of the chosen data models, as well as the mapping relationships between the elements of the source data models.
Consider a scenario where, as a result of company mergers or acquisitions, a number of related, but possible disparate data marts need to be integrated into a global data warehouse. The ability to retrieve data across these disparate, but related, data marts poses an important challenge. Intuitively, forming an all-inclusive data warehouse includes the tedious tasks of identifying related fact and dimension table attributes, as well as the design of a schema merge algorithm for the integration. Additionally, the evaluation of the combined set of correct answers to queries, likely to be independently posed to such data marts, becomes difficult to achieve.
Model management refers to a high-level, abstract programming language designed to efficiently manipulate schemas and mappings. Particularly, model management operations such as match, compose mappings, apply functions and merge, offer a way to handle the above-mentioned data integration problem within the domain of data warehousing.
In this research, we introduce a methodology for the integration of star schema source data marts into a single consolidated data warehouse based on model management. In our methodology, we discuss the development of three (3) main streamlined steps to facilitate the generation of a global data warehouse. That is, we adopt techniques for deriving attribute correspondences, and for schema mapping discovery. Finally, we formulate and design a merge algorithm, based on multidimensional star schemas; which is primarily the core contribution of this research. Our approach focuses on delivering a polynomial time solution needed for the expected volume of data and its associated large-scale query processing.
The experimental evaluation shows that an integrated schema, alongside instance data, can be derived based on the type of mappings adopted in the mapping discovery step. The adoption of Global-And-Local-As-View (GLAV) mapping models delivered a maximally-contained or exact representation of all fact and dimensional instance data tuples needed in query processing on the integrated data warehouse. Additionally, different forms of conflicts, such as semantic conflicts for related or unrelated dimension entities, and descriptive conflicts for differing attribute data types, were encountered and resolved in the developed solution. Finally, this research has highlighted some critical and inherent issues regarding functional dependencies in mapping models, integrity constraints at the source data marts, and multi-valued dimension attributes. These issues were encountered during the integration of the source data marts, as it has been the case of evaluating the queries processed on the merged data warehouse as against that on the independent data marts.
|
47 |
A Practical Approach to Merging Multidimensional Data ModelsMireku Kwakye, Michael 30 November 2011 (has links)
Schema merging is the process of incorporating data models into an integrated, consistent schema from which query solutions satisfying all incorporated models can be derived. The efficiency of such a process is reliant on the effective semantic representation of the chosen data models, as well as the mapping relationships between the elements of the source data models.
Consider a scenario where, as a result of company mergers or acquisitions, a number of related, but possible disparate data marts need to be integrated into a global data warehouse. The ability to retrieve data across these disparate, but related, data marts poses an important challenge. Intuitively, forming an all-inclusive data warehouse includes the tedious tasks of identifying related fact and dimension table attributes, as well as the design of a schema merge algorithm for the integration. Additionally, the evaluation of the combined set of correct answers to queries, likely to be independently posed to such data marts, becomes difficult to achieve.
Model management refers to a high-level, abstract programming language designed to efficiently manipulate schemas and mappings. Particularly, model management operations such as match, compose mappings, apply functions and merge, offer a way to handle the above-mentioned data integration problem within the domain of data warehousing.
In this research, we introduce a methodology for the integration of star schema source data marts into a single consolidated data warehouse based on model management. In our methodology, we discuss the development of three (3) main streamlined steps to facilitate the generation of a global data warehouse. That is, we adopt techniques for deriving attribute correspondences, and for schema mapping discovery. Finally, we formulate and design a merge algorithm, based on multidimensional star schemas; which is primarily the core contribution of this research. Our approach focuses on delivering a polynomial time solution needed for the expected volume of data and its associated large-scale query processing.
The experimental evaluation shows that an integrated schema, alongside instance data, can be derived based on the type of mappings adopted in the mapping discovery step. The adoption of Global-And-Local-As-View (GLAV) mapping models delivered a maximally-contained or exact representation of all fact and dimensional instance data tuples needed in query processing on the integrated data warehouse. Additionally, different forms of conflicts, such as semantic conflicts for related or unrelated dimension entities, and descriptive conflicts for differing attribute data types, were encountered and resolved in the developed solution. Finally, this research has highlighted some critical and inherent issues regarding functional dependencies in mapping models, integrity constraints at the source data marts, and multi-valued dimension attributes. These issues were encountered during the integration of the source data marts, as it has been the case of evaluating the queries processed on the merged data warehouse as against that on the independent data marts.
|
48 |
Benchmarking of Data Warehouse Maintenance PoliciesAndersson, Ola January 2000 (has links)
<p>Many maintenance policies have been proposed for refreshing a warehouse. The difficulties of selecting an appropriate maintenance policy for a specific scenario with specific source characteristics, user requirements etc. has triggered researcher to develop algorithms and cost-models for predicting cost associated with a policy and a scenario. In this dissertation, we develop a benchmarking tool for testing scenarios and retrieve real world data that can be compared against algorithms and cost-models. The approach was to support a broad set of configurations, including the support of source characteristics proposed in [ENG00], to be able to test a diversity set of scenarios.</p>
|
49 |
Data warehousing at the Marine Corps Institute /Vuillemot, Andrew J. January 2003 (has links) (PDF)
Thesis (M.S. in Information Technology Management)--Naval Postgraduate School, September 2003. / Thesis advisor(s): Thomas J. Housel, Glenn R. Cook. Includes bibliographical references (p. 81-82). Also available online.
|
50 |
A Practical Approach to Merging Multidimensional Data ModelsMireku Kwakye, Michael 30 November 2011 (has links)
Schema merging is the process of incorporating data models into an integrated, consistent schema from which query solutions satisfying all incorporated models can be derived. The efficiency of such a process is reliant on the effective semantic representation of the chosen data models, as well as the mapping relationships between the elements of the source data models.
Consider a scenario where, as a result of company mergers or acquisitions, a number of related, but possible disparate data marts need to be integrated into a global data warehouse. The ability to retrieve data across these disparate, but related, data marts poses an important challenge. Intuitively, forming an all-inclusive data warehouse includes the tedious tasks of identifying related fact and dimension table attributes, as well as the design of a schema merge algorithm for the integration. Additionally, the evaluation of the combined set of correct answers to queries, likely to be independently posed to such data marts, becomes difficult to achieve.
Model management refers to a high-level, abstract programming language designed to efficiently manipulate schemas and mappings. Particularly, model management operations such as match, compose mappings, apply functions and merge, offer a way to handle the above-mentioned data integration problem within the domain of data warehousing.
In this research, we introduce a methodology for the integration of star schema source data marts into a single consolidated data warehouse based on model management. In our methodology, we discuss the development of three (3) main streamlined steps to facilitate the generation of a global data warehouse. That is, we adopt techniques for deriving attribute correspondences, and for schema mapping discovery. Finally, we formulate and design a merge algorithm, based on multidimensional star schemas; which is primarily the core contribution of this research. Our approach focuses on delivering a polynomial time solution needed for the expected volume of data and its associated large-scale query processing.
The experimental evaluation shows that an integrated schema, alongside instance data, can be derived based on the type of mappings adopted in the mapping discovery step. The adoption of Global-And-Local-As-View (GLAV) mapping models delivered a maximally-contained or exact representation of all fact and dimensional instance data tuples needed in query processing on the integrated data warehouse. Additionally, different forms of conflicts, such as semantic conflicts for related or unrelated dimension entities, and descriptive conflicts for differing attribute data types, were encountered and resolved in the developed solution. Finally, this research has highlighted some critical and inherent issues regarding functional dependencies in mapping models, integrity constraints at the source data marts, and multi-valued dimension attributes. These issues were encountered during the integration of the source data marts, as it has been the case of evaluating the queries processed on the merged data warehouse as against that on the independent data marts.
|
Page generated in 0.0619 seconds