Global ETD Search

71	Data Warehouse na prática : fundamentos e implantação / Date warehouse in practice: foundations and implementation Ferreira, Rafael Gastão Coimbra January 2002 (has links) Embora o conceito de Data Warehouse (doravante abreviado DW), em suas várias formas, continue atraindo interesse, muitos projetos de DW não estão gerando os benefícios esperados e muitos estão provando ser excessivamente caro de desenvolver e manter. O presente trabalho visa organizar os conceitos de DW através de uma revisão bibliográfica, discutindo seu real benefício e também de como perceber este benefício a um custo que é aceitável ao empreendimento. Em particular são analisadas metodologias que servirão de embasamento para a proposta de uma metodologia de projeto de DW, que será aplicada a um estudo de caso real para a Cia Zaffari, levando em conta critérios que são encontrados atualmente no desenvolvimento de um Data Warehouse, um subconjunto das quais será tratado no trabalho de dissertação. / Although the concept of Data Warehouse (DW), in its various forms, still attracting interest, many DW projects are not generating the benefits expected and many are proving to be too expensive to develop and to keep. This work organizes the concepts of DW through a literature review, discussing its real benefit and how to realize this benefit at a cost that is acceptable to the company. In particular methods are discussed to serve as a foundation for proposing a design methodology for DW, which will be applied to a real case study for the CIA Zaffari, taking into account criteria that are currently found in developing a data warehouse, a subset of which will be treated in the dissertation. Armazenamento : Dados Recuperacao : Informacao OLAP Data warehouse Database OLAP
72	Um modelo hierárquico para sistemas de tipos de arquivos implementado como um middleware / A hierarchical model for file type systems implemented as a middleware Testa, Henrique Gregianin January 2007 (has links) Com a finalidade de facilitar a manipulação de documentos pelos usuários e aplicações, foram desenvolvidas no decorrer do tempo diversas formas para classificar e organizar esses documentos, incluindo a criação de diferentes mecanismos pertinentes a formatos de arquivos, os chamados sistemas de tipos de arquivos. É possível perceber nesse esforço uma crescente preocupação com a correta identificação dos arquivos e com a obtenção de maiores informações sobre seu conteúdo. Afinal, com esse conhecimento as aplicações e ambientes gráficos dos sistemas operacionais podem adicionar novas funcionalidades na manipulação de documentos e arquivos em geral. Neste trabalho se propõe um novo modelo e arquitetura para sistemas de tipos de arquivos. O modelo se baseia em um grafo de tipos representando relações hierárquicas e um índice de metadados de arquivos, usados em conjunto por funcionalidades que são disponibilizadas através de uma API. A construção do grafo de tipos, que desempenha papel central no modelo proposto, envolveu o estudo dos tipos de arquivos registrados nos principais sistemas operacionais, os tipos definidos pelo IANA (Internet Assigned Numbers Authority) e outros tipos comumente utilizados, com a finalidade de selecionálos e interrelacioná-los em uma hierarquia. A arquitetura proposta para o sistema de tipos é um middleware que oferece os serviços abstraindo operações de baixo nível específicos do sistema operacional. O modelo e arquitetura apresentados neste trabalho beneficia principalmente softwares que trabalham intensamente com arquivos, como IDEs (Integrated Development Environment) e ambientes gráficos. / Several strategies to classify and organize documents by users and applications has being developed in order to facilitate its manipulation, including creation of different mechanisms related to file formats, known as file type systems. It is possible to notice in these works an increasing concern about file identification correctness and obtaining further information regarding its contents as well. This knowledge allow application and graphical environments of operating systems adding new functionalities on manipulation of documents and files. The present work proposes a new model and architecture to file type systems. The model is based on a file type graph representing hierarchical relationships and an index of file metadata. Both are used by functionalities provided through an API. To build the graph of file types, central piece on the proposed model, it was necessary to study file types registered on the most imporant operating systems, types defined by IANA and other types commonly used. The goal is to collect file types and interlink them in a hierarchy. The proposed architecture for the file type system is a middleware which provides services hiding native operating systems low level operations. The model and architecture presented in this work is specially useful to softwares that handle files intensely, like IDEs (Integrated Development Environment) and graphical environments. Sistemas : Informação Recuperacao : Informacao Filetypes Middleware Hierarchical graph
73	Estudo sobre resolucao de operacoes de consulta a bancos de dados Lima, Vera Lucia Strube de January 1982 (has links) Este trabalho apresenta o estudo feito para resolução de operações de consulta que exigem o acesso e recuperação de dados, em um sistema de gerencia de banco de dados. Os principais objetivos levados em conta são: a utilização de algoritmos que tirem proveito da situação especifica em que se encontra cada operação, tal como a existência de ordenação entre os registros de um arquivo ou a disponibilidade de estruturas de acesso auxiliares, e a diminuição do numero de recursos utilizados, incluindo tempo de execução e espaço de armazenamento. O estudo foi feito para a linguagem LOBAN - Linguagem de Operação de Banco de Dados, em implementação através do Sistema L, na Universidade Federal do Rio Grande do Sul. A linguagem LOBAN e de alto nível, incluindo operações com funções equivalentes as da álgebra relacional. / This work presents a study for the resolution of retrieval operations on a data base management system. The main objectives considered are: the use of algorithms that take profit of the specific situation where each operation is found, such as the existence of a sort order among the records of a file or the availability of auxiliary access - paths, and the decrease of the number of resources used, involving execution time and storage space. This study was done on LOBAN language - Linguagem de Operagao de Banco de Dados (Data Base Operational Language), which is being implemented by the System L at Federal Uni versity of Rio Grande do Sul. LOBAN is a high-level language, including operations with equivalent functions to those of relational algebra. Banco : Dados Recuperacao : Informacao Acesso : Banco : Dados Loban
74	A viabilidade técnica e o enriquecimento de um modelo de E.I.S. - Enterprise Information System com características para comportamentos proativos na recuperação de informações Petrini, Maira January 1999 (has links) O objetivo desta pesquisa é a análise da viabilidade técnica de um sistema EIS - Enterprise InformationSystem - baseado em um modelo conceitual com características para comportamentos proativos na recuperação de informações. O tema é investigar a interação entre as pessoas e a tecnologia da informação, mais precisamente, investigar como os modelos de Sistemas de Informação, implementados através de várias tecnologias, podem afetar ou influenciar usos e comportamentos dos seus usuários. Na revisão de literatura contemplamos dois objetivos específicos: (a) identificar tecnologias emergentes - conceitos, métodos e ferramentas, para a viabilização técnica do protótipo, e (b) explorar o conceito de proatividade, relacionando-o à recuperação de informações - combinação entre os comportamentos de exploração de dados e busca focada. A pesquisa de campo foi marcada por dois momentos, ocorrendo entre eles a implementação do protótipo. No primeiro, foram estudadas as percepções (usuários e pesquisador) sobre o comportamento na recuperação de informações no sistema inicialmente em uso. No segundo, buscamos avaliar estas percepções, tendo em vista o protótipo já implementado. Os resultados obtidos promoveram a revisão do modelo conceitual, refinando algumas características propostas inicialmente e identificando a necessidade de outras. Avaliando a influência do protótipo construído sobre o comportamento dos usuários, ficou fortalecida a idéia de que a predisposição para um comportamento de exploração de dados seria considerada condição necessária, embora não determinante, para o uso do mesmo. / The research objective is the technical viability of an EIS – Enterprise Information System - based on a conceptual model with proactive behavior characteristics for information retrieval. The theme is the investigation of the interaction between people and the information technology; specifically how the Information Systems models, implemented through various technologies, can influence their usage and their user's behavior. Reviewing the pertinent literature we achieved two specific objectives: (a) identity emerging technologies - concepts, methods and tools to the technical viability the prototype, and (b) explore the concept of proactivity, relating it to information retrieval - combination among the behaviors of scanning and focused search. The field research had two phases and the prototype implementation occurred between them. In the first phase we have studied the users' and the researcher's perceptions about the information retrieval system in place. In the second phase we tried to evaluate this perceptions, now related to the built prototype. The results lead to the revision of the conceptual model, refining some initially proposed characteristics and identifying the need for others. Evaluating the influence of the prototype upon the user's behavior, we reinforced the idea of the predisposition for scanning would be considered required, although not sufficient, for the use of the EIS that way.
75	Validação do mecanismo de tolerância a falhas do SGBD InterBase através de injeção de falhas Rodegheri, Paulo Ricardo January 2002 (has links) O presente trabalho explora a aplicação de técnicas de injeção de falhas, que simulam falhas transientes de hardware, para validar o mecanismo de detecção e de recuperação de erros, medir os tempos de indisponibilidade do banco de dados após a ocorrência de uma falha que tenha provocado um FUDVK. Adicionalmente, avalia e valida a ferramenta de injeção de falhas FIDe, utilizada nos experimentos, através de um conjunto significativo de testes de injeção de falhas no ambiente do SGBD. A plataforma experimental consiste de um computador Intel Pentium 550 MHz com 128 MB RAM, do sistema operacional Linux Conectiva kernel versão 2.2.13. O sistema alvo das injeções de falhas é o SGBD centralizado InterBase versão 4.0. As aplicações para a carga de trabalho foram escritas em VFULSWV SQL e executadas dentro de uma sessão chamada LVTO. Para a injeção de falhas foram utilizadas três técnicas distintas: 1) o comando NLOO do sistema operacional; 2) UHVHW geral no equipamento; 3) a ferramenta de injeção de falhas FIDe, desenvolvida no grupo de injeção de falhas do PPGC da UFRGS. Inicialmente são introduzidos e reforçados os conceitos básicos sobre o tema, que serão utilizados no decorrer do trabalho e são necessários para a compreensão deste estudo. Em seguida é apresentada a ferramenta de injeção de falhas Xception e são também analisados alguns experimentos que utilizam ferramentas de injeção de falhas em bancos de dados. Concluída a revisão bibliográfica é apresentada a ferramenta de injeção de falhas – o FIDe, o modelo de falhas adotado, a forma de abordagem, a plataforma de hardware e software, a metodologia e as técnicas utilizadas, a forma de condução dos experimentos realizados e os resultados obtidos com cada uma das técnicas. No total foram realizados 3625 testes de injeções de falhas. Com a primeira técnica foram realizadas 350 execuções, com a segunda técnica foram realizadas 75 execuções e com a terceira técnica 3200 execuções, em 80 testes diferentes. O modelo de falhas proposto para este trabalho refere-se a falhas de crash baseadas em corrupção de memória e registradores, parada de CPU, aborto de transações ou reset geral. Os experimentos foram divididos em três técnicas distintas, visando a maior cobertura possível de erros, e apresentam resultados bastante diferenciados. Os experimentos com o comando NLOO praticamente não afetaram o ambiente do banco de dados. Pequeno número de injeção de falhas com o FIDe afetaram significativamente a dependabilidade do SGBD e os experimentos com a técnica de UHVHW geral foram os que mais comprometeram a dependabilidade do SGBD. Banco : Dados Recuperacao : Erros Tolerancia : Falhas Injecao : Falhas Deteccao : Erros
76	Utilizando conceitos como descritores de textos para o processo de identificação de conglomerados (clustering) de documentos Wives, Leandro Krug January 2004 (has links) A descoberta e a análise de conglomerados textuais são processos muito importantes para a estruturação, organização e a recuperação de informações, assim como para a descoberta de conhecimento. Isto porque o ser humano coleta e armazena uma quantidade muito grande de dados textuais, que necessitam ser vasculhados, estudados, conhecidos e organizados de forma a fornecerem informações que lhe dêem o conhecimento para a execução de uma tarefa que exija a tomada de uma decisão. É justamente nesse ponto que os processos de descoberta e de análise de conglomerados (clustering) se insere, pois eles auxiliam na exploração e análise dos dados, permitindo conhecer melhor seu conteúdo e inter-relações. No entanto, esse processo, por ser aplicado em textos, está sujeito a sofrer interferências decorrentes de problemas da própria linguagem e do vocabulário utilizado nos mesmos, tais como erros ortográficos, sinonímia, homonímia, variações morfológicas e similares. Esta Tese apresenta uma solução para minimizar esses problemas, que consiste na utilização de “conceitos” (estruturas capazes de representar objetos e idéias presentes nos textos) na modelagem do conteúdo dos documentos. Para tanto, são apresentados os conceitos e as áreas relacionadas com o tema, os trabalhos correlatos (revisão bibliográfica), a metodologia proposta e alguns experimentos que permitem desenvolver determinados argumentos e comprovar algumas hipóteses sobre a proposta. As conclusões principais desta Tese indicam que a técnica de conceitos possui diversas vantagens, dentre elas a utilização de uma quantidade muito menor, porém mais representativa, de descritores para os documentos, o que torna o tempo e a complexidade do seu processamento muito menor, permitindo que uma quantidade muito maior deles seja analisada. Outra vantagem está no fato de o poder de expressão de conceitos permitir que os usuários analisem os aglomerados resultantes muito mais facilmente e compreendam melhor seu conteúdo e forma. Além do método e da metodologia proposta, esta Tese possui diversas contribuições, entre elas vários trabalhos e artigos desenvolvidos em parceria com outros pesquisadores e colegas. Armazenamento : Dados Recuperacao : Informacao Descoberta : Conhecimento Agrupamento : Informacao textual
77	Implementação de recuperação por retorno de aplicações distribuídas baseada em checkpoints coordenados Buligon, Clairton January 2005 (has links) A recuperação por retorno baseada em checkpointing é largamente usada como técnica de tolerância a falhas. O modelo complexo de sistemas distribuídos tem motivado o desenvolvimento de diversos algoritmos na tentativa de encontrar soluções mais simples e eficientes. Os processos que formam o sistema distribuído podem coordenar suas operações para garantir que o conjunto de checkpoints locais componha um estado global consistente (linha de recuperação). A partir desse estado, no caso de ocorrência de falhas, o sistema pode ser recuperado e a computação retomada a partir de um momento anterior ao da manifestação da falha, evitando o retrocesso para o estado inicial da computação e prevenindo a ocorrência de prejuízos com a perda de todo processamento até então realizado. No Grupo de Tolerância a Falhas da UFRGS foi proposto recentemente um algoritmo que é voltado para aplicações que executam em sistemas distribuídos assíncronos que se comunicam exclusivamente pela troca de mensagens. Ele opera com salvamento coordenado de checkpoints (não bloqueando as aplicações) e prevê o tratamento de mensagens órfãs e perdidas. Os mecanismos do algoritmo sugerem que nenhuma alteração deveria ser realizada no código das aplicações, criando a possibilidade de implementação transparente sob o ponto de vista dos usuários e dos programadores das aplicações. Como o algoritmo não requer o bloqueio das aplicações, a sobrecarga imposta pelos mecanismos à execução livre de falhas é pequena. Além disso, o processo de recuperação tende a ser efetuado rapidamente, uma vez que é garantida a existência de uma linha de recuperação consistente, facilmente identificada Este trabalho apresenta as decisões de projeto, a implementação, os resultados e a avaliação de desempenho desse algoritmo. A avaliação das alternativas de implementação resultou na decisão de uma implementação então realizada diretamente sobre o sistema operacional Linux, sem recorrer a protocolos auxiliares para garantir a execução dos serviços e sem a necessidade de adaptações no código das aplicações nem no código do sistema operacional. Adicionalmente, os resultados comprovaram a expectativa inicial de que o algoritmo causaria pouca sobrecarga no sistema (menos de 2%), embora ele ainda apresente alta dependência do tamanho dos checkpoints salvos. Sistemas distribuidos Algoritmos computacionais Recuperacao : Processos Tolerancia : Falhas
78	Geração da parâmetros de busca baseada em perfis de usuário Almeida, Vinícius Nóbile de January 2004 (has links) O mundo moderno vem exigindo cada vez mais das pessoas no aspecto profissional. A exigência de capacitação profissional é uma realidade que obriga as pessoas a uma constante atualização. Neste contexto, a educação a distancia se mostra uma importante via de disseminação de conhecimento. Este trabalho apresenta um agente de Perfil do Usuário inserido no contexto do projeto PortEdu – Portal de Educação, projeto que visa abrigar ambientes de ensino na Web. Um dos objetivos do projeto PortEdu é fornecer um serviço de recuperação de informação aos ambientes ancorados, guiado pelo Agente Perfil do Usuário, tendo como finalidade oferecer informações contextualizadas a um problema específico do usuário (aluno), com a intenção de auxiliá-lo em seu aprendizado. Durante a utilização de ambientes de educação a distância, os alunos utilizam ferramentas de recuperação de informação na busca de soluções para as suas dúvidas. Mas, a busca de informação na Internet, utilizando as ferramentas existentes, nem sempre é uma tarefa simples, pois exige esforço na construção de termos de busca eficientes ou mantém o usuário percorrendo longas listas de resultados. No desenvolvimento deste serviço, no PortEdu, procuramos minimizar este tipo de esforço. Neste trabalho são descritas, primeiramente, as áreas envolvidas na pesquisa, mostrando como elas foram utilizadas na construção do Agente de Perfil do Usuário. Também é realizada uma descrição da área de inteligência artificial, dos conceitos de agente e Educação a Distancia. Pretende-se mostrar aqui as propriedades que o Agente de Perfil do Usuário possui Na seqüência, são apresentadas as soluções tecnológicas utilizadas no projeto, tais como: AMPLIA (ambiente de ensino ancorado no PortEdu), PMA3, FIPA e a API Fácil. É descrito o modo como estas tecnologias interagem no âmbito do PortEdu. O problema da recuperação de informação na Web é discutido nesta pesquisa e são apresentados três trabalhos relacionados que abordam este problema. Também é realizada uma comparação entre estes trabalhos e o PortEdu. Por fim, este trabalho apresenta uma solução encontrada para resolver o problema de recuperação de informação na Web utilizando um protótipo do PortEdu. Esta pesquisa está inserida na área de Informática na Educação. Informática : Educação Inteligência artificial Recuperacao : Informacao Ensino-aprendizagem Perfil : Usuario
79	Redução do esforço do usuário na configuração da deduplicação de grandes bases de dados / Reducing the user effort to tune large scale deduplication Dal Bianco, Guilherme January 2014 (has links) A deduplicação consiste na tarefa de identificar quais objetos (registros, documentos, textos, etc.) são potencialmente os mesmos em uma base de dados (ou em um conjunto de bases de dados). A identificação de dados duplicados depende da intervenção do usuário, principalmente para a criação de um conjunto contendo pares duplicados e não duplicados. Tais informações são usadas para ajudar na identificação de outros possíveis pares duplicados presentes na base de dados. Em geral, quando a deduplicação é estendida para grandes conjuntos de dados, a eficiência e a qualidade das duplicatas dependem diretamente do “ajuste” de um usuário especialista. Nesse cenário, a configuração das principais etapas da deduplicação (etapas de blocagem e classificação) demandam que o usuário seja responsável pela tarefa pouco intuitiva de definir valores de limiares e, em alguns casos, fornecer pares manualmente rotulados. Desse modo, o processo de calibração exige que o usuário detenha um conhecimento prévio sobre as características específicas da base de dados e os detalhes do funcionamento do método de deduplicação. O objetivo principal desta tese é tratar do problema da configuração da deduplicação de grandes bases de dados, de modo a reduzir o esforço do usuário. O usuário deve ser somente requisitado para rotular um conjunto reduzido de pares automaticamente selecionados. Para isso, é proposta uma metodologia, chamada FS-Dedup, que incorpora algoritmos do estado da arte da deduplicação para permitir o processamento de grandes volumes de dados e adiciona um conjunto de estratégias com intuito de possibilitar a definição dos parâmetros do deduplicador, removendo os detalhes de configuração da responsabilidade do usuário. A metodologia pode ser vista como uma camada capaz de identificar as informações requisitadas pelo deduplicador (principalmente valores de limiares) a partir de um conjunto de pares rotulados pelo usuário. A tese propõe também uma abordagem que trata do problema da seleção dos pares informativos para a criação de um conjunto de treinamento reduzido. O desafio maior é selecionar um conjunto reduzido de pares suficientemente informativo para possibilitar a configuração da deduplicação com uma alta eficácia. Para isso, são incorporadas estratégias para reduzir o volume de pares candidatos a um algoritmo de aprendizagem ativa. Tal abordagem é integrada à metodologia FS-Dedup para possibilitar a remoção da intervenção especialista nas principais etapas da deduplicação. Por fim, um conjunto exaustivo de experimentos é executado com objetivo de validar as ideias propostas. Especificamente, são demonstrados os promissores resultados alcançados nos experimentos em bases de dados reais e sintéticas, com intuito de reduzir o número de pares manualmente rotulados, sem causar perdas na qualidade da deduplicação. / Deduplication is the task of identifying which objects (e.g., records, texts, documents, etc.) are potentially the same in a given dataset (or datasets). It usually requires user intervention in several stages of the process, mainly to ensure that pairs representing matchings and non-matchings can be determined. This information can be used to help detect other potential duplicate records. When deduplication is applied to very large datasets, the matching quality depends on expert users. The expert users are requested to define threshold values and produce a training set. This intervention requires user knowledge of the noise level of the data and a particular approach to deduplication so that it can be applied to configure the most important stages of the process (e.g. blocking and classification). The main aim of this thesis is to provide solutions to help in tuning the deduplication process in large datasets with a reduced effort from the user, who is only required to label an automatically selected subset of pairs. To achieve this, we propose a methodology, called FS-Dedup, which incorporates state-of-the-art algorithms in its deduplication core to address high performance issues. Following this, a set of strategies is proposed to assist in setting its parameters, and removing most of the detailed configuration concerns from the user. The methodology proposed can be regarded as a layer that is able to identify the specific information requested in the deduplication approach (mainly, threshold values) through pairs that are manually labeled by the user. Moreover, this thesis proposed an approach which would enable to select an informative set of pairs to produce a reduced training set. The main challenge here is how to select a “representative” set of pairs to configure the deduplication with high matching quality. In this context, the proposed approach incorporates an active learning method with strategies that allow the deduplication to be carried out on large datasets. This approach is integrated with the FS-Dedup methodology to avoid the need for a definition of threshold values in the most important deduplication stages. Finally, exhaustive experiments using both synthetic and real datasets have been conducted to validate the ideas outlined in this thesis. In particular, we demonstrate the ability of our approach to reduce the user effort without degrading the matching quality. Banco : Dados Recuperacao : Informacao Data integration Deduplication Signature-based deduplication
80	Database recovery in the design environment : requirements analysis and performance evaluation Iochpe, Cirano January 1989 (has links) In the pastfew years, considerable research effort has been spent on data models, processing mo deis, and system architectures for supporting advanced applications Uke CADICAM, software engineering, image processing, and knowledge management. These so-called non-standard applications pose new requirements on database systems. Conventional database systems (i.e. database systems constructed to support businessrelated applications) either cope with the new requirements only in an unsatisfactory way or do not cope with them at ali. Examples ofsuch new requirements are the need of more powerful data models which enable the definition as well as manipulation offairly structured data objects and the requirement of new processing models which better support long-time data manipulation as well as allow database system users to exchange noncommitted results. To better support new data and processing models, new database systems have been proposed and developed which realize object-oriented data models that in turn support the definition and operation of both complex object structures and object behavior. In design environments as the ones represented by CAD applications, these so-called non-standard database systems are usually distributed over server-workstations computer configwations. While actual object versions are kept in the so-called public database on server, designers create new objects as well as new object versions in their private databases which are maintained by the system at the workstations. Besides that, many new design database system prototypes realize a hierarchy of system buffers to accelerate data processing at the system s application level. While the storage subsystem implements the traditional page/segment buffer to reduce the number of I/O-operations between main memory and diste, data objects are processed by application programs at the workstatíon at higher leveis ofabstraction and the objects are kept there by so-called object-oriented buffer managers in special main memory representations. The present dissertation reports on the investigation of database recovery requirements and database recovery performance in design environments. The term design environment is used here to characterize those data processing environments which support so-called design applications (e.g. CADICAM, software engineering). The dissertation begins by analyzing the conanon architectural characteristics of a set of new design database system prototypes. After proposing a reference architecture for those systems, we investigate the properties of a set ofwell known design processing models which can be found in the literature. Relying on both the reference architecture and the characteristics of design processing models, the dissertation presents a thorough study of recovery requirements in the design environment. Then, the possibility ofadapting existing recovery techniques to maintain system reliability in design database systems is investigated. Finally, the dissertation reports on a recovery performance evaluation involving several existing as well as new recovery mechanisms. The simulation model used in the performance analysis is described and the simulation results are presented. Banco : Dados Banco : Dados orientados : Objetos Recuperacao : Erros

Search results