Global ETD Search

311	Um método para deduplicação de metadados bibliográficos baseado no empilhamento de classificadores / A method for bibliographic metadata deduplication based on stacked generalization Borges, Eduardo Nunes January 2013 (has links) Metadados bibliográficos duplicados são registros que correspondem a referências bibliográficas semanticamente equivalentes, ou seja, que descrevem a mesma publicação. Identificar metadados bibliográficos duplicados em uma ou mais bibliotecas digitais é uma tarefa essencial para garantir a qualidade de alguns serviços como busca, navegação e recomendação de conteúdo. Embora diversos padrões de metadados tenham sido propostos, eles não resolvem totalmente os problemas de interoperabilidade porque mesmo que exista um mapeamento entre diferentes esquemas de metadados, podem existir variações na representação do conteúdo. Grande parte dos trabalhos propostos para identificar duplicatas aplica uma ou mais funções sobre o conteúdo de determinados campos no intuito de captar a similaridade entre os registros. Entretanto, é necessário escolher um limiar que defina se dois registros são suficientemente similares para serem considerados semanticamente equivalentes ou duplicados. Trabalhos mais recentes tratam a deduplicação de registros como um problema de classificação de dados, em que um modelo preditivo é treinado para estimar a que objeto do mundo real um registro faz referência. O objetivo principal desta tese é o desenvolvimento de um método efetivo e automático para identificar metadados bibliográficos duplicados, combinando o aprendizado de múltiplos classificadores supervisionados, sem a necessidade de intervenção humana na definição de limiares de similaridade. Sobre o conjunto de treinamento são aplicadas funções de similaridade desenvolvidas especificamente para o contexto de bibliotecas digitais e com baixo custo computacional. Os escores produzidos pelas funções são utilizados para treinar múltiplos modelos de classificação heterogêneos, ou seja, a partir de algoritmos de diversos tipos: baseados em árvores, regras, redes neurais artificiais e probabilísticos. Os classificadores aprendidos são combinados através da estratégia de empilhamento visando potencializar o resultado da deduplicação a partir do conhecimento heterogêneo adquirido individualmente pelos algoritmo de aprendizagem. O modelo de classificação final é aplicado aos pares candidatos ao casamento retornados por uma estratégia de blocagem de dois níveis bastante eficiente. A solução proposta é baseada na hipótese de que o empilhamento de classificadores supervisionados pode aumentar a qualidade da deduplicação quando comparado a outras estratégias de combinação. A avaliação experimental mostra que a hipótese foi confirmada quando o método proposto é comparado com a escolha do melhor classificador e com o voto da maioria. Ainda são analisados o impacto da diversidade dos classificadores no resultado do empilhamento e os casos de falha do método proposto. / Duplicated bibliographic metadata are semantically equivalent records, i.e., references that describe the same publication. Identifying duplicated bibliographic metadata in one or more digital libraries is an essential task to ensure the quality of some services such as search, navigation, and content recommendation. Although many metadata standards have been proposed, they do not completely solve interoperability problems because even if there is a mapping between different metadata schemas, there may be variations in the content representation. Most of work proposed to identify duplicated records uses one or more functions on some fields in order to capture the similarity between the records. However, we need to choose a threshold that defines whether two records are sufficiently similar to be considered semantically equivalent or duplicated. Recent studies deal with record deduplication as a data classification problem, in which a predictive model is trained to estimate the real-world object to which a record refers. The main goal of this thesis is the development of an effective and automatic method to identify duplicated bibliographic metadata, combining multiple supervised classifiers, without any human intervention in the setting of similarity thresholds. We have applied on the training set cheap similarity functions specifically designed for the context of digital libraries. The scores returned by these functions are used to train multiple and heterogeneous classification models, i.e., using learning algorithms based on trees, rules, artificial neural networks and probabilistic models. The learned classifiers are combined by stacked generalization strategy to improve the deduplication result through heterogeneous knowledge acquired by each learning algorithm. The final model is applied to pairs of records that are candidate to matching. These pairs are defined by an efficient two phase blocking strategy. The proposed solution is based on the hypothesis that stacking supervised classifiers can improve the quality of deduplication when compared to other combination strategies. The experimental evaluation shows that the hypothesis has been confirmed by comparing the proposed method to selecting the best classifier or the majority vote technique. We also have analyzed the impact of classifiers diversity on the stacking results and the cases for which the proposed method fails. Banco : Dados Mineracao : Dados Metadados Recuperacao : Informacao Deduplication Approximate matching Similariry Supervised learning Stacked generalization
312	Aplicação de conceitos de bancos de dados de grafos e relacional na criação de proposta e análise comparativa de abordagens para armazenamento de processos / A proposal for storage of processes between different databases Viégas, Rafael Pedroni January 2018 (has links) Em busca da documentação e otimização de seus processos, a área de Business Process Management (BPM) vem cada vez mais atraindo o interesse do meio empresarial, por ser um importante método no auxílio ao ganho de resultados, como redução de custos e aumento de produtividade. Modelar processos, entretanto, não basta. É preciso que se atente para métodos eficientes de armazená-los, permitindo que as informações sejam manipuladas e utilizadas de maneira prática e inteligente. A presente dissertação propõe duas abordagens para armazenamento de modelos de processo, uma em bancos de dados relacionais e outra em bancos de dados orientados a grafos, comparando-os através de aspectos como desempenho na execução das operações e proximidade da abordagem de cada um deles com os modelos de processos. Enquanto os bancos de dados relacionais são mais populares, sendo utilizados na maior parte das aplicações atuais, os bancos de dados orientados a grafos possuem propriedades e representação gráfica semelhantes aos modelos de processos. Foram realizados testes que visam analisar o desempenho de ambas as abordagens, além da facilidade dos usuários em interagir com os modelos propostos. Os resultados deste estudo podem ser utilizados para a criação de repositórios que compartilhem processos de maneira eficiente, bem como incentivar o estudo de novas maneiras para o armazenamento de processos. / Business Process Management (BPM) area has been increasingly attracted the interest of the business community because users are looking for documentation and optimization. These documents can be an important method in helping to gain results such as reduced costs and increased productivity. However, to model processes is not enough. It is necessary to pay attention to efficient storage methods, allowing information to be handled and used in a practical and intelligent way. The present article compares the use of relational databases and graph databases, considering aspects such as performance in the execution of operations and proximity of the approach of each of them with the process models. While relational databases are more popular, being used in most of the current applications, graph databases have properties and graphical representations similar to process models. The results of this study can be used to create repositories which can both share process efficiently, and encourage the study of new ways of storing processes. Banco : Dados Grafos Business process management storage Relational databases Graph databases
313	Avaliação experimental de uma técnica de padronização de escores de similaridade / Experimental evaluation of a similarity score standardization technique Nunes, Marcos Freitas January 2009 (has links) Com o crescimento e a facilidade de acesso a Internet, o volume de dados cresceu muito nos últimos anos e, consequentemente, ficou muito fácil o acesso a bases de dados remotas, permitindo integrar dados fisicamente distantes. Geralmente, instâncias de um mesmo objeto no mundo real, originadas de bases distintas, apresentam diferenças na representação de seus valores, ou seja, os mesmos dados no mundo real podem ser representados de formas diferentes. Neste contexto, surgiram os estudos sobre casamento aproximado utilizando funções de similaridade. Por consequência, surgiu a dificuldade de entender os resultados das funções e selecionar limiares ideais. Quando se trata de casamento de agregados (registros), existe o problema de combinar os escores de similaridade, pois funções distintas possuem distribuições diferentes. Com objetivo de contornar este problema, foi desenvolvida em um trabalho anterior uma técnica de padronização de escores, que propõe substituir o escore calculado pela função de similaridade por um escore ajustado (calculado através de um treinamento), o qual é intuitivo para o usuário e pode ser combinado no processo de casamento de registros. Tal técnica foi desenvolvida por uma aluna de doutorado do grupo de Banco de Dados da UFRGS e será chamada aqui de MeaningScore (DORNELES et al., 2007). O presente trabalho visa estudar e realizar uma avaliação experimental detalhada da técnica MeaningScore. Com o final do processo de avaliação aqui executado, é possível afirmar que a utilização da abordagem MeaningScore é válida e retorna melhores resultados. No processo de casamento de registros, onde escores de similaridades distintos devem ser combinados, a utilização deste escore padronizado ao invés do escore original, retornado pela função de similaridade, produz resultados com maior qualidade. / With the growth of the Web, the volume of information grew considerably over the past years, and consequently, the access to remote databases became easier, which allows the integration of distributed information. Usually, instances of the same object in the real world, originated from distinct databases, present differences in the representation of their values, which means that the same information can be represented in different ways. In this context, research on approximate matching using similarity functions arises. As a consequence, there is a need to understand the result of the functions and to select ideal thresholds. Also, when matching records, there is the problem of combining the similarity scores, since distinct functions have different distributions. With the purpose of overcoming this problem, a previous work developed a technique that standardizes the scores, by replacing the computed score by an adjusted score (computed through a training), which is more intuitive for the user and can be combined in the process of record matching. This work was developed by a Phd student from the UFRGS database research group, and is referred to as MeaningScore (DORNELES et al., 2007). The present work intends to study and perform an experimental evaluation of this technique. As the validation shows, it is possible to say that the usage of the MeaningScore approach is valid and return better results. In the process of record matching, where distinct similarity must be combined, the usage of the adjusted score produces results with higher quality. Armazenamento : Dados Banco : Dados Métricas : Similaridade Consulta : Similaridade Similarity querying Data integration Data cleaning Record matching Adjusted score Data quality
314	Um modelo para representação de atividades em aplicações de escritórios / Model for representing activities in office applications Ruiz, Duncan Dubugras Alcoba January 1995 (has links) Esta tese apresenta um modelo para representação de atividades em aplicações de escritório, próprio para a modelagem dos aspectos dinâmicos dessas aplicações. Os componentes empregados, para tanto, são atividades e objetos de escritório. A modelagem das atividades de uma aplicação, um diagrama de atividades, representa os trâmites dos objetos de escritório, as transformações realizadas sobre os mesmos pelos agentes do escritório, e a tomada de decisão eventualmente presente nas atividades. Tal modelagem de atividades descreve, portanto, a dinâmica dessa aplicação, respeitada a solução organizacional e funcional da empresa e as atribuições e responsabilidades dos agentes que vela trabalham. Objetos de escritório são complexos e podem ter características multimídia. Entretanto, a particularidade mais acentuada desses objetos, que os diferencia dos objetos .do domínio de outras aplicações não convencionais, é a massiva padronização nas descrições dos mesmos, sejam por razões legais, como ofício e requerimento, sejam por razões comerciais, como ata, procuração e recibo. Como conseqüência, objetos de escrit6rios constituem um domínio de classes que permite reutilização intensiva das mesmas, na modelagem de aplicações de escritório. Esse trabalho considera que modelos que se destinem a representar aplicações de escritório devem ter, como um dos objetivos, buscar reutilizar classes de escritório, próprias do domínio do problema. Para esta tese, a biblioteca de classes de escritório, independente das especificidades das aplicações do escritório, deve estar contemplada em um SGBDOO, e seu ambiente de descrição, e o mesmo deve ter, como recurso de descrição, herança múltipla. Atividade é o componente central do modelo delta tese e representa uma interação de um agente com a aplicação, onde objetos de escritórios podem ser criados, consultados, atualizados e destruídos e, ainda, podem ser enviados para outros agentes. Essa interação entre o agente e uma atividade da aplicação é efetivada no lugar de trabalho do agente, ou seja, em sua estação de trabalho. Os tramites dos objetos de escritório são representados, justamente, pelas seqüências possíveis de lugares que os mesmos podem percorrer dentro dos escritórios. A estrutura de dados e os métodos necessários, para que os objetos de escritório possam tratar lugares, são incorporados, por herança múltipla, a partir de uma classe especial chamada lugar de objeto de escritório. Para serem adequadamente empregados na representação da interação dos objetos com as atividades, os métodos pertencentes a interface pública dos objetos de escritório devem estar classificados pelo tipo de interação (consulta, construção, alteração e destruição) e pelo contexto de atuação (métodos de classe e métodos de instância). Atividade e definida como um objeto, com atributos e métodos próprios, e plenamente reutilizável. Atividade tem uma representação diagramática adequada que mostra quais são os objetos tratados, e a forma de manipulação correspondente, as condições a serem satisfeitas para a realização da mesma e os limites, que os agentes tem, na produção dos resultados. Um diagrama de atividades é um grafo anotado, composto de atividades e objetos de escritório, onde cada atividade esta conectada, por ramos, somente a objetos, assim como cada objeto pode estar conectado, por ramos, somente a atividades. Os ramos identificam as diferentes formas de manipulação, dos objetos de escritório, pelas atividades. Um diagrama de atividades corresponde a modelagem conceitual dos aspectos dinâmicos de uma aplicação de escritórios. Os aspectos estáticos, e de dinâmica intra-classes, são descritos em um modelo de objetos, compatível com o SGBDOO adotado para a descrição e implementação dos objetos de escritório. Pelo diagrama de atividades de uma aplicação, são identificáveis as atividades que podem ser realizadas de maneira independente, que possuam algum conflito na manipulação dos objetos, e que tenham uma ordenação relativa entre si. E representada, desta maneira, a descentralização das atividades e o assincronismo existente entre as mesmas. A construção de um modelo, para uma realidade complexa, é amparada por uma técnica de decomposição de diagramas, permitindo que o projetista divida o problema, dessa realidade, em panes menores. Além disso, as técnicas de abstração generalização e agregação estão disposição, possibilitando a reutilização de modelagens feitas para problemas semelhantes ou correlatos. Essas abstrações, assim como a maioria dos aspectos referentes ao modelo desta tese, estão formalmente descritos. Um tipo especial de conflito entre atividades é particularmente interessante em aplicações de escritório: a tomada de decisão. Para esta tese, tomar uma decisão significa escolher um dos vários possíveis resultados na realização de uma atividade, a partir dos mesmos insumos. O trabalho descreve, precisa e formalmente, o que é tomada de decisão em uma atividade e mostra como identificar, em diagramas de atividades, aquelas com tomadas de decisão. É demonstrado que a modelagem de uma aplicação de escritórios, composta do modelo de atividades e do modelo de objetos, é implementável em computador, considerando a atual realidade das plataformas computacionais presentes em escritórios. Para tanto, e descrita uma arquitetura de um ambiente adequado para descrição e execução de aplicações de escritórios, bem como são descritos os protótipos desenvolvidos para validação dos principais aspectos. Para mostrar a eficiência do processo e a qualidade dos produtos da modelagem de sistemas de informação de escritórios no modelo, são apresentados dois estudos de caso: a preparação de conferencias de trabalho da IFIP e a automação do serviço de envio de fax. / This thesis presents a model for representing activities in office applications that is adequate for the description of the dynamic aspects of such applications. This model has two fundamental concepts, namely activities and office objects. Activity diagrams are used to model office application activities, depicting the flow of office objects, the transformations performed by office agents on those objects, and the decision making eventually involved on these activities. By modeling activities in this way, the dynamics of an application is described respecting the organizational and functional solutions adopted by an enterprise, as well as the assignments and responsibilities of the agents working in the organization. Office objects are complex and may present multimedia characteristics. However, the most striking peculiarity of these objects is the massive standardization of their descriptions, due to either legal or commercial reasons. It is this particularity that distinguishes office objects from objects belonging to other non-conventional application domains. As a consequence, office objects constitute a domain allowing intensive class reuse for modeling office applications. This work assumes that models targeted at representing office applications should have the reuse of office classes as one of their goals. In this thesis, it is considered that the office class library must be supported by an OODBMS and its description environment, independently of the specificity of office applications. Such OODBMS must support multiple inheritance as a description resource. Activity is the main component of the model proposed here. An activity represents the interaction of an agent with an application where office objects can be either created, queried, updated or destroyed, and additionaly be sent to other agents. This interaction between the agent and an application activity is performed in the agent workplace, i.e., in its workstation. The flow of office objects is then represented by the possible sequences of places within the office that those objects may follow. The data structure and the methods needed to allow office objects to deal with places are integrated into the objects themselves. This is achieved through multiple inheritance from a special class called office object place. The methods belonging to the public interface of office objects must be classified by the interaction type (query, creation, update, destruction) and by the action target (class or instance methods). An activiq_is defined as an object containing its own attributes and methods, potentially fully reusable. An activity has an adequate diagrammatic representation that displays the objects handled, the corresponding ways of manipulating objects, the conditions to be fulfilled such that the activity can be performed and, finally, the constraints imposed on agents for the production of results. An activity diagram is an annotated graph, composed of activities and office objects, where activities can only be connected to objects, and objects may only be connected to activities. The edges represent the different ways activities manipulate office objects. An activity diagram corresponds to the conceptual modeling of the dynamic aspects of an office application The static aspects, as well as the internal dynamic aspects of the classes, are described by an object model, which is compatible with the OODBMS adopted for the description and implementation of office objects. Through the activity diagram, one can identify activities that may be executed concurrently, activities presenting conflicts in object handling, and activities with a relative temporal ordering. In this way, one can represent the decentralization of the activities, as well as their relative concurrence. The construction of complex models is supported by a technique of diagram decomposition, which allows the designer to divide the model into smaller parts. In addition, generalization and aggregation abstraction mechanisms are available, allowing the reusability of models created for similar problems. These abstractions, as well as most of the modeling issues used, are formally described in the thesis. A particularly interesting type of conflict in office applications is decision making. For the purposes of this work, decision making is considered to be the choice among the various possible results of an activity, given a same input. This work describes in a precise and formal way what decision making is in the context of an activity, and shows how to identify, in activity diagrams, those activities involving decision making. It is shown that office application modeling, described by an activity model and an object model, can be implemented in a computer, considering the hardware and software platforms presently available in offices. With this purpose, the architecture of an adequate environment for the description and execution of office applications is described in the thesis, together with the prototypes developed for validating the main aspects of this work. To show the efficiency of the process, as well as the quality of the modeling of office applications with the proposed model, two case studies are presented, namely the IFIP working conference preparation and the fax sending service automation case studies. Automação : Escritórios Sistemas : Informacao : Escritorios Banco : Dados orientados : Objetos Information systems Office information systems Activities Reuse Object-oriented database systems
315	Descobrindo eventos locais utilizando análise de séries temporais nos dados do Twitter / Location-based event detection on microblogs Santos, Augusto Dias Pereira dos January 2013 (has links) O crescente uso de redes sociais gera quantidades enormes de dados que podem ser empregados em vários tipos de análises. Alguns desses dados têm informação temporal e geográfica, as quais podem ser usadas para posicionar precisamente a informação no tempo e no espaço. Nesse contexto, neste trabalho é proposto um novo método para a análise do volume massivo de mensagens disponível no Twitter, com o objetivo de identificar eventos como programas de TV, mudanças climáticas, desastres e eventos esportivos que estejam ocorrendo em regiões específicas do globo. A abordagem proposta é baseada no uso de uma rede neural para detecção de outliers em séries temporais, as quais são formadas por estatísticas coletadas em tweets localizados em diferentes divisões políticas (i.e., países, cidades). Esses outliers são usados para identificar eventos como um comportamento anormal nos dados Twitter. A efetividade do método é avaliada comparando os eventos identificados com notícias nos meios de comunicação. / The increasing use of social networks generates enormous amounts of data that can be employed for various types of analysis. Some of these data have temporal and geographical information, which can be used to precisely position information in time and space. In this document, a new method is proposed to analyze the massive volume of messages available in Twitter to identify events such as TV shows, climate change, disasters, and sports that are occurring in specific regions of the globe. The proposed approach is based on a neural network used to detect outliers from a time series, which is built upon statistical data from tweets located in different political divisions (i.e., countries, cities). These outliers are used to identify events as an abnormal behavior in Twitter's data. The effectiveness of the method is evaluated by comparing the events identified on the news media. Recuperacao : Informacao Banco : Dados Series temporais Twitter (Site) Microblogs Socio-geographic analysis Twitter stream Time series Neural network
316	Um modelo para representação de atividades em aplicações de escritórios / Model for representing activities in office applications Ruiz, Duncan Dubugras Alcoba January 1995 (has links) Esta tese apresenta um modelo para representação de atividades em aplicações de escritório, próprio para a modelagem dos aspectos dinâmicos dessas aplicações. Os componentes empregados, para tanto, são atividades e objetos de escritório. A modelagem das atividades de uma aplicação, um diagrama de atividades, representa os trâmites dos objetos de escritório, as transformações realizadas sobre os mesmos pelos agentes do escritório, e a tomada de decisão eventualmente presente nas atividades. Tal modelagem de atividades descreve, portanto, a dinâmica dessa aplicação, respeitada a solução organizacional e funcional da empresa e as atribuições e responsabilidades dos agentes que vela trabalham. Objetos de escritório são complexos e podem ter características multimídia. Entretanto, a particularidade mais acentuada desses objetos, que os diferencia dos objetos .do domínio de outras aplicações não convencionais, é a massiva padronização nas descrições dos mesmos, sejam por razões legais, como ofício e requerimento, sejam por razões comerciais, como ata, procuração e recibo. Como conseqüência, objetos de escrit6rios constituem um domínio de classes que permite reutilização intensiva das mesmas, na modelagem de aplicações de escritório. Esse trabalho considera que modelos que se destinem a representar aplicações de escritório devem ter, como um dos objetivos, buscar reutilizar classes de escritório, próprias do domínio do problema. Para esta tese, a biblioteca de classes de escritório, independente das especificidades das aplicações do escritório, deve estar contemplada em um SGBDOO, e seu ambiente de descrição, e o mesmo deve ter, como recurso de descrição, herança múltipla. Atividade é o componente central do modelo delta tese e representa uma interação de um agente com a aplicação, onde objetos de escritórios podem ser criados, consultados, atualizados e destruídos e, ainda, podem ser enviados para outros agentes. Essa interação entre o agente e uma atividade da aplicação é efetivada no lugar de trabalho do agente, ou seja, em sua estação de trabalho. Os tramites dos objetos de escritório são representados, justamente, pelas seqüências possíveis de lugares que os mesmos podem percorrer dentro dos escritórios. A estrutura de dados e os métodos necessários, para que os objetos de escritório possam tratar lugares, são incorporados, por herança múltipla, a partir de uma classe especial chamada lugar de objeto de escritório. Para serem adequadamente empregados na representação da interação dos objetos com as atividades, os métodos pertencentes a interface pública dos objetos de escritório devem estar classificados pelo tipo de interação (consulta, construção, alteração e destruição) e pelo contexto de atuação (métodos de classe e métodos de instância). Atividade e definida como um objeto, com atributos e métodos próprios, e plenamente reutilizável. Atividade tem uma representação diagramática adequada que mostra quais são os objetos tratados, e a forma de manipulação correspondente, as condições a serem satisfeitas para a realização da mesma e os limites, que os agentes tem, na produção dos resultados. Um diagrama de atividades é um grafo anotado, composto de atividades e objetos de escritório, onde cada atividade esta conectada, por ramos, somente a objetos, assim como cada objeto pode estar conectado, por ramos, somente a atividades. Os ramos identificam as diferentes formas de manipulação, dos objetos de escritório, pelas atividades. Um diagrama de atividades corresponde a modelagem conceitual dos aspectos dinâmicos de uma aplicação de escritórios. Os aspectos estáticos, e de dinâmica intra-classes, são descritos em um modelo de objetos, compatível com o SGBDOO adotado para a descrição e implementação dos objetos de escritório. Pelo diagrama de atividades de uma aplicação, são identificáveis as atividades que podem ser realizadas de maneira independente, que possuam algum conflito na manipulação dos objetos, e que tenham uma ordenação relativa entre si. E representada, desta maneira, a descentralização das atividades e o assincronismo existente entre as mesmas. A construção de um modelo, para uma realidade complexa, é amparada por uma técnica de decomposição de diagramas, permitindo que o projetista divida o problema, dessa realidade, em panes menores. Além disso, as técnicas de abstração generalização e agregação estão disposição, possibilitando a reutilização de modelagens feitas para problemas semelhantes ou correlatos. Essas abstrações, assim como a maioria dos aspectos referentes ao modelo desta tese, estão formalmente descritos. Um tipo especial de conflito entre atividades é particularmente interessante em aplicações de escritório: a tomada de decisão. Para esta tese, tomar uma decisão significa escolher um dos vários possíveis resultados na realização de uma atividade, a partir dos mesmos insumos. O trabalho descreve, precisa e formalmente, o que é tomada de decisão em uma atividade e mostra como identificar, em diagramas de atividades, aquelas com tomadas de decisão. É demonstrado que a modelagem de uma aplicação de escritórios, composta do modelo de atividades e do modelo de objetos, é implementável em computador, considerando a atual realidade das plataformas computacionais presentes em escritórios. Para tanto, e descrita uma arquitetura de um ambiente adequado para descrição e execução de aplicações de escritórios, bem como são descritos os protótipos desenvolvidos para validação dos principais aspectos. Para mostrar a eficiência do processo e a qualidade dos produtos da modelagem de sistemas de informação de escritórios no modelo, são apresentados dois estudos de caso: a preparação de conferencias de trabalho da IFIP e a automação do serviço de envio de fax. / This thesis presents a model for representing activities in office applications that is adequate for the description of the dynamic aspects of such applications. This model has two fundamental concepts, namely activities and office objects. Activity diagrams are used to model office application activities, depicting the flow of office objects, the transformations performed by office agents on those objects, and the decision making eventually involved on these activities. By modeling activities in this way, the dynamics of an application is described respecting the organizational and functional solutions adopted by an enterprise, as well as the assignments and responsibilities of the agents working in the organization. Office objects are complex and may present multimedia characteristics. However, the most striking peculiarity of these objects is the massive standardization of their descriptions, due to either legal or commercial reasons. It is this particularity that distinguishes office objects from objects belonging to other non-conventional application domains. As a consequence, office objects constitute a domain allowing intensive class reuse for modeling office applications. This work assumes that models targeted at representing office applications should have the reuse of office classes as one of their goals. In this thesis, it is considered that the office class library must be supported by an OODBMS and its description environment, independently of the specificity of office applications. Such OODBMS must support multiple inheritance as a description resource. Activity is the main component of the model proposed here. An activity represents the interaction of an agent with an application where office objects can be either created, queried, updated or destroyed, and additionaly be sent to other agents. This interaction between the agent and an application activity is performed in the agent workplace, i.e., in its workstation. The flow of office objects is then represented by the possible sequences of places within the office that those objects may follow. The data structure and the methods needed to allow office objects to deal with places are integrated into the objects themselves. This is achieved through multiple inheritance from a special class called office object place. The methods belonging to the public interface of office objects must be classified by the interaction type (query, creation, update, destruction) and by the action target (class or instance methods). An activiq_is defined as an object containing its own attributes and methods, potentially fully reusable. An activity has an adequate diagrammatic representation that displays the objects handled, the corresponding ways of manipulating objects, the conditions to be fulfilled such that the activity can be performed and, finally, the constraints imposed on agents for the production of results. An activity diagram is an annotated graph, composed of activities and office objects, where activities can only be connected to objects, and objects may only be connected to activities. The edges represent the different ways activities manipulate office objects. An activity diagram corresponds to the conceptual modeling of the dynamic aspects of an office application The static aspects, as well as the internal dynamic aspects of the classes, are described by an object model, which is compatible with the OODBMS adopted for the description and implementation of office objects. Through the activity diagram, one can identify activities that may be executed concurrently, activities presenting conflicts in object handling, and activities with a relative temporal ordering. In this way, one can represent the decentralization of the activities, as well as their relative concurrence. The construction of complex models is supported by a technique of diagram decomposition, which allows the designer to divide the model into smaller parts. In addition, generalization and aggregation abstraction mechanisms are available, allowing the reusability of models created for similar problems. These abstractions, as well as most of the modeling issues used, are formally described in the thesis. A particularly interesting type of conflict in office applications is decision making. For the purposes of this work, decision making is considered to be the choice among the various possible results of an activity, given a same input. This work describes in a precise and formal way what decision making is in the context of an activity, and shows how to identify, in activity diagrams, those activities involving decision making. It is shown that office application modeling, described by an activity model and an object model, can be implemented in a computer, considering the hardware and software platforms presently available in offices. With this purpose, the architecture of an adequate environment for the description and execution of office applications is described in the thesis, together with the prototypes developed for validating the main aspects of this work. To show the efficiency of the process, as well as the quality of the modeling of office applications with the proposed model, two case studies are presented, namely the IFIP working conference preparation and the fax sending service automation case studies. Automação : Escritórios Sistemas : Informacao : Escritorios Banco : Dados orientados : Objetos Information systems Office information systems Activities Reuse Object-oriented database systems
317	Ordered stacks of time series for exploratory analysis of large spatio-temporal datasets / Pilhas ordenadas de series temporais para a exploração de conjuntos de dados espaço-temporais Oliveira, Guilherme do Nascimento January 2015 (has links) O tamanho dos conjuntos de dados se tornou um grande problema atualmente. À medida que o sensoriamento urbano ganha popularidade, os conjuntos de dados de natureza espacial e temporal se tornam ubíquos, e levantam uma série de questões relacionadas ao armazenamento e gerenciamento destes. Isso também cria uma mudança no paradigma de análise, uma vez que os conjuntos de dados que antes representavam uma única série de medições ordenadas no tempo, agora são compostos por centenas dessas séries, com uma taxa de amostragem que está aumentando constantemente. Além disso, uma vez que os dados urbanos normalmente apresentam disposição geográfica inerente, a maioria das das tarefas requerem o suporte de representações espaciais apropriadas. Este se torna outro problema, visto que as tecnologias de exibição de imagens não avançam na mesma velocidade das tecnologias de sensoriamento, de modo que consequentemente acaba-se tendo mais dados do que espaço visual para representa-los. Após conduzir uma pesquisa exaustiva a respeito de análise de dados temporais e visualização, nós melhoramos uma visualização compacta de series temporais para auxiliar a exploração de grandes conjuntos de dados espaçotemporais. Nossa proposta aproveita a compacticidade de tal representação para permitir o uso de um mapa para representar os atributos espaciais dos dados, de modo coordenado, enquanto representação, de forma compreensível, centenas de series simultaneamente, com total contexto temporal. Nós apresentamos nossa proposta como sendo capaz de auxiliar várias tarefas de caráter exploratório de forma intuitiva. Para defender essa afirmação, nós mostramos como essa ideia foi desenvolvida e melhorada ao longo do desenvolvimento de dois estudos de design visual em diferentes domínios de aplicação, e validamos com a implementação de protótipos que foram usados na análise exploratória de vários conjuntos de dados com 3 representações diferentes. Palavras- / The size of datasets became the major problem in data analysis today. As urban sensing becomes popular, datasets of spatial and temporal nature become ubiquitous, leading to several concerns regarding storage and management. It also creates a shift of paradigm in data analysis, as datasets that once represented a single series of measurements ordered in time are now composed of hundreds of series with ever increasing sampling rates. Also, as urban data usually presents inherent geographic disposition, most analysis tasks requires the support of proper spatial views. It becomes another problem, once that displaying technologies do not advance at the same of pace that sensing technologies do, and consequently, there is usually more data than visual space to represent it. After conducting exhaustive research on temporal data analysis and visualization, we improved a compact visual representation of time series to support the exploration of large spatio-temporal datasets. Our proposal exploits the compactness of such representation to allow the use of a map to represent the spatial properties of the data in a coordinate scheme while presenting, in a comprehensible manner, hundreds of series simultaneously, with full temporal context. We argue that such solution can effectively support many exploratory tasks in an intuitive manner. To support this claim, we show how the idea was conceived, and improved along the development of two design studies from different application domains, and validated by the implementation of prototypes used in the exploratory analysis of several datasets with 3 different data structures. Banco de dados Banco : Dados temporais Time series Bike sharing Running Spatio-temporal data Urban data Visualization Exploratory data analysis
318	Análise e desenvolvimento de um novo algoritmo de junção espacial para SGBD geográficos / Analysis and design of a new algorithm to perform spatial join in geographic DBMS Fornari, Miguel Rodrigues January 2006 (has links) Um Sistema de Informação Geográfica armazena e mantém dados geográficos, combinando-os, para obter novas representações do espaço geográfico. A junção espacial combina duas relações de geometrias geo-referenciadas de acordo com algum predicado espacial, como intersecção e distância entre objetos. Trata-se de uma operação essencial, pois é constantemente utilizada e possui um alto custo de realização devido a realização de grande número de operações de Entrada/Saída e a complexidade do algoritmo. Este trabalho estuda o desempenho de algoritmos de junção espacial. Inicialmente, apresenta a análise dos algoritmos já publicados na literatura, obtendo expressões de custo para número de operações de disco e processamento. Após, descreve-se a implementação de alguns algoritmos em um ambiente de testes. Este ambiente permite ao usuário variar diversos parâmetros de entrada: cardinalidade dos conjuntos, memória disponível e predicado de junção, envolvendo dados reais e sintéticos. O ambiente de testes inclui os algoritmos de Laços Aninhados, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) para árvores R* e Iterative Spatial Stripped Join (ISSJ). Os testes demonstraram que o STT é adequado para conjuntos pequenos de dados; o ISSJ se houver memória suficiente para ordenar os conjuntos internamente; e o PBSM se houver pouca memória disponível para buffer de dados. A partir da análise um novo algoritmo, chamado Histogram-based Hash Stripped Join (HHSJ) é apresentado. O HSSJ utiliza histogramas da distribuição dos objetos no espaço para definir o particionamento, armazena os objetos em arquivos organizados em hash e subdivide o espaço em faixas (strips) para reduzir o processamento. Os testes indicam que o HHSJ é mais rápido na maioria dos cenários, sendo ainda mais vantajoso quanto maior o número de objetos envolvidos na junção. Um módulo de otimização de consultas baseado em custos, capaz de escolher o melhor algoritmo para realizar a etapa de filtragem é descrito. O módulo utiliza informações estatísticas mantidas no dicionário de dados para estimar o tempo de resposta de cada algoritmo, e indicar o mais rápido para realizar uma operação específica. Este otimizador de consultas acertou a indicação em 88,9% dos casos, errando apenas na junção de conjuntos pequenos, quando o impacto é menor. / A Geographic Information System (GIS) stores geographic data, combining them to obtain new representations of the geographic space. The spatial join operation combines two sets of spatial features, A and B, based on a spatial predicate. It is a fundamental as well as one of the most expensive operations in GIS. Combining pairs of spatial, georreferenced data objects of two different, and probably large data sets implies the execution of a significant number of Input/Output (I/O) operations as well as a large number of CPU operations. This work presents a study about the performance of spatial join algorithms. Firstly, an analysis of the algorithms is realized. As a result, mathematical expressions are identified to predict the number of I/O operations and the algorithm complexity. After this, some of the algorithms (e.g.; Nested Loops, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) to R-Trees and Iterative Spatial Stripped Join (ISSJ)) are implemented, allowing the execution of a series of tests in different spatial join scenarios. The tests were performed using both synthetic and real data sets. Based on the results, a new algorithm, called Histogram-based Hash Stripped Join (HHSJ), is proposed. The partitioning of the space is carried out according to the spatial distribution of the objects, maintained in histograms. In addition, a hash file is created for each input data set and used to enhance both the storage of and the access to the minimum bounding rectangles (MBR) of the respective set elements. Furthermore, the space is divided in strips, to reduce the processing time. The results showed that the new algorithm is faster in almost all scenarios, specially when bigger data sets are processed. Finally, a query optimizer based on costs, capable to choose the best algorithm to perform the filter step of a spatial join operation, is presented. The query optimizer uses statistical information stored in the data dictionary to estimate the response time for each algorithm and chooses the faster to realize the operation. This query optimizer choose the right one on 88.9% of cases, mistaken just in spatial join envolving small data sets, when the impact is small. Geoinformática Sistemas : Informacao geografica Banco : Dados geograficos Otimizacao : Consultas Geographic Database Management Systems Query processing Spatial join
319	Análise e desenvolvimento de um novo algoritmo de junção espacial para SGBD geográficos / Analysis and design of a new algorithm to perform spatial join in geographic DBMS Fornari, Miguel Rodrigues January 2006 (has links) Um Sistema de Informação Geográfica armazena e mantém dados geográficos, combinando-os, para obter novas representações do espaço geográfico. A junção espacial combina duas relações de geometrias geo-referenciadas de acordo com algum predicado espacial, como intersecção e distância entre objetos. Trata-se de uma operação essencial, pois é constantemente utilizada e possui um alto custo de realização devido a realização de grande número de operações de Entrada/Saída e a complexidade do algoritmo. Este trabalho estuda o desempenho de algoritmos de junção espacial. Inicialmente, apresenta a análise dos algoritmos já publicados na literatura, obtendo expressões de custo para número de operações de disco e processamento. Após, descreve-se a implementação de alguns algoritmos em um ambiente de testes. Este ambiente permite ao usuário variar diversos parâmetros de entrada: cardinalidade dos conjuntos, memória disponível e predicado de junção, envolvendo dados reais e sintéticos. O ambiente de testes inclui os algoritmos de Laços Aninhados, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) para árvores R* e Iterative Spatial Stripped Join (ISSJ). Os testes demonstraram que o STT é adequado para conjuntos pequenos de dados; o ISSJ se houver memória suficiente para ordenar os conjuntos internamente; e o PBSM se houver pouca memória disponível para buffer de dados. A partir da análise um novo algoritmo, chamado Histogram-based Hash Stripped Join (HHSJ) é apresentado. O HSSJ utiliza histogramas da distribuição dos objetos no espaço para definir o particionamento, armazena os objetos em arquivos organizados em hash e subdivide o espaço em faixas (strips) para reduzir o processamento. Os testes indicam que o HHSJ é mais rápido na maioria dos cenários, sendo ainda mais vantajoso quanto maior o número de objetos envolvidos na junção. Um módulo de otimização de consultas baseado em custos, capaz de escolher o melhor algoritmo para realizar a etapa de filtragem é descrito. O módulo utiliza informações estatísticas mantidas no dicionário de dados para estimar o tempo de resposta de cada algoritmo, e indicar o mais rápido para realizar uma operação específica. Este otimizador de consultas acertou a indicação em 88,9% dos casos, errando apenas na junção de conjuntos pequenos, quando o impacto é menor. / A Geographic Information System (GIS) stores geographic data, combining them to obtain new representations of the geographic space. The spatial join operation combines two sets of spatial features, A and B, based on a spatial predicate. It is a fundamental as well as one of the most expensive operations in GIS. Combining pairs of spatial, georreferenced data objects of two different, and probably large data sets implies the execution of a significant number of Input/Output (I/O) operations as well as a large number of CPU operations. This work presents a study about the performance of spatial join algorithms. Firstly, an analysis of the algorithms is realized. As a result, mathematical expressions are identified to predict the number of I/O operations and the algorithm complexity. After this, some of the algorithms (e.g.; Nested Loops, Partition Based Spatial Join Method (PBSM), Synchronized Tree Transversal (STT) to R-Trees and Iterative Spatial Stripped Join (ISSJ)) are implemented, allowing the execution of a series of tests in different spatial join scenarios. The tests were performed using both synthetic and real data sets. Based on the results, a new algorithm, called Histogram-based Hash Stripped Join (HHSJ), is proposed. The partitioning of the space is carried out according to the spatial distribution of the objects, maintained in histograms. In addition, a hash file is created for each input data set and used to enhance both the storage of and the access to the minimum bounding rectangles (MBR) of the respective set elements. Furthermore, the space is divided in strips, to reduce the processing time. The results showed that the new algorithm is faster in almost all scenarios, specially when bigger data sets are processed. Finally, a query optimizer based on costs, capable to choose the best algorithm to perform the filter step of a spatial join operation, is presented. The query optimizer uses statistical information stored in the data dictionary to estimate the response time for each algorithm and chooses the faster to realize the operation. This query optimizer choose the right one on 88.9% of cases, mistaken just in spatial join envolving small data sets, when the impact is small. Geoinformática Sistemas : Informacao geografica Banco : Dados geograficos Otimizacao : Consultas Geographic Database Management Systems Query processing Spatial join
320	Hipertexto : um protótipo implementado em Zim, para suporte da análise de requisitos Doege, Guilherme Martim January 1991 (has links) Neste trabalho se descreve a implementação de um protótipo de sistema de hipertexto, construído sobre o sistema de banco de dados ZIM, para uso na análise de requisitos de sistemas de informações de escritórios. Inicialmente, são apresentadas as principais características dos sistemas de hipertexto, destacando-se o hibridismo entre banco de dados, esquemas de representação e interfaces. Comenta-se a funcionalidade, aplicações, vantagens e desvantagens de hipertextos. A seguir, são mencionados diversos trabalhos apresentados na literatura universal, relacionados com hipertexto. Também são feitos comentários sobre diversos sistemas, acadêmicos, experimentais ou comerciais, citados na literatura. O protótipo de hipertexto foi implementado sobre a versão 3.11G, para MS-DOS, do sistema de banco de dados ZIM, em ambiente PC-XT, stand-alone. ZIM é um sistema de banco de dados baseado no modelo Entidade-Relacionamento. Possui uma Linguagem de Desenvolvimento de Aplicações completa, incluindo a definição e o tratamento de formulários. Possui um dicionário de dados totalmente integrado e permite o desenvolvimento e a adaptação progressiva das mais complexas estruturas de informação. O protótipo de hipertexto foi construído visando a coleta e a organização de informações exclusivamente textuais, através da interação do usuário com o computador, direcionadas para a análise de requisitos de sistemas de informação de escritórios. No modelo proposto se destacam os principais conjuntos de entidades utilizados: nodos e textos, links, autores, tipos de nodos e tipos de links. Os nodos e textos contêm as informações textuais e de controle que caracterizam a rede do hipertexto. Seu conteúdo é exibido dentro de janelas que são apresentadas na tela de vídeo. Os links armazenam as informações que relacionam os nodos entre si. São inseridos no texto, diferenciados visualmente do restante do texto, através de ícones. Quando ativados, as links permitem a navegação de um texto para outro. 0 conjunto de entidades "autores" contém informações sobre os usuários do sistema: administradores, escritores ou leitores. O sistema controla a autoria de nodos e links, garantindo ao autor do objeto sua modificação ou remoção. O sistema permite que um autor edite o texto, preservando os links que estiverem associados. Na dissertação também são comentados os principais atributos e operações dos objetos do sistema: autores, nodos e textos, links, tipos de nodos e tipos de links, janelas e ancoras ou ícones. Comenta-se o relacionamento entre os nodos e as janelas, e entre os ícones e os links. Também são mencionados a utilidade e exemplos de tipos de nodos e de links. / This dissertation describes the implementation of a prototype of hypertext system. It was constructed on the basis of the ZIM database system, for use in information systems requirement analysis. The work presents the most important features of hypertext systems, emphasizing the hibridism of database, representation scheme and interface modality. It also comments on their functions, applications, advantages and disadvantages. It mentions many works, presented on the universal literature, related with hypertext. It also comments various academic, experimental and commercial systems, mentioned on the literature. The hypertext prototype was implemented using the version 3.11G of the -LIM database system for MS-DOS, on the basis of a PC-XT environment. ZIM is a database system based on the Entity- Relationship model. It has a full Application Development Language, with the provision for definition and treatment of customized forms. It has a fully integrated data dictionary and allows the progressive development or adaptation of the most complex information structures. The prototype of hypertext was constructed for interactivelly collecting and organizing textual information, in the information systems requirement analysis. In the proposed model, the main entity sets are "nodes" and "texts", "links", "authors", "node types" and "link types". The nodes and texts contain the textual and control information, that characterize the nodes of the hypertext net Their contents are presented inside of windows, in the screen. The links store the informations that connect the nodes. They are inserted in the text by icons, visiblely differentiated to the remaining text. When they are activated, the links allow the navigation for a text to another. The "authors" entity set contains informations of the users: administrators, writers and readers. The hypertext system controls authorship of the nodes and links, specially for the modification and deletion of the objects. The system allows that the author edits their texts, preserving the associated links. This dissertation comments the main attributes and operations for the hypertext objects, like authors, nodes and texts, links, node types and link types, windows and anchors or icons. It comments the relationship between the nodes and windows, and between icons and links. It also mentions the use and examples of the nodes types and links types. Automação : Escritórios Hipertexto Zim Analise : Requisitos Sistemas : Informacao : Escritorios Banco : Dados Dissertation Hypertext Implementation Information systems Requirement analysis Databases ZIM

Search results