Spelling suggestions: "subject:"banco : dados"" "subject:"banco : lados""
341 |
Descoberta de equivalência semântica entre atributos em bancos de dados utilizando redes neurais / Discovering semantic equivalences on attributes in databases using neural networksLima Junior, José January 2004 (has links)
Com o crescimento das empresas que fazem uso das tecnologias de bancos de dados, os administradores destes bancos de dados criam novos esquemas a cada instante, e na maioria dos casos não existe uma normalização ou procedimentos formais para que tal tarefa seja desempenhada de forma homogênea, resultando assim em bases de dados incompatíveis, o que dificulta a troca de dados entre as mesmas. Quando os Sistemas de Bancos de Dados (SBD) são projetados e implementados independentemente, é normal que existam incompatibilidades entre os dados de diferentes SBD. Como principais conflitos existentes nos esquemas de SBD, podem ser citados problemas relacionados aos nomes dos atributos, armazenamento em diferentes unidades de medida, diferentes níveis de detalhes, atributos diferentes com mesmo nome ou atributos iguais com nomes diferentes, tipos de dado diferentes, tamanho, precisão, etc. Estes problemas comprometem a qualidade da informação e geram maiores custos em relação à manutenção dos dados. Estes problemas são conseqüências de atributos especificados de forma redundante. Estes fatos têm provocado grande interesse em descobrir conhecimento em banco de dados para identificar informações semanticamente equivalentes armazenadas nos esquemas. O processo capaz de descobrir este conhecimento em banco de dados denomina-se DCDB (Descoberta de Conhecimento em Bancos de Dados). As ferramentas disponíveis para a execução das tarefas de DCDB são genéricas e derivadas de outras áreas do conhecimento, em especial, da estatística e inteligência artificial. As redes neurais artificiais (RNA) têm sido utilizadas em sistemas cujo propósito é a identificação de padrões, antes desconhecidos. Estas redes podem aprender similaridades entre os dados, diretamente de suas instâncias, sem conhecimento a priori. Uma RNA que tem sido usada com êxito para identificar equivalência semântica é o Mapa Auto-Organizável (SOM). Esta pesquisa objetiva descobrir, de modo semi-automatizado, equivalência semântica entre atributos de bases de dados, contribuindo para o gerenciamento e integração das mesmas. O resultado da pesquisa gerou uma sistemática para o processo de descoberta e uma ferramenta que a implementa. / With the increasing number of companies using database technologies, the database’s administrators create new schemes at every moment, and in most cases there are no normalization or formal procedures to do this task in a homogeneous form, it results in incompatible databases, that difficult data exchange. When the Database Systems (DBS) are projected and implemented independently, it is normal that data incompatibilities among different DBS. Problems related to the names of the attributes, storage in different measurement units, different levels of detail, different attributes with the same name or equal attributes with different names, different type of data, size, precision, etc, can be cited as main conflicts existing in the DBS schemes. These problems compromise the quality information and generate higher costs regarding the data maintenance. These problems arise as the consequence of redundant attributes’ specification. These facts have caused great interest in discovering knowledge in database to identify information semantically equivalent stored in schemes. The process capable to discover this knowledge in database is called KDD (Knowledge Discovery in Database). The available tools to do KDD tasks are generic and derived from other areas of knowledge, in special, statistics and artificial intelligence. The artificial neural networks (ANN) have been used in systems which aim is the identification of previously unknown patterns. These networks can learn similarities among the data directly from instances, without a priori knowledge. An ANN that has been used with success to identify semantic equivalence is the Self-Organizing Map (SOM). This research aims to discover, in a semi-automatic way, semantic equivalence on database attributes, contributing for the management and integration of these databases. This work resulted in a systematic for the discovery process and a tool that implements it.
|
342 |
Seleção de valores para preenchimento de formulários web / Selection of values for form fillingMoraes, Tiago Guimarães January 2013 (has links)
Os motores de busca tradicionais utilizam técnicas que rastreiam as páginas na Web através de links HTML. Porém a maior parte da Web não é acessada por essas técnicas. A parcela da Web não acessada é chamada de Web oculta. Uma enorme quantidade de informação estruturada e de melhor qualidade que a presente na Web tradicional está disponível atrás das interfaces de busca, os formulários que são pontos de entrada para a Web oculta. Essa porção da Web é de difícil acesso para os motores de busca, pois o preenchimento correto dos formulários representa um grande desafio, dado que foram construídos para a manipulação humana e possuem grande variabilidade e diversidade de línguas e domínios. O grande desafio é selecionar os valores corretos para os campos do formulário, realizando um número reduzido de submissões que obtenha a cobertura da maior parte da base de dados por trás do formulário. Vários trabalhos propõem métodos para busca na Web oculta, porém a maior parte deles apresenta grandes limitações para a aplicação automática na Web. Entre as principais limitações estão a dependência de informação prévia a respeito do domínio dos formulários, o não tratamento de todos os tipos de campos que um formulário pode apresentar e a correta seleção de um subgrupo do conjunto de todas as possibilidades de preenchimento de um formulário. No presente trabalho é apresentada uma arquitetura genérica para o preenchimento automático de formulários. A principal contribuição dessa arquitetura consiste na seleção de valores para o preenchimento de formulários através do método ITP (Instance template pruning). para o preenchimento de formulários através do método ITP (Instance template pruning). Muitos formulários apresentam um número inviável de possibilidades de preenchimento quando combinam os valores dos campos. O método ITP consegue reduzir drasticamente o número de possibilidades. A poda de diversas consultas é possível à medida que as submissões são feitas e o conhecimento a respeito do formulário é obtido. Os experimentos realizados mostraram que o método proposto é superior ao método utilizado como baseline. A comparação foi feita com o método que representa o estado da arte. O método proposto pode ser utilizado em conjunto com outros métodos de forma a obter uma busca efetiva na Web oculta. Desta forma, os experimentos a partir da combinação do ITP com o baseline também implicaram em bons resultados. / The traditional search engines crawl the Web pages through HTML links. However, the biggest part of the Web is invisible for these crawlers. The portion of the Web which is not accessed is called hidden Web. An enormous quantity of structured data and with higher quality than in the traditional Web is available behind search interfaces, the forms that are the entry points to the hidden Web. Access this part of theWeb by search engines is difficult because the correct filling of forms represent a big challenge. Since these forms are built for human manipulation and have big variability and diversity of domains and languages. The challenge is to select the correct values to fill the form fields, with a few number of submissions that reach good coverage of the database behind the form. Several works proposed methods to search the hidden Web. Most of these works present big limitations for an application that surfaces the entire Web in a horizontal and automatic way. The main limitations are the dependency of prior information about the form domains, the non-treatment of the all form field types and the correct selection of a subgroup of the set of all form filling possibilities. In the present work is presented a generic architecture for the automatic form filling. The main contribution of this architecture is the selection of values for the form submission through the ITP (Instance Template Pruning) method. Several forms have an infeasible number of form filling possibilities when combining all fields and values. The ITP method can drastically reduce the number of possibilities. The prune of many possible queries is feasible as the submissions are made and the knowledge about the form is obtained. The results of the experiments performed indicate that the ITP method is superior to the baseline utilized. The comparison is made with the method that represents the state of the art. The proposed method can be used with other methods in order to an effective search in the hidden Web. Therefore, the results by the combination of ITP and baseline methods also have implicated in good results.
|
343 |
Uma abordagem de recomendação de colaborações acadêmicas através da análise de séries temporais / An approach for academic collaborations recommendation through time-series analysisRibacki, Guilherme Haag January 2016 (has links)
O avanço da tecnologia nos últimos anos permitiu a criação de Sistemas de Informação com acesso a grandes bases de dados, abrindo diversas possibilidades de aplicações. Tem-se como exemplo a Internet, onde uma enorme quantidade de dados é gerada e publicada a todo momento por usuários ao redor do mundo. Com isso, aos poucos foi surgindo a necessidade de métodos para filtrar o conteúdo disponível de forma a permitir que um usuário pudesse focar apenas nos seus interesses. Nesse contexto surgiram os Sistemas de Recomendação e as Redes Sociais, onde, mais recentemente, surgiram trabalhos que apresentam abordagens para o uso de Sistemas de Recomendação no contexto acadêmico, de forma a aumentar a produtividade de grupos de pesquisa. Também têm sido bastante exploradas formas de se utilizar informações temporais em Sistemas de Recomendação de maneira a melhorar as recomendações feitas. O presente trabalho propõe uma abordagem de recomendação de colaborações acadêmicas utilizando a técnica de Análise de Séries Temporais, buscando melhorar os resultados obtidos por trabalhos anteriores. Foi realizado um experimento offline para avaliar o desempenho da abordagem proposta em relação às abordagens anteriores e um estudo de usuários para fazer uma análise mais profunda com feedback de usuários. Foram utilizadas métricas conhecidas das áreas de Recuperação de Informação e Sistemas de Recomendação, mas alguns resultados se mostraram inferiores em comparação com as abordagens existentes; outros, porém, foram similares. Também foram utilizadas algumas métricas de avaliação focadas em Sistemas de Recomendação, e os resultados obtidos foram similares em todas as abordagens testadas. / The advance of technology in recent years made possible the creation of Information Systems with access to large databases, opening many applications possibilities. There’s the Internet, for example, where a vast amount of data is generated and published all the time by users around the world. In this sense, the need for methods to filter the available content to enable users to focus only on their interests slowly emerged. In this context, Recommender Systems and Social Networks appeared, where, recently, works reporting approaches to provide recommendations in the academic context appeared, increasing the productivity of research groups. New ways to employ temporal information in Recommender Systems to make better recommendations are also being explored. The present work proposes an approach to academic collaborations recommendation using Time Series Analysis, aiming to improve results reported on previous and current works. An offline experiment was done to evaluate the proposed approach in comparison with other works and a user study was done to make a deeper analysis from user feedback. Known metrics from the Information Retrieval and Recommender Systems fields were used, and in some cases the results obtained were lower compared to the current methods but similar in others. Some evaluation metrics from Recommender Systems were also used, and the results were similar to all approaches.
|
344 |
Identificação Genética e Crime : a introdução dos bancos de DNA no BrasilRichter, Vitor Simonis January 2016 (has links)
Em 2012, o Brasil aprovou a lei 12.654 que regulamenta o uso dos bancos de perfis genéticos para fins de investigação criminal. Esta lei é um dos marcos nas discussões acerca do uso do DNA nas investigações criminais que se intensificaram no país a partir de 2009 quando o FBI doou ao Brasil o Combined DNA Index System (CODIS). A chegada dos bancos de dados de DNA ao Brasil faz parte de um processo de expansão internacional de bancos nacionais de perfis genéticos. Esta tese trata do processo de introdução desta tecnologia no Brasil. Através de entrevistas com especialistas de diferentes áreas, tais como perícia criminal, direito e bioética, da observação e participação em seminários e congressos de perícia criminal e das discussões travadas em publicações de revistas científicas esta pesquisa busca uma compreensão etnográfica dos nexos entre ciência, direito, tecnologia, segurança e poder em torno do processo de introdução dos bancos de perfis genéticos no Brasil. Na primeira parte, a tese descreve algumas relações e significados que fizeram a identificação genética vir a ser sinônimo de precisão científica acerca da identificação humana e o deslizamento para sua aplicação nas investigações criminais. Na segunda parte, aborda os primeiros efeitos do processo de introdução da tecnologia de bancos de perfis genéticos no Brasil a partir do processo de elaboração da lei dos bancos de DNA, da emergência de novas trajetórias de peritos criminais em genética forense e de alguns desafios do cotidiano da coleta, análise e armazenamento dos vestígios da cena do crime. Conhecer e entender como são colocadas em prática as diversas mediações que envolvem a estabilização do banco de DNA para fins de investigação criminal no Brasil permite refletir como a relação entre tecnociência, direitos, cidadania e políticas de segurança implicam em opções técnicas, éticas e políticas. / In 2012, Brazil approved the Federal Law 12.654, which regulates the use of genetic profiles for criminal investigations. Such law is one of the main landmarks in discussions concerning the use of DNA in criminal investigations that have intensified across the country since 2009, when the FBI donated to Brazil the Combined DNA Index System (CODIS). The arrival of these databases in Brazil is part of an international expansion process of national genetic profiles databases. This dissertation is about the introduction process of such biotechnology in Brazil. Through interviews with specialists from different areas, such as forensic sciences, law and bioethics, from observation and participation in forensics seminars and congresses and from discussions set in scientific publications this research aims for an ethnographic understanding of the nexus between science, law, technology, security and power around the introductory process of the genetic profile databases in Brazil. In its first part, the dissertation describes some relations and meanings that made genetic identification become a synonym of scientific precision concerning human identification and the transition for its application in criminal investigation. In its second part, it approaches the first effects of the introductory process of the technology in Brazil through the DNA database’s law elaboration process, from the emergency of new trajectories of genetic forensic experts and from a few challenges of the daily collection, analysis and storage of evidences of the crime scene. To know and to understand the mediations involved in the stabilization of the DNA databases for criminal investigation allow us to reflect on how the relation between technoscience, law, citizenship and safety politics affects and engenders technical options, ethics and policies.
|
345 |
LAGO : Linguagem de Acesso Global ao sistema AMPLOLuzzardi, Paulo Roberto Gomes January 1991 (has links)
Este trabalho descreve LAGO - Linguagem de Acesso Global ao sistema AMPLO AMPLO é um ambiente de projeto de sistemas digitais que consiste de uma base de dados orientada a objetos e diversas ferramentas de projeto, como editores de texto, editores gráficos, compiladores e simuladores de sistemas digitais. LAGO é a interface de alto nível de AMPLO, sendo responsável pelo controle de acesso aos recursos do sistema. Através desta interface, os usuários de AMPLO podem ativar funções de administração, gerência de projeto, projeto propriamente dito e consulta a base de dados. O acesso as diversas funções do sistema esta vinculado a classificação do usuário. Um - administrador geral - responsável pelo cadastro de usuários e de grupos de usuários. Grupos de usuários são criados Para realizar projetos, sob a liderança de um - administrador de grupo - Este indicado pelo administrador geral quando da criação do grupo e realiza funções de gerência de grupo e da base de dados associada ao grupo. Usuários - projetistas - tem acesso as funções de ativação de ferramentas (editores de texto, editores gráficos, compiladores e simuladores) e as func6es de administração de tarefas (uma tarefa corresponde a uma transação longa, a nível de banco de dados, por exemplo, a criação de objetos em varias sess6es de edição). A cada tarefa esta associada uma base de dados temporária, privativa do projetista, removida após o término da tarefa. Portanto, a base de dados de AMPLO e dividida em três níveis: base de dados pública, bases de dados por projeto e bases de dados dos projetistas. Permanentemente, LAGO oferece facilidades de consulta a base de dados. Estas funções de consulta estão disponíveis quando o usuário inicializa o sistema ou, posteriormente, pela seleção de uma função de consulta. A navegação pelos objetos da base de dados rode ser feita de forma gráfica ou textual. Na forma gráfica, os objetos são apresentados através de arvores representando os diversos tipos de relacionamentos existentes. Na forma textual, LAGO apresenta listas com nomes de objetos. / This work describes LAGO - a language for accessing the AMPLO system. AMPLO is a design environment of digital systems which is composed of an object oriented data base and of several design tools, such as text editors, graphics editors, compilers and simulators of digital systems LAGO is the high-level interface of AMPLO, and it is responsible for controlling the access to the system's resources. With this interface, the users of AMPLO may activate administratation and, design management functions, data base queries, and design tasks. The access to the several system functions is in accordance to the user classification. A "general administrator" is responsible for creating users and groups of users. Groups of users create designs, under the leadership of a "group administrator", who is indicated by the general administrator when the group is created. The "grou p administrator" has private functions for managing the group and the data base associated to the group. Designers activate design tools as text editors, graphic editors, compilers and simulators. Also they can use task management functions (a task corresponds to a long transaction at the data base level, like the creation of objects in several editing sessions, for example). A temporary data base which is a designer private data base is associated to each task, and is removed at the end of the task. Thus, the data base of AMPLO is divided into three levels: p ublic data base, group data base and designer data base LAGO permanently, offers facilities of data base ueries. These q uery functions are available when the user inicializes the system and later on, when the query function is selected. The navigation through the data base objects can be done in a gra p hical or textual form. In the graphical form, the objects are presented by trees representing the several types of relationships. In the textual form, LAGO presents lists with the name of objects.
|
346 |
Solving moving-blocks problems / Resolvendo problemas de blocos movéisPereira, André Grahl January 2016 (has links)
Nesta tese, nós estudamos a classe de problemas de blocos-móveis. Um problema de blocos-móveis consiste em k blocos móveis dispostos em um labirinto em grade quadrangular onde há um bloco móvel adicional chamado de o homem, que é o único bloco que pode ser movido diretamente. Em particular, cada problema de blocos-móveis é definido pelo conjunto de movimentos disponíveis, pela descrição do objetivo e pelo o que acontece quando o homem tenta mover um bloco. Sokoban é o problema de blocos-móveis mais conhecido e pesquisado. Nós investigamos a complexidade computacional de problemas de blocos-móveis. Antes desta tese, a maior parte da literatura cientifica abordou problemas de blocos-móveis apenas com movimentos de EMPURRAR, na maioria dos casos provando que esses problemas são PSPACE-complete. Nós consideramos dois conjuntos de problemas: apenas movimentos de PUXAR, e movimentos de EMPURRAR e PUXAR combinados. Nossas reduções usam a Lógica de Restrições Não Determinística. Nós provamos que muitos problemas apenas com movimentos de PUXAR são PSPACE-complete. Além disso, nós provamos que o conjunto de problemas com movimentos de EMPURRAR e PUXAR é PSPACE-complete. A nossa contribuição nessa linha de pesquisa é aprimorar o conhecimento sobre o panorama da complexidade de problemas de blocos-móveis. Nosso principal objetivo com essa tese é resolver otimamente problemas de blocos-móveis com foco em Sokoban. Métodos baseados em busca heurística e heurísticas de abstrações como banco de dados de padrões são as abordagens mais efetivas para resolver otimamente esses problemas. Nós fazemos muitas contribuições nessa linha de pesquisa. Nós introduzimos novas funções heurísticas usando bancos de dados padrão com a ideia de estados objetivos intermediários. Propomos uma técnica baseada em bancos de dados padrão para detectar impasses. Propomos regras de desempate que exploram a estrutura do problema. Usando estas funções heurísticas e regras de desempate nós aumentamos o número de instâncias resolvidas de forma ótima de Sokoban e outros problemas em comparação com os métodos anteriores. / In this thesis, we study the class of moving-blocks problems. A moving-blocks problem consists of k movable blocks placed on a grid-square maze where there is an additional movable block called the man, which is the only block that can be moved directly. In particular, each moving-blocks problem is defined by the set of moves available, by the goal description and by what happens when the man attempts to move a block. Sokoban is the best known and researched moving-blocks problem. We study moving-blocks problems in theory and practice. We investigate the computational complexity of problems of moving-blocks. Prior to this thesis, most of the scientific literature addressed moving-blocks problems with PUSH moves only, in most of the cases proving that these problems are PSPACE-complete. We consider two sets of problems: PULL moves only, and PUSH and PULL moves combined. Our reductions are from Nondeterministic Constraint Logic. We prove that many problems with PULL moves only are PSPACE-complete. In addition, we prove that the entire set of PUSH and PULL moves is PSPACE-complete. Our contribution in this research line is to enhance the knowledge on the complexity landscape of moving-blocks problems. Our main objective in this thesis is to optimally solve moving-blocks problems with a focus on Sokoban. Methods based on heuristic search and abstraction heuristics such as pattern databases are the most effective approaches to optimally solve these problems. We make many contributions in this research line. We introduce novel heuristic functions using pattern databases with the idea of intermediate goal states. We propose a technique based on pattern databases to detect deadlocks. We propose tie-breaking rules that exploit the structure of the problem. Using these heuristic functions and tie-breaking rules we increase the number of optimally solved instances of Sokoban and other problems compared to previous methods.
|
347 |
LAGO : Linguagem de Acesso Global ao sistema AMPLOLuzzardi, Paulo Roberto Gomes January 1991 (has links)
Este trabalho descreve LAGO - Linguagem de Acesso Global ao sistema AMPLO AMPLO é um ambiente de projeto de sistemas digitais que consiste de uma base de dados orientada a objetos e diversas ferramentas de projeto, como editores de texto, editores gráficos, compiladores e simuladores de sistemas digitais. LAGO é a interface de alto nível de AMPLO, sendo responsável pelo controle de acesso aos recursos do sistema. Através desta interface, os usuários de AMPLO podem ativar funções de administração, gerência de projeto, projeto propriamente dito e consulta a base de dados. O acesso as diversas funções do sistema esta vinculado a classificação do usuário. Um - administrador geral - responsável pelo cadastro de usuários e de grupos de usuários. Grupos de usuários são criados Para realizar projetos, sob a liderança de um - administrador de grupo - Este indicado pelo administrador geral quando da criação do grupo e realiza funções de gerência de grupo e da base de dados associada ao grupo. Usuários - projetistas - tem acesso as funções de ativação de ferramentas (editores de texto, editores gráficos, compiladores e simuladores) e as func6es de administração de tarefas (uma tarefa corresponde a uma transação longa, a nível de banco de dados, por exemplo, a criação de objetos em varias sess6es de edição). A cada tarefa esta associada uma base de dados temporária, privativa do projetista, removida após o término da tarefa. Portanto, a base de dados de AMPLO e dividida em três níveis: base de dados pública, bases de dados por projeto e bases de dados dos projetistas. Permanentemente, LAGO oferece facilidades de consulta a base de dados. Estas funções de consulta estão disponíveis quando o usuário inicializa o sistema ou, posteriormente, pela seleção de uma função de consulta. A navegação pelos objetos da base de dados rode ser feita de forma gráfica ou textual. Na forma gráfica, os objetos são apresentados através de arvores representando os diversos tipos de relacionamentos existentes. Na forma textual, LAGO apresenta listas com nomes de objetos. / This work describes LAGO - a language for accessing the AMPLO system. AMPLO is a design environment of digital systems which is composed of an object oriented data base and of several design tools, such as text editors, graphics editors, compilers and simulators of digital systems LAGO is the high-level interface of AMPLO, and it is responsible for controlling the access to the system's resources. With this interface, the users of AMPLO may activate administratation and, design management functions, data base queries, and design tasks. The access to the several system functions is in accordance to the user classification. A "general administrator" is responsible for creating users and groups of users. Groups of users create designs, under the leadership of a "group administrator", who is indicated by the general administrator when the group is created. The "grou p administrator" has private functions for managing the group and the data base associated to the group. Designers activate design tools as text editors, graphic editors, compilers and simulators. Also they can use task management functions (a task corresponds to a long transaction at the data base level, like the creation of objects in several editing sessions, for example). A temporary data base which is a designer private data base is associated to each task, and is removed at the end of the task. Thus, the data base of AMPLO is divided into three levels: p ublic data base, group data base and designer data base LAGO permanently, offers facilities of data base ueries. These q uery functions are available when the user inicializes the system and later on, when the query function is selected. The navigation through the data base objects can be done in a gra p hical or textual form. In the graphical form, the objects are presented by trees representing the several types of relationships. In the textual form, LAGO presents lists with the name of objects.
|
348 |
Aplicação do processo de descoberta de conhecimento em dados do poder judiciário do estado do Rio Grande do Sul / Applying the Knowledge Discovery in Database (KDD) Process to Data of the Judiciary Power of Rio Grande do SulSchneider, Luís Felipe January 2003 (has links)
Para explorar as relações existentes entre os dados abriu-se espaço para a procura de conhecimento e informações úteis não conhecidas, a partir de grandes conjuntos de dados armazenados. A este campo deu-se o nome de Descoberta de Conhecimento em Base de Dados (DCBD), o qual foi formalizado em 1989. O DCBD é composto por um processo de etapas ou fases, de natureza iterativa e interativa. Este trabalho baseou-se na metodologia CRISP-DM . Independente da metodologia empregada, este processo tem uma fase que pode ser considerada o núcleo da DCBD, a “mineração de dados” (ou modelagem conforme CRISP-DM), a qual está associado o conceito “classe de tipo de problema”, bem como as técnicas e algoritmos que podem ser empregados em uma aplicação de DCBD. Destacaremos as classes associação e agrupamento, as técnicas associadas a estas classes, e os algoritmos Apriori e K-médias. Toda esta contextualização estará compreendida na ferramenta de mineração de dados escolhida, Weka (Waikato Environment for Knowledge Analysis). O plano de pesquisa está centrado em aplicar o processo de DCBD no Poder Judiciário no que se refere a sua atividade fim, julgamentos de processos, procurando por descobertas a partir da influência da classificação processual em relação à incidência de processos, ao tempo de tramitação, aos tipos de sentenças proferidas e a presença da audiência. Também, será explorada a procura por perfis de réus, nos processos criminais, segundo características como sexo, estado civil, grau de instrução, profissão e raça. O trabalho apresenta nos capítulos 2 e 3 o embasamento teórico de DCBC, detalhando a metodologia CRISP-DM. No capítulo 4 explora-se toda a aplicação realizada nos dados do Poder Judiciário e por fim, no capítulo 5, são apresentadas as conclusões. / With the purpose of exploring existing connections among data, a space has been created for the search of Knowledge an useful unknown information based on large sets of stored data. This field was dubbed Knowledge Discovery in Databases (KDD) and it was formalized in 1989. The KDD consists of a process made up of iterative and interactive stages or phases. This work was based on the CRISP-DM methodology. Regardless of the methodology used, this process features a phase that may be considered as the nucleus of KDD, the “data mining” (or modeling according to CRISP-DM) which is associated with the task, as well as the techniques and algorithms that may be employed in an application of KDD. What will be highlighted in this study is affinity grouping and clustering, techniques associated with these tasks and Apriori and K-means algorithms. All this contextualization will be embodied in the selected data mining tool, Weka (Waikato Environment for Knowledge Analysis). The research plan focuses on the application of the KDD process in the Judiciary Power regarding its related activity, court proceedings, seeking findings based on the influence of the procedural classification concerning the incidence of proceedings, the proceduring time, the kind of sentences pronounced and hearing attendance. Also, the search for defendants’ profiles in criminal proceedings such as sex, marital status, education background, professional and race. In chapters 2 and 3, the study presents the theoretical grounds of KDD, explaining the CRISP-DM methodology. Chapter 4 explores all the application preformed in the data of the Judiciary Power, and lastly, in Chapter conclusions are drawn
|
349 |
Gestion d'objects composes dans un SGBD : cas particulier des documents structuresLima, Jose Valdeni de January 1990 (has links)
Cette thèse traite du problème de la gestion des documents structurés multimédia dans un SGBD. Par gestion, nous entendons la modélisation, la manipulation, le stockage et l'accès aux documents. Nous présentons un modèle de Documents Structurés de Bureau (DSB) et une algèbre associée pour réaliser la spécification précise des aspects fonctionnels : opérateurs de construction et restructuration des objets manipulés et fonctions d'accès. Le stockage et l'accès sont implémentés au niveau fonctionnel sous forme d'opérations sur des documents en prenant en considération leurs structures logiques. Le couplage du modèle standard ODA au modéle DSB et l'intégration au niveau fonctionnel des opérations implémentées ont permis la mise en place d'un gestionnaire autonome de documents utilisable à partir d'un SGBD relationnel. Ce gestionnaire de documents pemiet la spécialisation des documents et l'utilisation de valeurs nulles. Une grande partie de ce travail a été réalisée dans le cadre du projet ESPRIT DOEOIS et un prototype expérimental a été développé sur ORACLE.
|
350 |
SES : sistema de extração semântica de informações / System of semantic extraction of informationScarinci, Rui Gureghian January 1997 (has links)
Entre as áreas que mais se desenvolvem na informática nos últimos anos estão aquelas relacionadas ao crescimento da rede Internet, que interliga milhões de usuários de todo o mundo. Esta rede disponibiliza aos usuários uma a enorme variedade e quantidade de informações, principalmente dados armazenados de forma não estruturada ou semi estruturada. Contudo, tal volume e heterogeneidade acaba dificultando a manipulação dos dados recuperados a partir da Internet. Este problema motivou o desenvolvimento deste trabalho. Mesmo com o auxílio de várias ferramentas de pesquisa na Internet, buscando realizar pesquisas sobre assuntos específicos, o usuário ainda tem que manipular em seu computador pessoal uma grande quantidade de informação, pois estas ferramentas não realizam um processo de seleção detalhado. Ou seja, são recuperados muitos dados não interessantes ao usuário. Existe, também, uma grande diversidade de assuntos e padrões de transferência e armazenamento da informação criando os mais heterogêneos ambientes de pesquisa e consulta de dados. Esta heterogeneidade faz com que o usuário da rede deva conhecer todo um conjunto de padrões e ferramentas a fim de obter a informação desejada. No entanto, a maior dificuldade de manipulação esta ligada aos formatos de armazenamento não estruturados ou pouco estruturados, como, por exemplo: arquivos textos, Mails (correspondência eletrônica) e artigos de News (jornais eletrônicos). Nestes formatos, o entendimento do documento exige a leitura do mesmo pelo usuário, o que muitas vezes acarreta em um gasto de tempo desnecessário, pois o documento, por exemplo, pode não ser de interesse deste ou, então, ser de interesse, mas sua leitura completa só seria útil posteriormente. Várias informações, como chamadas de trabalhos para congressos, preços de produtos e estatísticas econômicas, entre outras, apresentam validade temporal. Outras informações são atualizadas periodicamente. Muitas dessas características temporais são explicitas, outras estão implícitas no meio de outros tipos de dados. Isto torna muito difícil a recuperação de tal tipo de informação, gerando, várias vezes, a utilização de informações desatualizadas, ou a perda de oportunidades. Desta forma, o grande volume de dados em arquivos pessoais obtidos a partir da Internet criou uma complexa tarefa de gerenciamento dos mesmos em conseqüência da natureza não estruturada dos documentos recuperados e da complexidade da análise do tempo de validade inerente a estes dados. Com o objetivo de satisfazer as necessidades de seleção e conseqüente manipulação das informações existentes a nível local (computador pessoal), neste trabalho, é descrito um sistema para extração e sumarização destes dados, utilizando conceitos de IE (Information Extraction) e Sistemas Baseados em Conhecimento. Os dados processados são parcialmente estruturados ou não estruturados, sendo manipulados por um extrator configurado a partir de bases de conhecimento geradas pelo usuário do sistema. O objetivo final desta dissertação é a implementação do Sistema de Extração Semântica de Informações, o qual permite a classificação dos dados extraídos em classes significativas para o usuário e a determinação da validade temporal destes dados a partir da geração de uma base de dados estruturada. / One of the most challenging area in Computer Science is related to Internet technology. This network offers to the users a large variety and amount of information, mainly, data storage in unstructured or semi-structured formats. However, the vast data volume and heterogeneity transforms the retrieved data manipulation a very arduous work. This problem was the prime motivation of this work. As with many tools for data retrieval and specific searching, the user has to manipulate in his personal computer an increasing amount of information, because these tools do not realize a precise data selection process. Many retrieval data are not interesting for the user. There are, also, a big diversity of subjects and standards in information transmission and storage, creating the most heterogeneous environments in data searching and retrieval. Due to this heterogeneity, the user has to know many data standards and searching tools to obtain the requested information. However, the fundamental problem for data manipulation is the partially or fully unstructured data formats, as text, mail and news data structures. For files in these formats, the user has to read each of the files to filter the relevant information, originating a loss of time, because the document could be not interesting for the user, or if it is interesting, its complete reading may be unnecessary at the moment. Some information as call-for-papers, product prices, economic statistics and others, has associated a temporal validity. Other information are updated periodically. Some of these temporal characteristics are explicit, others are implicitly embedded in other data types. As it is very difficult to retrieve the temporal data automatically, which generate, many times, the use of invalid information, as a result, some opportunities are lost. On this paper a system for extraction and summarizing of data is described. The main objective is to satisfy the user's selection needs and consequently information manipulation stored in a personal computer. To achieve this goal we are employed the concepts of Information Extraction (IE) and Knowledge Based Systems. The input data manipulation is done by an extraction procedure configured by a user who defined knowledge base. The objective of this paper is to develop a System of Semantic Extraction of Information which classifies the data extracted in meaningful classes for the user and to deduce the temporal validity of this data. This goal was achieved by the generation of a structured temporal data base.
|
Page generated in 0.0385 seconds