Global ETD Search

1	CSVValidation: uma ferramenta para validação de arquivos CSV a partir de metadados / CSV Validation: uma ferramenta para validação de arquivos CSV a partir de metadados OLIVEIRA, Hugo Santos 14 August 2015 (has links) Submitted by Irene Nascimento (irene.kessia@ufpe.br) on 2017-03-14T18:10:49Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação Hugo Santos de Oliveira - Versão Depósito Bib Central.pdf: 2529045 bytes, checksum: a83fb438eaa8daaa0b4dcba01cb0b729 (MD5) / Made available in DSpace on 2017-03-14T18:10:49Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Dissertação Hugo Santos de Oliveira - Versão Depósito Bib Central.pdf: 2529045 bytes, checksum: a83fb438eaa8daaa0b4dcba01cb0b729 (MD5) Previous issue date: 2015-08-14 / Modelos de dados tabulares têm sido amplamente utilizados para a publicação de dados na Web, devido a sua simplicidade de representação e facilidade de manipulação. Entretanto, nem sempre os dados são dispostos em arquivos tabulares de maneira adequada, o que pode causar dificuldades no momento do processamento dos dados. Dessa forma, o consórcio W3C tem trabalhado em uma proposta de especificação padrão para representação de dados em formatos tabulares. Neste contexto, este trabalho tem como objetivo geral propor uma solução para o problema de validação de arquivos de Dados Tabulares. Estes arquivos, são representados no formato CSV e descritos por metadados, os quais são representados em JSON e definidos de acordo com a especificação proposta pelo W3C. A principal contribuição deste trabalho foi a definição do processo de validação de arquivos de dados tabulares e dos algoritmos necessários para a execução desse processo, além da implementação de um protótipo que tem por objetivo realizar a validação dos dados tabulares, conforme especificado pelo W3C. Outra importante contribuição foi a realização de experimentos com fontes de dados disponíveis na Web, com o objetivo de avaliar a abordagem proposta neste trabalho. / Tabular data models have been used a lot for publishing data on the Web because of its simplicity of representation and easy manipulation. However, in some cases the data are not disposed in tabular files appropriately, which can cause data processing problems. Thus, the W3C proposed a standard specification for representing data in tabular format. In this context this work has as main objective to propose a solution to the problem of validating tabular data files, represented in CSV, files and described by metadata represented as JSON files and described, according to the specification proposed by the W3C. The main contribution of this work is the definition of a tabular data file validation process and algorithms necessary for the implementation of this process as well as the implementation of a prototype that aimed to validate tabular data as specified by the W3C. Other important contribution is the execution of experiments with data sources available on the Web with the objective to evaluate the approach proposed in this work. Dados Tabulares. JSON. W3C Tabular Data. JSON. W3C.
2	Inversão 2D de dados magnetométricos com modelo prismático: Aplicação em enxames de diques / 2D inversion of magnetometric data with prismatic model: Application on the Ponta Grossa Dyke Swarm. Cavalcante, Felipe Lisbona 22 February 2019 (has links) Este trabalho apresenta um método de inversão de perfis de dados magnetométricos em enxames de diques, utilizando os módulos de um programa desenvolvido no contexto do Mestrado. Os enxames de diques produzem padrões complexos de anomalia, dependendo da densidade de diques ao longo do perfil avaliado, das propriedades magnéticas de cada unidade e da existência de fontes mais rasas e profundas. Poucas técnicas se mostram eficazes em inverter dados em tal cenário, seja para recuperar parâmetros confiáveis para cada dique ou valores médios em casos mais complexos. O método inclui uma abordagem de inversão por etapas para modelos compostos por múltiplos prismas finos, identificados interativamente de acordo com a qualidade do ajuste aos dados. Na abordagem proposta, a intensidade do campo vetorial anômalo é inicialmente invertida para fornecer parâmetros geométricos (posição ao longo do perfil e profundidade do topo) e o produto da intensidade de magnetização pela espessura para as unidades do modelo. O modelo obtido é usado para inverter os dados de anomalia de campo total para se obter a inclinação de magnetização para cada prisma do modelo. Para perfis com poucos prismas (diques), essa abordagem revela-se eficaz na recuperação dos parâmetros verdadeiros para cada unidades do modelo. Para perfis com maior densidade de prismas, apenas valores médios de diferentes populações de diques podem ser recuperados. Isso é obtido aplicando uma abordagem por análise de grupo usando o algoritmo k-means, para soluções alternativas obtidas na inversão de dados. O método é testado com dados sintéticos gerados por configurações simples e complexas de prismas e interferências. Uma vez testado com simulações numéricas, o método é aplicado a um perfil do Enxame de Diques do Arco de Ponta Grossa. A análise de cluster de soluções alternativas identificou pelo menos três gerações para os diques neste perfil, de acordo com os parâmetros médios dos grupos. Os valores obtidos com a análise de grupos também foram utilizados para calcular a expansão crustal ao longo do perfil, chegando a valores entre 12 e 23%. Além disso, resultados de inversão foram analisados com poços da base de dados do Sistema de Informação de Águas Subterrâneas (SIAGAS) para avaliar a produtividade de poços com respeito à sua proximidade a unidades específicas de diques. Este estudo mostra que poços mais produtivos estão situados próximos de uma classe de diques mais rasos, conforme identificado pela análise k-means. Para poços perfurados em zona de influência dessa classe de diques em rochas cristalinas de alto grau metamórfico (tufos, meta-tufos), a produtividade é cerca de 14,5 vezes maior do que aqueles perfurados nas encaixantes. Para poços em zona de influência dessa classe de diques em rochas cristalinas de baixo grau metamórfico, a produtividade é cerca de 4,3 maior do que nas encaixantes. Um modelo conceitual para exploração de águas subterrâneas é apresentado levando-se em consideração a distribuição de diques mais rasos na região estudada. / This work presents a method of inversion of magnetometric data profiles in dyke swarms, using the modules of a program developed in the context of the Master. Dyke swarms produce complex patterns of anomalies, depending on the density of dikes along the evaluated profile, the magnetic properties of each unit and the existence of shallower and deeper sources. Few techniques prove effective in inverting data in such a scenario, either to retrieve reliable parameters for each dyke or average values in more complex cases. The method includes a stepwise inversion approach for multi-prism models that are interactively identified according to the quality of fit to the data. In the proposed approach, the intensity of the anomalous vector field is initially inverted to provide geometric parameters (position along the profile and depth of the top) and the product of the magnetization intensity by the thickness for the model units. The obtained model is used to invert the total field anomaly data to obtain the magnetization inclination for each prism of the model. For profiles with few prisms (dykes), this approach proves to be effective in recovering the true parameters for each model unit. For profiles with a higher density of prisms, only mean values of different dyke populations can be recovered. This is achieved by applying a group analysis approach using the k-means algorithm, for alternative solutions obtained in the inversion of data. The method is tested with synthetic data generated by simple and complex configurations of prisms and interferences. Once tested with numerical simulations, the method is applied to a profile of the Dike Swarm of the Ponta Grossa Arch. The cluster analysis of alternative solutions identified at least three generations for the dikes in this profile, according to the average parameters of the groups. The mean values obtained with the cluster analysis were also used to calculate the crustal expansion along the profile, reaching values between 12 and 23%. In addition, inversion results were analyzed with wells from the Groundwater Information System (SIAGAS) database to evaluate the productivity of wells with respect to their proximity to specific dyke units. This study shows that more productive wells are located near a class of shallower dikes, as identified by the k-means analysis. For wells drilled in a zone of influence of this class of dykes in crystalline rocks of high metamorphic degree (tufts, meta-tufts), the productivity is about 14.5 times greater than those drilled in the hosting rocks. For wells in the zone of influence of this class of dykes in crystalline rocks of low metamorphic degree, the productivity is about 4.3 higher than the ones in the hosting rocks. A conceptual model for groundwater exploration is presented considering the distribution of shallow dikes in the studied region. Aeromagnetic Aeromagnético Análise de Grupos Arco de Ponta Grossa. Cluster Analysis Dyke Swarm Enxame de Diques Inversão Inversion Magnetometria Magnetometric Modelos tabulares Ponta Grossa Arch. Prismas Finos Tabular Models Thin Prisms
3	Uma nova metáfora visual escalável para dados tabulares e sua aplicação na análise de agrupamentos / A scalable visual metaphor for tabular data and its application on clustering analysis Mosquera, Evinton Antonio Cordoba 19 September 2017 (has links) A rápida evolução dos recursos computacionais vem permitindo que grandes conjuntos de dados sejam armazenados e recuperados. No entanto, a exploração, compreensão e extração de informação útil ainda são um desafio. Com relação às ferramentas computacionais que visam tratar desse problema, a Visualização de Informação possibilita a análise de conjuntos de dados por meio de representações gráficas e a Mineração de Dados fornece processos automáticos para a descoberta e interpretação de padrões. Apesar da recente popularidade dos métodos de visualização de informação, um problema recorrente é a baixa escalabilidade visual quando se está analisando grandes conjuntos de dados, resultando em perda de contexto e desordem visual. Com intuito de representar grandes conjuntos de dados reduzindo a perda de informação relevante, o processo de agregação visual de dados vem sendo empregado. A agregação diminui a quantidade de dados a serem representados, preservando a distribuição e as tendências do conjunto de dados original. Quanto à mineração de dados, visualização de informação vêm se tornando ferramental essencial na interpretação dos modelos computacionais e resultados gerados, em especial das técnicas não-supervisionados, como as de agrupamento. Isso porque nessas técnicas, a única forma do usuário interagir com o processo de mineração é por meio de parametrização, limitando a inserção de conhecimento de domínio no processo de análise de dados. Nesta dissertação, propomos e desenvolvemos uma metáfora visual baseada na TableLens que emprega abordagens baseadas no conceito de agregação para criar representações mais escaláveis para a interpretação de dados tabulares. Como aplicação, empregamos a metáfora desenvolvida na análise de resultados de técnicas de agrupamento. O ferramental resultante não somente suporta análise de grandes bases de dados com reduzida perda de contexto, mas também fornece subsídios para entender como os atributos dos dados contribuem para a formação de agrupamentos em termos da coesão e separação dos grupos formados. / The rapid evolution of computing resources has enabled large datasets to be stored and retrieved. However, exploring, understanding and extracting useful information is still a challenge. Among the computational tools to address this problem, information visualization techniques enable the data analysis employing the human visual ability by making a graphic representation of the data set, and data mining provides automatic processes for the discovery and interpretation of patterns. Despite the recent popularity of information visualization methods, a recurring problem is the low visual scalability when analyzing large data sets resulting in context loss and visual disorder. To represent large datasets reducing the loss of relevant information, the process of aggregation is being used. Aggregation decreases the amount of data to be represented, preserving the distribution and trends of the original dataset. Regarding data mining, information visualization has become an essential tool in the interpretation of computational models and generated results, especially of unsupervised techniques, such as clustering. This occurs because, in these techniques, the only way the user interacts with the mining process is through parameterization, limiting the insertion of domain knowledge in the process. In this thesis, we propose and develop the new visual metaphor based on the TableLens that employs approaches based on the concept of aggregation to create more scalable representations of tabular data. As application, we use the developed metaphor in the analysis of the results of clustering techniques. The resulting framework does not only support large database analysis but also provides insights into how data attributes contribute to clustering regarding cohesion and separation of the composed groups Agregação de dados Análise de agrupamentos Análise visual Clustering analysis Dados tabulares Data aggregation Data mining Data visualization Mineração de dados Tabular data Visual analytics Visualização de dados
4	A construção do pensamento estatístico: organização, representação e interpretação de dados por alunos da 5ª série do Ensino Fundamental Medici, Michele 17 May 2007 (has links) Made available in DSpace on 2016-04-27T16:57:53Z (GMT). No. of bitstreams: 1 dissertacao_michele_medici.pdf: 6827447 bytes, checksum: 0b99bfd53a4ccff480f5166c93263315 (MD5) Previous issue date: 2007-05-17 / Either during our every day life or in studies or scientific researches, we evidenced the necessity of exploring tabular and graphic representations. The report from the 4th INAF stands out, among other aspects, that only 23% of the Brazilian population shows some familiarity with this kind of representations. As we believe that the sooner we begin to explore them, the better. The aim of this essay was to conceive a didactic sequence on an experimental focus in order to introduce statistics to 5th graders (nowadays belonging to the 6th year) from Ensino Fundamental (Secondary School). We are not only looking for didactic conditions that would support student s autonomous evolution on solving problems of organization, representation and interpretation of a set of data, as well as the didactic sequence which the teacher would use in order to promote the construction of the statistical thinking. Thus, we investigate the way the students interact with situations proposed by the teachers, the students´ former knowledge, hypothesis formulated by them and the way they deal with constructed knowledge. For such analysis, we made use of the surmises of Didactic Engineering and we concluded that the classes must be fulfilled with collective debates and that the students have to be in small groups and every step must be built by them and they are responsible for their research. We are able to notice that the elements for the construction of the statistical thinking could be gradually composed by the students and the representations were most of the time, badly organized and / or with incorrect or missing information. The debates led to homogeneity of the milieux which turned into the students´ learning. We raised a series of questions to be explored with them during their following school year / No nosso dia-a-dia ou em estudos e pesquisas científicas constatamos a necessidade de explorar as representações tabulares e gráficas. O relatório do 4º INAF ressalta, entre outros aspectos, que apenas 23% da população brasileira demonstra certa familiaridade com essas representações. Por acreditar que devemos começar cedo a explorá-las, o objetivo desta dissertação foi conceber uma seqüência didática, em um enfoque experimental, para introduzir estatística aos alunos da 5ª série (hoje 6º ano) do Ensino Fundamental. Buscamos não apenas as condições didáticas que favoreçam a evolução autônoma do aluno na resolução de problemas de organização, representação e interpretação de um conjunto de dados, mas também a seqüência didática que o professor possa utilizar, visando favorecer a construção do pensamento estatístico. Assim, investigamos a maneira como o aluno interage com as situações propostas pelo professor, os conhecimentos preliminares que os alunos já possuem, as hipóteses elaboradas por eles e a forma como mobilizam os conhecimentos construídos. Para tais análises, utilizamos os pressupostos da Engenharia Didática e concluímos que as aulas devem ser permeadas por debates coletivos e em pequenos grupos de trabalho e que todas as etapas devem ser construídas pelos alunos, responsáveis pela sua pesquisa. Pudemos verificar que os elementos para a construção do pensamento estatístico puderam ser compostos gradativamente pelos alunos e que as representações foram muitas vezes pouco organizadas e / ou com informações inexatas ou faltantes. Os debates proporcionaram uma homogeneização dos milieux, o que pôde levar à aprendizagem dos alunos. Levantamos uma série de questões para serem exploradas com esses alunos no ano seguinte de escolaridade representações tabulares e gráficas pensamento estatístico seqüência didática Educacao matematica Matematica -- Estudo e ensino Estatistica (Ensino fundamental) tabular and graphic representations statistical thinking didactic sequence
5	Uma nova metáfora visual escalável para dados tabulares e sua aplicação na análise de agrupamentos / A scalable visual metaphor for tabular data and its application on clustering analysis Evinton Antonio Cordoba Mosquera 19 September 2017 (has links) A rápida evolução dos recursos computacionais vem permitindo que grandes conjuntos de dados sejam armazenados e recuperados. No entanto, a exploração, compreensão e extração de informação útil ainda são um desafio. Com relação às ferramentas computacionais que visam tratar desse problema, a Visualização de Informação possibilita a análise de conjuntos de dados por meio de representações gráficas e a Mineração de Dados fornece processos automáticos para a descoberta e interpretação de padrões. Apesar da recente popularidade dos métodos de visualização de informação, um problema recorrente é a baixa escalabilidade visual quando se está analisando grandes conjuntos de dados, resultando em perda de contexto e desordem visual. Com intuito de representar grandes conjuntos de dados reduzindo a perda de informação relevante, o processo de agregação visual de dados vem sendo empregado. A agregação diminui a quantidade de dados a serem representados, preservando a distribuição e as tendências do conjunto de dados original. Quanto à mineração de dados, visualização de informação vêm se tornando ferramental essencial na interpretação dos modelos computacionais e resultados gerados, em especial das técnicas não-supervisionados, como as de agrupamento. Isso porque nessas técnicas, a única forma do usuário interagir com o processo de mineração é por meio de parametrização, limitando a inserção de conhecimento de domínio no processo de análise de dados. Nesta dissertação, propomos e desenvolvemos uma metáfora visual baseada na TableLens que emprega abordagens baseadas no conceito de agregação para criar representações mais escaláveis para a interpretação de dados tabulares. Como aplicação, empregamos a metáfora desenvolvida na análise de resultados de técnicas de agrupamento. O ferramental resultante não somente suporta análise de grandes bases de dados com reduzida perda de contexto, mas também fornece subsídios para entender como os atributos dos dados contribuem para a formação de agrupamentos em termos da coesão e separação dos grupos formados. / The rapid evolution of computing resources has enabled large datasets to be stored and retrieved. However, exploring, understanding and extracting useful information is still a challenge. Among the computational tools to address this problem, information visualization techniques enable the data analysis employing the human visual ability by making a graphic representation of the data set, and data mining provides automatic processes for the discovery and interpretation of patterns. Despite the recent popularity of information visualization methods, a recurring problem is the low visual scalability when analyzing large data sets resulting in context loss and visual disorder. To represent large datasets reducing the loss of relevant information, the process of aggregation is being used. Aggregation decreases the amount of data to be represented, preserving the distribution and trends of the original dataset. Regarding data mining, information visualization has become an essential tool in the interpretation of computational models and generated results, especially of unsupervised techniques, such as clustering. This occurs because, in these techniques, the only way the user interacts with the mining process is through parameterization, limiting the insertion of domain knowledge in the process. In this thesis, we propose and develop the new visual metaphor based on the TableLens that employs approaches based on the concept of aggregation to create more scalable representations of tabular data. As application, we use the developed metaphor in the analysis of the results of clustering techniques. The resulting framework does not only support large database analysis but also provides insights into how data attributes contribute to clustering regarding cohesion and separation of the composed groups Agregação de dados Análise de agrupamentos Análise visual Dados tabulares Mineração de dados Visualização de dados Clustering analysis Data aggregation Data mining Data visualization Tabular data Visual analytics
6	[en] ALGORITHMS FOR TABLE STRUCTURE RECOGNITION / [pt] ALGORITMOS PARA RECONHECIMENTO DE ESTRUTURAS DE TABELAS YOSVENI ESCALONA ESCALONA 26 June 2020 (has links) [pt] Tabelas são uma forma bastante comum de organizar e publicar dados. Por exemplo, a Web possui um enorme número de tabelas publicadas em HTML, embutidas em documentos em PDF, ou que podem ser simplesmente baixadas de páginas Web. Porém, tabelas nem sempre são fáceis de interpretar pois possuem uma grande variedade de características e são organizadas de diversas formas. De fato, um grande número de métodos e ferramentas foram desenvolvidos para interpretação de tabelas. Esta dissertação apresenta a implementação de um algoritmo, baseado em Conditional Random Fields (CRFs), para classificar as linhas de uma tabela em linhas de cabeçalho, linhas de dados e linhas de metadados. A implementação é complementada por dois algoritmos para reconhecimento de tabelas em planilhas, respectivamente baseados em regras e detecção de regiões. Por fim, a dissertação descreve os resultados e os benefícios obtidos pela aplicação dos algoritmos a tabelas em formato HTML, obtidas da Web, e a tabelas em forma de planilhas, baixadas do Web site da Agência Nacional de Petróleo. / [en] Tables are widely adopted to organize and publish data. For example, the Web has an enormous number of tables, published in HTML, imbedded in PDF documents, or that can be simply downloaded from Web pages. However, tables are not always easy to interpret because of the variety of features and formats used. Indeed, a large number of methods and tools have been developed to interpret tables. This dissertation presents the implementation of an algorithm, based on Conditional Random Fields (CRFs), to classify the rows of a table as header rows, data rows or metadata rows. The implementation is complemented by two algorithms for table recognition in a spreadsheet document, respectively based on rules and on region detection. Finally, the dissertation describes the results and the benefits obtained by applying the implemented algorithms to HTML tables, obtained from the Web, and to spreadsheet tables, downloaded from the Brazilian National Petroleum Agency. [pt] APRENDIZADO DE MAQUINA [pt] PLANILHA [pt] TABELA HTML [pt] DADOS TABULARES [pt] CONDITIONAL RANDOM FIELD [en] MACHINE LEARNING [en] SPREADSHEETS [en] HTML TABLES [en] TABULAR DATA [en] CONDITIONAL RANDOM FIELD

1

Page generated in 0.0495 seconds