Global ETD Search

1	Processamento de dados de monitores de produtividade de cana-de-açúcar / Processing of data from sugarcane yield monitors Maldaner, Leonardo Felipe 10 July 2017 (has links) Na cultura da cana-de-açúcar, a colheita é realizada por uma colhedora que efetua o corte e processamento do produto colhido ao longo de uma (ou duas) fileira (s) da cultura estabelecida. Neste processo, dados obtidos por monitor de produtividade, quando existentes, fornecem informações com diferentes utilidades. Métodos existentes para o processamento de dados de produtividade utlizados atualmente foram desenvolvidos para conjuntos de dados de produtividade de grãos e quando aplicados a um conjunto de dados de produtividade de cana-de-açúcar podem eliminar dados com variações reais de produtividade dentro da fileira. O objetivo deste trabalho é desenvolver métodos que busquem identificar e remover dados errôneos, em pós-processamento, do conjunto de dados gerados por monitor de produtividade para caracterização das pequenas variações de produtividade dentro de uma fileira de cana-de-açúcar. A identificação de dados discrepantes do conjunto de dados utilizando método estatístico por quartis e uma filtragem comparando valores de produtividade usando somente dados de uma única passada da colhedora foi proposto. Foram utlizados quatro conjunto de dados de produtividade gerados por dois monitores. O monitor de produtividade 1 registrou os dados a uma frequência de 0,5 Hz e o monitor de produtividade 2 a uma frequência de 1 Hz. Foram encontrados dados errôneos gerados devido ao tempo de sincronização entre a colhedora e o conjunto transbordo durante as manobras de cabeceira e durante a troca do conjunto de transbordo. Também foram encontrados dados durante a manobras da colhedora, onde o monitor registrou dados com produtividade zero e nulas. Foram simuladas diferentes frequência de registro de dados com objetivo de verificar se a densidade de dados fornecida pelo monitor influência na caracterização de pequenas variações nos valores de produtividade dentro da passada. Os conjuntos de dados de produtividade gerados por diferentes tipos de monitores demostraram a necessidade de pós-processamento para remoção devalores de produtividades discrepantes. A metodologia desenvolvida neste trabalho foi capaz de identificar e eliminar os dados errôneos dos conjuntos de dados analisados. A metodologia de filtragem de dados considerando somente dados dentro de uma única passada da colhedora de cana-de-açúcar proporcionou a caracterização da variação de valores de produtividade em pequenas distâncias. / In the sugarcane crop, a harvest is performed by a harvester who cuts and processes the product harvested along one (or two) row (s) of the established crop. In this process, data from yield monitor, when applicable, provide information with different utilities. Existing methods for processing yield data currently used have been developed for datasets of yield grain and when applied to a sugarcane yield dataset can eliminate data with actual variations of yield within the row. The objective of this work is to develop methods that seek to identify and remove erroneous data, in post-processing, from the data set generated by yield monitor to characterize the small variations of yield within a row of sugarcane. The identification of outliers from the data set using statistical method for comparing quartiles and filtering yield values using only data from a single past the harvester has been proposed. Assay were utilized four yield dataset generated by two monitors. The yield monitor 1 recorded data at a frequency of 0.5 Hz and the yield monitor 2 at a frequency of 1 Hz. Erroneous data were found in the data set generated due to the time of synchronization between the sugarcane harvester and the transportation of chopped sugarcane during the headland turns and during the exchange of the transportation of chopped sugarcane during harvest. Were also found during the headland turns of the sugarcane harvester, where the yield monitor recorded data with values of yield zero and void. It was simulated different frequency of recording data with the objective of verifying if density of data provided by the monitor influences in the characterization of small variations in the yield values within the path. The yield data sets generated by different types of displays have demonstrated the need for post-processing to remove outliers in the yield dataset. The methodology developed in this study was able to identify and eliminate erroneous data sets analyzed data. Data filtering methodology considering only data within a single pass of the sugarcane harvester provided to characterize the variation in yield values over short distances. Agricultura de precisão Dados errôneos Erroneous data Precision agriculture Processamento de dados espacial Spatial data processing Spatial variability Variabilidade espacial
2	Processamento de dados de monitores de produtividade de cana-de-açúcar / Processing of data from sugarcane yield monitors Leonardo Felipe Maldaner 10 July 2017 (has links) Na cultura da cana-de-açúcar, a colheita é realizada por uma colhedora que efetua o corte e processamento do produto colhido ao longo de uma (ou duas) fileira (s) da cultura estabelecida. Neste processo, dados obtidos por monitor de produtividade, quando existentes, fornecem informações com diferentes utilidades. Métodos existentes para o processamento de dados de produtividade utlizados atualmente foram desenvolvidos para conjuntos de dados de produtividade de grãos e quando aplicados a um conjunto de dados de produtividade de cana-de-açúcar podem eliminar dados com variações reais de produtividade dentro da fileira. O objetivo deste trabalho é desenvolver métodos que busquem identificar e remover dados errôneos, em pós-processamento, do conjunto de dados gerados por monitor de produtividade para caracterização das pequenas variações de produtividade dentro de uma fileira de cana-de-açúcar. A identificação de dados discrepantes do conjunto de dados utilizando método estatístico por quartis e uma filtragem comparando valores de produtividade usando somente dados de uma única passada da colhedora foi proposto. Foram utlizados quatro conjunto de dados de produtividade gerados por dois monitores. O monitor de produtividade 1 registrou os dados a uma frequência de 0,5 Hz e o monitor de produtividade 2 a uma frequência de 1 Hz. Foram encontrados dados errôneos gerados devido ao tempo de sincronização entre a colhedora e o conjunto transbordo durante as manobras de cabeceira e durante a troca do conjunto de transbordo. Também foram encontrados dados durante a manobras da colhedora, onde o monitor registrou dados com produtividade zero e nulas. Foram simuladas diferentes frequência de registro de dados com objetivo de verificar se a densidade de dados fornecida pelo monitor influência na caracterização de pequenas variações nos valores de produtividade dentro da passada. Os conjuntos de dados de produtividade gerados por diferentes tipos de monitores demostraram a necessidade de pós-processamento para remoção devalores de produtividades discrepantes. A metodologia desenvolvida neste trabalho foi capaz de identificar e eliminar os dados errôneos dos conjuntos de dados analisados. A metodologia de filtragem de dados considerando somente dados dentro de uma única passada da colhedora de cana-de-açúcar proporcionou a caracterização da variação de valores de produtividade em pequenas distâncias. / In the sugarcane crop, a harvest is performed by a harvester who cuts and processes the product harvested along one (or two) row (s) of the established crop. In this process, data from yield monitor, when applicable, provide information with different utilities. Existing methods for processing yield data currently used have been developed for datasets of yield grain and when applied to a sugarcane yield dataset can eliminate data with actual variations of yield within the row. The objective of this work is to develop methods that seek to identify and remove erroneous data, in post-processing, from the data set generated by yield monitor to characterize the small variations of yield within a row of sugarcane. The identification of outliers from the data set using statistical method for comparing quartiles and filtering yield values using only data from a single past the harvester has been proposed. Assay were utilized four yield dataset generated by two monitors. The yield monitor 1 recorded data at a frequency of 0.5 Hz and the yield monitor 2 at a frequency of 1 Hz. Erroneous data were found in the data set generated due to the time of synchronization between the sugarcane harvester and the transportation of chopped sugarcane during the headland turns and during the exchange of the transportation of chopped sugarcane during harvest. Were also found during the headland turns of the sugarcane harvester, where the yield monitor recorded data with values of yield zero and void. It was simulated different frequency of recording data with the objective of verifying if density of data provided by the monitor influences in the characterization of small variations in the yield values within the path. The yield data sets generated by different types of displays have demonstrated the need for post-processing to remove outliers in the yield dataset. The methodology developed in this study was able to identify and eliminate erroneous data sets analyzed data. Data filtering methodology considering only data within a single pass of the sugarcane harvester provided to characterize the variation in yield values over short distances. Agricultura de precisão Dados errôneos Processamento de dados espacial Variabilidade espacial Erroneous data Precision agriculture Spatial data processing Spatial variability
3	Automatic key discovery for Data Linking / Découverte des clés pour le Liage de Données Symeonidou, Danai 09 October 2014 (has links) Dans les dernières années, le Web de données a connu une croissance fulgurante arrivant à un grand nombre des triples RDF. Un des objectifs les plus importants des applications RDF est l’intégration de données décrites dans les différents jeux de données RDF et la création des liens sémantiques entre eux. Ces liens expriment des correspondances sémantiques entre les entités d’ontologies ou entre les données. Parmi les différents types de liens sémantiques qui peuvent être établis, les liens d’identité expriment le fait que différentes ressources réfèrent au même objet du monde réel. Le nombre de liens d’identité déclaré reste souvent faible si on le compare au volume des données disponibles. Plusieurs approches de liage de données déduisent des liens d’identité en utilisant des clés. Une clé représente un ensemble de propriétés qui identifie de façon unique chaque ressource décrite par les données. Néanmoins, dans la plupart des jeux de données publiés sur le Web, les clés ne sont pas disponibles et leur déclaration peut être difficile, même pour un expert.L’objectif de cette thèse est d’étudier le problème de la découverte automatique de clés dans des sources de données RDF et de proposer de nouvelles approches efficaces pour résoudre ce problème. Les données publiées sur le Web sont général volumineuses, incomplètes, et peuvent contenir des informations erronées ou des doublons. Aussi, nous nous sommes focalisés sur la définition d’approches capables de découvrir des clés dans de tels jeux de données. Par conséquent, nous nous focalisons sur le développement d’approches de découverte de clés capables de gérer des jeux de données contenant des informations nombreuses, incomplètes ou erronées. Notre objectif est de découvrir autant de clés que possible, même celles qui sont valides uniquement dans des sous-ensembles de données.Nous introduisons tout d’abord KD2R, une approche qui permet la découverte automatique de clés composites dans des jeux de données RDF pour lesquels l’hypothèse du nom Unique est respectée. Ces données peuvent être conformées à des ontologies différentes. Pour faire face à l’incomplétude des données, KD2R propose deux heuristiques qui per- mettent de faire des hypothèses différentes sur les informations éventuellement absentes. Cependant, cette approche est difficilement applicable pour des sources de données de grande taille. Aussi, nous avons développé une seconde approche, SAKey, qui exploite différentes techniques de filtrage et d’élagage. De plus, SAKey permet à l’utilisateur de découvrir des clés dans des jeux de données qui contiennent des données erronées ou des doublons. Plus précisément, SAKey découvre des clés, appelées "almost keys", pour lesquelles un nombre d’exceptions est toléré. / In the recent years, the Web of Data has increased significantly, containing a huge number of RDF triples. Integrating data described in different RDF datasets and creating semantic links among them, has become one of the most important goals of RDF applications. These links express semantic correspondences between ontology entities or data. Among the different kinds of semantic links that can be established, identity links express that different resources refer to the same real world entity. By comparing the number of resources published on the Web with the number of identity links, one can observe that the goal of building a Web of data is still not accomplished. Several data linking approaches infer identity links using keys. Nevertheless, in most datasets published on the Web, the keys are not available and it can be difficult, even for an expert, to declare them.The aim of this thesis is to study the problem of automatic key discovery in RDF data and to propose new efficient approaches to tackle this problem. Data published on the Web are usually created automatically, thus may contain erroneous information, duplicates or may be incomplete. Therefore, we focus on developing key discovery approaches that can handle datasets with numerous, incomplete or erroneous information. Our objective is to discover as many keys as possible, even ones that are valid in subparts of the data.We first introduce KD2R, an approach that allows the automatic discovery of composite keys in RDF datasets that may conform to different schemas. KD2R is able to treat datasets that may be incomplete and for which the Unique Name Assumption is fulfilled. To deal with the incompleteness of data, KD2R proposes two heuristics that offer different interpretations for the absence of data. KD2R uses pruning techniques to reduce the search space. However, this approach is overwhelmed by the huge amount of data found on the Web. Thus, we present our second approach, SAKey, which is able to scale in very large datasets by using effective filtering and pruning techniques. Moreover, SAKey is capable of discovering keys in datasets where erroneous data or duplicates may exist. More precisely, the notion of almost keys is proposed to describe sets of properties that are not keys due to few exceptions. Web Sémantique RDF Ontologies OWL Linked Data Liage de Données Découverte de Clés Passage à l’échelle Données Incomplètes Données Erronées Semantic Web RDF Ontologies OWL Linked Data Data linking Key Discovery Scalability Erroneous data Incomplete data

1

Page generated in 0.0352 seconds