Spelling suggestions: "subject:"datenvorverarbeitung"" "subject:"datenverarbeitung""
1 |
Building the Dresden Web Table Corpus: A Classification ApproachLehner, Wolfgang, Eberius, Julian, Braunschweig, Katrin, Hentsch, Markus, Thiele, Maik, Ahmadov, Ahmad 12 January 2023 (has links)
In recent years, researchers have recognized relational tables on the Web as an important source of information. To assist this research we developed the Dresden Web Tables Corpus (DWTC), a collection of about 125 million data tables extracted from the Common Crawl (CC) which contains 3.6 billion web pages and is 266TB in size. As the vast majority of HTML tables are used for layout purposes and only a small share contains genuine tables with different surface forms, accurate table detection is essential for building a large-scale Web table corpus. Furthermore, correctly recognizing the table structure (e.g. horizontal listings, matrices) is important in order to understand the role of each table cell, distinguishing between label and data cells. In this paper, we present an extensive table layout classification that enables us to identify the main layout categories of Web tables with very high precision. We therefore identify and develop a plethora of table features, different feature selection techniques and several classification algorithms. We evaluate the effectiveness of the selected features and compare the performance of various state-of-the-art classification algorithms. Finally, the winning approach is employed to classify millions of tables resulting in the Dresden Web Table Corpus (DWTC).
|
2 |
Towards a Hybrid Imputation Approach Using Web TablesLehner, Wolfgang, Ahmadov, Ahmad, Thiele, Maik, Eberius, Julian, Wrembel, Robert 12 January 2023 (has links)
Data completeness is one of the most important data quality dimensions and an essential premise in data analytics. With new emerging Big Data trends such as the data lake concept, which provides a low cost data preparation repository instead of moving curated data into a data warehouse, the problem of data completeness is additionally reinforced. While traditionally the process of filling in missing values is addressed by the data imputation community using statistical techniques, we complement these approaches by using external data sources from the data lake or even the Web to lookup missing values. In this paper we propose a novel hybrid data imputation strategy that, takes into account the characteristics of an incomplete dataset and based on that chooses the best imputation approach, i.e. either a statistical approach such as regression analysis or a Web-based lookup or a combination of both. We formalize and implement both imputation approaches, including a Web table retrieval and matching system and evaluate them extensively using a corpus with 125M Web tables. We show that applying statistical techniques in conjunction with external data sources will lead to a imputation system which is robust, accurate, and has high coverage at the same time.
|
3 |
Polyphenolanalyse in gartenbaulichen Produkten auf der Basis laser-induzierter FluoreszenzspektroskopieWulf, Janina Saskia 11 April 2007 (has links)
In der gartenbaulichen Forschung gewinnen zerstörungsfreie Produktmonitoringverfahren im Hinblick auf ein verbessertes Prozessmanagement an Bedeutung. Optische Methoden werden bereits in mobilen Systemen und Sortieranlagen zur Produktbewertung in Nachernteprozessen eingesetzt. In der vorliegenden Arbeit wurde ein Beitrag zur quantitativen Bestimmung ernährungsphysiologisch bedeutender Fruchtpolyphenole auf der Basis laser-induzierter Fluoreszenzspektroskopie geleistet. An gelagerten Äpfeln und Möhren wurde die Varianz der Produktfluoreszenz bei verschiedenen Lagerbedingungen mit Hilfe der Hauptkomponentenanalyse ausgewertet, um die Produktentwicklung zerstörungsfrei aufzuzeigen. Für eine angepasste Methode der Datenauswertung wurden hierbei verschiedene Signalvorverarbeitungsmethoden getestet. Die quantitative Bestimmung einzelner Inhaltsstoffe wird in der komplexen pflanzlichen Matrix sowohl beeinflusst durch die Fluoreszenzquantenausbeute als auch Reabsorptions- und Löschungseffekten. Aufbauend auf Untersuchungen an Phenolstandards, Fruchtextrakten und geschnittenem Fruchtgewebe zu Einflussparametern und fluoreszenzspektrokopisch messbaren Konzentrationsbereichen wurden neuere Datenvorverarbeitungsmethoden zur Korrektur angewendet. Kalibriermodelle wurden auf der Basis der fluorimetrisch und chromatographisch ermittelten Werte von Hydroxyzimtsäurederivaten bei Apfel und Erdbeere erarbeitetet und hinsichtlich der Messungenauigkeit in der Kalibrierung und Kreuzvalidierung verglichen. Aufgrund der hohen Variabilität gartenbaulicher Produkte wurden diese Modelle auf einem unabhängigen Datensatz getestet. Mit Hilfe mathematischer orthogonaler Signalkorrektur konnte die für den Polyphenolgehalt nicht relevante Varianz aus den spektralen Daten entfernt und verringerte Kalibrierungs- und Validierungsfehler erzielt werden. Der in der Fluoreszenzanalyse übliche empirische Ansatz mit reflexionskorrigierten Fluoreszenzspektren zu arbeiten führten hingegen zu keiner Fehlerverminderung. / During recent years several research groups focussed on the development of non-destructive product monitoring methods to improve the process management for horticultural products in the entire supply chain. Optical methods have been applied for fruit monitoring in production and postharvest processes using mobile measuring systems or NIR sorting lines. The aim of the present study was to quantitatively determine health promoting native fruit polyphenols by means of laser-induced fluorescence spectroscopy. The variance in the fluorescence signal was detected on apples and carrots stored under different conditions. With the help of principal component analysis the fluorescence spectra were evaluated to visualize senescence effects during storage. Different data pre-processing methods were tested for a descriptive factor analysis regarding the wavelength-dependent intensities as variables. However, in a complex fruit matrix the quantitative determination of fruit compounds is influenced by its fluorescence quantum yield as well as reabsorption and quenching effects. The influence of side-effects was studied in phenol standards, fruit extracts and sliced fruit tissue and spectral data was corrected using new data pre-processing methods.. Calibration models for the polyphenol analyses were built on the fruit fluorescence spectra (apples, strawberries) using the chromatographically analysis of hydroxycinnamic acids as a reference. The uncertainty of the models was evaluated by their root mean squares errors of calibration and cross-validation. The feasibility of the non-destructive analysis in practice is influenced by the high variability of horticultural products. Therefore, the models were validated on an independent test set. The mathematical data pre-processing method of direct orthogonal signal correction removed the non relevant information in the spectral data and resulted in the lowest errors. In comparison, the often applied empirical approach in fluorescence spectroscopy to correct with simultaneously recorded reflectance spectra did not improve the calibration models.
|
4 |
Tracking domain knowledge based on segmented textual sourcesKalledat, Tobias 11 May 2009 (has links)
Die hier vorliegende Forschungsarbeit hat zum Ziel, Erkenntnisse über den Einfluss der Vorverarbeitung auf die Ergebnisse der Wissensgenerierung zu gewinnen und konkrete Handlungsempfehlungen für die geeignete Vorverarbeitung von Textkorpora in Text Data Mining (TDM) Vorhaben zu geben. Der Fokus liegt dabei auf der Extraktion und der Verfolgung von Konzepten innerhalb bestimmter Wissensdomänen mit Hilfe eines methodischen Ansatzes, der auf der waagerechten und senkrechten Segmentierung von Korpora basiert. Ergebnis sind zeitlich segmentierte Teilkorpora, welche die Persistenzeigenschaft der enthaltenen Terme widerspiegeln. Innerhalb jedes zeitlich segmentierten Teilkorpus können jeweils Cluster von Termen gebildet werden, wobei eines diejenigen Terme enthält, die bezogen auf das Gesamtkorpus nicht persistent sind und das andere Cluster diejenigen, die in allen zeitlichen Segmenten vorkommen. Auf Grundlage einfacher Häufigkeitsmaße kann gezeigt werden, dass allein die statistische Qualität eines einzelnen Korpus es erlaubt, die Vorverarbeitungsqualität zu messen. Vergleichskorpora sind nicht notwendig. Die Zeitreihen der Häufigkeitsmaße zeigen signifikante negative Korrelationen zwischen dem Cluster von Termen, die permanent auftreten, und demjenigen das die Terme enthält, die nicht persistent in allen zeitlichen Segmenten des Korpus vorkommen. Dies trifft ausschließlich auf das optimal vorverarbeitete Korpus zu und findet sich nicht in den anderen Test Sets, deren Vorverarbeitungsqualität gering war. Werden die häufigsten Terme unter Verwendung domänenspezifischer Taxonomien zu Konzepten gruppiert, zeigt sich eine signifikante negative Korrelation zwischen der Anzahl unterschiedlicher Terme pro Zeitsegment und den einer Taxonomie zugeordneten Termen. Dies trifft wiederum nur für das Korpus mit hoher Vorverarbeitungsqualität zu. Eine semantische Analyse auf einem mit Hilfe einer Schwellenwert basierenden TDM Methode aufbereiteten Datenbestand ergab signifikant unterschiedliche Resultate an generiertem Wissen, abhängig von der Qualität der Datenvorverarbeitung. Mit den in dieser Forschungsarbeit vorgestellten Methoden und Maßzahlen ist sowohl die Qualität der verwendeten Quellkorpora, als auch die Qualität der angewandten Taxonomien messbar. Basierend auf diesen Erkenntnissen werden Indikatoren für die Messung und Bewertung von Korpora und Taxonomien entwickelt sowie Empfehlungen für eine dem Ziel des nachfolgenden Analyseprozesses adäquate Vorverarbeitung gegeben. / The research work available here has the goal of analysing the influence of pre-processing on the results of the generation of knowledge and of giving concrete recommendations for action for suitable pre-processing of text corpora in TDM. The research introduced here focuses on the extraction and tracking of concepts within certain knowledge domains using an approach of horizontally (timeline) and vertically (persistence of terms) segmenting of corpora. The result is a set of segmented corpora according to the timeline. Within each timeline segment clusters of concepts can be built according to their persistence quality in relation to each single time-based corpus segment and to the whole corpus. Based on a simple frequency measure it can be shown that only the statistical quality of a single corpus allows measuring the pre-processing quality. It is not necessary to use comparison corpora. The time series of the frequency measure have significant negative correlations between the two clusters of concepts that occur permanently and others that vary within an optimal pre-processed corpus. This was found to be the opposite in every other test set that was pre-processed with lower quality. The most frequent terms were grouped into concepts by the use of domain-specific taxonomies. A significant negative correlation was found between the time series of different terms per yearly corpus segments and the terms assigned to taxonomy for corpora with high quality level of pre-processing. A semantic analysis based on a simple TDM method with significant frequency threshold measures resulted in significant different knowledge extracted from corpora with different qualities of pre-processing. With measures introduced in this research it is possible to measure the quality of applied taxonomy. Rules for the measuring of corpus as well as taxonomy quality were derived from these results and advice suggested for the appropriate level of pre-processing.
|
Page generated in 0.0536 seconds