371 |
Performing Network Level Crash Evaluation Using Skid ResistanceMcCarthy, Ross James 09 September 2015 (has links)
Evaluation of crash count data as a function of roadway characteristics allows Departments of Transportation to predict expected average crash risks in order to assist in identifying segments that could benefit from various treatments. Currently, the evaluation is performed using negative binomial regression, as a function of average annual daily traffic (AADT) and other variables.
For this thesis, a crash study was carried out for the interstate, primary and secondary routes, in the Salem District of Virginia. The data used in the study included the following information obtained from Virginia Department of Transportation (VDOT) records: 2010 to 2012 crash data, 2010 to 2012 AADT, and horizontal radius of curvature (CV). Additionally, tire-pavement friction or skid resistance was measured using a continuous friction measurement, fixed-slip device called a Grip Tester. In keeping with the current practice, negative binomial regression was used to relate the crash data to the AADT, skid resistance and CV. To determine which of the variables to include in the final models, the Akaike Information Criterion (AIC) and Log-Likelihood Ratio Tests were performed.
By mathematically combining the information acquired from the negative binomial regression models and the information contained in the crash counts, the parameters of each network's true average crash risks were empirically estimated using the Empirical Bayes (EB) approach. The new estimated average crash risks were then used to rank segments according to their empirically estimated crash risk and to prioritize segments according to their expected crash reduction if a friction treatment were applied. / Master of Science
|
372 |
Dynamic network data envelopment analysis with a sequential structure and behavioural-causal analysis: Application to the Chinese banking industryFukuyama, H., Tsionas, M., Tan, Yong 24 March 2023 (has links)
Yes / The current study contributes to the literature in efficiency analysis in two ways: 1) we build on the existing studies in Dynamic Network Data Envelopment Analysis (DNDEA) by proposing a sequential structure incorporating dual-role characteristics of the production factors; 2) we initiate the efforts to complement the proposal of our innovative sequential DNDEA through a behavioural-causal analysis. The proposal of this statistical analysis is very important considering it does not only validate the proposal of the efficiency analysis but also our practice can be generalized to the future studies dealing with designing innovative production process. Finally, we apply these two different analyses to the banking industry. Using a sample of 43 Chinese commercial banks including five different ownership types (state-owned, joint-stock, city, rural, and foreign banks) between 2010 and 2018, we find that the inefficiency level is around 0.14, although slight volatility has been observed. We find that the highest efficiency is dominated by state-owned banks, and although foreign banks are less efficient than joint-stock banks, they are more efficient than city banks. Finally, we find that rural banks have the highest inefficiency.
|
373 |
The Quine-Duhem Thesis: Two bayesian ConceptualizationsLagerlöf, Julius January 2024 (has links)
In science all hypothesis-testing rely on a multitude of background assumptions.However, the Quine-Duhem thesis tells us that upon refutation, or disconfirma-tion, there is no principled way of determining which of these assumptions shouldbe abandoned in light of the evidence. Attempts have been made to provideBayesian models that can provide a logic to resolve this problem. In this paperI identify, describe, compare and evaluate two such models. The first is dueto John Dorling and the second to Michael Strevens. I argue that Dorling’ssolution to the problem presented by the Quine-Duhem thesis is preferable tothat proposed by Strevens. / <p>Spring semester 2024</p>
|
374 |
Bayesian hyperparameter optimization : overfitting, ensembles and conditional spacesLévesque, Julien-Charles 24 April 2018 (has links)
Dans cette thèse, l’optimisation bayésienne sera analysée et étendue pour divers problèmes reliés à l’apprentissage supervisé. Les contributions de la thèse sont en lien avec 1) la surestimation de la performance de généralisation des hyperparamètres et des modèles résultants d’une optimisation bayésienne, 2) une application de l’optimisation bayésienne pour la génération d’ensembles de classifieurs, et 3) l’optimisation d’espaces avec une structure conditionnelle telle que trouvée dans les problèmes “d’apprentissage machine automatique” (AutoML). Généralement, les algorithmes d’apprentissage automatique ont des paramètres libres, appelés hyperparamètres, permettant de réguler ou de modifier leur comportement à plus haut niveau. Auparavant, ces hyperparamètres étaient choisis manuellement ou par recherche exhaustive. Des travaux récents ont souligné la pertinence d’utiliser des méthodes plus intelligentes pour l’optimisation d’hyperparamètres, notamment l’optimisation bayésienne. Effectivement, l’optimisation bayésienne est un outil polyvalent pour l’optimisation de fonctions inconnues ou non dérivables, ancré fortement dans la modélisation probabiliste et l’estimation d’incertitude. C’est pourquoi nous adoptons cet outil pour le travail dans cette thèse. La thèse débute avec une introduction de l’optimisation bayésienne avec des processus gaussiens (Gaussian processes, GP) et décrit son application à l’optimisation d’hyperparamètres. Ensuite, des contributions originales sont présentées sur les dangers du surapprentissage durant l’optimisation d’hyperparamètres, où l’on se trouve à mémoriser les plis de validation utilisés pour l’évaluation. Il est démontré que l’optimisation d’hyperparamètres peut en effet mener à une surestimation de la performance de validation, même avec des méthodologies de validation croisée. Des méthodes telles que le rebrassage des plis d’entraînement et de validation sont ensuite proposées pour réduire ce surapprentissage. Une autre méthode prometteuse est démontrée dans l’utilisation de la moyenne a posteriori d’un GP pour effectuer la sélection des hyperparamètres finaux, plutôt que sélectionner directement le modèle avec l’erreur minimale en validation croisée. Les deux approches suggérées ont montré une amélioration significative sur la performance en généralisation pour un banc de test de 118 jeux de données. Les contributions suivantes proviennent d’une application de l’optimisation d’hyperparamètres pour des méthodes par ensembles. Les méthodes dites d’empilage (stacking) ont précédemment été employées pour combiner de multiples classifieurs à l’aide d’un métaclassifieur. Ces méthodes peuvent s’appliquer au résultat final d’une optimisation bayésienne d’hyperparamètres en conservant les meilleurs classifieurs identifiés lors de l’optimisation et en les combinant à la fin de l’optimisation. Notre méthode d’optimisation bayésienne d’ensembles consiste en une modification du pipeline d’optimisation d’hyperparamètres pour rechercher des hyperparamètres produisant de meilleurs modèles pour un ensemble, plutôt que d’optimiser pour la performance d’un modèle seul. L’approche suggérée a l’avantage de ne pas nécessiter plus d’entraînement de modèles qu’une méthode classique d’optimisation bayésienne d’hyperparamètres. Une évaluation empirique démontre l’intérêt de l’approche proposée. Les dernières contributions sont liées à l’optimisation d’espaces d’hyperparamètres plus complexes, notamment des espaces contenant une structure conditionnelle. Ces conditions apparaissent dans l’optimisation d’hyperparamètres lorsqu’un modèle modulaire est défini – certains hyperparamètres sont alors seulement définis si leur composante parente est activée. Un exemple de tel espace de recherche est la sélection de modèles et l’optimisation d’hyperparamètres combinée, maintenant davantage connu sous l’appellation AutoML, où l’on veut à la fois choisir le modèle de base et optimiser ses hyperparamètres. Des techniques et de nouveaux noyaux pour processus gaussiens sont donc proposées afin de mieux gérer la structure de tels espaces d’une manière fondée sur des principes. Les contributions présentées sont appuyées par une autre étude empirique sur de nombreux jeux de données. En résumé, cette thèse consiste en un rassemblement de travaux tous reliés directement à l’optimisation bayésienne d’hyperparamètres. La thèse présente de nouvelles méthodes pour l’optimisation bayésienne d’ensembles de classifieurs, ainsi que des procédures pour réduire le surapprentissage et pour optimiser des espaces d’hyperparamètres structurés. / In this thesis, we consider the analysis and extension of Bayesian hyperparameter optimization methodology to various problems related to supervised machine learning. The contributions of the thesis are attached to 1) the overestimation of the generalization accuracy of hyperparameters and models resulting from Bayesian optimization, 2) an application of Bayesian optimization to ensemble learning, and 3) the optimization of spaces with a conditional structure such as found in automatic machine learning (AutoML) problems. Generally, machine learning algorithms have some free parameters, called hyperparameters, allowing to regulate or modify these algorithms’ behaviour. For the longest time, hyperparameters were tuned by hand or with exhaustive search algorithms. Recent work highlighted the conceptual advantages in optimizing hyperparameters with more rational methods, such as Bayesian optimization. Bayesian optimization is a very versatile framework for the optimization of unknown and non-derivable functions, grounded strongly in probabilistic modelling and uncertainty estimation, and we adopt it for the work in this thesis. We first briefly introduce Bayesian optimization with Gaussian processes (GP) and describe its application to hyperparameter optimization. Next, original contributions are presented on the dangers of overfitting during hyperparameter optimization, where the optimization ends up learning the validation folds. We show that there is indeed overfitting during the optimization of hyperparameters, even with cross-validation strategies, and that it can be reduced by methods such as a reshuffling of the training and validation splits at every iteration of the optimization. Another promising method is demonstrated in the use of a GP’s posterior mean for the selection of final hyperparameters, rather than directly returning the model with the minimal crossvalidation error. Both suggested approaches are demonstrated to deliver significant improvements in the generalization accuracy of the final selected model on a benchmark of 118 datasets. The next contributions are provided by an application of Bayesian hyperparameter optimization for ensemble learning. Stacking methods have been exploited for some time to combine multiple classifiers in a meta classifier system. Those can be applied to the end result of a Bayesian hyperparameter optimization pipeline by keeping the best classifiers and combining them at the end. Our Bayesian ensemble optimization method consists in a modification of the Bayesian optimization pipeline to search for the best hyperparameters to use for an ensemble, which is different from optimizing hyperparameters for the performance of a single model. The approach has the advantage of not requiring the training of more models than a regular Bayesian hyperparameter optimization. Experiments show the potential of the suggested approach on three different search spaces and many datasets. The last contributions are related to the optimization of more complex hyperparameter spaces, namely spaces that contain a structure of conditionality. Conditions arise naturally in hyperparameter optimization when one defines a model with multiple components – certain hyperparameters then only need to be specified if their parent component is activated. One example of such a space is the combined algorithm selection and hyperparameter optimization, now better known as AutoML, where the objective is to choose the base model and optimize its hyperparameters. We thus highlight techniques and propose new kernels for GPs that handle structure in such spaces in a principled way. Contributions are also supported by experimental evaluation on many datasets. Overall, the thesis regroups several works directly related to Bayesian hyperparameter optimization. The thesis showcases novel ways to apply Bayesian optimization for ensemble learning, as well as methodologies to reduce overfitting or optimize more complex spaces. / Dans cette thèse, l’optimisation bayésienne sera analysée et étendue pour divers problèmes reliés à l’apprentissage supervisé. Les contributions de la thèse sont en lien avec 1) la surestimation de la performance de généralisation des hyperparamètres et des modèles résultants d’une optimisation bayésienne, 2) une application de l’optimisation bayésienne pour la génération d’ensembles de classifieurs, et 3) l’optimisation d’espaces avec une structure conditionnelle telle que trouvée dans les problèmes “d’apprentissage machine automatique” (AutoML). Généralement, les algorithmes d’apprentissage automatique ont des paramètres libres, appelés hyperparamètres, permettant de réguler ou de modifier leur comportement à plus haut niveau. Auparavant, ces hyperparamètres étaient choisis manuellement ou par recherche exhaustive. Des travaux récents ont souligné la pertinence d’utiliser des méthodes plus intelligentes pour l’optimisation d’hyperparamètres, notamment l’optimisation bayésienne. Effectivement, l’optimisation bayésienne est un outil polyvalent pour l’optimisation de fonctions inconnues ou non dérivables, ancré fortement dans la modélisation probabiliste et l’estimation d’incertitude. C’est pourquoi nous adoptons cet outil pour le travail dans cette thèse. La thèse débute avec une introduction de l’optimisation bayésienne avec des processus gaussiens (Gaussian processes, GP) et décrit son application à l’optimisation d’hyperparamètres. Ensuite, des contributions originales sont présentées sur les dangers du surapprentissage durant l’optimisation d’hyperparamètres, où l’on se trouve à mémoriser les plis de validation utilisés pour l’évaluation. Il est démontré que l’optimisation d’hyperparamètres peut en effet mener à une surestimation de la performance de validation, même avec des méthodologies de validation croisée. Des méthodes telles que le rebrassage des plis d’entraînement et de validation sont ensuite proposées pour réduire ce surapprentissage. Une autre méthode prometteuse est démontrée dans l’utilisation de la moyenne a posteriori d’un GP pour effectuer la sélection des hyperparamètres finaux, plutôt que sélectionner directement le modèle avec l’erreur minimale en validation croisée. Les deux approches suggérées ont montré une amélioration significative sur la performance en généralisation pour un banc de test de 118 jeux de données. Les contributions suivantes proviennent d’une application de l’optimisation d’hyperparamètres pour des méthodes par ensembles. Les méthodes dites d’empilage (stacking) ont précédemment été employées pour combiner de multiples classifieurs à l’aide d’un métaclassifieur. Ces méthodes peuvent s’appliquer au résultat final d’une optimisation bayésienne d’hyperparamètres en conservant les meilleurs classifieurs identifiés lors de l’optimisation et en les combinant à la fin de l’optimisation. Notre méthode d’optimisation bayésienne d’ensembles consiste en une modification du pipeline d’optimisation d’hyperparamètres pour rechercher des hyperparamètres produisant de meilleurs modèles pour un ensemble, plutôt que d’optimiser pour la performance d’un modèle seul. L’approche suggérée a l’avantage de ne pas nécessiter plus d’entraînement de modèles qu’une méthode classique d’optimisation bayésienne d’hyperparamètres. Une évaluation empirique démontre l’intérêt de l’approche proposée. Les dernières contributions sont liées à l’optimisation d’espaces d’hyperparamètres plus complexes, notamment des espaces contenant une structure conditionnelle. Ces conditions apparaissent dans l’optimisation d’hyperparamètres lorsqu’un modèle modulaire est défini – certains hyperparamètres sont alors seulement définis si leur composante parente est activée. Un exemple de tel espace de recherche est la sélection de modèles et l’optimisation d’hyperparamètres combinée, maintenant davantage connu sous l’appellation AutoML, où l’on veut à la fois choisir le modèle de base et optimiser ses hyperparamètres. Des techniques et de nouveaux noyaux pour processus gaussiens sont donc proposées afin de mieux gérer la structure de tels espaces d’une manière fondée sur des principes. Les contributions présentées sont appuyées par une autre étude empirique sur de nombreux jeux de données. En résumé, cette thèse consiste en un rassemblement de travaux tous reliés directement à l’optimisation bayésienne d’hyperparamètres. La thèse présente de nouvelles méthodes pour l’optimisation bayésienne d’ensembles de classifieurs, ainsi que des procédures pour réduire le surapprentissage et pour optimiser des espaces d’hyperparamètres structurés.
|
375 |
Analysis of the Dirichlet process mixture model with application to dialogue act classificationBakhtiari, Alireza 17 April 2018 (has links)
La reconnaissance des intentions de l’utilisateur est l’un des problèmes les plus difficiles dans la conception des systèmes de dialogues. Ces intentions sont généralement codés en termes d’actes de dialogue, où un rôle fonctionnel est attribué à chaque énoncé d’une conversation. L’annotation manuelle des actes de dialogue est généralement coûteuse et prends du temps, il y a donc un grand intérêt à plutôt annoter automatiquement des corpus de dialogue. Dans ce mémoire, nous proposons une approche non paramétrique bayésienne pour la classification automatique des actes de dialogue. Nous utilisons les mélanges par processus de Dirichlet (DPMM), dans lesquels chacune des composantes est déterminée par une distribution de Dirichlet-multinomial. Deux nouvelles approches pour l’estimation des hyperparamètres dans ces distributions sont introduites. Les résultats de l’application de ce modèle au corpus DIHANA montre que la DPMM peut récupérer le nombre réel d’étiquettes en haute précision. / Recognition of user intentions is one of the most challenging problems in the design of dialogue systems. These intentions are usually coded in terms of Dialogue Acts (Following Austin’s work on speech act theory), where a functional role is assigned to each utterance of a conversation. Manual annotation of dialogue acts is both time consuming and expensive, therefore there is a huge interest in systems which are able to automatically annotate dialogue corpora. In this thesis, we propose a nonparametric Bayesian approach for the automatic classification of dialogue acts. We make use of the Dirichlet Process Mixture Model (DPMM), within which each of the components is governed by a Dirichlet-Multinomial distribution. Two novel approaches for hyperparameter estimation in these distributions are also introduced. Results of the application of this model to the DIHANA corpus shows that the DPMM can successfully recover the true number of DA labels with high precision
|
376 |
Le processus d'évaluation des probabilités subjectivesBrouillette, Marc-Antoine 23 April 2018 (has links)
Ellsberg (1961) a été l’un des premier à démontrer que les prises de décision en ambiguïté sont mal comprises. Le manque d’informations sur les probabilités des résultats possibles affecte le comportement des individus. Dans ce genre d’environnement, certains individus ont recourt à des heuristiques afin d’évaluer les probabilités de manière subjective. Nous proposons donc un modèle empirique exprimant le processus d’évaluation et de mises à jours des croyances basé sur le théorème de Bayes. À l’aide de données expérimentales, nous avons pu estimer le modèle et ainsi dégager certains types de comportement. Nous avons, entre autre, découvert que le niveau d’ambiguïté liées aux probabilités avait un effet sur le processus d’évaluation des probabilités subjectives. Enfin, selon nos résultats, seulement 10 % des participants se sont comportés comme le prédirait la règle de Bayes, dont plusieurs autres études prennent pour acquis.
|
377 |
La corrélation appliquée dans un contexte bayésienLepage, Maude 17 April 2018 (has links)
Bien que largement utilisée, la corrélation n'est pas souvent abordée dans un contexte bayésien. À l'aide de formules simples, on calcule ici la corrélation de Pearson entre un paramètre [thêta] et son estimation bayésienne ou par la méthode du maximum de vraisemblance. Ceci nous permet alors d'examiner le comportement de la corrélation de Pearson selon la taille de l'échantillon et le choix des paramètres de la loi a priori. On compare ensuite son comportement avec celui des corrélations de Spearman, de Kendall et de Blomqvist obtenues à l'aide de simulations effectuées avec le logiciel R. Plusieurs cas sont considérés faisant notamment intervenir des lois conjuguées.
|
378 |
Bayesian Approach on Quantifying the Safety Effects of Pedestrian Countdown Signals to DriversKitali, Angela E 01 January 2017 (has links)
Pedestrian countdown signals (PCSs) are viable traffic control devices that assist pedestrians in crossing intersections safely. Despite the fact that PCSs are meant for pedestrians, they also have an impact on drivers’ behavior at intersections. This study focuses on the evaluation of the safety effectiveness of PCSs to drivers in the cities of Jacksonville and Gainesville, Florida. The study employs two Bayesian approaches, before-and-after empirical Bayes (EB) and full Bayes (FB) with a comparison group, to quantify the safety impacts of PCSs to drivers. Specifically, crash modification factors (CMFs), which are estimated using the aforementioned two methods, were used to evaluate the safety effects of PCSs to drivers. Apart from establishing CMFs, crash modification functions (CMFunctions) were also developed to observe the relationship between CMFs and traffic volume.
The CMFs were established for distinctive categories of crashes based on crash type (rear-end and angle collisions) and severity level (total, fatal and injury (FI), and property damage only (PDO) collisions). The CMFs findings, using the EB approach indicated that installing PCSs result in a significant improvement of driver’s safety, at a 95% confidence interval (CI), by a 8.8% reduction in total crashes, a 8.0% reduction in rear-end crashes, and a 7.1% reduction in PDO crashes. In addition, FI crashes and angle crashes were observed to be reduced by 4.8%, whereas a 4.6% reduction in angle crashes was observed. In the case of the FB approach, PCSs were observed to be effective and significant, at a 95% Bayesian credible interval (BCI), for a total (Mean = 0.894, 95% BCI (0.828, 0.911)), PDO (Mean = 0.908, 95% BCI (0.838, 0.953)), and rear-end (Mean = 0.920, 95% BCI (0.842, 0.942)) crashes. The results of two crash categories such as FI (Mean = 0.957, 95% BCI (0.886, 1. 020)) and angle (Mean = 0.969, 95% BCI (0.931, 1.022)) crashes are less than one but are not significant at the 95 % BCI.
Also, discussed in this study are the CMFunctions, showing the relationship between the developed CMFs and total entering traffic volume, obtained by combining the total traffic on the major and the minor approaches. In addition, the CMFunctions developed using the FB indicated the relationship between the estimated CMFs with the post-treatment year. The CMFunctions developed in this study clearly show that the treatment effectiveness varies considerably with post-treatment time and traffic volume. Moreover, using the FB methodology, the results suggest the treatment effectiveness increased over time in the post-treatment years for the crash categories with two important indicators of effectiveness, i.e., total and PDO, and rear-end crashes. Nevertheless, the treatment effectiveness on rear-end crashes is observed to decline with post-treatment time, although the base value is still less than one for all the three years. In summary, the results suggest the usefulness of PCSs for drivers.
|
379 |
Modeling the decision making mind: Does form follow function?Jarecki, Jana Bianca 07 December 2017 (has links)
Die Verhaltenswissenschaften betrachten menschliche Entscheidungsprozesse aus zwei komplementären Perspektiven: Form und Funktion. Formfragen behandeln wie Denkprozesse ablaufen, Funktionsfragen behandeln, welche Ziele das resultierende Verhalten erfüllt. Die vorliegende Dissertation argumentiert für die Integration von Form und Funktion.
Ein Schritt zur Integration von Form und Funktion besteh darin, Prozessmodelle aus der Kognitionspsychologie in die evolutionäre Psychologie und Verhaltensbiologie (welche sich häufig mit Funktionsfragen befassen) einzuführen. Studie 1 untersucht die Eigenschaften kognitiver Prozessmodelle. Ich schlage ein Rahmenmodell für allgemeine kognitive Prozessmodelle vor, mit Hilfe dessen Prozessmodelle entwickelt werden können.
In Studie 2 untersuche ich Klassifikation aus Perspektive der Form und Funktion. Verhalten sich Menschen gemäss einer statistischen Annahme, die sich in der Informatik als robust gegenüber ihrer Verletzung herausstellte? Daten aus zwei Lernexperimenten und Modellierung mittels eines neuen probabilistischen Lernmodells zeigen, dass Menschen zu Beginn des Lernprozesses gemäß dem statistischen Prinzip der klassenkonditionalen Unabhängigkeit kategorisieren.
In Studie 3 geht es um Risikoentscheidungen aus der Perspektive der Form und Funktion. Sind Informationsverarbeitungsprozesse abhängig von der Zielgröße der Entscheidung? Ich messe Prozess- und Verhaltensindikatoren in zehn Risikodomänen welche die evolutionären Ziele wiederspiegeln. Im Ergebnis zeigt sich, dass Risikoeinstellungen domänenspezifisch sind. Insbesondere sind Frauen nicht universell risiko-averser als Männer. Auf der Prozessebene hat die Valenz der entscheidungsrelevanten Argumente geringeren Einfluss auf die Domänenunterschiede als die am häufigsten genannten Aspekte für/gegen das Risikoverhalten. / The behavioral sciences investigate human decision processes from two complementary perspectives: form and function. Formal questions include the processes that lead to decisions, functional aspects include the goals which the resulting behavior meets. This dissertation argues for the integration of form and functional questions.
One step towards a form-function integration is introducing cognitive process models into evolutionary psychology and behavioral biology (which are mostly asking about the goals of behavior). Study 1 investigates the properties of cognitive process models. I suggest the first general framework for building cognitive process models.
In study 2 I investigate human category learning from a functional and form centered perspective. Do humans, when learning a novel categorization task, follow a statistical principle which was been shown to perform the goals of correct classification robustly even in the face of violations of the underlying assumption? Data from two learning experiments and cognitive modeling with a novel probabilistic learning model show that humans start classifying by following the statistical principle of class-conditional independence of features.
Study 3 investigates risk attitudes from the perspective of form and function. Does the information people process relate to the goals of risky behavior? I measure process- and behavioral indicators in ten domains of risks which represent different evolutionary goals. The results show that not only do risk attitudes differ across domains, but also that females are not universally less risk taking than males. Further, on the process level, the valence of the aspects related to perceived risks is less related to peoples’ risk propensities compared to the most frequently mentioned aspects.
|
380 |
Topological data analysis: applications in machine learning / Análise topológica de dados: aplicações em aprendizado de máquinaCalcina, Sabrina Graciela Suárez 05 December 2018 (has links)
Recently computational topology had an important development in data analysis giving birth to the field of Topological Data Analysis. Persistent homology appears as a fundamental tool based on the topology of data that can be represented as points in metric space. In this work, we apply techniques of Topological Data Analysis, more precisely, we use persistent homology to calculate topological features more persistent in data. In this sense, the persistence diagrams are processed as feature vectors for applying Machine Learning algorithms. In order to classification, we used the following classifiers: Partial Least Squares-Discriminant Analysis, Support Vector Machine, and Naive Bayes. For regression, we used Support Vector Regression and KNeighbors. Finally, we will give a certain statistical approach to analyze the accuracy of each classifier and regressor. / Recentemente a topologia computacional teve um importante desenvolvimento na análise de dados dando origem ao campo da Análise Topológica de Dados. A homologia persistente aparece como uma ferramenta fundamental baseada na topologia de dados que possam ser representados como pontos num espaço métrico. Neste trabalho, aplicamos técnicas da Análise Topológica de Dados, mais precisamente, usamos homologia persistente para calcular características topológicas mais persistentes em dados. Nesse sentido, os diagramas de persistencia são processados como vetores de características para posteriormente aplicar algoritmos de Aprendizado de Máquina. Para classificação, foram utilizados os seguintes classificadores: Análise de Discriminantes de Minimos Quadrados Parciais, Máquina de Vetores de Suporte, e Naive Bayes. Para a regressão, usamos a Regressão de Vetores de Suporte e KNeighbors. Finalmente, daremos uma certa abordagem estatística para analisar a precisão de cada classificador e regressor.
|
Page generated in 0.1052 seconds