1 |
Traitement des dossiers refusés dans le processus d'octroi de crédit aux particuliers. / Reject inference in the process for granting credit.Guizani, Asma 19 March 2014 (has links)
Le credit scoring est généralement considéré comme une méthode d’évaluation du niveau du risque associé à un dossier de crédit potentiel. Cette méthode implique l'utilisation de différentes techniques statistiques pour aboutir à un modèle de scoring basé sur les caractéristiques du client.Le modèle de scoring estime le risque de crédit en prévoyant la solvabilité du demandeur de crédit. Les institutions financières utilisent ce modèle pour estimer la probabilité de défaut qui va être utilisée pour affecter chaque client à la catégorie qui lui correspond le mieux: bon payeur ou mauvais payeur. Les seules données disponibles pour construire le modèle de scoring sont les dossiers acceptés dont la variable à prédire est connue. Ce modèle ne tient pas compte des demandeurs de crédit rejetés dès le départ ce qui implique qu'on ne pourra pas estimer leurs probabilités de défaut, ce qui engendre un biais de sélection causé par la non-représentativité de l'échantillon. Nous essayons dans ce travail en utilisant l'inférence des refusés de remédier à ce biais, par la réintégration des dossiers refusés dans le processus d'octroi de crédit. Nous utilisons et comparons différentes méthodes de traitement des refusés classiques et semi supervisées, nous adaptons certaines à notre problème et montrons sur un jeu de données réel, en utilisant les courbes ROC confirmé par simulation, que les méthodes semi-supervisé donnent de bons résultats qui sont meilleurs que ceux des méthodes classiques. / Credit scoring is generally considered as a method of evaluation of a risk associated with a potential loan applicant. This method involves the use of different statistical techniques to determine a scoring model. Like any statistical model, scoring model is based on historical data to help predict the creditworthiness of applicants. Financial institutions use this model to assign each applicant to the appropriate category : Good payer or Bad payer. The only data used to build the scoring model are related to the accepted applicants in which the predicted variable is known. The method has the drawback of not estimating the probability of default for refused applicants which means that the results are biased when the model is build on only the accepted data set. We try, in this work using the reject inference, to solve the problem of selection bias, by reintegrate reject applicants in the process of granting credit. We use and compare different methods of reject inference, classical methods and semi supervised methods, we adapt some of them to our problem and show, on a real dataset, using ROC curves, that the semi-supervised methods give good results and are better than classical methods. We confirmed our results by simulation.
|
2 |
Εφαρμογή τεχνικών εξόρυξης γνώσης στην εκπαίδευσηΠαπανικολάου, Δονάτος 31 May 2012 (has links)
Σε αυτή την Διπλωματική εργασία μελετήσαμε με ποιο τρόπο μπορούν να εφαρμοστούν οι διάφορες τεχνικές Εξόρυξης Γνώσης (Data Mining) στην εκπαίδευση. Αυτός ο επιστημονικός τομέας o οποίος ερευνά και αναπτύσσει τεχνικές προκειμένου να ανακαλύψει γνώση από δεδομένα τα οποία προέρχονται από την εκπαίδευση ονομάζεται Εξόρυξη Γνώσης από Εκπαιδευτικά Δεδομένα (Educational Data Mining –EDM. Στην εργασία αυτή εκτός από την θεωρητική μελέτη των αλγορίθμων και των τεχνικών που διέπουν την εξόρυξη γνώσης από δεδομένα γενικά, έγινε και μια λεπτομερέστερη μελέτη και παρουσίαση της κατηγορίας των αλγορίθμων κατηγοριοποίησης (Classification), διότι αυτοί οι αλγόριθμοι χρησιμοποιήθηκαν στην φάση της υλοποίησης/αξιολόγησης. Στην συνέχεια η εργασία επικεντρώθηκε στον τρόπο με τον οποίο μπορούν να εφαρμοστούν αυτοί οι αλγόριθμοι σε εκπαιδευτικά δεδομένα, τι εφαρμογές έχουμε στην εκπαίδευση, ενώ αναφερόμαστε και σε μια πληθώρα ερευνών που έχουν πραγματοποιηθεί πάνω στο συγκεκριμένο αντικείμενο. Στην συνέχεια διερευνήσαμε την εφαρμογή τεχνικών κατηγοριοποίησης στην πρόγνωση της επίδοσης μαθητών Δευτεροβάθμιας Εκπαίδευσης στα μαθήματα της Γεωγραφίας Α’ και Β’ Γυμνασίου. Συγκεκριμένα υλοποιήσαμε και θα αξιολογήσαμε έξι αλγορίθμους οι οποίοι ανήκουν στην ομάδα των αλγορίθμων κατηγοριοποίησης(Classification) και είναι αντιπροσωπευτικοί των σημαντικότερων τεχνικών κατηγοριοποίησης. Από την οικογένεια των ταξινομητών με χρήση δένδρων απόφασης (Decision Tree Classifiers) υλοποιήσαμε τον J48, από τους αλγορίθμους κανόνων ταξινόμησης (Rule-based Classification ) τον Ripper, από τους αλγόριθμους στατιστικής κατηγοριοποίησης τον Naïve Bayes, από την μέθοδο των Κ πλησιέστερων γειτόνων (KNN) τον 3-ΝΝ, από την κατηγορία των τεχνητών νευρωνικών δικτύων τον Back Propagation και τέλος από τις μηχανές διανυσμάτων υποστήριξης (Support Vector Machines SVM) τον SMO (Sequental Minimal Optimazation). Όλες οι παραπάνω υλοποιήσεις και αξιολογήσεις έγιναν με το ελεύθερο λογισμικού Weka το οποίο είναι υλοποιημένο σε Java και το οποίο προσφέρει μια πληθώρα αλγορίθμων μηχανικής μάθησης για να κάνουμε εξόρυξη γνώσης. / In this work we will study the way the misc data mining techniques can be applied to the misc fields of the education. This new scientific field is commonly named Educational Data Mining. In this study we will study the theoretical analysis of the data mining techniques focussing to the classification techniques as those are the most commonly used for prediction purpose. We also intend to predict student performance in secondary education using data mining techniques. The data we collect are concerned the class of Geography and we apply to them six data mining models with the help of the open source machine learning software Weka. We use supervised machine learning algorithms from the Classification field (Decision Tree Classifiers, Rule-based Classification, Neural Networks, k-Nearest Neighbour Algorithm, Bayesian and Support Vector Machines). After we have evaluate the algorithms we build a java tool, that uses the 3-KNN algorithm, to help us predict the performance of a student at the end of the year.
|
3 |
[en] ADAPTIVE RELAXED SYNCHRONIZATION THROUGH THE USE OF SUPERVISED LEARNING METHODS / [pt] RELAXAMENTO ADAPTATIVO DA SINCRONIZAÇÃO ATRAVÉS DO USO DE MÉTODOS DE APRENDIZAGEM SUPERVISIONADAANDRE LUIS CAVALCANTI BUENO 31 July 2018 (has links)
[pt] Sistemas de computação paralelos vêm se tornando pervasivos, sendo usados para interagir com o mundo físico e processar uma grande quantidade de dados de várias fontes. É essencial, portanto, a melhora contínua do desempenho computacional para acompanhar o ritmo crescente da quantidade de informações que precisam ser processadas. Algumas dessas aplicações admitem uma menor qualidade no resultado final em troca do aumento do desempenho de execução. Este trabalho tem por objetivo avaliar a viabilidade de usar métodos de aprendizagem supervisionada para garantir que a técnica de Sincronização Relaxada, utilizada para o aumento do desempenho de execução, forneça resultados dentro de limites aceitáveis de erro. Para isso, criamos uma metodologia que utiliza alguns dados de entrada para montar casos de testes que, ao serem executados, irão fornecer valores representativos de entrada para o treinamento de métodos de aprendizagem supervisionada. Dessa forma, quando o usuário utilizar a sua aplicação (no mesmo ambiente de treinamento) com uma nova entrada, o algoritmo de classificação treinado irá sugerir o fator de relaxamento de sincronização mais adequado à tripla aplicação/entrada/ambiente de execução. Utilizamos essa metodologia em algumas aplicações paralelas bem conhecidas e mostramos que, aliando a Sincronização Relaxada a métodos de aprendizagem supervisionada, foi possível manter a taxa de erro máximo acordada. Além disso, avaliamos o ganho de desempenho obtido com essa técnica para alguns cenários em cada aplicação. / [en] Parallel computing systems have become pervasive, being used to interact with the physical world and process a large amount of data from various sources. It is essential, therefore, the continuous improvement of computational performance to keep up with the increasing rate of the amount of information that needs to be processed. Some of these applications admit lower quality in the final result in exchange for increased execution performance. This work aims to evaluate the feasibility of using supervised learning methods to ensure that the Relaxed Synchronization technique, used to increase execution performance, provides results within acceptable limits of error. To do so, we have created a methodology that uses some input data to assemble test cases that, when executed, will provide input values for the training of supervised learning methods. This way, when the user uses his/her application (in the same training environment) with a new input, the trained classification algorithm will suggest the relax synchronization factor that is best suited to the triple application/input/execution environment. We used this methodology insome well-known parallel applications and showed that, by combining Relaxed Synchronization with supervised learning methods, it was possible to maintain the maximum established error rate. In addition, we evaluated the performance gain obtained with this technique for a number of scenarios in each application.
|
Page generated in 0.1191 seconds