Spelling suggestions: "subject:"discriminant analysis."" "subject:"oiscriminant analysis.""
151 |
Redução de dimensionalidade aplicada à diarização de locutor / Dimensionality reduction applied to speaker diarizationSilva, Sérgio Montazzolli January 2013 (has links)
Atualmente existe uma grande quantidade de dados multimídia sendo geradas todos os dias. Estes dados são oriundos de diversas fontes, como transmissões de rádio ou televisão, gravações de palestras, encontros, conversas telefônicas, vídeos e fotos capturados por celular, entre outros. Com isto, nos últimos anos o interesse pela transcrição de dados multimídia tem crescido, onde, no processamento de voz, podemos destacar as áreas de Reconhecimento de Locutor, Reconhecimento de Fala, Diarização de Locutor e Rastreamento de Locutores. O desenvolvimento destas áreas vem sendo impulsionado e direcionado pelo NIST, que periodicamente realiza avaliações sobre o estado-da-arte. Desde 2000, a tarefa de Diarização de Locutor tem se destacado como uma das principáis frentes de pesquisa em transcrição de dados de voz, tendo sido avaliada pelo NIST por diversas vezes na última década. O objetivo desta tarefa é encontrar o número de locutores presentes em um áudio, e rotular seus respectivos trechos de fala, sem que nenhuma informação tenha sido previamente fornecida. Em outras palavras, costuma-se dizer que o objetivo é responder a questão "Quem falou e quando?". Um dos grandes problemas nesta área é se conseguir obter um bom modelo para cada locutor presente no áudio, dada a pouca quantidade de informações e a alta dimensionalidade dos dados. Neste trabalho, além da criação de um Sistema de Diarização de Locutor, iremos tratar este problema mediante à redução de dimensionalidade através de análises estatísticas. Usaremos a Análise de Componentes Principáis, a Análise de Discriminantes Lineares e a recém apresentada Análise de Semi-Discriminantes Lineares. Esta última utiliza um método de inicialização estático, iremos propor o uso de um método dinâmico, através da detecção de pontos de troca de locutor. Também investigaremos o comportamento destas análises sob o uso simultâneo de múltiplas parametrizações de curto prazo do sinal acústico. Os resultados obtidos mostram que é possível preservar - ou até melhorar - o desempenho do sistema, mesmo reduzindo substâncialmente o número de dimensões. Isto torna mais rápida a execução de algoritmos de Aprendizagem de Máquina e reduz a quantidade de memória necessária para armezenar os dados. / Currently, there is a large amount of multimedia data being generated everyday. These data come from various sources, such as radio or television, recordings of lectures and meetings, telephone conversations, videos and photos captured by mobile phone, among others. Because of this, interest in automatic multimedia data transcription has grown in recent years, where, for voice processing, we can highlight the areas of Speaker Recognition, Speech Recognition, Speaker Diarization and Speaker Tracking. The development of such areas is being conducted by NIST, which periodically promotes state-of-the-art evaluations. Since 2000, the task of Speaker Diarization has emerged as one of the main research fields in voice data transcription, having been evaluated by NIST several times in the last decade. The objective of this task is to find the number of speakers in an audio recording, and properly label their speech segments without the use of any training information. In other words , it is said that the goal of Speaker Diarization is to answer the question "Who spoke when?". A major problem in this area is to obtain a good speaker model from the audio, given the limited amount of information available and the high dimensionality of the data. In the current work, we will describe how our Speaker Diarization System was built, and we will address the problem mentioned by lowering the dimensionality of the data through statistical analysis. We will use the Principal Component Analysis, the Linear Discriminant Analysis and the newly presented Fisher Linear Semi-Discriminant Analysis. The latter uses a static method for initialization, and here we propose the use of a dynamic method by the use of a speaker change points detection algorithm. We also investigate the behavior of these data analysis techniques under the simultaneous use of multiple short term features. Our results show that it is possible to maintain - and even improve - the system performance, by substantially reducing the number of dimensions. As a consequence, the execution of Machine Learning algorithms is accelerated while reducing the amount of memory required to store the data.
|
152 |
Predikce finanční tísně podniku / Financial distress prediction of companyMAŇASOVÁ, Helena January 2014 (has links)
The theoretical part of this master thesis deals with creation and solution of financial distress and analysing classification models. In the practical part I defined own methods for financial distress prediction of company using discriminant analysis and logistic regression.
|
153 |
Utilização de indicadores Contábeis em Modelos de Previsão de Insolvência: Um estudo Comparativo entre indicadores Tradicionais e indicadores do Modelo Dinâmico / Um dos temas mais estudados na área de finanças, em especial na análise de créditos, são os modelos que buscam prever a capacidade das empresas em se manterem solventes. Via de regra, tais estudos buscam, dentre vários indicadores, aqueles que se mostram mais apropriados para realizar tal predição. Nesse trabalho propõe-se um outro olhar sobre os modelos de previsão. Partindo de modelos já consagrados na literatura, escolheram-se os indicadores contábeis mais utilizados, que foram comparados, através da Análise Discriminante e da Regressão Logística, com os indicadores oriundos do Modelo Dinâmico. O objetivo do estudo foi verificar se os indicadores do Modelo Dinâmico oferecem melhores resultados que os indicadores tradicionais. O trabalho se baseia numa amostra com 48 empresas, composta de 24 insolventes e as outras 24 ditas como saudáveis, tratadas como pares das insolventes, escolhidas dentro do mesmo setor econômico de cada uma das insolventes. Além disso, foi incluída no estudo a classificação de empresas de Fleuriet como variável qualitativa. Os resultados obtidos não apresentam evidências sobre a superioridade de um ou outro conjunto de indicadores, mas, os melhores resultados alcançados derivam da inclusão da classificação de empresas de Fleuriet, seja através da Análise Discriminante, seja através da Regressão Logística, conseguindo no melhor dos resultados, um percentual de acerto total de 83,3%. A análise minuciosa dos erros de classificação ensejou uma proposta de reordenação dos tipos de situação de liquidez originalmente propostos por FleurietJoelson Coelho Fagundes Junior 26 February 2014 (has links)
Um dos temas mais estudados na área de finanças, em especial na análise de créditos, são os modelos que buscam prever a capacidade das empresas em se manterem solventes. Via de regra, tais estudos buscam, dentre vários indicadores, aqueles que se mostram mais apropriados para realizar tal predição. Nesse trabalho propõe-se um outro olhar sobre os modelos de previsão. Partindo de modelos já consagrados na literatura, escolheram-se os indicadores contábeis mais utilizados, que foram comparados, através da Análise Discriminante e da Regressão Logística, com os indicadores oriundos do Modelo Dinâmico. O objetivo do estudo foi verificar se os indicadores do Modelo Dinâmico oferecem melhores resultados que os indicadores tradicionais. O trabalho se baseia numa amostra com 48 empresas, composta de 24 insolventes e as outras 24 ditas como saudáveis, tratadas como pares das insolventes, escolhidas dentro do mesmo setor econômico de cada uma das insolventes. Além disso, foi incluída no estudo a classificação de empresas de Fleuriet como variável qualitativa. Os resultados obtidos não apresentam evidências sobre a superioridade de um ou outro conjunto de indicadores, mas, os melhores resultados alcançados derivam da inclusão da classificação de empresas de Fleuriet, seja através da Análise Discriminante, seja através da Regressão Logística, conseguindo no melhor dos resultados, um percentual de acerto total de 83,3%. A análise minuciosa dos erros de classificação ensejou uma proposta de reordenação dos tipos de situação de liquidez originalmente propostos por Fleuriet. / One of the most studied topics in finance, particularly in credit analysis, are the models that seek to predict the ability of firms to remain solvent. Usually, such studies among various indicators, seek those who are most appropriate to perform such a prediction. In this work we propose a different view of the forecast models. Starting from models already established in the literature, were chosen the most used financial indicators, which were compared by discriminant analysis and logistic regression, with indicators derived from the Dynamic Model. The aim of the study was to determine whether the indicators of Dynamic Model offer better results than the traditional indicators. The work is based on a sample of 48 companies, consisting of 24 insolvent 24 and the other said to be healthy treated as pairs of insolvent chosen within the same economic sector of each insolvent. Furthermore, it was included in the study the classification of companies as Fleuriet qualitative variable. The results show no evidence of the superiority of one or another set of indicators, but the best results achieved derive from the inclusion of classification Fleuriet companies, either through discriminant analysis, logistic regression is through, achieving the best results a percentage of the total adjustment of 83.3 %. A thorough analysis of the classification errors gave rise a proposed reorganization of the types of liquidity situation originally proposed by Fleuriet.
|
154 |
Contribuição da segmentação de dados para a decisão de concessão de crédito ao consumidor: uma comparação de resultados / Contribution of targeting data to the decision to grant credit to consumers: a comparison of resultsVanessa Anelli Borges 04 November 2011 (has links)
Este trabalho explora a contribuição da segmentação de dados, manual e estatística, combinada com análise discriminante e com redes neurais, para a tomada de decisão de concessão de crédito ao consumidor. A grande importância que a decisão de concessão de crédito tem para o mercado varejista e para a área de controladoria de uma empresa dão cenário para o aumento da relevância do gerenciamento do risco de crédito. O mercado necessita, cada vez mais, de modelos capazes de produzir boas expectativas do comportamento dos clientes, com vistas de reduzir perdas com inadimplência. Dado um banco de dados composto por 50 mil clientes de uma importante loja do setor varejista, primeiro aplica-se a análise discriminante, depois as redes neurais, para que se classifique a capacidade preditiva de cada técnica nesta etapa. Posteriormente, os dados são segmentados com base na região à qual a filial de venda pertence e, depois, por meio das análises de clusters K-Means e TwoStep Cluster. A próxima etapa compreende a aplicação da análise discriminante, depois das redes neurais, para cada um dos grupos formados, tanto pela segregação por região, quanto pela segregação por meio das técnicas de análise de clusters. A última etapa abrange a comparação da soma dos acertos dos bons e dos maus pagadores obtida tanto para análise discriminante, quanto para redes neurais, combinadas com a segmentação de dados, com os resultados obtidos na primeira etapa sem a segmentação dos dados. O modelo híbrido que combina a segmentação manual dos dados com análise discriminante e com redes neurais, formando-se 21 micro-regiões foi o que apresentou maiores porcentagens de acerto de classificação. O modelo híbrido que combina análise discriminante e redes neurais com a análise de clusters TwoStep Cluster não apresenta resultados de classificação adequados à proposta deste trabalho, devendo, portanto, ser descartado. / This paper explores the contribution of data segmentation, and statistical manual, combined with discriminant analysis and neural networks, for making the decision to grant credit to consumers. The great importance that the decision to grant credit is for the retail market and the area of controlling a business scenario to give increasing importance of managing credit risk. The market needs, increasingly, models capable of producing good expectations of customer behavior, in order to reduce losses from default. Given a database consisting of 50 000 customers of a major retail store, the first applies to discriminant analysis, then the neural networks, in order to classify the predictive ability of each technique in this step. Subsequently, the data are segmented based on the region to which the branch belongs to sell and then through the analysis of clusters K-Means and TwoStep Cluster. The next step involves the application of discriminant analysis, neural networks then, for each of the groups formed by both the segregation by region, by segregation and by the techniques of cluster analysis. The last step includes comparing the sum of the hits of the good and bad debtors obtained for both discriminant analysis and neural networks, combined with the segmentation of data, with the results obtained in the first stage - without the segmentation of the data. The hybrid model that combines the manual segmentation of the data with discriminant analysis and neural networks, forming 21 micro-regions showed the highest percentage of correct classification. The hybrid model that combines neural networks and discriminant analysis with cluster analysis results TwoStep Cluster does not have appropriate rating to the proposal of this work and should therefore be discarded.
|
155 |
Utilização de indicadores Contábeis em Modelos de Previsão de Insolvência: Um estudo Comparativo entre indicadores Tradicionais e indicadores do Modelo Dinâmico / Um dos temas mais estudados na área de finanças, em especial na análise de créditos, são os modelos que buscam prever a capacidade das empresas em se manterem solventes. Via de regra, tais estudos buscam, dentre vários indicadores, aqueles que se mostram mais apropriados para realizar tal predição. Nesse trabalho propõe-se um outro olhar sobre os modelos de previsão. Partindo de modelos já consagrados na literatura, escolheram-se os indicadores contábeis mais utilizados, que foram comparados, através da Análise Discriminante e da Regressão Logística, com os indicadores oriundos do Modelo Dinâmico. O objetivo do estudo foi verificar se os indicadores do Modelo Dinâmico oferecem melhores resultados que os indicadores tradicionais. O trabalho se baseia numa amostra com 48 empresas, composta de 24 insolventes e as outras 24 ditas como saudáveis, tratadas como pares das insolventes, escolhidas dentro do mesmo setor econômico de cada uma das insolventes. Além disso, foi incluída no estudo a classificação de empresas de Fleuriet como variável qualitativa. Os resultados obtidos não apresentam evidências sobre a superioridade de um ou outro conjunto de indicadores, mas, os melhores resultados alcançados derivam da inclusão da classificação de empresas de Fleuriet, seja através da Análise Discriminante, seja através da Regressão Logística, conseguindo no melhor dos resultados, um percentual de acerto total de 83,3%. A análise minuciosa dos erros de classificação ensejou uma proposta de reordenação dos tipos de situação de liquidez originalmente propostos por FleurietJoelson Coelho Fagundes Junior 26 February 2014 (has links)
Um dos temas mais estudados na área de finanças, em especial na análise de créditos, são os modelos que buscam prever a capacidade das empresas em se manterem solventes. Via de regra, tais estudos buscam, dentre vários indicadores, aqueles que se mostram mais apropriados para realizar tal predição. Nesse trabalho propõe-se um outro olhar sobre os modelos de previsão. Partindo de modelos já consagrados na literatura, escolheram-se os indicadores contábeis mais utilizados, que foram comparados, através da Análise Discriminante e da Regressão Logística, com os indicadores oriundos do Modelo Dinâmico. O objetivo do estudo foi verificar se os indicadores do Modelo Dinâmico oferecem melhores resultados que os indicadores tradicionais. O trabalho se baseia numa amostra com 48 empresas, composta de 24 insolventes e as outras 24 ditas como saudáveis, tratadas como pares das insolventes, escolhidas dentro do mesmo setor econômico de cada uma das insolventes. Além disso, foi incluída no estudo a classificação de empresas de Fleuriet como variável qualitativa. Os resultados obtidos não apresentam evidências sobre a superioridade de um ou outro conjunto de indicadores, mas, os melhores resultados alcançados derivam da inclusão da classificação de empresas de Fleuriet, seja através da Análise Discriminante, seja através da Regressão Logística, conseguindo no melhor dos resultados, um percentual de acerto total de 83,3%. A análise minuciosa dos erros de classificação ensejou uma proposta de reordenação dos tipos de situação de liquidez originalmente propostos por Fleuriet. / One of the most studied topics in finance, particularly in credit analysis, are the models that seek to predict the ability of firms to remain solvent. Usually, such studies among various indicators, seek those who are most appropriate to perform such a prediction. In this work we propose a different view of the forecast models. Starting from models already established in the literature, were chosen the most used financial indicators, which were compared by discriminant analysis and logistic regression, with indicators derived from the Dynamic Model. The aim of the study was to determine whether the indicators of Dynamic Model offer better results than the traditional indicators. The work is based on a sample of 48 companies, consisting of 24 insolvent 24 and the other said to be healthy treated as pairs of insolvent chosen within the same economic sector of each insolvent. Furthermore, it was included in the study the classification of companies as Fleuriet qualitative variable. The results show no evidence of the superiority of one or another set of indicators, but the best results achieved derive from the inclusion of classification Fleuriet companies, either through discriminant analysis, logistic regression is through, achieving the best results a percentage of the total adjustment of 83.3 %. A thorough analysis of the classification errors gave rise a proposed reorganization of the types of liquidity situation originally proposed by Fleuriet.
|
156 |
Uso de dados espectrais na diferenciação de regiões vitivinícolas do Rio Grande do Sul, BrasilArruda, Diniz Carvalho de January 2016 (has links)
Novas regiões vitícolas estão se estabelecendo em muitas regiões brasileiras. Em especial, no estado do Rio Grande do Sul diversos empreendimentos estão instalados ou em fase de projeto de instalação em várias regiões. No contexto da moderna vitivinicultura nacional, um fator importante de agregação de valor aos produtos resultantes da atividade é a sua associação a uma identidade regional, tendência próxima ao conceito de terroir. Tratando-se de regiões produtoras novas, faz-se necessário um complexo levantamento de características de cada região produtora, de modo que sejam definidos parâmetros de diferenciação que confiram, a cada região, a necessária tipicidade tão próxima à ideia de terroir. Este trabalho propõe-se a trazer uma contribuição à caracterização de algumas novas regiões vitícolas do Rio Grande do Sul, tentando mostrar que é possível evidenciar fatores físicos que diferenciam cada região. Foram escolhidas três áreas na metade sul do estado, sendo duas na Campanha Gaúcha (Almadén em Santana do Livramento e Seival em Candiota), e uma na Serra do Sudeste (Chandon em Encluzilhada do Sul); também foi estudada uma área na Serra Gaúcha (Boscato em Nova Pádua). Como ferramentas de estudo, foram utilizadas técnicas de espectrorradiometria para levantamento de dados de campo nas quatro regiões, onde foram tomados espectros de reflectância foliar no visível e no infravermelho próximo e médio. Foram selecionadas parcelas de parreirais das variedades Cabernet Sauvignon, Merlot, Pinot Noir, Chardonnay e Riesling Itálico. Também foram utilizadas imagens de satélite (ASTER) para estudar as áreas da Almadén e Seival, com dados de reflectância no visível e no infravermelho de diversos cultivares de Vitis vinifera. Os dados foram analisados usando-se diversas técnicas de separação, como algoritmos de classificação supervisionada e Análise Discriminante. Os resultados, tanto para os dados de radiometria de campo quanto para os dados orbitais, mostraram que a partir da reflectância de folhas e de dossel é possível separar cada uma das regiões, com acurácias da ordem de 80% ou mais, sendo esta separabilidade atribuída à influência do meio físico sobre as plantas. Conclui-se que a utilização de dados e técnicas de Sensoriamento Remoto, com o apoio de técnicas de análise estatística, constitui relevante ferramenta de apoio à caracterização de regiões vitícolas no Rio Grande do Sul, e provavelmente para qualquer região produtora. / New viticultural regions are being created in several regions across Brazil. For instance, in Rio Grande do Sul State many wineries are already established, are being installed or are in project phase. In the context of modern Brazilian viticulture, an important factor for added value to products from the activity is its association to a regional identity, a tendency which is akin to the terroir concept. Being new regions, a comprehensive survey of the characteristics of each producing area is necessary, a step leading to the definition of parameters of differentiation, which will give to each region the required typicity, crucial to the terroir idea. Presently, we carry out a contribution to the characterization of some new viticultural regions of Rio Grande do Sul, trying to show that it is possible to bring to light physical factors which will differentiate each region. Three areas in the State’s Metade Sul (southern half) were selected, being two in the Campanha Gaúcha region (Almadén in Santana do Livramento and Seival in Candiota), and another one at the Serra do Sudeste (Chandon in Encruzilhada do Sul); we also selected a winery at the Serra Gaúcha (Boscato in Nova Pádua). As tools for this study, we used techniques of spectroradiometry to collect field data in all four regions, acquiring spectra of leaf reflectance in visible, wavelengths, and at near and mean infrared as well. We selected vineyards of the grape varieties Cabernet Sauvignon, Merlot, Pinot Noir, Chardonnay and Riesling Itálico. Satellite images (ASTER product) were also taken to study the Almadén and Seival wineries, using reflectance data in visible and infrared for some varieties of Vitis vinifera. All data were analyzed through several techniques intended for differentiation, as algorithms for supervised classification and, in Statistics, Discriminant Analysis. The results, from radiometry field data and from satellite data as well, showed that from the reflectance of leaves and canopy it is possible to separate each region, with accuracies as high as 80% and even more. This separability is believed to be due to the influence of the physical environment on plants. It is concluded that the use of data and techniques from Remote Sensing, associated with techniques of statistical analysis, are relevant tools to support the characterization of viticultural regions in Rio Grande do Sul and probably in any producing region.
|
157 |
Redução de dimensionalidade aplicada à diarização de locutor / Dimensionality reduction applied to speaker diarizationSilva, Sérgio Montazzolli January 2013 (has links)
Atualmente existe uma grande quantidade de dados multimídia sendo geradas todos os dias. Estes dados são oriundos de diversas fontes, como transmissões de rádio ou televisão, gravações de palestras, encontros, conversas telefônicas, vídeos e fotos capturados por celular, entre outros. Com isto, nos últimos anos o interesse pela transcrição de dados multimídia tem crescido, onde, no processamento de voz, podemos destacar as áreas de Reconhecimento de Locutor, Reconhecimento de Fala, Diarização de Locutor e Rastreamento de Locutores. O desenvolvimento destas áreas vem sendo impulsionado e direcionado pelo NIST, que periodicamente realiza avaliações sobre o estado-da-arte. Desde 2000, a tarefa de Diarização de Locutor tem se destacado como uma das principáis frentes de pesquisa em transcrição de dados de voz, tendo sido avaliada pelo NIST por diversas vezes na última década. O objetivo desta tarefa é encontrar o número de locutores presentes em um áudio, e rotular seus respectivos trechos de fala, sem que nenhuma informação tenha sido previamente fornecida. Em outras palavras, costuma-se dizer que o objetivo é responder a questão "Quem falou e quando?". Um dos grandes problemas nesta área é se conseguir obter um bom modelo para cada locutor presente no áudio, dada a pouca quantidade de informações e a alta dimensionalidade dos dados. Neste trabalho, além da criação de um Sistema de Diarização de Locutor, iremos tratar este problema mediante à redução de dimensionalidade através de análises estatísticas. Usaremos a Análise de Componentes Principáis, a Análise de Discriminantes Lineares e a recém apresentada Análise de Semi-Discriminantes Lineares. Esta última utiliza um método de inicialização estático, iremos propor o uso de um método dinâmico, através da detecção de pontos de troca de locutor. Também investigaremos o comportamento destas análises sob o uso simultâneo de múltiplas parametrizações de curto prazo do sinal acústico. Os resultados obtidos mostram que é possível preservar - ou até melhorar - o desempenho do sistema, mesmo reduzindo substâncialmente o número de dimensões. Isto torna mais rápida a execução de algoritmos de Aprendizagem de Máquina e reduz a quantidade de memória necessária para armezenar os dados. / Currently, there is a large amount of multimedia data being generated everyday. These data come from various sources, such as radio or television, recordings of lectures and meetings, telephone conversations, videos and photos captured by mobile phone, among others. Because of this, interest in automatic multimedia data transcription has grown in recent years, where, for voice processing, we can highlight the areas of Speaker Recognition, Speech Recognition, Speaker Diarization and Speaker Tracking. The development of such areas is being conducted by NIST, which periodically promotes state-of-the-art evaluations. Since 2000, the task of Speaker Diarization has emerged as one of the main research fields in voice data transcription, having been evaluated by NIST several times in the last decade. The objective of this task is to find the number of speakers in an audio recording, and properly label their speech segments without the use of any training information. In other words , it is said that the goal of Speaker Diarization is to answer the question "Who spoke when?". A major problem in this area is to obtain a good speaker model from the audio, given the limited amount of information available and the high dimensionality of the data. In the current work, we will describe how our Speaker Diarization System was built, and we will address the problem mentioned by lowering the dimensionality of the data through statistical analysis. We will use the Principal Component Analysis, the Linear Discriminant Analysis and the newly presented Fisher Linear Semi-Discriminant Analysis. The latter uses a static method for initialization, and here we propose the use of a dynamic method by the use of a speaker change points detection algorithm. We also investigate the behavior of these data analysis techniques under the simultaneous use of multiple short term features. Our results show that it is possible to maintain - and even improve - the system performance, by substantially reducing the number of dimensions. As a consequence, the execution of Machine Learning algorithms is accelerated while reducing the amount of memory required to store the data.
|
158 |
Classificação de gasolinas comerciais através de métodos estatísticos multivariáveis. / Classification of commercial gasoline through multivariable statistical methods.Marcelo Aparecido Mendonça 29 March 2005 (has links)
Neste trabalho estuda-se a aplicação de métodos estatísticos multivariáveis para a classificação de gasolinas comerciais em conformidade à legislação vigente. Atualmente, a ANP baseia a classificação em limites máximos e mínimos para uma série de diferentes propriedades físico-químicas. O objetivo do trabalho é propor uma metodologia para fazer uma triagem das amostras coletadas durante o Programa de Monitoramento da Qualidade dos Combustíveis através de um método de classificação. Ela utiliza a espectroscopia NIR, que é uma técnica rápida e não destrutiva, como método analítico. Com isto será possível reduzir o número de ensaios físico-químicos que não necessariamente seriam realizados sistematicamente em todas as amostras, reduzindo-se os custos e aumentando-se a quantidade de postos monitorados. As análises NIR produzem grandes quantidades de dados, o que leva à utilização de técnicas estatísticas multivariáveis para estabelecer as metodologias de classificação. Neste trabalho utilizam-se técnicas já consagradas, como a PCA e a PLS para a compressão dos dados e a LDA e QDA para a classificação das amostras. Os dados analisados correspondem às propriedades físico-químicas e aos espectros NIR de um conjunto de 216 amostras de gasolinas comerciais, utilizado para a concepção dos modelos de classificação, e de outro de 50 amostras, utilizado para a validação dos modelos. Os modelos testados no trabalho foram as combinações da PCA-LDA, PCA-QDA, PLS-LDA, PLS-QDA, PLS (regressão) e a análise dos gráficos de scores (biplot). Os melhores desempenhos foram obtidos pelos gráficos dos scores, em seguida pela regressão PLS, PLS-QDA, PCA-QDA e PLS-QDA. Existem ainda algumas etapas a serem alcançadas para tornar prática a utilização da classificação de gasolinas comerciais através de NIR, no entanto, a contribuição deste estudo é importante pois permitiu demonstrar a sua viabilidade técnica. / In this work, the application of multivariable statistical methods for the classification of commercial gasoline in accordance to applicable laws in Brazil is studied. In the present, the ANP bases the classification of gasoline on lower and upper bounds defined for a number of physico-chemical properties. The objective of this work is to propose an alternative analysis methodology, that is adequate for making a pre-sorting of the samples collected by the Fuel Quality Monitoring Program through a classification method. This method is based on NIR spectroscopy, that is a fast and non-destructive technique, as the analytical method. In this way, it would be possible to reduce the number of physico-chemical analyses, as it would be possible not to perform them on every sample, reducing costs and increasing the quantity and frequency of gas stations that could be monitored. NIR analyses produce a great quantity of data, that makes the use of multivariable statistical techniques necessary in order to set up classification methodologies. In this work the well-known PCA and PLS techniques are used for data compression, and LDA and QDA analyses for sample classification. The data studied correspond to the physico-chemical properties and NIR spectra of a total of 216 commercial gasoline samples, used for model design, and of a 50 samples, used for validation. The classification methods that are tested are combinations of PCA-LDA, PCA-QDA, PLS-LDA, PLS-QDA, PLS (regression) and data compression scores graphical analysis (biplot). Best performance was obtained with compression scores graphical analysis, followed by PLS regression, PLS-QDA, PCA-QDA and PLS-QDA. There are still some steps to be fulfilled before the usage of commercial gasoline classification through NIR could be practical. However, this study has shown that this methodology is technically feasible.
|
159 |
Redução de dimensionalidade aplicada à diarização de locutor / Dimensionality reduction applied to speaker diarizationSilva, Sérgio Montazzolli January 2013 (has links)
Atualmente existe uma grande quantidade de dados multimídia sendo geradas todos os dias. Estes dados são oriundos de diversas fontes, como transmissões de rádio ou televisão, gravações de palestras, encontros, conversas telefônicas, vídeos e fotos capturados por celular, entre outros. Com isto, nos últimos anos o interesse pela transcrição de dados multimídia tem crescido, onde, no processamento de voz, podemos destacar as áreas de Reconhecimento de Locutor, Reconhecimento de Fala, Diarização de Locutor e Rastreamento de Locutores. O desenvolvimento destas áreas vem sendo impulsionado e direcionado pelo NIST, que periodicamente realiza avaliações sobre o estado-da-arte. Desde 2000, a tarefa de Diarização de Locutor tem se destacado como uma das principáis frentes de pesquisa em transcrição de dados de voz, tendo sido avaliada pelo NIST por diversas vezes na última década. O objetivo desta tarefa é encontrar o número de locutores presentes em um áudio, e rotular seus respectivos trechos de fala, sem que nenhuma informação tenha sido previamente fornecida. Em outras palavras, costuma-se dizer que o objetivo é responder a questão "Quem falou e quando?". Um dos grandes problemas nesta área é se conseguir obter um bom modelo para cada locutor presente no áudio, dada a pouca quantidade de informações e a alta dimensionalidade dos dados. Neste trabalho, além da criação de um Sistema de Diarização de Locutor, iremos tratar este problema mediante à redução de dimensionalidade através de análises estatísticas. Usaremos a Análise de Componentes Principáis, a Análise de Discriminantes Lineares e a recém apresentada Análise de Semi-Discriminantes Lineares. Esta última utiliza um método de inicialização estático, iremos propor o uso de um método dinâmico, através da detecção de pontos de troca de locutor. Também investigaremos o comportamento destas análises sob o uso simultâneo de múltiplas parametrizações de curto prazo do sinal acústico. Os resultados obtidos mostram que é possível preservar - ou até melhorar - o desempenho do sistema, mesmo reduzindo substâncialmente o número de dimensões. Isto torna mais rápida a execução de algoritmos de Aprendizagem de Máquina e reduz a quantidade de memória necessária para armezenar os dados. / Currently, there is a large amount of multimedia data being generated everyday. These data come from various sources, such as radio or television, recordings of lectures and meetings, telephone conversations, videos and photos captured by mobile phone, among others. Because of this, interest in automatic multimedia data transcription has grown in recent years, where, for voice processing, we can highlight the areas of Speaker Recognition, Speech Recognition, Speaker Diarization and Speaker Tracking. The development of such areas is being conducted by NIST, which periodically promotes state-of-the-art evaluations. Since 2000, the task of Speaker Diarization has emerged as one of the main research fields in voice data transcription, having been evaluated by NIST several times in the last decade. The objective of this task is to find the number of speakers in an audio recording, and properly label their speech segments without the use of any training information. In other words , it is said that the goal of Speaker Diarization is to answer the question "Who spoke when?". A major problem in this area is to obtain a good speaker model from the audio, given the limited amount of information available and the high dimensionality of the data. In the current work, we will describe how our Speaker Diarization System was built, and we will address the problem mentioned by lowering the dimensionality of the data through statistical analysis. We will use the Principal Component Analysis, the Linear Discriminant Analysis and the newly presented Fisher Linear Semi-Discriminant Analysis. The latter uses a static method for initialization, and here we propose the use of a dynamic method by the use of a speaker change points detection algorithm. We also investigate the behavior of these data analysis techniques under the simultaneous use of multiple short term features. Our results show that it is possible to maintain - and even improve - the system performance, by substantially reducing the number of dimensions. As a consequence, the execution of Machine Learning algorithms is accelerated while reducing the amount of memory required to store the data.
|
160 |
Contribuição ao estudo da solvência empresarial: uma análise de modelos de previsão - estudo exploratório aplicado em empresas mineiras / Contribution to the study of the business solvency: an analysis of forecast models.Poueri do Carmo Mário 06 February 2002 (has links)
O trabalho aqui apresentado é uma análise retrospectiva de modelos desenvolvidos, no Brasil, sobre o estudo da previsão de insolvência das empresas, objetivando-se avaliar a aplicação de métodos quantitativos para fins de análise de demonstrações contábeis. Considera-se que é relevante a avaliação da continuidade da empresa, e que, se for possível identificar fato em contrário, o uso de modelos de previsão é de importância no que tange à decisão de concessão de crédito, tanto no âmbito da intermediação financeira, realizada pelos bancos, quanto no âmbito de transações comerciais entre fornecedores e clientes. Desta última, pode-se inferir sobre a avaliação da concessão ou não da Concordata para uma empresa, servindo aqueles modelos como ferramental de análise da capacidade da empresa em cumprir o acordo da concordata, ponto esse explorado nesta pesquisa. Através da aplicação dos modelos sobre uma amostra de empresas que haviam solicitado a concordata, pôde-se avaliar se mantinham uma capacidade de discriminar as empresas que lograriam êxito na concordata. Como ferramental estatístico, é utilizada a Análise Discriminante, técnica de análise multivariada, que busca classificar os dados em dois grupos específicos. Neste trabalho, foram definidos como grupo de empresas solventes e grupo de empresas insolventes. Verificou-se que as premissas para utilização da técnica estatística de Análise Discriminante podem limitar, não invalidar, esses modelos. Há necessidade de se avaliarem os dados das amostras para se verificar se é possível ou não o uso da técnica de Análise Discriminante, além do que necessitam recorrentemente, de ser recalculados. Essa limitação reduziu-se quando se utilizaram os modelos em conjunto ou integrados, como verificado nos testes realizados. Outra técnica utilizada nesse estudo foi a de se gerar um modelo que congregue os melhores indicadores dos modelos analisados, obtendo-se um modelo de previsão, que pode ser considerado híbrido ou misto. Esse modelo foi testado quanto à sua capacidade de avaliar se as empresas concluiriam suas concordatas e, também, em sua capacidade de discriminar as empresas nos dois grupos anteriormente descritos (Solventes e Insolventes), ambos formados por empresas situadas em Belo Horizonte, Betim e Contagem. Como ressaltado, existem limitações ao uso desses modelos, que se iniciam pela própria ferramenta da Análise Discriminante. Porém, a sua utilização pode tornar mais objetiva a decisão de se conceder ou não a Concordata a uma empresa, ou, até mesmo, uma linha de crédito especial para cliente de um fornecedor ou de uma instituição bancária que se encontre nessa situação. Portanto, verificou-se ser possível, através das demonstrações contábeis das empresas objeto do estudo, a previsão da tendência de solvência ou insolvência daquelas, avaliando-se se lograriam êxito com a concordata. / This study is a retrospective analysis of models developed in Brazil with respect to the study of forecasting company insolvency, aimed at evaluating the application of quantitative methods to the financial analysis of financial statements. Evaluating the going-concern of companies is considered relevant. If facts can be identified indicating the opposite, the use of forecasting models is important what the decision on the extension of credit is concerned, not only in the field of financial intermediation, realized by banks, but also in the field of commercial transactions between suppliers and clients. From this decision, inferences can be made about the evaluation of whether a composition of debt will be conceded to a company, in which the models mentioned above will serve as tools for analyzing the companys capacity to fulfill the composition agreement, an issue that is dealt with in this research. By means of the application of those models to a sample of companies that had applied for composition of debt, it could be evaluated whether the models maintained their capacity to distinguish the companies that were successful in the composition of debt. As a statistical tool, the Discriminant Analysis is used. This is a multivariate analysis technique that seeks to classify the data in two specific groups. In this study, they were defined as solvent companies group and insolvent companies group. It was verified that the premises for using the statistical technique of Discriminant Analysis can limit, but not invalidate these models. The data of the samples need to be assessed in order to verify whether it is possible or not to use the Discriminant Analysis technique. In addition, they recurrently need to be recalculated. This limitation was reduced when the models were used together or in an integrated way, as verified in the accomplished tests. Another technique used in this study was the creation of a model that unites the best indicators of the models that were analyzed, obtaining a forecasting model, which can be considered a hybrid or mixed. This model was tested for its capacity to evaluate whether the companies would conclude the composition of debt as well as its capacity to discriminate the companies in the two groups previously described (Solvent and Insolvent), both of which consist of companies located in Belo Horizonte, Betim and Contagem. As highlighted, the use of these models is limited, starting with the Discriminant Analysis tool itself. Nevertheless, their utilization can make the decision on the concession of debt composition to a company more objective, or even the decision on extending a special credit line to the customer of a supplier or to the client of a bank who finds himself in this situation. Therefore, it was confirmed that the analysis of the financial statements of the firms included in this study permits to forecast the possibility to determine the solvency or insolvency trend of the firms, as well as to assess their eventual success with the concordat.
|
Page generated in 0.1218 seconds