Global ETD Search

151	Time Series Forecasting of House Prices: An evaluation of a Support Vector Machine and a Recurrent Neural Network with LSTM cells Rostami, Jako, Hansson, Fredrik January 2019 (has links) In this thesis, we examine the performance of different forecasting methods. We use dataof monthly house prices from the larger Stockholm area and the municipality of Uppsalabetween 2005 and early 2019 as the time series to be forecast. Firstly, we compare theperformance of two machine learning methods, the Long Short-Term Memory, and theSupport Vector Machine methods. The two methods forecasts are compared, and themodel with the lowest forecasting error measured by three metrics is chosen to be comparedwith a classic seasonal ARIMA model. We find that the Long Short-Term Memorymethod is the better performing machine learning method for a twelve-month forecast,but that it still does not forecast as well as the ARIMA model for the same forecast period. machine learning cross-validation seasonality sliding window sequential model supervised learning Probability Theory and Statistics Sannolikhetsteori och statistik
152	A deep learning model for scene recognition Meng, Zhaoxin January 2019 (has links) Scene recognition is a hot research topic in the field of image recognition. It is necessary that we focus on the research on scene recognition, because it is helpful to the scene understanding topic, and can provide important contextual information for object recognition. The traditional approaches for scene recognition still have a lot of shortcomings. In these years, the deep learning method, which uses convolutional neural network, has got state-of-the-art results in this area. This thesis constructs a model based on multi-layer feature extraction of CNN and transfer learning for scene recognition tasks. Because scene images often contain multiple objects, there may be more useful local semantic information in the convolutional layers of the network, which may be lost in the full connected layers. Therefore, this paper improved the traditional architecture of CNN, adopted the existing improvement which enhanced the convolution layer information, and extracted it using Fisher Vector. Then this thesis introduced the idea of transfer learning, and tried to introduce the knowledge of two different fields, which are scene and object. We combined the output of these two networks to achieve better results. Finally, this thesis implemented the method using Python and PyTorch. This thesis applied the method to two famous scene datasets. the UIUC-Sports and Scene-15 datasets. Compared with traditional CNN AlexNet architecture, we improve the result from 81% to 93% in UIUC-Sports, and from 79% to 91% in Scene- 15. It shows that our method has good performance on scene recognition tasks. Scene recognition CNN convolutional supervised Fisher Vector transfer learning Software Engineering Programvaruteknik
153	Algoritmos evolutivos para modelos de mistura de gaussianas em problemas com e sem restrições / Evolutionary algorithms for gausian mixture models with and without constraints Covões, Thiago Ferreira 09 December 2014 (has links) Nesta tese, são estudados algoritmos para agrupamento de dados, com particular ênfase em Agrupamento de Dados com Restrições, no qual, além dos objetos a serem agrupados, são fornecidos pelo usuário algumas informações sobre o agrupamento desejado. Como fundamentação para o agrupamento, são considerados os modelos de mistura finitos, em especial, com componentes gaussianos, usualmente chamados de modelos de mistura de gaussianas. Dentre os principais problemas que os algoritmos desenvolvidos nesta tese de doutorado buscam tratar destacam-se: (i) estimar parâmetros de modelo de mistura de gaussianas; (ii) como incorporar, de forma eficiente, restrições no processo de aprendizado de forma que tanto os dados quanto as restrições possam ser adicionadas de forma online; (iii) estimar, via restrições derivadas de conceitos pré-determinados sobre os objetos (usualmente chamados de classes), o número de grupos destes conceitos. Como ferramenta para auxiliar no desenvolvimento de soluções para tais problemas, foram utilizados algoritmos evolutivos que operam com mais de uma solução simultaneamente, além de utilizarem informações de soluções anteriores para guiar o processo de busca. Especificamente, foi desenvolvido um algoritmo evolutivo baseado na divisão e união de componentes para a estimação dos parâmetros de um modelo de mistura de gaussianas. Este algoritmo foi comparado com o algoritmo do mesmo gênero considerado estado-da-arte na literatura, apresentando resultados competitivos e necessitando de menos parâmetros e um menor custo computacional. Nesta tese, foram desenvolvidos dois algoritmos que incorporam as restrições no processo de agrupamento de forma online. Ambos os algoritmos são baseados em algoritmos bem-conhecidos na literatura e apresentaram, em comparações empíricas, resultados melhores que seus antecessores. Finalmente, foram propostos dois algoritmos para se estimar o número de grupos por classe. Ambos os algoritmos foram comparados com algoritmos reconhecidos na literatura de agrupamento de dados com restrições, e apresentaram resultados competitivos ou melhores que estes. A estimação bem sucedida do número de grupos por classe pode auxiliar em diversas tarefas de mineração de dados, desde a sumarização dos dados até a decomposição de problemas de classificação em sub-problemas potencialmente mais simples. / In the last decade, researchers have been giving considerable attention to the field of Constrained Clustering. Algorithms in this field assume that along with the objects to be clustered, the user also provides some constraints about which kind of clustering (s)he prefers. In this thesis, two scenarios are studied: clustering with and without constraints. The developments are based on finite mixture models, namely, models with Gaussian components, which are usually called Gaussian Mixture Models (GMMs). In this context the main problems addressed are: (i) parameter estimation of GMMs; (ii) efficiently integrating constraints in the learning process allowing both constraints and the data to be added in the modeling in an online fashion; (iii) estimating, by using constraints derived from pre-determined concepts (usually named classes), the number of clusters per concept. Evolutionary algorithms were adopted to develop solutions for such problems. These algorithms analyze more than one solution simultaneously and use information provided by previous solutions to guide the search process. Specifically, an evolutionary algorithm based on procedures that perform splitting and merging of components to estimate the parameters of a GMM was developed. This algorithm was compared to an algorithm considered as the state-of-the-art in the literature, obtaining competitive results while requiring less parameters and being more computationally efficient. Besides the aforementioned contributions, two algorithms for online constrained clustering were developed. Both algorithms are based on well known algorithms from the literature and get better results than their predecessors. Finally, two algorithms to estimate the number of clusters per class were also developed. Both algorithms were compared to well established algorithms from the literature of constrained clustering, and obtained equal or better results than the ones obtained by the contenders. The successful estimation of the number of clusters per class is helpful to a variety of data mining tasks, such as data summarization and problem decomposition of challenging classification problems. Agrupamento de dados Algoritmos evolutivos Aprendizado de máquina Evolutionary algorithms Machine learning Semi-supervised clustering
154	Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado / Extending sentiment analysis resources using semi-supervised learning Brum, Henrico Bertini 23 March 2018 (has links) O grande volume de dados que temos disponíveis em ambientes virtuais pode ser excelente fonte de novos recursos para estudos em diversas tarefas de Processamento de Linguagem Natural, como a Análise de Sentimentos. Infelizmente é elevado o custo de anotação de novos córpus, que envolve desde investimentos financeiros até demorados processos de revisão. Nossa pesquisa propõe uma abordagem de anotação semissupervisionada, ou seja, anotação automática de um grande córpus não anotado partindo de um conjunto de dados anotados manualmente. Para tal, introduzimos o TweetSentBR, um córpus de tweets no domínio de programas televisivos que possui anotação em três classes e revisões parciais feitas por até sete anotadores. O córpus representa um importante recurso linguístico de português brasileiro, e fica entre os maiores córpus anotados na literatura para classificação de polaridades. Além da anotação manual do córpus, realizamos a implementação de um framework de aprendizado semissupervisionado que faz uso de dados anotados e, de maneira iterativa, expande o mesmo usando dados não anotados. O TweetSentBR, que possui 15:000 tweets anotados é assim expandido cerca de oito vezes. Para a expansão, foram treinados modelos de classificação usando seis classificadores de polaridades, assim como foram avaliados diferentes parâmetros e representações a fim de obter um córpus confiável. Realizamos experimentos gerando córpus expandidos por cada classificador, tanto para a classificação em três polaridades (positiva, neutra e negativa) quanto para classificação binária. Avaliamos os córpus gerados usando um conjunto de held-out e comparamos a FMeasure da classificação usando como treinamento os córpus anotados manualmente e semiautomaticamente. O córpus semissupervisionado que obteve os melhores resultados para a classificação em três polaridades atingiu 62;14% de F-Measure média, superando a média obtida com as avaliações no córpus anotado manualmente (61;02%). Na classificação binária, o melhor córpus expandido obteve 83;11% de F1-Measure média, superando a média obtida na avaliação do córpus anotado manualmente (79;80%). Além disso, simulamos nossa expansão em córpus anotados da literatura, medindo o quão corretas são as etiquetas anotadas semi-automaticamente. Nosso melhor resultado foi na expansão de um córpus de reviews de produtos que obteve FMeasure de 93;15% com dados binários. Por fim, comparamos um córpus da literatura obtido por meio de supervisão distante e nosso framework semissupervisionado superou o primeiro na classificação de polaridades binária em cross-domain. / The high volume of data available in the Internet can be a good resource for studies of several tasks in Natural Language Processing as in Sentiment Analysis. Unfortunately there is a high cost for the annotation of new corpora, involving financial support and long revision processes. Our work proposes an approach for semi-supervised labeling, an automatic annotation of a large unlabeled set of documents starting from a manually annotated corpus. In order to achieve that, we introduced TweetSentBR, a tweet corpora on TV show programs domain with annotation for 3-point (positive, neutral and negative) sentiment classification partially reviewed by up to seven annotators. The corpus is an important linguistic resource for Brazilian Portuguese language and it stands between the biggest annotated corpora for polarity classification. Beyond the manual annotation, we implemented a semi-supervised learning based framework that uses this labeled data and extends it using unlabeled data. TweetSentBR corpus, containing 15:000 documents, had its size augmented in eight times. For the extending process, we trained classification models using six polarity classifiers, evaluated different parameters and representation schemes in order to obtain the most reliable corpora. We ran experiments generating extended corpora for each classifier, both for 3-point and binary classification. We evaluated the generated corpora using a held-out subset and compared the obtained F-Measure values with the manually and the semi-supervised annotated corpora. The semi-supervised corpus that obtained the best values for 3-point classification achieved 62;14% on average F-Measure, overcoming the results obtained by the same classification with the manually annotated corpus (61;02%). On binary classification, the best extended corpus achieved 83;11% on average F-Measure, overcoming the results on the manually corpora (79;80%). Furthermore, we simulated the extension of labeled corpora in literature, measuring how well the semi-supervised annotation works. Our best results were in the extension of a product review corpora, achieving 93;15% on F1-Measure. Finally, we compared a literature corpus which was labeled by using distant supervision with our semi-supervised corpus, and this overcame the first in binary polarity classification on cross-domain data. Análise de sentimentos Anotação de córpus Aprendizado semisupervisionado Corpus annotation Semi-supervised learning Sentiment analysis
155	As (im) possibilidades de graduandos do curso de Pedagogia constituírem-se como sujeitos intérpretes-historicizados: uma análise sobre os estágios curriculares supervisionados / The (im)possibilities of pedagogy undergraduates to constitute themselves as subjects of historicized-interpreters: one analyses about supervised curricular internships Schaden, Érica Mancuso 24 November 2015 (has links) Essa pesquisa de Mestrado busca investigar as (im)possibilidades de graduandos do curso de Pedagogia se constituírem como sujeitos intérpretes-historicizados, em situação de estágio curricular supervisionado. Baseamo-nos nas premissas teóricas e metodológicas da Análise de Discurso francesa, desenvolvida por Michel Pêcheux, na abordagem Sócio-Histórica do Letramento, enfatizando-se os estudos teóricos sobre autoria, bem como nos estudos a respeito da temática de formação de professores, sobretudo, os que envolvem a investigação da formação inicial do docente, enquanto sujeito graduando de licenciatura. Os procedimentos metodológicos dessa pesquisa constituem-se de questionários, respondidos por graduandos do curso de Pedagogia de duas instituições brasileiras de ensino superior, que cursavam disciplinas de estágio curricular supervisionado para o ensino fundamental, na área da Língua Portuguesa. A análise discursiva dos dados mostra-nos que experiências positivas no estágio curricular são assim consideradas quando o graduando ocupa o lugar de intérprete-historicizado, requisito essencial para que aprenda a argumentar, pensar e refletir sobre os sentidos concernentes aos saberes e fazeres docentes, de maneira ampla, e ao estágio, de forma particular. Ocupar a posição de intérprete-historicizado proporciona ao graduando oportunidades para se entender como sujeito capaz de se deslocar do lugar de sujeito-enunciador de sentidos legitimados para a posição de sujeito-autor de seu próprio dizer, fundamental para o exercício crítico e responsável da docência. / The masters degree research aims to investigate the (im) possibilities of Pedagogy Undergraduates to be the Historically-based interpreter in curricular supervised internship situation. We based this research on theoretical and methodological framework of French Discourse Analysis, developed by Michel Pêcheux, and on the Social-Historical approach to literacy, emphasizing the theoretical studies of authorship, as well as in the studies about teacher training, especially those that involve the investigation of initial training of professor, while licentiate undergraduates. The metodological procedies of this research is made of questionnaires, answered by pedagogy undergraduates of two brazilian colleges, attending disciplines of supervised curricular internship for elementary education in the area of Portuguese language. The discursive analysis of data show us that positive experiences in curricular internship are therefore considered when the undergraduate takes the place of historicized-interpreters, essential requisite to learn to argue, think and reflect about the concerning senses to the professor knowledge and doings, in a wide manner, and to the internship in a particular way. Staying on the position of a historically-based interpreter provides to the undergraduate the opportunities to understand himself or herself as a subject capable to move himself or herself from a place of subject-enunciator of legitimated senses to a position of a subject-author of his or her own speech, fundamental to critical and responsible exercise of teaching. Análise de Discurso Francesa Authorship Autoria Estágio Curricular Supervisionado French Discourse Analysis Supervised Curricular Internship.
156	Interpretação de clusters gerados por algoritmos de clustering hierárquico / Interpreting clusters generated by hierarchical clustering algorithms Metz, Jean 04 August 2006 (has links) O processo de Mineração de Dados (MD) consiste na extração automática de padrões que representam o conhecimento implícito em grandes bases de dados. Em geral, a MD pode ser classificada em duas categorias: preditiva e descritiva. Tarefas da primeira categoria, tal como a classificação, realizam inferências preditivas sobre os dados enquanto que tarefas da segunda categoria, tal como o clustering, exploram o conjunto de dados em busca de propriedades que o descrevem. Diferentemente da classificação, que analisa exemplos rotulados, o clustering utiliza exemplos para os quais o rótulo da classe não é previamente conhecido. Nessa tarefa, agrupamentos são formados de modo que exemplos de um mesmo cluster apresentam alta similaridade, ao passo que exemplos em clusters diferentes apresentam baixa similaridade. O clustering pode ainda facilitar a organização de clusters em uma hierarquia de agrupamentos, na qual são agrupados eventos similares, criando uma taxonomia que pode simplificar a interpretação de clusters. Neste trabalho, é proposto e desenvolvido um módulo de aprendizado não-supervisionado, que agrega algoritmos de clustering hierárquico e ferramentas de análise de clusters para auxiliar o especialista de domínio na interpretação dos resultados do clustering. Uma vez que o clustering hierárquico agrupa exemplos de acordo com medidas de similaridade e organiza os clusters em uma hierarquia, o usuário/especialista pode analisar e explorar essa hierarquia de agrupamentos em diferentes níveis para descobrir conceitos descritos por essa estrutura. O módulo proposto está integrado em um sistema maior, em desenvolvimento no Laboratório de Inteligência Computacional ? LABIC ?, que contempla todas as etapas do processo de MD, desde o pré-processamento de dados ao pós-processamento de conhecimento. Para avaliar o módulo proposto e seu uso para descoberta de conceitos a partir da estrutura hierárquica de clusters, foram realizados diversos experimentos sobre conjuntos de dados naturais, assim como um estudo de caso utilizando um conjunto de dados real. Os resultados mostram a viabilidade da metodologia proposta para interpretação dos clusters, apesar da complexidade do processo ser dependente das características do conjunto de dados. / The Data Mining (DM) process consists of the automated extraction of patterns representing knowledge implicitly stored in large databases. In general, DM tasks can be classified into two categories: predictive and descriptive. Tasks in the first category, such as classification and prediction, perform inference on the data in order to make predictions, while tasks in the second category, such as clustering, characterize the general properties of the data. Unlike classification and prediction, which analyze class-labeled data objects, clustering analyses data objects without a known class-label. Clusters of objects are formed so that objects that are in the same cluster have a close similarity among them, but are very dissimilar to objects in other clusters. Clustering can also facilitate the organization of clusters into a hierarchy of clusters that group similar events together. This taxonomy formation can facilitate interpretation of clusters. In this work, we propose and develop tools to deal with this task by implementing a module which comprises hierarchical clustering algorithms and several cluster analysis tools, aiming to help the domain specialist to interpret the clustering results. Once clusters group objects based on similarity measures which are organized into a hierarchy, the user/specialist is able to carry out an analysis and exploration of the agglomeration hierarchy at different levels of the hierarchy in order to discover concepts described by this structure. The proposed module is integrated into a large system under development by researchers from the Computational Intelligence Laboratory ? LABIC ?- which contemplates all the DM process steps, from data pre-processing to knowledge post-processing. To evaluate the implemented module and its use to discover concepts from the hierarchical structure of clusters, several experiments on natural databases were carried out as well as a case study using a real database. Results show the viability of the proposed methodology although the process could be complex depending on the characteristics of the database. Aprendizado não-supervisionado Data exploration Exploração de dados Extração de padrões Non-supervised learning Pattern extraction
157	Impacto da geração de grafos na classificação semissupervisionada / Impact of graph construction on semi-supervised classification Sousa, Celso André Rodrigues de 18 July 2013 (has links) Uma variedade de algoritmos de aprendizado semissupervisionado baseado em grafos e métodos de geração de grafos foram propostos pela comunidade científica nos últimos anos. Apesar de seu aparente sucesso empírico, a área de aprendizado semissupervisionado carece de um estudo empírico detalhado que avalie o impacto da geração de grafos na classificação semissupervisionada. Neste trabalho, é provido tal estudo empírico. Para tanto, combinam-se uma variedade de métodos de geração de grafos com uma variedade de algoritmos de aprendizado semissupervisionado baseado em grafos para compará-los empiricamente em seis bases de dados amplamente usadas na literatura de aprendizado semissupervisionado. Os algoritmos são avaliados em tarefas de classificação de dígitos, caracteres, texto, imagens e de distribuições gaussianas. A avaliação experimental proposta neste trabalho é subdividida em quatro partes: (1) análise de melhor caso; (2) avaliação da estabilidade dos classificadores semissupervisionados; (3) avaliação do impacto da geração de grafos na classificação semissupervisionada; (4) avaliação da influência dos parâmetros de regularização no desempenho de classificação dos classificadores semissupervisionados. Na análise de melhor caso, avaliam-se as melhores taxas de erro de cada algoritmo semissupervisionado combinado com os métodos de geração de grafos usando uma variedade de valores para o parâmetro de esparsificação, o qual está relacionado ao número de vizinhos de cada exemplo de treinamento. Na avaliação da estabilidade dos classificadores, avalia-se a estabilidade dos classificadores semissupervisionados combinados com os métodos de geração de grafos usando uma variedade de valores para o parâmetro de esparsificação. Para tanto, fixam-se os valores dos parâmetros de regularização (quando existirem) que geraram os melhores resultados na análise de melhor caso. Na avaliação do impacto da geração de grafos, avaliam-se os métodos de geração de grafos combinados com os algoritmos de aprendizado semissupervisionado usando uma variedade de valores para o parâmetro de esparsificação. Assim como na avaliação da estabilidade dos classificadores, para esta avaliação, fixam-se os valores dos parâmetros de regularização (quando existirem) que geraram os melhores resultados na análise de melhor caso. Na avaliação da influência dos parâmetros de regularização na classificação semissupervisionada, avaliam-se as superfícies de erro geradas pelos classificadores semissupervisionados em cada grafo e cada base de dados. Para tanto, fixam-se os grafos que geraram os melhores resultados na análise de melhor caso e variam-se os valores dos parâmetros de regularização. O intuito destes experimentos é avaliar o balanceamento entre desempenho de classificação e estabilidade dos algoritmos de aprendizado semissupervisionado baseado em grafos numa variedade de métodos de geração de grafos e valores de parâmetros (de esparsificação e de regularização, se houver). A partir dos resultados obtidos, pode-se concluir que o grafo k- vizinhos mais próximos mútuo (mutKNN) pode ser a melhor opção dentre os métodos de geração de grafos de adjacência, enquanto que o kernel RBF pode ser a melhor opção dentre os métodos de geração de matrizes ponderadas. Em adição, o grafo mutKNN tende a gerar superfícies de erro que são mais suaves que aquelas geradas pelos outros métodos de geração de grafos de adjacência. Entretanto, o grafo mutKNN é instável para valores relativamente pequenos de k. Os resultados obtidos neste trabalho indicam que o desempenho de classificação dos algoritmos semissupervisionados baseados em grafos é fortemente influenciado pela configuração de parâmetros. Poucos padrões evidentes foram encontrados para auxiliar o processo de seleção de parâmetros. As consequências dessa instabilidade são discutidas neste trabalho em termos de pesquisa e aplicações práticas / A variety of graph-based semi-supervised learning algorithms have been proposed by the research community in the last few years. Despite its apparent empirical success, the field of semi-supervised learning lacks a detailed empirical study that evaluates the influence of graph construction on semisupervised learning. In this work we provide such an empirical study. For such purpose, we combine a variety of graph construction methods with a variety of graph-based semi-supervised learning algorithms in order to empirically compare them in six benchmark data sets widely used in the semi-supervised learning literature. The algorithms are evaluated in tasks about digit, character, text, and image classification as well as classification of gaussian distributions. The experimental evaluation proposed in this work is subdivided into four parts: (1) best case analysis; (2) evaluation of classifiers stability; (3) evaluation of the influence of graph construction on semi-supervised learning; (4) evaluation of the influence of regularization parameters on the classification performance of semi-supervised learning algorithms. In the best case analysis, we evaluate the lowest error rates of each semi-supervised learning algorithm combined with the graph construction methods using a variety of sparsification parameter values. Such parameter is associated with the number of neighbors of each training example. In the evaluation of classifiers stability, we evaluate the stability of the semi-supervised learning algorithms combined with the graph construction methods using a variety of sparsification parameter values. For such purpose, we fixed the regularization parameter values (if any) with the values that achieved the best result in the best case analysis. In the evaluation of the influence of graph construction, we evaluate the graph construction methods combined with the semi-supervised learning algorithms using a variety of sparsification parameter values. In this analysis, as occurred in the evaluation of classifiers stability, we fixed the regularization parameter values (if any) with the values that achieved the best result in the best case analysis. In the evaluation of the influence of regularization parameters on the classification performance of semi-supervised learning algorithms, we evaluate the error surfaces generated by the semi-supervised classifiers in each graph and data set. For such purpose, we fixed the graphs that achieved the best results in the best case analysis and varied the regularization parameters values. The intention of our experiments is evaluating the trade-off between classification performance and stability of the graphbased semi-supervised learning algorithms in a variety of graph construction methods as well as parameter values (sparsification and regularization, if applicable). From the obtained results, we conclude that the mutual k-nearest neighbors (mutKNN) graph may be the best choice for adjacency graph construction while the RBF kernel may be the best choice for weighted matrix generation. In addition, mutKNN tends to generate error surfaces that are smoother than those generated by other adjacency graph construction methods. However, mutKNN is unstable for relatively small values of k. Our results indicate that the classification performance of the graph-based semi-supervised learning algorithms are heavily influenced by parameter setting. We found just a few evident patterns that could help parameter selection. The consequences of such instability are discussed in this work in research and practice Aprendizado em grafos Aprendizado semisupervisionado Empirical models Graph-based learning Modelos empíricos Semi-supervised learning
158	Hierarchical semi-supervised confidence-based active clustering and its application to the extraction of topic hierarchies from document collections / Agrupamento hierárquico semissupervisionado ativo baseado em confiança e sua aplicação para extração de hierarquias de tópicos a partir de coleções de documentos Nogueira, Bruno Magalhães 16 December 2013 (has links) Topic hierarchies are efficient ways of organizing document collections. These structures help users to manage the knowledge contained in textual data. These hierarchies are usually obtained through unsupervised hierarchical clustering algorithms. By not considering the context of the user in the formation of the hierarchical groups, unsupervised topic hierarchies may not attend the user\'s expectations in some cases. One possible solution for this problem is to employ semi-supervised clustering algorithms. These algorithms incorporate the user\'s knowledge through the usage of constraints to the clustering process. However, in the context of semi-supervised hierarchical clustering, the works in the literature do not efficient explore the selection of cases (instances or cluster) to add constraints, neither the interaction of the user with the clustering process. In this sense, in this work we introduce two semi-supervised hierarchical clustering algorithms: HCAC (Hierarchical Confidence-based Active Clustering) and HCAC-LC (Hierarchical Confidence-based Active Clustering with Limited Constraints). These algorithms employ an active learning approach based in the confidence of cluster merges. When a low confidence merge is detected, the user is invited to decide, from a pool of candidate pairs of clusters, the best cluster merge in that point. In this work, we employ HCAC and HCAC-LC in the extraction of topic hierarchies through the SMITH framework, which is also proposed in this thesis. This framework provides a series of well defined activities that allow the user\'s interaction in the generation of topic hierarchies. The active learning approach used in the HCAC-based algorithms, the kind of queries employed in these algorithms, as well as the SMITH framework for the generation of semi-supervised topic hierarchies are innovations to the state of the art proposed in this thesis. Our experimental results indicate that HCAC and HCAC-LC outperform other semi-supervised hierarchical clustering algorithms in diverse scenarios. The results also indicate that semi-supervised topic hierarchies obtained through the SMITH framework are more intuitive and easier to navigate than unsupervised topic hierarchies / Hierarquias de tópicos são formas eficientes de organização de coleções de documentos, auxiliando usuários a gerir o conhecimento materializado nessas publicações textuais. Tais hierarquias são usualmente construídas por meio de algoritmos de agrupamento hierárquico não supervisionado. Entretanto, por não considerarem o contexto do usuário na formação dos grupos, hierarquias de tópicos não supervisionadas nem sempre conseguem atender as suas expectativas. Uma solução para este problema e o emprego de algoritmos de agrupamento semissupervisionado, os quais incorporam o conhecimento de domínio do usuário por meio de restrições. Entretanto, para o contexto de agrupamento hierárquico semissupervisionado, não são eficientemente explorados na literatura métodos de seleção de casos (instâncias ou grupos) para receber restrições, bem como não há formas eficientes de interação do usuário com o processo de agrupamento hierárquico. Dessa maneira, neste trabalho, dois algoritmos de agrupamento hierárquico semissupervisionado são propostos: HCAC (Hierarchical Confidence-based Active Clustering) e HCAC-LC (Hierarchical Confidence-based Active Clustering with Limited Constraints). Estes algoritmos empregam uma abordagem de aprendizado ativo baseado na confiança de uma junção de clusters. Quando uma junção de baixa confiança e detectada, o usuário e convidado a decidir, em um conjunto de pares de grupos candidatos, a melhor junção naquele ponto. Estes algoritmos são aqui utilizados na extração de hierarquias de tópicos por meio do framework SMITH, também proposto nesse trabalho. Este framework fornece uma série de atividades bem definidas que possibilitam a interação do usuário para a obtenção de hierarquias de tópicos. A abordagem de aprendizado ativo utilizado nos algoritmos HCAC e HCAC-LC, o tipo de restrição utilizada nestes algoritmos, bem como o framework SMITH para obtenção de hierarquias de tópicos semissupervisionadas são inovações ao estado da arte propostos neste trabalho. Os resultados obtidos indicam que os algoritmos HCAC e HCAC-LC superam o desempenho de outros algoritmos hierárquicos semissupervisionados em diversos cenários. Os resultados também indicam que hierarquias de tópico semissupervisionadas obtidas por meio do framework SMITH são mais intuitivas e fáceis de navegar do que aquelas não supervisionadas Active learning Agrupamento semissupervisionado Aprendizado ativo Hierarquias de tópicos Semi-supervised clustering Topic hierarchies
159	\"Feliz aquele que transfere o que sabe e aprende ensinando\": refletindo sobre ações de formação docente na pós-graduação em Contabilidade / \"Happy are those who pass on what they know and learn by teaching\": reflecting on faculty training actions in an Accounting graduate program Wille, Suilise Berwanger 21 September 2018 (has links) O presente estudo buscou responder: Como o PAE e a Monitoria Didática podem contribuir para a reflexão sobre a prática docente? Essa é a questão explorada nessa tese, em um contexto que considera: (i) a importância da formação inicial para a docência nos cursos de pós-graduação, (ii) que o Programa de Aperfeiçoamento do Ensino (PAE), da Universidade de São Paulo (USP), e as disciplinas de monitoria didática, do Programa de Pós-Graduação em Controladoria e Contabilidade da USP (PPGCC/USP), buscam suprir de alguma forma essa formação, (iii) que há poucos estudos analisando o PAE, (iv) que os estudos que já foram desenvolvidos denotaram necessidade de maior aprofundamento sobre o tema, a fim de se ter uma melhor compreensão do programa e possibilitar a sua melhoria e aperfeiçoamento, (iv) que não há estudos sobre a monitoria didática. A esses aspectos aliam-se a relevância do PPGCC/USP e as características da formação dos docentes em contabilidade no Brasil. Diante dessa questão e desse contexto, como objetivo geral se busca examinar o PAE e as disciplinas de Monitoria Didática como ações de formação docente por meio da prática e da reflexão sobre a prática docente. Utiliza-se como lente teórica a reflexão sobre a prática, com a abordagem de Schön confrontada às críticas e contribuições de outros trabalhos que tratam sobre o tema. A pesquisa se caracteriza como sendo de abordagem qualitativa, com a construção de evidências por meio de pesquisa documental (Relatórios, fichas de inscrição e outros documentos ligados ao PAE) e entrevistas, com professores(as) da área de educação e/ou relacionados à gestão do PAE, monitores/estagiários(as) do PPGCC da USP, professores(as) que atuaram como supervisores(as) e estudantes da graduação. A relevância do estudo reside na discussão estabelecida sobre a formação docente e sobre programas que tenham por finalidade a preparação para o exercício da docência e, principalmente, pelo fato de que a efetividade dos programas e ações de formação docente impactará na qualidade da formação, desenvolvimento e preparação docente e, consequentemente, na qualidade da formação profissional em contabilidade. Como resultados da pesquisa, foi possível constatar que um envolvimento em todo o processo atrelado a lecionar uma disciplina é importante para que os estagiários(as) possam refletir sobre a docência e tenham um aprendizado mais efetivo. Também são importantes as conversas, trocas de experiências e feedbacks, entre estagiários(as) e supervisores. Esse tipo de participação do(a) monitor(a) muitas vezes não ocorre, por questão temporal, no que se refere ao momento que o(a) professor(a) realiza o planejamento do semestre, por exemplo, por dúvidas referentes ao que o(a) monitor(a) pode e não pode fazer, advindas do desconhecimento das regras e normas do programa e da existência de um currículo oculto que perpetua algumas práticas, ou, até mesmo, pelo fato do(a) monitor(a) não possuir conhecimento suficiente sobre o assunto tratado na disciplina. Desse modo, observa-se a necessidade de um alinhamento entre supervisores e que, ambas as partes, monitor(a) e supervisor(a), tenham conhecimento sobre os objetivos das ações de formação do PAE e da monitoria, de suas responsabilidades e, também, de seu potencial para contribuir com a melhoria do ensino na graduação, por meio da reflexão conjunta sobre as práticas docentes. Foi possível perceber, tanto nas entrevistas com os(as) estagiários(as), quanto com supervisores e estudantes de graduação, que já há exemplos de reflexos positivos para a graduação advindos das monitorias/estágio PAE. Mas, esses reflexos positivos ainda são pontuais e existem muitas oportunidades de melhoria. Pode-se, por fim, afirmar que, da forma como se constitui hoje, a principal função do PAE e da monitoria é aproximar professores e estudantes de graduação, pela intermediação de estagiários(as) PAE e monitores, uma vez que graduandos(as) se sentem mais próximos dos pós-graduandos(as) e mais confortáveis em compartilhar com eles dúvidas e preocupações. Sugere-se que pesquisas futuras busquem estender o estudo do estágio docência em outras instituições, programas e/ou outras unidades da USP; busquem desenvolver pesquisas quantitativas baseadas nos achados qualitativos desta pesquisa; aprofundem o estudo da etapa de preparação pedagógica do PAE; e, dado o contexto de valorização da pesquisa em detrimento do ensino, acredita-se que seria importante entender as percepções de representantes da CAPES e de outros órgãos avaliadores e/ou reguladores com relação ao tema da formação docente na prática. Como implicações dos achados para a prática, tem-se que é possível pensar em ações que possam contribuir com a melhoria do estágio do PAE e da monitoria didática como, por exemplo, buscar envolver o estagiário/monitor em todo o processo, tentar criar espaços (dias/horários) para a troca de ideias, sugestões e feedbacks entre supervisor e estagiário, dar oportunidades para o estagiário/monitor participar de forma ativa das aulas e até dar alguma aula e buscar pensar em formas de deixar mais claros os objetivos e regras da monitoria didática e do PAE tanto para os estagiários, quanto para os supervisores. Essas ações, como visto na pesquisa, têm potencial de impactar de forma positiva a qualidade do ensino dos cursos de graduação e a formação docente e a prática pedagógica de professores em atuação e de professores em formação, em um processo de colaboração e reflexão. Afinal, como nos ensinou Cora Coralina: \"Feliz aquele que transfere o que sabe e aprende ensinando\". / This study seeks to answer the following: How can USP\'s (University of São Paulo) PAE (Programa de Aperfeiçoamento de Ensino - Program for the Improvement of Education) and the Didactical Monitoring (Monitoria Didática) contribute to the debate on educational practice? This study explores this question in a context that considers: (i) the importance of initial formation to faculty in graduate courses, (ii) that USP\'s PAE and the Didactical Monitoring disciplines of USP\'s Graduate Program in Controllership and Accounting (PPGCC/USP) seek to somehow provide that formation, (iii) that there are few studies that analyze the PAE, (iv) that the studies that have been made have pointed out a necessity for a deeper understanding of the subject in order to better comprehend the program and enable its betterment and perfection, and (v) that there are no studies about the didactical monitoring. Adding to these aspects, we have the relevance of PPGCC/USP and the characteristics of the faculty formation in accounting in Brazil. Facing this question and this context, the general goal of this study is to examine the PAE and the Didactical Monitoring as faculty formation actions through the practice of and reflection on the teaching practice. Our theoretical approach is reflection on the practice, with Schön\'s approach used along with criticisms that have been made about it, as well as the contributions of other works that deal with the subject. This research uses a qualitative approach, building up evidence via documental research (reports, application forms and other documents related to the PAE) and interviews with teachers from the field of education and/or those related to PAE\'s management, with teaching assistants/interns from USP\'s PPGCC, with teachers who acted as supervisors, and with undergraduate students. The importance of this study resides in the established discussion on faculty formation and on programs that aim to prepare people for the exercise of teaching; and most of all, in the fact that the effectivity of programs and actions geared towards faculty formation will impact the quality of the formation, development and preparation of teachers and consequently the quality of professional formation in the field of Accounting as a whole. As a result of this research, we were able to determine that being involved in every part of the process of teaching a course is important for the interns to be able to reflect on teaching and so that they may have a more effective learning experience. Also important are the conversations, the sharing of experiences and the sharing of feedback between interns and supervisors. This participation of the assistant doesn\'t often occur, though: whether it is because of time management issues, referring to the moment the teacher plans out the semester, for example; because of doubts related to what the assistant can and can\'t do stemming from lack of knowledge about the program\'s rules and norms and the existence of a hidden curriculum that perpetuates some practices; or even because the assistant might not have enough knowledge on the subject the course deals with. In that manner, we observed a need for alignment between supervisors and that both parts, assistant and supervisor, need to have knowledge about the goals and formation actions of the PAE and of the assistants, of their responsibilities, and also of their potential for contributing towards the betterment of teaching in undergraduate courses - and that shared knowledge is built via collective reflection on the teaching practices. We were able to notice, both in interviews with interns and interviews with supervisor and undergraduate students, that there already are examples of positive impacts in undergraduate courses that stem from the PAE assistant programs/internships. But these impacts are still relatively one-off and there are many opportunities for improvement. We can, finally, affirm that with the way it is set up today, the main function of the PAE and the Didactical Monitoring is to bring together teachers and undergraduate students through the intermediation of the PAE interns and teaching assistants since the undergraduate students feel closer to the graduate students and this more comfortable in sharing their doubts and worries with them. We suggest that future research attempts seek to extend the study on education internships to other institutions, programs and/or other USP units; that they seek to develop quantitative research based on the qualitative findings of this research; that they study the PAE\'s pedagogic preparation stage more closely; and, given the present context in which research is valued in lieu of teaching, we believe it would be important to understand the perception that CAPES (Coordination for the Improvement of Higher Education Personnel - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior) representatives and other evaluating/regulatory agencies have about the theme of docent formation in practice. As an implication of the findings towards the practice, we hold that it\'s possible to think about actions that can contribute to the betterment of the PAE internship and the Didactical Monitoring, such as: engaging the intern/assistant in the whole process, trying to make room (days/times) for the sharing of ideas, suggestions and feedback between supervisor and intern, and giving the interns opportunities to take an active role in the classes and even perhaps give a lecture themselves. These actions, as seen in this research, have the potential to positively impact the quality of education in undergraduate courses and the faculty formation and teaching practice of professors/teachers both acting and in formation, in a process of collaboration and reflection. After all, as Cora Coralina taught us: \"happy are those who transfer what they know and who learn by teaching.\" Accounting Contabilidade Estágios supervisionados Faculty training Formação de professores Professor reflexivo Reflexive teacher Supervised internship
160	Técnica de aprendizado semissupervisionado para detecção de outliers / A semi-supervised technique for outlier detection Zamoner, Fabio Willian 23 January 2014 (has links) Detecção de outliers desempenha um importante papel para descoberta de conhecimento em grandes bases de dados. O estudo é motivado por inúmeras aplicações reais como fraudes de cartões de crédito, detecção de falhas em componentes industriais, intrusão em redes de computadores, aprovação de empréstimos e monitoramento de condições médicas. Um outlier é definido como uma observação que desvia das outras observações em relação a uma medida e exerce considerável influência na análise de dados. Embora existam inúmeras técnicas de aprendizado de máquina para tratar desse problemas, a maioria delas não faz uso de conhecimento prévio sobre os dados. Técnicas de aprendizado semissupervisionado para detecção de outliers são relativamente novas e incluem apenas um pequeno número de rótulos da classe normal para construir um classificador. Recentemente um modelo semissupervisionado baseado em rede foi proposto para classificação de dados empregando um mecanismo de competição e cooperação de partículas. As partículas são responsáveis pela propagação dos rótulos para toda a rede. Neste trabalho, o modelo foi adaptado a fim de detectar outliers através da definição de um escore de outlier baseado na frequência de visitas. O número de visitas recebido por um outlier é significativamente diferente dos demais objetos de mesma classe. Essa abordagem leva a uma maneira não tradicional de tratar os outliers. Avaliações empíricas sobre bases artificiais e reais demonstram que a técnica proposta funciona bem para bases desbalanceadas e atinge precisão comparável às obtidas pelas técnicas tradicionais de detecção de outliers. Além disso, a técnica pode fornecer novas perspectivas sobre como diferenciar objetos, pois considera não somente a distância física, mas também a formação de padrão dos dados / Outloier detection plays an important role for discovering knowledge in large data sets. The study is motivated by plethora of real applications such as credit card frauds, fault detection in industrial components, network instrusion detection, loan application precoessing and medical condition monitoring. An outlier is defined as an observation that deviates from other observations with respect to a measure and exerts a substantial influence on data analysis. Although numerous machine learning techniques have been developed for attacking this problem, most of them work with no prior knowledge of the data. Semi-supervised outlier detection techniques are reçlatively new and include only a few labels of normal class for building a classifier. Recently, a network-based semi-supervised model was proposed for data clasification by employing a mechanism based on particle competiton and cooperation. Such particle competition and cooperaction. Such particles are responsible for label propagation throughout the network. In this work, we adapt this model by defining a new outlier score based on visit frequency counting. The number of visits received by an outlier is significantly different from the remaining objects. This approach leads to an anorthodox way to deal with outliers. Our empirical ecaluations on both real and simulated data sets demonstrate that proposed technique works well with unbalanced data sets and achieves a precision compared to traditional outlier detection techniques. Moreover, the technique might provide new insights into how to differentiate objects because it considers not only the physical distance but also the pattern formation of the data Aprendizado semisupervisionado Detecção de outliers Outlier detection Particle competition and cooperation Semi-supervised learning

Search results