• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1019
  • 175
  • 34
  • 24
  • 24
  • 24
  • 19
  • 14
  • 5
  • 4
  • 4
  • 4
  • 1
  • Tagged with
  • 1240
  • 1001
  • 587
  • 413
  • 199
  • 176
  • 174
  • 151
  • 143
  • 135
  • 129
  • 123
  • 120
  • 117
  • 116
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
211

Técnica de aprendizagem automática aplicada a um codificador HEVC em tempo real.

OLIVEIRA, Jean Felipe Fonseca de. 07 May 2018 (has links)
Submitted by Emanuel Varela Cardoso (emanuel.varela@ufcg.edu.br) on 2018-05-07T19:44:09Z No. of bitstreams: 1 JEAN FELIPE FONSECA DE OLIVEIRA – TESE (PPGEE) 2016.pdf: 4299929 bytes, checksum: 553f9084b2022247c3b7599b696859c9 (MD5) / Made available in DSpace on 2018-05-07T19:44:09Z (GMT). No. of bitstreams: 1 JEAN FELIPE FONSECA DE OLIVEIRA – TESE (PPGEE) 2016.pdf: 4299929 bytes, checksum: 553f9084b2022247c3b7599b696859c9 (MD5) Previous issue date: 2018-05-07 / O padrão HEVC (High Efficiency Video Coding) é o mais recente padrão para codificação de vídeos e tem uma complexidade computacional muito maior do que seu antecessor, o padrão H.264. A grande eficiência de codificação atingida pelo codificador HEVC é obtida com um custo computacional bastante elevado. Esta tese aborda oportunidades de reduzir essa carga computacional. Dessa forma, um algoritmo de decisão prematura de divisão de uma unidade de codificação é proposto para o codificador HEVC, terminando prematuramente o processo de busca pelo melhor particionamento baseado em um modelo de classificação adaptativo, criado em tempo de execução. Esse modelo é gerado por um processo de aprendizado online baseado no algoritmo Pegasos, que é uma implementação que aplica a resolução do gradiente estocástico ao algoritmo SVM (Support Vector Machine). O método proposto foi implementado e integrado ao codificador de referência HM 16.7. Os resultados experimentais mostraram que o codificador modificado reduziu o custo computacional do processo de codificação em até 50%, em alguns casos, e aproximadamente 30% em média, com perdas de qualidade desprezíveis para os usuários. De modo geral, esse processo resulta em reduzidas perdas de qualidade, no entanto, alguns resultados mostraram pequenos ganhos em eficiência de compressão quando comparados com os resultados do codificador HM 16.7. / The most recent video coding standard, the High Efficiency Video Coding (HEVC), has a higher encoding complexity when compared with H.264/AVC, which means a higher computational cost. This thesis presents a review of the recent literature and proposes an algorithm that reduces such complexity. Therefore, a fast CU (Coding Unit) splitting algorithm is proposed for the HEVC encoder, which terminates the CU partitioning process at an early phase, based on an adaptive classification model. This model is generated by an online learning method based on the Primal Estimated sub-GrAdient SOlver for SVM (Pegasos) algorithm. The proposed method is implemented and integrated in the HEVC reference source code on its version 16.7. Experimental results show that the proposed method reduces the computational complexity of the HEVC encoder, up to 50% in some cases, with negligible losses, and shows an average computational reduction of 30%. This process results in reduced coding efficiency losses, however, some results showed a nearby 1% of BD-Rate (Bjontegaard Delta) gains in the Low Delay B configuration, without using an offline training phase.
212

Novas abordagens para configura??es autom?ticas dos par?metros de controle em comit?s de classificadores

Nascimento, Diego Silveira Costa 05 December 2014 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2016-02-03T20:29:00Z No. of bitstreams: 1 DiegoSilveiraCostaNascimento_TESE.pdf: 3953454 bytes, checksum: 3237fa5d0296298ccc738a2ba7eab05e (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2016-02-03T23:54:37Z (GMT) No. of bitstreams: 1 DiegoSilveiraCostaNascimento_TESE.pdf: 3953454 bytes, checksum: 3237fa5d0296298ccc738a2ba7eab05e (MD5) / Made available in DSpace on 2016-02-03T23:54:37Z (GMT). No. of bitstreams: 1 DiegoSilveiraCostaNascimento_TESE.pdf: 3953454 bytes, checksum: 3237fa5d0296298ccc738a2ba7eab05e (MD5) Previous issue date: 2014-12-05 / Significativos avan?os v?m surgindo em pesquisas relacionadas ao tema de Comit?s de Classificadores. Os modelos que mais recebem aten??o na literatura s?o aqueles de natureza est?tica, ou tamb?m conhecidos por ensembles. Dos algoritmos que fazem parte dessa classe, destacam-se os m?todos que utilizam reamostragem dos dados de treinamento: Bagging, Boosting e Multiboosting. A escolha do tipo de arquitetura e dos componentes a serem recrutados n?o ? uma tarefa trivial, e tem motivado, ainda mais, o surgimento de novas propostas na tentativa de se construir tais modelos de forma autom?tica e, muitas delas, s?o baseadas em m?todos de otimiza??o. Muitas dessas contribui??es n?o t?m apresentado resultados satisfat?rios quando aplicadas a problemas mais complexos ou de natureza distinta. Em contrapartida, a tese aqui apresentada prop?e tr?s novas abordagens h?bridas para constru??o autom?tica em ensembles de classificadores: Incremento de Diversidade, Fun??o de Avalia??o Adaptativa e Meta-aprendizado para a elabora??o de sistemas de configura??o autom?tica dos par?metros de controle para os modelos de ensemble. Na primeira abordagem, ? proposta uma solu??o que combina diferentes t?cnicas de diversidade em um ?nico arcabou?o conceitual, na tentativa de se alcan?ar n?veis mais elevados de diversidade em ensemble, e com isso, melhor o desempenho de tais sistemas. J? na segunda abordagem, ? utilizado um algoritmo gen?tico para o design autom?tico de ensembles. A contribui??o consiste em combinar as t?cnicas de filtro e wrapper de forma adaptativa para evoluir uma melhor distribui??o do espa?o de atributos a serem apresentados aos componentes de um ensemble. E por fim, a ?ltima abordagem, que prop?e uma nova t?cnica de recomenda??o de arquitetura e componentes base em ensemble, via t?cnicas de meta-aprendizado tradicional e multirr?tulo. De forma geral os resultados s?o animadores, e corroboram com a tese de que ferramentas h?bridas s?o uma poderosa solu??o na constru??o de ensembles eficazes em problemas de classifica??o de padr?es / Significant advances have emerged in research related to the topic of Classifier Committees. The models that receive the most attention in the literature are those of the static nature, also known as ensembles. The algorithms that are part of this class, we highlight the methods that using techniques of resampling of the training data: Bagging, Boosting and Multiboosting. The choice of the architecture and base components to be recruited is not a trivial task and has motivated new proposals in an attempt to build such models automatically, and many of them are based on optimization methods. Many of these contributions have not shown satisfactory results when applied to more complex problems with different nature. In contrast, the thesis presented here, proposes three new hybrid approaches for automatic construction for ensembles: Increment of Diversity, Adaptive-fitness Function and Meta-learning for the development of systems for automatic configuration of parameters for models of ensemble. In the first one approach, we propose a solution that combines different diversity techniques in a single conceptual framework, in attempt to achieve higher levels of diversity in ensembles, and with it, the better the performance of such systems. In the second one approach, using a genetic algorithm for automatic design of ensembles. The contribution is to combine the techniques of filter and wrapper adaptively to evolve a better distribution of the feature space to be presented for the components of ensemble. Finally, the last one approach, which proposes new techniques for recommendation of architecture and based components on ensemble, by techniques of traditional meta-learning and multi-label meta-learning. In general, the results are encouraging and corroborate with the thesis that hybrid tools are a powerful solution in building effective ensembles for pattern classification problems.
213

Aplicando técnicas de aprendizado de máquina em planejamento

Sousa, Jean Lucas de 02 June 2014 (has links)
In terms of classical planning, planners objectives are generate a sequence of actions that converts an initial conguration (state) into another state that attends a goal. Planning systems have been used in solving a variety of problems with success. However, no planner is capable of outperforming all the others when applied to distinct problems. Probabilistic planning is an extension of classical planning that works with stochastic environments. Just as in classical planning, several planners were proposed to solve probalistic planning problems. However, no planner is capable of outperform all others when applied to distinct problems. In this work we describe our approach that is capable of extracting features of a planning problem and determining a classical or probabilistic planner from a portfolio that can solve the problem. We use machine learning algorithms to determine the best planner from the porfolio that solves a problem. Our approach showed good results in the experiments. Our approach outperformed the best planners from a recent planning competition in both areas (classical and probabilistic planning). / Em termos de abordagem clássica, sistemas de planejamento ou planejadores concentramse em gerar automaticamente uma sequência de ações que transforma uma conguração (estado) inicial de objetos em outro estado em que um dado objetivo é satisfeito. Sistemas de planejamento foram utilizados para resolver uma variedade de problemas com sucesso. Apesar disso, nenhum planejador é melhor que todos os outros quando aplicados a problemas distintos. O planejamento probabilístico é uma extensão do planejamento clássico que trabalha sobre um ambiente não determinístico. Assim como no planejamento clássico, diversos planejadores foram propostos para resolver problemas, porém nenhum planejador é capaz de superar totalmente os outros em todos os problemas. Neste trabalho, descreve-se uma abordagem que consiste em extrair características do problema a ser resolvido e determinar, a partir de um conjunto de planejadores clássicos e probabilísticos, um que seja capaz de resolver o problema com eciência. Em nossa abordagem, são utilizados algoritmos de aprendizado de máquina para determinar o melhor planejador dentre o portfólio que resolve o problema. A seleção dos planejadores se mostrou eciente nos testes tendo mostrado bons resultados nos experimentos ao superar os planejadores de portfólio que conseguiram os melhores resultados nas competições de planejamento em ambas as áreas (planejamento clássico e probabilístico). / Mestre em Ciência da Computação
214

O processo de ensino-aprendizado de Matemática e a relação professor-aluno no primeiro ano do ensino fundamental

Pacheco, Patricia Carvalho 18 August 2008 (has links)
This study has the objective of analyse and understand the process of (not) teach and (not) learn Mathematics in the first year of elementary school in a rural school from Uberlândia city. We organized the present work in five parts; in the first on we elaborated a discussion about the rural school to understand a little bit about the history of that institution and we could note that since its beginning, in the first decades of the twentieh century, till nowadays that institution has been coming marginalized. In the second part, we presented our conception around the Mathematics learn and teaching process based in a historic-cultural emphasis, including teachers and students like historic subjects and emphasizing the interaction between those ones in the process of learning and teaching. We also discussed the daily school as fundamental space-time of the educative work. Because of that, we considerate the not learning, hardly ever pointed as a failure of the students, as a complex school phenomenon that requires a deep analyses of the daily school and the class room. The process of construction of the methodological route from this present works is presentend in the third part. We chose for a qualitative approach and developed the following steps: observation in class, rooms with field notes, production and analysis of exercises used by the research participants teachers in the class rooms with their students. In the fourth part, we told a little of the story of Jardim das Flores , school in wich we made the field search during the second half of 2005 and first half of 2006. In that part we presented the 3 teachers and the students with who we worked; with the description of those subjects and their relationships we tried to substantiate the discussion about the process of learning and teaching Mathematics. We noted that there are a lot of variations in the relation of learning and teaching and evidenced that one that took our attention by the most in the school: the not teaching and the not learning. We, although, selected other variations as axis of analysis: the teaching and learning, the not teaching and the learning, the teaching and the not learning, and the not teaching and the not learning. We could note that there is a deep relation between the way used by the teacher to teach and the way of learning of the student and, to teach Mathematics is necessary considerate the students as culture subjects and the daily school as a learning space for the teachers. Finally, we also salient the importance of the collaborative work for the continued formation of teachers. / Este estudo tem como objetivo analisar e compreender o processo de (não) ensinar e (não) aprender Matemática em um 1º ano do ensino fundamental de uma Escola Rural do município de Uberlândia. Organizamos o presente trabalho em cinco partes; na primeira parte elaboramos uma discussão acerca da escola do campo para compreender um pouco sobre a história dessa instituição e constatamos que desde seus primórdios, nas primeiras décadas do século XX, até os dias atuais tal instituição vem sendo marginalizada. Na segunda parte, apresentamos nossa concepção do processo de ensino e aprendizado da Matemática fundamentada num enfoque histórico-cultural, compreendendo professores e alunos como sujeitos históricos e enfatizando a interação entre tais sujeitos no processo de ensinar e aprender. Enfatizamos também o cotidiano escolar como espaço-tempo fundamental do trabalho educativo. Por isso, consideramos o não aprender, quase sempre tido como fracasso dos alunos, como um fenômeno escolar complexo que requer uma profunda análise do cotidiano escolar e da sala de aula. O processo de construção do percurso metodológico da presente pesquisa é apresentado na terceira parte. Optamos por uma abordagem qualitativa e desenvolvemos os seguintes procedimentos: observações em sala de aula com produção de notas de campo e análise de exercícios utilizados pelas professoras participantes da pesquisa em sala de aula com seus alunos. Na quarta parte, contamos um pouco da história da Jardim das Flores, escola em que realizamos a pesquisa de campo durante o segundo semestre de 2005 e primeiro semestre de 2006. Nesta parte apresentamos as 3 professoras e os alunos com os quais trabalhamos; com a descrição desses sujeitos e de suas relações buscamos fundamentar a discussão sobre o processo de ensinar e aprender Matemática. Por fim, na quinta parte, analisamos alguns aspectos de histórias escolares constituídas no dia-a-dia da sala de aula que culminaram no fracasso em aprender Matemática. Constatamos que há muitas variações na relação do ensinar e aprender e ressaltamos aquela que nos chamou mais a atenção em nossa (con)vivência na escola: o não ensinar e o não aprender. No entanto, selecionamos outras variações como eixo de análise quais sejam: o ensinar e o aprender, o não-ensinar e o aprender, o ensinar e o nãoaprender e o não-ensinar e o não-aprender. Constatamos que há uma relação profunda entre o jeito de o professor ensinar e o jeito de aprender do aluno e, que para ensinar Matemática é necessário considerar os alunos como sujeitos de cultura e o cotidiano escolar como um espaço de aprendizado para professores. Enfim, ressaltamos também a importância do trabalho colaborativo para a formação continuada de professores. / Mestre em Educação
215

Modelos de tópicos na classificação automática de resenhas de usuários. / Topic models in user review automatic classification.

Denis Deratani Mauá 14 August 2009 (has links)
Existe um grande número de resenhas de usuário na internet contendo valiosas informações sobre serviços, produtos, política e tendências. A compreensão automática dessas opiniões é não somente cientificamente interessante, mas potencialmente lucrativa. A tarefa de classificação de sentimentos visa a extração automática das opiniões expressas em documentos de texto. Diferentemente da tarefa mais tradicional de categorização de textos, na qual documentos são classificados em assuntos como esportes, economia e turismo, a classificação de sentimentos consiste em anotar documentos com os sentimentos expressos no texto. Se comparados aos classificadores tradicionais, os classificadores de sentimentos possuem um desempenho insatisfatório. Uma das possíveis causas do baixo desempenho é a ausência de representações adequadas que permitam a discriminação das opiniões expressas de uma forma concisa e própria para o processamento de máquina. Modelos de tópicos são modelos estatísticos que buscam extrair informações semânticas ocultas na grande quantidade de dados presente em coleções de texto. Eles representam um documento como uma mistura de tópicos, onde cada tópico é uma distribuição de probabilidades sobre palavras. Cada distribuição representa um conceito semântico implícito nos dados. Modelos de tópicos, as palavras são substituídas por tópicos que representam seu significado de forma sucinta. De fato, os modelos de tópicos realizam uma redução de dimensionalidade nos dados que pode levar a um aumento do desempenho das técnicas de categorização de texto e recuperação de informação. Na classificação de sentimentos, eles podem fornecer a representação necessária através da extração de tópicos que representem os sentimentos expressos no texto. Este trabalho dedica-se ao estudo da aplicação de modelos de tópicos na representação e classificação de sentimentos de resenhas de usuário. Em particular, o modelo Latent Dirichlet Allocation (LDA) e quatro extensões (duas delas desenvolvidas pelo autor) são avaliados na tarefa de classificação de sentimentos baseada em múltiplos aspectos. As extensões ao modelo LDA permitem uma investigação dos efeitos da incorporação de informações adicionais como contexto, avaliações de aspecto e avaliações de múltiplos aspectos no modelo original. / There is a large number of user reviews on the internet with valuable information on services, products, politics and trends. There is both scientific and economic interest in the automatic understanding of such data. Sentiment classification is concerned with automatic extraction of opinions expressed in user reviews. Unlike standard text categorization tasks that deal with the classification of documents into subjects such as sports, economics and tourism, sentiment classification attempts to tag documents with respect to the feelings they express. Compared to the accuracy of standard methods, sentiment classifiers have shown poor performance. One possible cause of such a poor performance is the lack of adequate representations that lead to opinion discrimination in a concise and machine-readable form. Topic Models are statistical models concerned with the extraction of semantic information hidden in the large number of data available in text collections. They represent a document as a mixture of topics, probability distributions over words that represent a semantic concept. According to Topic Model representation, words can be substituted by topics able to represent concisely its meaning. Indeed, Topic Models perform a data dimensionality reduction that can improve the performance of text classification and information retrieval techniques. In sentiment classification, they can provide the necessary representation by extracting topics that represent the general feelings expressed in text. This work presents a study of the use of Topic Models for representing and classifying user reviews with respect to their feelings. In particular, the Latent Dirichlet Allocation (LDA) model and four extensions (two of them developed by the author) are evaluated on the task of aspect-based sentiment classification. The extensions to the LDA model enables us to investigate the effects of the incorporation of additional information such as context, aspect rating and multiple aspect rating into the original model.
216

Abordagens para combinar classificadores e agrupadores em problemas de classificação / Approaches for combining classifiers and clusterers in classification problems

Luiz Fernando Sommaggio Coletta 23 November 2015 (has links)
Modelos para aprendizado não supervisionado podem fornecer restrições complementares úteis para melhorar a capacidade de generalização de classificadores. Baseando-se nessa premissa, um algoritmo existente, denominado de C3E (Consensus between Classification and Clustering Ensembles), recebe como entradas estimativas de distribuições de probabilidades de classes para objetos de um conjunto alvo, bem como uma matriz de similaridades entre esses objetos. Tal matriz é tipicamente construída por agregadores de agrupadores de dados, enquanto que as distribuições de probabilidades de classes são obtidas por um agregador de classificadores induzidos por um conjunto de treinamento. Como resultado, o C3E fornece estimativas refinadas das distribuições de probabilidades de classes como uma forma de consenso entre classificadores e agrupadores. A ideia subjacente é de que objetos similares são mais propensos a compartilharem o mesmo rótulo de classe. Nesta tese, uma versão mais simples do algoritmo C3E, baseada em uma função de perda quadrática (C3E-SL), foi investigada em uma abordagem que permitiu a estimação automática (a partir dos dados) de seus parâmetros críticos. Tal abordagem faz uso de um nova estratégia evolutiva concebida especialmente para tornar o C3E-SL mais prático e flexível, abrindo caminho para que variantes do algoritmo pudessem ser desenvolvidas. Em particular, para lidar com a escassez de dados rotulados, um novo algoritmo que realiza aprendizado semissupervisionado foi proposto. Seu mecanismo explora estruturas intrínsecas dos dados a partir do C3E-SL em um procedimento de autotreinamento (self-training). Esta noção também inspirou a concepção de um outro algoritmo baseado em aprendizado ativo (active learning), o qual é capaz de se autoadaptar para aprender novas classes que possam surgir durante a predição de novos dados. Uma extensa análise experimental, focada em problemas do mundo real, mostrou que os algoritmos propostos são bastante úteis e promissores. A combinação de classificadores e agrupadores resultou em modelos de classificação com grande potencial prático e que são menos dependentes do usuário ou do especialista de domínio. Os resultados alcançados foram tipicamente melhores em comparação com os obtidos por classificadores tradicionalmente usados. / Unsupervised learning models can provide a variety of supplementary constraints to improve the generalization capability of classifiers. Based on this assumption, an existing algorithm, named C3E (from Consensus between Classification and Clustering Ensembles), receives as inputs class probability distribution estimates for objects in a target set as well as a similarity matrix. Such a similarity matrix is typically built from clusterers induced on the target set, whereas the class probability distributions are obtained by an ensemble of classifiers induced from a training set. As a result, C3E provides refined estimates of the class probability distributions, from the consensus between classifiers and clusterers. The underlying idea is that similar new objects in the target set are more likely to share the same class label. In this thesis, a simpler version of the C3E algorithm, based on a Squared Loss function (C3E-SL), was investigated from an approach that enables the automatic estimation (from data) of its critical parameters. This approach uses a new evolutionary strategy designed to make C3E-SL more practical and flexible, making room for the development of variants of the algorithm. To address the scarcity of labeled data, a new algorithm that performs semi-supervised learning was proposed. Its mechanism exploits the intrinsic structure of the data by using the C3E-SL algorithm in a self-training procedure. Such a notion inspired the development of another algorithm based on active learning, which is able to self-adapt to learn new classes that may emerge when classifying new data. An extensive experimental analysis, focused on real-world problems, showed that the proposed algorithms are quite useful and promising. The combination of supervised and unsupervised learning yielded classifiers of great practical value and that are less dependent on user-defined parameters. The achieved results were typically better than those obtained by traditional classifiers.
217

Sistema de aprendizado reconfigurável para classificação de dados utilizando processamento paralelo / Reconfigurable learning system for classification of data using parallel processing

Eduardo Marmo Moreira 07 May 2014 (has links)
Esta tese apresenta a arquitetura de um sistema de aprendizado, com um escalonador de tarefas que possibilita a utilização de vários métodos de classificação e validação, permitindo a distribuição dessas tarefas entre os módulos do sistema. Esta arquitetura está estruturada de forma que classificações obtidas através de uma técnica sejam reutilizadas em paralelo pelo mesmo algoritmo ou por outras técnicas, produzindo novas classificações através do refinamento dos resultados alcançados e ampliando o uso em bases de dados com características diferentes. O sistema foi estruturado em quatro partes denominadas, respectivamente, Módulo de Inicialização, Módulo de Validação, Módulo de Refinamento e Módulo Especial de Escalonamento. Em cada módulo, podem ser usados vários algoritmos para atender aos seus objetivos. A estrutura deste sistema permite sua configuração, utilizando diversos métodos, inclusive com técnicas de inteligência artificial. Com isso, é possível a obtenção de resultados mais precisos por meio da escolha do melhor método para cada caso. Os resultados apresentados neste trabalho foram obtidos a partir de bases conhecidas na literatura, o que possibilita comparar as implementações dos métodos tradicionais que foram adicionadas ao sistema e, principalmente, verificar a qualidade dos refinamentos produzidos pela integração de técnicas diferentes. Os resultados demonstram que através de um sistema de aprendizado, minimiza-se a complexidade na análise de grandes bases de dados, permitindo verificar bases com estruturas diferentes e aumentar os métodos aplicados na análise de cada estrutura. Isto favorece a comparação entre os métodos e proporciona resultados mais confiáveis. Para uniformizar os dados provenientes de bases distintas, foi elaborada a modelagem de dados do sistema, o que favorece a escalabilidade do sistema de maneira uniforme. / This thesis presents the architecture of a System Learning with a task scheduler, which makes possible the utilization of several classification and validation methods, allowing the distribution of tasks between the module systems. This architecture is structured of such way that the classifications obtained through a specific technique can be reutilized in parallel by the same algorithm or by other techniques, producing new classifications through the refinement of the results achieved and expanding the use in databases with different characteristics. The system was structured in four parts denominated, respectively, Initialization module; Validation module; Refinement module; and Especial scheduling module. In each module, various algorithms can be employed to reach its objectives. The structure of this system allows its configuration, utilizing various methods, including artificial intelligence techniques. Thus, it is possible to obtain more precise results through the choice of the best method to each case. The results presented in this work were obtained from basis that are known in the literature, which allows to compare the implementations of the traditional methods that were added to the system and, especially, to verify the quality of the refinements produced by the integration of different techniques. The results demonstrated that through a learning system, the complexity of the analysis of great databases is minimized, allowing to verify basis with different structures and to increase the methods applied in the analysis of each structure. It favors the comparison between the methodologies and provides more reliable results. To standardize the data originated of distinct bases, the data modelling system was elaborated, which will favor the uniform scalability of the system.
218

Método baseado em rotação e projeção otimizadas para a construção de ensembles de modelos / Ensemble method based on optimized rotation and projection

Ednaldo José Ferreira 31 May 2012 (has links)
O desenvolvimento de novas técnicas capazes de produzir modelos de predição com erros de generalização relativamente baixos é uma constante em aprendizado de máquina e áreas correlatas. Nesse sentido, a composição de um conjunto de modelos no denominado ensemble merece destaque por seu potencial teórico e empírico de minimizar o erro de generalização. Diversos métodos para construção de ensembles de modelos são encontrados na literatura. Dentre esses, o método baseado em rotação (RB) tem apresentado desempenho superior a outros clássicos. O método RB utiliza a técnica de extração de características da análise de componentes principais (PCA) como estratégia de rotação para provocar acurácia e diversidade entre os modelos componentes. Contudo, essa estratégia não assegura que a direção resultante será apropriada para a técnica de aprendizado supervisionado (SLT) escolhida. Adicionalmente, o método RB não é adequado com SLTs invariantes à rotação e não foi amplamente validado com outras estáveis. Esses aspectos tornam-no inadequado e/ou restrito a algumas SLTs. Nesta tese, é proposta uma nova abordagem de extração baseada na concatenação de rotação e projeção otimizadas em prol da SLT (denominada roto-projeção otimizada). A abordagem utiliza uma metaheurística para otimizar os parâmetros da transformação de roto-projeção e minimizar o erro da técnica diretora da otimização. Mais enfaticamente, propõe-se a roto-projeção otimizada como parte fundamental de um novo método de ensembles, denominado ensemble baseado em roto-projeção otimizada (ORPE). Os resultados obtidos mostram que a roto-projeção otimizada pode reduzir a dimensionalidade e a complexidade dos dados e do modelo, além de aumentar o desempenho da SLT utilizada posteriormente. O método ORPE superou, com relevância estatística, o RB e outros com SLTs estáveis e instáveis em bases de classificação e regressão de domínio público e privado. O ORPE mostrou-se irrestrito e altamente eficaz assumindo a primeira posição em todos os ranqueamentos de dominância realizados / The development of new techniques capable of inducing predictive models with low generalization errors has been a constant in machine learning and other related areas. In this context, the composition of an ensemble of models should be highlighted due to its theoretical and empirical potential to minimize the generalization error. Several methods for building ensembles are found in the literature. Among them, the rotation-based (RB) has become known for outperforming other traditional methods. RB method applies the principal components analysis (PCA) for feature extraction as a rotation strategy to provide diversity and accuracy among base models. However, this strategy does not ensure that the resulting direction is appropriate for the supervised learning technique (SLT). Moreover, the RB method is not suitable for rotation-invariant SLTs and also it has not been evaluated with stable ones, which makes RB inappropriate and/or restricted to the use with only some SLTs. This thesis proposes a new approach for feature extraction based on concatenation of rotation and projection optimized for the SLT (called optimized roto-projection). The approach uses a metaheuristic to optimize the parameters from the roto-projection transformation, minimizing the error of the director technique of the optimization process. More emphatically, it is proposed the optimized roto-projection as a fundamental part of a new ensemble method, called optimized roto-projection ensemble (ORPE). The results show that the optimized roto-projection can reduce the dimensionality and the complexities of the data and model. Moreover, optimized roto-projection can increase the performance of the SLT subsequently applied. The ORPE outperformed, with statistical significance, RB and others using stable and unstable SLTs for classification and regression with databases from public and private domains. The ORPE method was unrestricted and highly effective holding the first position in every dominance rankings
219

Mineração de opiniões baseada em aspectos para revisões de produtos e serviços / Aspect-based Opinion Mining for Reviews of Products and Services

Ivone Penque Matsuno Yugoshi 27 April 2018 (has links)
A Mineração de Opiniões é um processo que tem por objetivo extrair as opiniões e suas polaridades de sentimentos expressas em textos em língua natural. Essa área de pesquisa tem ganhado destaque devido ao volume de opiniões que os usuários compartilham na Internet, como revisões em sites de e-commerce, rede sociais e tweets. A Mineração de Opiniões baseada em Aspectos é uma alternativa promissora para analisar a polaridade do sentimento em um maior nível de detalhes. Os métodos tradicionais para extração de aspectos e classificação de sentimentos exigem a participação de especialistas de domínio para criar léxicos ou definir regras de extração para diferentes idiomas e domínios. Além disso, tais métodos usualmente exploram algoritmos de aprendizado supervisionado, porém exigem um grande conjunto de dados rotulados para induzir um modelo de classificação. Os desafios desta tese de doutorado estão relacionados a como diminuir a necessidade de grande esforço humano tanto para rotular dados, quanto para tratar a dependência de domínio para as tarefas de extração de aspectos e classificação de sentimentos dos aspectos para Mineração de Opiniões. Para reduzir a necessidade de grande quantidade de exemplos rotulados foi proposta uma abordagem semissupervisionada, denominada por Aspect-based Sentiment Propagation on Heterogeneous Networks (ASPHN) em que são propostas representações de textos nas quais os atributos linguísticos, os aspectos candidatos e os rótulos de sentimentos são modelados por meio de redes heterogêneas. Para redução dos esforços para construir recursos específicos de domínio foi proposta uma abordagem baseada em aprendizado por transferência entre domínios denominada Cross-Domain Aspect Label Propagation through Heterogeneous Networks (CD-ALPHN) que utiliza dados rotulados de outros domínios para suportar tarefas de aprendizado em domínios sem dados rotulados. Nessa abordagem são propostos uma representação em uma rede heterogênea e um método de propagação de rótulos. Os vértices da rede são os aspectos rotulados do domínio de origem, os atributos linguísticos e os candidatos a aspectos do domínio alvo. Além disso, foram analisados métodos de extração de aspectos e propostas algumas variações para considerar cenários nãosupervisionados e independentes de domínio. As soluções propostas nesta tese de doutorado foram avaliadas e comparadas as do estado-da-arte utilizando coleções de revisões de diferentes produtos e serviços. Os resultados obtidos nas avaliações experimentais são competitivos e demonstram que as soluções propostas são promissoras. / Opinion Mining is a process that aims to extract opinions and their sentiment polarities expressed in natural language texts. This area of research has been in the highlight because of the volume of opinions that users share on the available visualization means on the Internet (reviews on e-commerce sites, social networks, tweets, others). Aspect-based Opinion Mining is a promising alternative for analyzing the sentiment polarity on a high level of detail. The traditional methods for aspect extraction and sentiment classification require the participation of domain experts to create lexicons or define extraction rules for different languages and domains. In addition, such methods usually exploit supervised machine learning algorithms, but require a large set of labeled data to induce a classification model. The challenges of this doctoral thesis are related on to how to reduce the need for great human effort both: (i) to label data; and (ii) to treat domain dependency for the tasks of aspect extraction and aspect sentiment classification for Opinion Mining. In order to reduce the need for a large number of labeled examples, a semi-supervised approach was proposed, called Aspect-based Sentiment Propagation on Heterogeneous Networks (ASPHN). In this approach, text representations are proposed in which linguistic attributes, candidate aspects and sentiment labels are modeled by heterogeneous networks. Also, a cross-domain learning approach called Cross-Domain Aspect Label Propagation through Heterogeneous Networks (CD-ALPHN) is proposed in order to reduce efforts to build domain-specific resources, This approach uses labeled data from other domains to support learning tasks in domains without labeled data. A representation in a heterogeneous network and a label propagation method are proposed in this cross-domain learning approach. The vertices of the network are the labeled aspects of the source domain, the linguistic attributes, and the candidate aspects of the target domain. In addition, aspect extraction methods were analyzed and some variations were proposed to consider unsupervised and domain independent scenarios. The solutions proposed in this doctoral thesis were evaluated and compared to the state-of-the-art solutions using collections of different product and service reviews. The results obtained in the experimental evaluations are competitive and demonstrate that the proposed solutions are promising.
220

[en] DATA SELECTION FOR LVQ / [pt] SELEÇÃO DE DADOS EM LVQ

RODRIGO TOSTA PERES 20 September 2004 (has links)
[pt] Nesta dissertação, propomos uma metodologia para seleção de dados em modelos de Aprendizado por Quantização Vetorial, referenciado amplamente na literatura pela sigla em inglês LVQ. Treinar um modelo (ajuste dentro-daamostra) com um subconjunto selecionado a partir do conjunto de dados disponíveis para o aprendizado pode trazer grandes benefícios no resultado de generalização (fora-da-amostra). Neste sentido, é muito importante realizar uma busca para selecionar dados que, além de serem representativos de suas distribuições originais, não sejam ruído (no sentido definido ao longo desta dissertação). O método proposto procura encontrar os pontos relevantes do conjunto de entrada, tendo como base a correlação do erro de cada ponto com o erro do restante da distribuição. Procura-se, em geral, eliminar considerável parte do ruído mantendo os pontos que são relevantes para o ajuste do modelo (aprendizado). Assim, especificamente em LVQ, a atualização dos protótipos durante o aprendizado é realizada com um subconjunto do conjunto de treinamento originalmente disponível. Experimentos numéricos foram realizados com dados simulados e reais, e os resultados obtidos foram muito interessantes, mostrando claramente a potencialidade do método proposto. / [en] In this dissertation, we consider a methodology for selection of data in models of Learning Vector Quantization (LVQ). The generalization can be improved by using a subgroup selected from the available data set. We search the original distribution to select relevant data that aren't noise. The search aims at relevant points in the training set based on the correlation between the error of each point and the average of error of the remaining data. In general, it is desired to eliminate a considerable part of the noise, keeping the points that are relevant for the learning model. Thus, specifically in LVQ, the method updates the prototypes with a subgroup of the originally available training set. Numerical experiments have been done with simulated and real data. The results were very interesting and clearly indicated the potential of the method.

Page generated in 0.0784 seconds