1 |
[en] A METACLASSIFIER FOR FINDING THE K-CLASSES MOST RELEVANTS / [pt] UM METACLASSIFICADOR PARA ENCONTRAR AS K-CLASSES MAIS RELEVANTESDANIEL DA ROSA MARQUES 19 October 2016 (has links)
[pt] Considere uma rede com k nodos que pode apresentar falhas ao longo de
sua operação. Além disso, assuma que é inviável verificar todos os nodos
sempre que uma falha ocorre. Motivados por este cenário, propomos
um método que usa aprendizado de máquina supervisionado para gerar
rankings dos nodos mais prováveis por serem responsáveis pela falha. O
método proposto é um metaclassificador que pode utilizar qualquer tipo de
classificador internamente, onde o modelo gerado pelo metaclassificador é
uma composição daqueles gerados pelos classificadores internos. Cada modelo
interno é treinado com um subconjunto dos dados. Estes subconjuntos
são criados sucessivamente a partir dos dados originais eliminando-se algumas
instâncias. As instâncias eliminadas são aquelas cujas classes já foram
colocadas no ranking. Métricas derivadas da Acurácia, Precision e Recall
foram propostas e usadas para avaliar este método. Utilizando uma base de
domínio público, verificamos que os tempos de treinamento e classificação
do metaclassificador são maiores que os de um classificador simples. Entretanto
ele atinge resultados melhores em alguns casos, como ocorre com as
árvores de decisão, que superam a acurácia do benchmark por uma margem
maior que 5 por cento. / [en] Consider a network with k nodes that may fail along its operation. Furthermore
assume that it is impossible to check all nodes whenever a failure
occurs. Motivated by this scenario, we propose a method that uses supervised
learning to generate rankings of the most likely nodes responsible for
the failure. The proposed method is a meta-classifier that is able to use any
kind of classifier internally, where the model generated by the meta-classifier
is a composition of those generated by the internal classifiers. Each internal
model is trained with a subset of the data created from the elimination of
instances whose classes were already put in the ranking. Metrics derived
from Accuracy, Precision and Recall were proposed and used to evaluate
this method. Using a public data set, we verified that the training and classification
times of the meta-classifier were greater than those of a simple
classifier. However it reaches better results in some cases, as with the decision
trees, that exceeds the benchmark accuracy for a margin greater than
5 percent.
|
2 |
[en] MORPHOSYNTACTIC TAGGER FOR PORTUGUESE-TWITTER / [pt] ANOTADOR MORFOSSINTÁTICO PARA O PORTUGUES-TWITTERPEDRO LARRONDA ASTI 13 October 2011 (has links)
[pt] Nesta dissertação, apresentamos um processador linguístico que resolve a tarefa
de Anotação morfossintática de mensagens em português postadas no
Twitter. Ao analisar as mensagens escritas por brasileiros no Twitter,
é fácil verificar que novos caracteres são introduzidos no alfabeto e também
que novas palavras são adicionadas ao idioma. Além disso, observamos que
essas mensagens são sintaticamente mal formadas. Isto impossibilita o uso
nessas mensagens de diversos processadores linguísticos existentes para o português. Resolvemos esse problema considerando essas mensagens como escritas
em uma nova língua, o português-twitter. O alfabeto dessa nova língua
contém o alfabeto do português e o seu vocabulário contém o vocabulário da
língua portuguesa. Porém, suas gramáticas são diferentes. Para construir os
processadores desta nova linguagem, utilizamos a técnica de aprendizado supervisionado
denominada Entropy Guided Transformation Learning
(ETL). Adicionalmente, para treinar os processadores ETL, construímos um
corpus anotado de mensagens em português-twitter. Não temos conhecimento
da existência de outros Anotadores Morfossintáticos para o português-twitter.
Porém, sabemos que, no estado-da-arte da Anotação Morfossintática para o
português, a acurácia é de aproximadamente 96%, variando de acordo com
o conjunto de classes escolhido. Construímos o processador composto de dois
estágios, um morfológico e um contextual. Como métrica de avaliação, adotamos
a acurácia, que mede quantos por cento do corpus foi anotado corretamente.
Nossos resultados experimentais apresentam uma acurácia de 90,24%
para o anotador proposto. Isto corresponde a um aprendizado significativo,
pois o sistema inicial tem uma acurácia de apenas 76,58%. Este resultado é
compatível com o aprendizado observado nos correspondentes processadores
na língua portuguesa. / [en] In this paper we present a language processor that solves the task of Morphosyntactic
Tagging of messages posted in Portuguese on Twitter. By analyzing
the messages written by Brazilian on Twitter, it is easy to notice that new
characters are introduced in the alphabet and also that new words are added
to the language. Furthermore, we note that these messages are syntactically
malformed. This precludes the use of existing Portuguese processors in these
messages, nevertheless this problem can be solved by considering these messages
as written in a new language, the Portuguese-Twitter. Both the alphabet
and the vocabulary of such idiom contain features of Portuguese. However, the
grammar is are different. In order to build the processors for this new language,
we have used a supervised learning technique known as Entropy Guided
Transformation Learning (ETL). Additionally, to train ETL processors,
we have built an annotated corpus of messages in Portuguese-Twitter. We are
not aware of any other taggers for the Morphosyntactic Portuguese-Twitter
task, thus we have compared our tagger to the the accuracy of state-of-art
Morphosyntactic Annotation for Portuguese, which has accuracy around 96%
depending on the tag set chosen. To assess the quality of the processor, we have
used accuracy, which measures how many tokens were tagged correctly. Our
experimental results show an accuracy of 90,24% for the proposed Morphosyntatic
Tagger. This corresponds to significant learning, since the initial
baseline system has an accuracy of only 76,58%. This finding is consistent with
the observed learning for the corresponding regular Portuguese taggers.
|
3 |
[en] QUANTUM-INSPIRED LINEAR GENETIC PROGRAMMING / [pt] PROGRAMAÇÃO GENÉTICA LINEAR COM INSPIRAÇÃO QUÂNTICADOUGLAS MOTA DIAS 26 May 2011 (has links)
[pt] A superioridade de desempenho dos algoritmos quânticos, em alguns problemas
específicos, reside no uso direto de fenômenos da mecânica quântica para
realizar operações com dados em computadores quânticos. Esta característica fez
surgir uma nova abordagem, denominada Computação com Inspiração Quântica,
cujo objetivo é criar algoritmos clássicos (executados em computadores clássicos)
que tirem proveito de princípios da mecânica quântica para melhorar seu desempenho.
Neste sentido, alguns algoritmos evolutivos com inspiração quântica tem
sido propostos e aplicados com sucesso em problemas de otimização combinatória
e numérica, apresentando desempenho superior àquele dos algoritmos evolutivos
convencionais, quanto à melhoria da qualidade das soluções e à redução do número
de avaliações necessárias para alcançá-las. Até o presente momento, no entanto,
este novo paradigma de inspiração quântica ainda não havia sido aplicado à Programação
Genética (PG), uma classe de algoritmos evolutivos que visa à síntese automática
de programas de computador. Esta tese propõe, desenvolve e testa um novo
modelo de algoritmo evolutivo com inspiração quântica, denominado Programação
Genética Linear com Inspiração Quântica (PGLIQ), para a evolução de programas
em código de máquina. A Programação Genética Linear é assim denominada
porque cada um dos seus indivíduos é representado por uma lista de instruções (estruturas
lineares), as quais são executadas sequencialmente. As contribuições deste
trabalho são o estudo e a formulação inédita do uso do paradigma da inspiração
quântica na síntese evolutiva de programas de computador. Uma das motivações
para a opção pela evolução de programas em código de máquina é que esta é a
abordagem de PG que, por oferecer a maior velocidade de execução, viabiliza experimentos
em larga escala. O modelo proposto é inspirado em sistemas quânticos
multiníveis e utiliza o qudit como unidade básica de informação quântica, o qual
representa a superposição dos estados de um sistema deste tipo. O funcionamento
do modelo se baseia em indivíduos quânticos, que representam a superposição de
todos os programas do espaço de busca, cuja observação gera indivíduos clássicos
e os programas (soluções). Nos testes são utilizados problemas de regressão simbólica
e de classificação binária para se avaliar o desempenho da PGLIQ e compará-lo
com o do modelo AIMGP (Automatic Induction of Machine Code by Genetic Programming),
considerado atualmente o modelo de PG mais eficiente na evolução de
código de máquina, conforme citado em inúmeras referências bibliográficas na área.
Os resultados mostram que a Programação Genética Linear com Inspiração Quântica
(PGLIQ) apresenta desempenho geral superior nestas classes de problemas, ao
encontrar melhores soluções (menores erros) a partir de um número menor de avaliações,
com a vantagem adicional de utilizar um número menor de parâmetros e
operadores que o modelo de referência. Nos testes comparativos, o modelo mostra
desempenho médio superior ao do modelo de referência para todos os estudos
de caso, obtendo erros de 3 a 31% menores nos problemas de regressão simbólica,
e de 36 a 39% nos problemas de classificação binária. Esta pesquisa conclui que
o paradigma da inspiração quântica pode ser uma abordagem competitiva para se
evoluir programas eficientemente, encorajando o aprimoramento e a extensão do
modelo aqui apresentado, assim como a criação de outros modelos de programação
genética com inspiração quântica. / [en] The superior performance of quantum algorithms in some specific problems
lies in the direct use of quantum mechanics phenomena to perform operations with
data on quantum computers. This feature has originated a new approach, named
Quantum-Inspired Computing, whose goal is to create classic algorithms (running
on classical computers) that take advantage of quantum mechanics principles to
improve their performance. In this sense, some quantum-inspired evolutionary algorithms
have been proposed and successfully applied in combinatorial and numerical
optimization problems, presenting a superior performance to that of conventional
evolutionary algorithms, by improving the quality of solutions and reducing
the number of evaluations needed to achieve them. To date, however, this
new paradigm of quantum inspiration had not yet been applied to Genetic Programming
(GP), a class of evolutionary algorithms that aims the automatic synthesis
of computer programs. This thesis proposes, develops and tests a novel model of
quantum-inspired evolutionary algorithm named Quantum-Inspired Linear Genetic
Programming (QILGP) for the evolution of machine code programs. Linear Genetic
Programming is so named because each of its individuals is represented by a list of
instructions (linear structures), which are sequentially executed. The contributions
of this work are the study and formulation of the novel use of quantum inspiration
paradigm on evolutionary synthesis of computer programs. One of the motivations
for choosing by the evolution of machine code programs is because this is the GP
approach that, by offering the highest speed of execution, makes feasible large-scale
experiments. The proposed model is inspired on multi-level quantum systems and
uses the qudit as the basic unit of quantum information, which represents the superposition
of states of such a system. The model’s operation is based on quantum individuals,
which represent a superposition of all programs of the search space, whose
observation leads to classical individuals and programs (solutions). The tests use
symbolic regression and binary classification problems to evaluate the performance
of QILGP and compare it with the AIMGP model (Automatic Induction of Machine
Code by Genetic Programming), which is currently considered the most efficient GP
model to evolve machine code, as cited in numerous references in this field. The results
show that Quantum-Inspired Linear Genetic Programming (QILGP) presents
superior overall performance in these classes of problems, by achieving better solutions
(smallest error) from a smaller number of evaluations, with the additional
advantage of using a smaller number of parameters and operators that the reference model. In comparative tests, the model shows average performance higher than that
of the reference model for all case studies, achieving errors 3-31% lower in the
problems of symbolic regression, and 36-39% in the binary classification problems.
This research concludes that the quantum inspiration paradigm can be a competitive
approach to efficiently evolve programs, encouraging the improvement and
extension of the model presented here, as well as the creation of other models of
quantum-inspired genetic programming.
|
4 |
[en] MATRIX FACTORIZATION MODELS FOR VIDEO RECOMMENDATION / [pt] MODELOS DE FATORAÇÃO MATRICIAL PARA RECOMENDAÇÃO DE VÍDEOSBRUNO DE FIGUEIREDO MELO E SOUZA 14 March 2012 (has links)
[pt] A recomendação de itens a partir do feedback implícito dos usuários
consiste em identificar padrões no interesse dos usuários por estes itens a partir
de ações dos usuários, tais como cliques, interações ou o consumo de conteúdos
específicos. Isso, de forma a prover sugestões personalizadas que se adéquem ao
gosto destes usuários. Nesta dissertação, avaliamos a performance de alguns
modelos de fatoração matricial otimizados para a tarefa de recomendação a partir
de dados implícitos no consumo das ofertas de vídeos da Globo.com.
Propusemos tratar estes dados de consumo como indicativos de intenção de um
usuário em assistir um vídeo. Além disso, avaliamos como os vieses únicos dos
usuários e vídeos, e sua variação temporal impactam o resultado das
recomendações. Também sugerimos a utilização de um modelo de fatoração
incremental otimizado para este problema, que escala linearmente com o
tamanho da entrada, isto é, com os dados de visualizações e quantidade de
variáveis latentes. Na tarefa de prever a intenção dos usuários em consumir um
conteúdo novo, nosso melhor modelo de fatoração apresenta um RMSE de
0,0524 usando o viés de usuários e vídeos, assim como sua variação temporal. / [en] Item recommendation from implicit feedback datasets consists of
passively tracking different sorts of user behavior, such as purchase history,
watching habits and browsing activities in order to improve customer experience
through providing personalized recommendations that fits into users taste. In this
work we evaluate the performance of different matrix factorization models
tailored for the recommendation task for the implicit feedback dataset extracted
from Globo.com s video site s access logs. We propose treating the data as
indication of a positive preference from a user regarding the video watched.
Besides that we evaluated the impact of effects associated with either users or
items, known as biases or intercepts, independent of any interactions and its time
changing behavior throughout the life span of the data in the result of
recommendations. We also suggest a scalable and incremental procedure, which
scales linearly with the input data size. In trying to predict the intention of the
users for consuming new videos our best factorization models achieves a RMSE
of 0,0524 using user s and video s bias as well as its temporal dynamics.
|
5 |
[en] USING REINFORCEMENT LEARNING ON WEB PAGES REVISITING PROBLEM / [pt] APRENDIZADO POR REFORÇO SOBRE O PROBLEMA DE REVISITAÇÃO DE PÁGINAS WEBEUGENIO PACELLI FERREIRA DIAS JUNIOR 14 June 2012 (has links)
[pt] No ambiente da Internet, as informações que desejamos frequentemente encontram-se em diferentes localidades. Algumas aplicações, para funcionarem corretamente, precisam manter cópias locais de parte dessas informações. Manter a consistência e a atualidade de uma base de dados, mais especificamente um conjunto de cópias de páginas web, é uma tarefa que vem sendo sistematicamente estudada. Uma abordagem possível a esse problema é a aplicação de técnicas de aprendizado por reforço, que utiliza técnicas de programação dinâmica e análise estocástica para obter uma boa política de agendamento de atualizações das cópias de páginas web. O presente trabalho tem por finalidade validar o uso de técnicas de aprendizado por reforço no problema em questão, assim como encontrar aspectos do problema que possam ser úteis na modelagem da solução empregada. / [en] In the Internet, the information we desire is usually spread over different locations. For some applications, it is necessary to maintain local copies of this information. Keeping consistency as well as freshness of a data base, or more specifically a set of internet web pages, is a task systematically studied. An approach to this problem is the use of reinforcement learning techniques, using dynamic programming and stochastic analysis to obtain a good rescheduling policy for the web pages copies. This work is proposed to validate the use of reinforcement learning techniques over this problem, as well as finding features of the problem useful to model the developed solution.
|
6 |
[en] DEVELOPMENT OF A METHODOLOGY FOR TEXT MINING / [pt] DESENVOLVIMENTO DE UMA METODOLOGIA PARA MINERAÇÃO DE TEXTOSJOAO RIBEIRO CARRILHO JUNIOR 20 May 2008 (has links)
[pt] A seguinte dissertação tem como objetivo explorar a
Mineração de Textos através de um estudo amplo e completo
do que atualmente é considerado estado da arte. Esta nova
área, considerada por muitos como uma evolução natural da
Mineração de Dados, é bastante interdisciplinar e vem
obtendo importantes colaborações de estudiosos e
pesquisadores de diversas naturezas, como Lingüística,
Computação, Estatística e Inteligência Artificial.
Entretanto, muito se discute sobre como deve ser um
processo completo de investigação textual, de
forma a tirar máximo proveito das técnicas adotadas nas
mais variadas abordagens. Desta forma, através de um
encadeamento sistemático de procedimentos, pode-se chegar
a
uma conclusão do que seria a metodologia ideal para a
Mineração de Textos, conforme já se chegou para a de
Dados.
O presente trabalho explora um modelo de processo, do
início ao fim, que sugere as seguintes etapas: coleta de
dados, pré-processamento textual, indexação, mineração e
análise. Este sequenciamento é uma tendência encontrada
em
trabalhos recentes, sendo minuciosamente discutido nos
capítulos desta dissertação. Finalmente, a fim de se
obter
enriquecimento prático, foi desenvolvido um sistema de
Mineração de Textos que possibilitou a apresentação de
resultados reais, obtidos a partir da aplicação de
algoritmos em documentos de natureza geral. / [en] The following essay is intended to explore the area of Text
Mining, through an extensive and comprehensive study of
what is currently considered state of the
art. This new area, considered by many as a natural
evolution of the Data Mining, is quite interdisciplinary.
Several scholars and researchers from fields like
linguistics and computing, for instance, have contributed
for its development. Nevertheless, much has been discussed
on how complete dossier of textual investigation must be
carried out, in order to take maximum advantage of the
techniques adopted in various approaches. Thus, through a
systematic sequence of procedures, one can come to a
conclusion of what would be the ideal method for
the Mining of documents, as one has come about Data. This
work explores a model of process which suggests the
following steps: collecting data, textual preprocessing,
indexing, mining and analysis. This sequence is a tendency
followed in some recent works and it is thoroughly
discussed in the chapters to come. Finally, in order to
obtain a practical enrichment, one developed a system of
Mining of documents with which became possible the
presentation of results, obtained from the application of
algorithms in documents of a general nature.
|
7 |
[en] TRANSITIONBASED DEPENDENCY PARSING APPLIED ON UNIVERSAL DEPENDENCIES / [pt] ANÁLISE DE DEPENDÊNCIA BASEADA EM TRANSIÇÃO APLICADA A UNIVERSAL DEPENDENCIESCESAR DE SOUZA BOUCAS 11 February 2019 (has links)
[pt] Análise de dependência consiste em obter uma estrutura sintática
correspondente a determinado texto da linguagem natural. Tal estrutura,
usualmente uma árvore de dependência, representa relações hierárquicas
entre palavras. Representação computacionalmente eficiente que vem sendo
utilizada para lidar com desafios que surgem com o crescente volume de
informação textual online. Podendo ser utilizada, por exemplo, para inferir
computacionalmente o significado de palavras das mais diversas línguas.
Este trabalho apresenta a análise de dependência com enfoque em uma de
suas modelagens mais populares em aprendizado de máquina: o método
baseado em transição. Desenvolvemos uma implementação gulosa deste
modelo com um classificador neural simples para executar experimentos.
Datasets da iniciativa Universal Dependencies são utilizados para treinar e
posteriormente testar o sistema com a validação disponibilizada na tarefa
compartilhada da CoNLL-2017. Os resultados mostram empiricamente que
se pode obter ganho de performance inicializando a camada de entrada
da rede neural com uma representação de palavras obtida com pré-treino.
Chegando a uma performance de 84,51 LAS no conjunto de teste da
língua portuguesa do Brasil e 75,19 LAS no conjunto da língua inglesa.
Ficando cerca de 4 pontos atrás da performance do melhor resultado para
analisadores de dependência baseados em sistemas de transição. / [en] Dependency parsing is the task that transforms a sentence into a
syntactic structure, usually a dependency tree, that represents relations
between words. This representations are useful to deal with several tasks
that arises with the increasing volume of textual online information and
the need for technologies that depends on NLP tasks to work. It can be
used, for example, to enable computers to infer the meaning of words
of multiple natural languages. This paper presents dependency parsing
with focus on one of its most popular modeling in machine learning: the
transition-based method. A greedy implementation of this model with
a simple neural network-based classifier is used to perform experiments.
Universal Dependencies treebanks are used to train and then test the system
using the validation script published in the CoNLL-2017 shared task. The
results empirically indicate the benefits of initializing the input layer of the
network with word embeddings obtained through pre-training. It reached
84.51 LAS in the Portuguese of Brazil test set and 75.19 LAS in the English
test set. This result is nearly 4 points behind the performance of the best
results of transition-based parsers.
|
8 |
[pt] CLASSIFICAÇÃO DE SENTIMENTO PARA NOTÍCIAS SOBRE A PETROBRAS NO MERCADO FINANCEIRO / [en] SENTIMENT ANALYSIS FOR FINANCIAL NEWS ABOUT PETROBRAS COMPANYPAULA DE CASTRO SONNENFELD VILELA 21 December 2011 (has links)
[pt] Hoje em dia, encontramos uma grande quantidade de informações na internet,
em particular, notícias sobre o mercado financeiro. Diversas pesquisas
mostram que notícias sobre o mercado financeiro possuem uma grande relação com variáveis de mercado como volume de transações, volatilidade e preço
das ações. Nesse trabalho, investigamos o problema de Análise de Sentimentos
de notícias jornalísticas do mercado financeiro. Nosso objetivo é classificar
notícias como favoráveis ou não a Petrobras. Utilizamos técnicas de Processamento
de Linguagem Natural para melhorar a acurácia do modelo clássico de
saco-de-palavras. Filtramos frases sobre a Petrobras e inserimos novos atributos
linguísticos, tanto sintáticos como estilísticos. Para a classifição do sentimento
é utilizado o algoritmo de aprendizado Support Vector Machine, sendo
aplicados ainda quatro seletores de atributos e um comitê dos melhores modelos.
Apresentamos aqui o Petronews, um corpus com notícias em português
sobre a Petrobras, anotado manualmente com a informação de sentimento.
Esse corpus é composto de mil e cinquenta notícias online de 02/06/2006 a
29/01/2010. Nossos experimentos mostram uma melhora de 5.29 por cento
com relação ao modelo saco-de-palavras, atingindo uma acurácia de 87.14 por cento. / [en] A huge amount of information is available online, in particular regarding
financial news. Current research indicate that stock news have a strong
correlation to market variables such as trade volumes, volatility, stock prices
and firm earnings. Here, we investigate a Sentiment Analysis problem for
financial news. Our goal is to classify financial news as favorable or unfavorable
to Petrobras, an oil and gas company with stocks in the Stock Exchange
market. We explore Natural Language Processing techniques in a way to
improve the sentiment classification accuracy of a classical bag of words
approach. We filter on topic phrases for each Petrobras related news and build
syntactic and stylistic input features. For sentiment classification, Support
Vector Machines algorithm is used. Moreover we apply four feature selection
methods and build a committee of SVM models. Additionally, we introduce
Petronews, a Portuguese financial news annotated corpus about Petrobras.
It is composed by a collection of one thousand and fifty online financial news
from 06/02/2006 to 01/29/2010. Our experiments indicate that our method
is 5.29 per cent better than a standard bag-of-words approach, reaching 87.14 per cent
accuracy rate for this domain.
|
9 |
[en] AN AGENT-BASED SOFTWARE FRAMEWORK FOR MACHINE LEARNING TUNING / [pt] UM FRAMEWORK BASEADO EM AGENTES PARA A CALIBRAGEM DE MODELOS DE APRENDIZADO DE MÁQUINAJEFRY SASTRE PEREZ 23 November 2018 (has links)
[pt] Hoje em dia, a enorme quantidade de dados disponíveis online apresenta um novo desafio para os processos de descoberta de conhecimento. As abordagens mais utilizadas para enfrentar esse desafio são baseadas em técnicas de aprendizado de máquina. Apesar de serem muito poderosas, essas técnicas exigem que seus parâmetros sejam calibrados para gerar modelos com melhor qualidade. Esses processos de calibração são demorados e dependem das habilidades dos especialistas da área de aprendizado de máquinas. Neste contexto, esta pesquisa apresenta uma estrutura baseada em agentes de software para automatizar a calibração de modelos de aprendizagem de máquinas. Esta abordagem integra conceitos de Engenharia de Software Orientada a Agentes (AOSE) e Aprendizado de Máquinas (ML). Como prova de conceito, foi utilizado o conjunto de dados Iris para mostrar como nossa abordagem melhora a qualidade dos novos modelos gerados por nosso framework. Além disso, o framework foi instanciado para um dataset de imagens médicas e finalmente foi feito um experimento usando o dataset Grid Sector. / [en] Nowadays, the challenge of knowledge discovery is to mine massive amounts of data available online. The most widely used approaches to tackle that challenge are based on machine learning techniques. In spite of being very powerful, those techniques require their parameters to be calibrated in order to generate models with better quality. Such calibration processes are time-consuming and rely on the skills of machine learning experts. Within this context, this research presents a framework based on software agents for automating the calibration of machine learning models. This approach integrates concepts from Agent Oriented Software Engineering (AOSE) and Machine Learning (ML). As a proof of concept, we first train a model for the Iris dataset and then we show how our approach improves the quality of new models generated by our framework. Then, we create instances of the framework to generate models for a medical images dataset and finally we use the Grid Sector dataset for a final experiment.
|
10 |
[en] A COMPARATIVE STUDY OF WEB PAGE CLASSIFICATION STRATEGIES / [pt] ESTUDO COMPARATIVO DE ESTRATÉGIAS DE CLASSIFICAÇÃO DE PÁGINAS WEBTHORAN ARAGUEZ RODRIGUES 20 July 2009 (has links)
[pt] A quantidade de informações na Internet aumenta a cada dia. Embora esta
proliferação aumente as chances de que o tema sendo buscado por um usuário
esteja presente na rede, ela também torna encontrar a informação desejada mais
difícil. A classificação automática de páginas é, portanto, uma importante
ferramenta na organização de conteúdo da Web, com aplicações específicas na
melhoria dos resultados retornados por máquinas de busca. Nesta dissertação foi
realizado um estudo comparativo de diferentes conjuntos de atributos e métodos
de classificação aplicados ao problema da classificação funcional de páginas web,
com foco em 4 classes: Blogs, Blog Posts, Portais de Notícias e Notícias. Ao
longo dos experimentos, foi possível constatar que a melhor abordagem para esta
tarefa é a utilização de atributos tanto da estrutura quanto do texto das páginas.
Foi apresentada também uma estratégia nova de construção de conjuntos de
atributos de texto, que leva em consideração os diferentes estilos de escrita das
classes de páginas. / [en] The amount of information on the Internet increases every day. Even though
this proliferation increases the chances that the subject being searched for by an
user is on the Web, it also makes finding the desired information much harder.
The automated classification of pages is, therefore, an important tool for
organizing Web content, with specific applications on the improvement of results
displayed by search engines. In this dissertation, a comparative study of different
attribute sets and classification methods for the functional classification of web
pages was made, focusing on 4 classes: Blogs, Blog Posts, News Portals and
News. Throughout the experiments, it became evident the best approach for this
task is to employ attributes that come both from the structure and the text of the
web pages. We also presented a new strategy for extracting and building text
attribute sets, that takes into account the different writing styles for each page
class.
|
Page generated in 0.0274 seconds