161 |
[pt] ACELERANDO A ELICITAÇÃO DE REQUISITOS NÃO FUNCIONAIS / [en] SPEEDING UP NON FUNCTIONAL REQUIREMENTS ELICITATIONROXANA LISETTE QUINTANILLA PORTUGAL 14 August 2020 (has links)
[pt] Considerando a disponibilidade do Big Data para engenharia de software, como no caso do GitHub, a semi-automação da elicitação de requisitos não funcionais (NFRs) é uma estratégia fundamental para a definição de requisitos. Como tal, a elicitação de NFRs, dentro da automação da leitura de documentos, pode gerenciar a massa de informações valiosas existentes nos dados disponíveis. Esta tese explora esse contexto em três partes, a escolha de fontes apropriadas de informação, uma elicitação de descoberta de fatos e a identificação de NFRs. As avaliações realizadas mostraram que a automação enfrenta um balance entre eficiência e eficácia. Esse equilíbrio é detalhado com diferentes estratégias inovadoras. O conhecimento adquirido é organizado como um catálogo SIG (Softgoal Interdependence Graph). / [en] Considering the availability of Big Data for software engineering, as the case of GitHub, the semi-automation of non-functional requirements (NFRs) elicitation is a key strategy towards requirements definition. As such, NFRs elicitation, within the automation of document reading, can manage the mass of valuable information existing in available data. This thesis explores this context in three parts, the choice of proper sources of information, a fact-finding elicitation, and NFRs identification. The assessments performed showed that the automation faces a trade-off between efficiency and efficacy. This trade-off is detailed with different novel strategies. The acquired knowledge is organized as a SIG (Softgoal Interdependence Graph) catalog.
|
162 |
[en] ON THE PROCESSING OF COURSE SURVEY COMMENTS IN HIGHER EDUCATION INSTITUTIONS / [pt] PROCESSAMENTO DE COMENTÁRIOS DE PESQUISAS DE CURSOS EM INSTITUIÇÕES DE ENSINO SUPERIORHAYDÉE GUILLOT JIMÉNEZ 10 January 2022 (has links)
[pt] A avaliação sistemática de uma Instituição de Ensino Superior (IES) fornece à sua administração um feedback valioso sobre vários aspectos da vida acadêmica, como a reputação da instituição e o desempenho individual do corpo docente. Em particular, as pesquisas com alunos são uma fonte de informação de primeira mão que ajuda a avaliar o desempenho do professor e a adequação do curso. Os objetivos principais desta tese são criar e avaliar modelos de análise de sentimento dos comentários dos alunos e estratégias para resumir os comentários dos alunos. A tese primeiro descreve duas abordagens
para classificar a polaridade dos comentários dos alunos, ou seja, se eles são positivos, negativos ou neutros. A primeira abordagem depende de um dicionário criado manualmente que lista os termos que representam o sentimento a ser detectado nos comentários dos alunos. A segunda abordagem adota um
modelo de representação de linguagem, que não depende de um dicionário criado manualmente, mas requer algum conjunto de teste anotado manualmente. Os resultados indicaram que a primeira abordagem superou uma ferramenta de linha de base e que a segunda abordagem obteve um desempenho muito
bom, mesmo quando o conjunto de comentários anotados manualmente é pequeno.
A tese então explora várias estratégias para resumir um conjunto de comentários com interpretações semelhantes. O desafio está em resumir um conjunto de pequenas frases, escritas por pessoas diferentes, que podem transmitir ideias repetidas. Como estratégias, a tese testou Market Basket Analysis,
Topic Models, Text Similarity, TextRank e Entailment, adotando um método de inspeção humana para avaliar os resultados obtidos, uma vez que as métricas tradicionais de sumarização de textos se mostraram inadequadas. Os resultados sugerem que o agrupamento combinado com a estratégia baseada
em centróide atinge os melhores resultados. / [en] The systematic evaluation of a Higher Education Institution (HEI) provides its administration with valuable feedback about several aspects of academic life, such as the reputation of the institution and the individual performance of teachers. In particular, student surveys are a first-hand source of information that help assess teacher performance and course adequacy. The primary goals of this thesis are to create and evaluate sentiment analysis models of students comments, and strategies to summarize students comments. The thesis first describes two approaches to classify the polarity of students comments, that is, whether they are positive, negative, or neutral. The first approach depends on a manually created dictionary that lists terms that represent the sentiment to be detected in the students comments. The second approach adopts a language representation model, which does not depend on a manually created dictionary, but requires some manually annotated test set. The results indicated that the first approach outperformed a baseline tool, and that the second approach achieved very good performance, even when the set of manually annotated comments is small. The thesis then explores several strategies to summarize a set of comments with similar interpretations. The challenge lies in summarizing a set of small sentences, written by different people, which may convey repeated ideas. As strategies, the thesis tested Market
Basket Analysis, Topic Models, Text Similarity, TextRank, and Entailment, adopting a human inspection method to evaluate the results obtained, since traditional text summarization metrics proved inadequate. The results suggest that clustering combined with the centroid-based strategy achieves the best
results.
|
163 |
[en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION / [pt] UM FRAMEWORK BASEADO EM MODELO PARA CLUSTERIZAÇÃO SEMISSUPERVISIONADA E DETECÇÃO DE COMUNIDADESDANIEL LEMES GRIBEL 09 September 2021 (has links)
[pt] Em clusterização baseada em modelos, o objetivo é separar amostras de
dados em grupos significativos, otimizando a aderência dos dados observados a
um modelo matemático. A recente adoção de clusterização baseada em modelos
tem permitido a profissionais e usuários mapearem padrões complexos nos
dados e explorarem uma ampla variedade de aplicações. Esta tese investiga
abordagens orientadas a modelos para detecção de comunidades e para o estudo
de clusterização semissupervisionada, adotando uma perspectiva baseada em
máxima verossimilhança. Focamos primeiramente na exploração de técnicas
de otimização com restrições para apresentar um novo modelo de detecção de
comunidades por meio de modelos de blocos estocásticos (SBMs). Mostramos
que a formulação com restrições revela comunidades estruturalmente diferentes
daquelas obtidas com modelos clássicos. Em seguida, estudamos um cenário
onde anotações imprecisas são fornecidas na forma de relações must-link e
cannot-link, e propomos um modelo de clusterização semissupervisionado.
Nossa análise experimental mostra que a incorporação de supervisão parcial
e de conhecimento prévio melhoram significativamente os agrupamentos. Por
fim, examinamos o problema de clusterização semissupervisionada na presença
de rótulos de classe não confiáveis. Investigamos o caso em que grupos de
anotadores deliberadamente classificam incorretamente as amostras de dados
e propomos um modelo para lidar com tais anotações incorretas. / [en] In model-based clustering, we aim to separate data samples into meaningful
groups by optimizing the fit of some observed data to a mathematical model.
The recent adoption of model-based clustering has allowed practitioners to
model complex patterns in data and explore a wide range of applications. This thesis investigates model-driven approaches for community detection and semisupervised clustering by adopting a maximum-likelihood perspective. We first focus on exploiting constrained optimization techniques to present a new model for community detection with stochastic block models (SBMs). We show that the proposed constrained formulation reveals communities structurally different from those obtained with classical community detection models. We then study a setting where inaccurate annotations are provided as must-link and cannot-link relations, and propose a novel semi-supervised clustering model.
Our experimental analysis shows that incorporating partial supervision and
appropriately encoding prior user knowledge significantly enhance clustering performance. Finally, we examine the problem of semi-supervised clustering in the presence of unreliable class labels. We focus on the case where groups of untrustworthy annotators deliberately misclassify data samples and propose a model to handle such incorrect statements.
|
164 |
[pt] DIFERENCIAÇÕES DE GÊNERO NA CARACTERIZAÇÃO DE PERSONAGENS: UMA PROPOSTA METODOLÓGICA E PRIMEIROS RESULTADOS / [en] GENDER REPRESENTATIONS ON CHARACTERS DESCRIPTION: A METHODOLOGICAL PROPOSAL AND EARLY RESULTSFLAVIA MARTINS DA ROSA P DA SILVA 10 August 2021 (has links)
[pt] Este trabalho apresenta uma metodologia que propõe a combinação de dados
quantitativos e distanciados com a leitura mais detalhada e aproximada em análises
de discurso, oferecendo a oportunidade de novos olhares sobre os dados e diversas
perspectivas de análise. A metodologia faz uso de recursos dos estudos linguísticos
com corpus, tais como listas de frequência, preferência, categorização e leitura de
linhas de concordância. Demonstra-se sua aplicação, tomando-se como objeto de
exploração obras da literatura brasileira em domínio público compiladas em um
corpus com cerca de 5 milhões de palavras, anotado semântica e
morfossintaticamente, e utilizam-se ferramentas computacionais que permitem
buscas com base em padrões léxico-sintáticos da língua portuguesa. O objetivo é
identificar como as personagens masculinas e femininas são caracterizadas nos
textos, possibilitando tanto elaborar uma visão geral de como mulheres e homens
são construídos através da linguagem. O estudo se dá em duas frentes: observando
os predicadores na descrição das personagens e as ações são desempenhadas por elas, fazendo distinção entre masculinas e femininas, comparando-as e analisando as diferenças de forma crítica. / [en] This work presents a methodology that proposes the combination of
quantitative and distant-read data with detailed, closer reading in discourse
analysis, enabling new possible views over data and diverse perspectives of
analysis. This methodology makes use of resources most used in corpus-based
linguistic, such as frequency lists, preferences, categorization, and reading
concordance lines. Its application is demonstrated using as exploration object
Brazilian literature titles in the public domain, compiled in a corpus with
approximately 5 million words, semantically and morpho-syntactically
annotated, and by using computational tools that enable searches based on
lexical-syntactic patterns of the Portuguese language. The purpose is to identify
how the male and female characters are portrayed in those texts, enabling the
creation of a general view on how women and men are built through language.
The study happens in two fronts: by observing the predicates used on describing
characters and the actions these characters take, comparing the male and female
results and analyzing them in a critical way.
|
165 |
[pt] MODELOS NEURO-FUZZY HIERÁRQUICO BSP PARA CLASSIFICAÇÃO DE PADRÕES E EXTRAÇÃO DE REGRAS FUZZY EM BANCO DE DADOS. / [es] MODELOS NEURO-FUZZY JERÁRQUICO BSP PARA CLASIFICACIÓN DE PADRONES Y EXTRACCIÓN DE REGLAS FUZZY EN BASES DE DATOS / [en] NEURAL-FUZZY HIERARCHICAL MODELS FOR PATTERN CLASSIFICATION AND FUZZY RULE EXTRACTION FROM DATABASESLAERCIO BRITO GONCALVES 08 March 2001 (has links)
[pt] Esta dissertação investiga a utilização de sistemas Neuro-
Fuzzy Hierárquicos BSP (Binary Space Partitioning) para
classificação de padrões e para extração de regras fuzzy em
bases de dados. O objetivo do trabalho foi criar modelos
específicos para classificação de registros a partir do
modelo Neuro-Fuzzy Hierárquico BSP que é capaz de gerar sua
própria estrutura automaticamente e extrair regras fuzzy,
lingüisticamente interpretáveis, que explicam a estrutura
dos dados. O princípio da tarefa de classificação de
padrões é descobrir relacionamentos entre os dados com a
intenção de prever a classe de um padrão desconhecido.
O trabalho consistiu fundamentalmente de quatro partes: um
estudo sobre os principais métodos de classificação de
padrões; análise do sistema Neuro-Fuzzy Hierárquico BSP
(NFHB) original na tarefa de classificação; definição e
implementação de dois sistemas NFHB específicos para
classificação de padrões; e o estudo de casos.
No estudo sobre os métodos de classificação foi feito um
levantamento bibliográfico da área, resultando em um
"survey" onde foram apresentadas as principais técnicas
utilizadas para esta tarefa. Entre as principais técnicas
destacaram-se: os métodos estatísticos, algoritmos
genéticos, árvores de decisão fuzzy, redes neurais, e os
sistemas neuro-fuzzy.
Na análise do sistema NFHB na classificação de dados levou-
se em consideração as peculiaridades do modelo, que possui:
aprendizado da estrutura, particionamento recursivo do
espaço de entrada, aceita maior número de entradas que os
outros sistemas neuro-fuzzy, além de regras fuzzy
recursivas. O sistema NFHB, entretanto, não é um modelo
exatamente desenvolvido para classificação de padrões. O
modelo NFHB original possui apenas uma saída e para utilizá-
lo como um classificador é necessário criar um critério de
faixa de valores (janelas) para representar as classes.
Assim sendo, decidiu-se criar novos modelos que suprissem
essa deficiência.
Foram definidos dois novos sistemas NFHB para classificação
de padrões: NFHB-Invertido e NFHB-Class. O primeiro utiliza
a arquitetura do modelo NFHB original no aprendizado e em
seguida a inversão da mesma para a validação dos
resultados. A inversão do sistema consistiu de um meio de
adaptar o novo sistema à tarefa específica de
classificação, pois passou-se a ter o número de saídas do
sistema igual ao número de classes ao invés do critério de
faixa de valores utilizado no modelo NFHB original. Já o
sistema NFHB-Class utilizou, tanto para a fase de
aprendizado, quanto para a fase de validação, o modelo NFHB
original invertido. Ambos os sistemas criados possuem o
número de saídas igual ao número de classes dos padrões, o
que representou um grande diferencial em relação ao modelo
NFHB original. Além do objetivo de classificação de
padrões, o sistema NFHB-Class foi capaz de
extrair conhecimento em forma de regras fuzzy
interpretáveis. Essas regras são expressas da seguinte
maneira: SE x é A e y é B então padrão pertence à classe Z.
Realizou-se um amplo estudo de casos, abrangendo diversas
bases de dados Benchmark para a tarefa de classificação,
tais como: Iris Dataset, Wine Data, Pima Indians Diabetes
Database, Bupa Liver Disorders e Heart Disease, e foram
feitas comparações com diversos modelos e algoritmos de
classificação de padrões.
Os resultados encontrados com os modelos NFHB-Invertido e
NFHB-Class mostraram-se, na maioria dos casos, superiores
ou iguais aos melhores resultados encontrados pelos outros
modelos e algoritmos aos quais foram comparados.O
desempenho dos modelos NFHB-Invertido e NFHB-Class em
relação ao tempo de processamento também se mostrou muito
bom. Para todas as bases de dados descritas no estudo de
casos (capítulo 8), os modelos convergiram para uma ótima
solução de classificação, além da extração das regras
fuzzy, em / [en] This dissertation investigates the use of Neuro-Fuzzy
Hierarchical BSP (Binary Space
Partitioning) systems for pattern classification and
extraction of fuzzy rules in databases. The
objective of this work was to create specific models for
the classification of registers based on
the Neuro-Fuzzy BSP model that is able to create its
structure automatically and to extract
linguistic rules that explain the data structure. The task
of pattern classification is to find
relationships between data with the intention of
forecasting the class of an unknown pattern.
The work consisted of four parts: study about the main
methods of the pattern
classification; evaluation of the original Neuro-Fuzzy
Hierarchical BSP system (NFHB) in
pattern classification; definition and implementation of
two NFHB systems dedicated to
pattern classification; and case studies.
The study about classification methods resulted in a survey
on the area, where the
main techniques used for pattern classification are
described. The main techniques are:
statistic methods, genetic algorithms, decision trees,
neural networks, and neuro-fuzzy
systems.
The evaluation of the NFHB system in pattern classification
took in to consideration
the particularities of the model which has: ability to
create its own structure; recursive space
partitioning; ability to deal with more inputs than other
neuro-fuzzy system; and recursive
fuzzy rules. The original NFHB system, however, is unsuited
for pattern classification. The
original NFHB model has only one output and its use in
classification problems makes it
necessary to create a criterion of band value (windows) in
order to represent the classes.
Therefore, it was decided to create new models that could
overcome this deficiency.
Two new NFHB systems were developed for pattern
classification: NFHB-Invertido
and NFHB-Class. The first one creates its structure using
the same learning algorithm of the
original NFHB system. After the structure has been created,
it is inverted (see chapter 5) for
the generalization process. The inversion of the structure
provides the system with the number
of outputs equal to the number of classes in the database.
The second system, the NFHB-Class
uses an inverted version of the original basic NFHB cell in
both phases, learning and
validation. Both systems proposed have the number of
outputs equal to the number of the
pattern classes, what means a great differential in
relation to the original NFHB model.
Besides the pattern classification objective, the NFHB-
Class system was able to extract
knowledge in form of interpretable fuzzy rules. These rules
are expressed by this way: If x is
A and y is B then the pattern belongs to Z class.
The two models developed have been tested in many case
studies, including
Benchmark databases for classification task, such as: Iris
Dataset, Wine Data, Pima Indians
Diabetes Database, Bupa Liver Disorders and Heart Disease,
where comparison has been
made with several traditional models and algorithms of
pattern classification.
The results found with NFHB-Invertido and NFHB-Class
models, in all cases, showed
to be superior or equal to the best results found by the
others models and algorithms for
pattern classification. The performance of the NFHB-
Invertido and NFHB-Class models in
terms of time-processing were also very good. For all
databases described in the case studies
(chapter 8), the models converged to an optimal
classification solution, besides the fuzzy rules
extraction, in a time-processing inferior to a minute. / [es] Esta disertación investiga el uso de sistemas Neuro- Fuzzy
Herárquicos BSP (Binary Space Partitioning) en problemas de
clasificación de padrones y de extracción de reglas fuzzy
en bases de datos. El objetivo de este trabajo fue crear
modelos específicos para clasificación de registros a
partir del modelo Neuro-Fuzzy Jerárquico BSP que es capaz
de generar automáticamente su propia extructura y extraer
reglas fuzzy, lingüisticamente interpretables, que explican
la extructura de los datos. El principio de la
clasificación de padrones es descubrir relaciones entre los
datos con la intención de prever la clase de un padrón
desconocido. El trabajo está constituido por cuatro partes:
un estudio sobre los principales métodos de clasificación
de padrones; análisis del sistema Neuro-Fuzzy Jerárquico
BSP (NFHB) original en la clasificación; definición e
implementación de dos sistemas NFHB específicos para
clasificación de padrones; y el estudio de casos. En el
estudio de los métodos de clasificación se realizó un
levatamiento bibliográfico, creando un "survey" donde se
presentan las principales técnicas utilizadas. Entre las
principales técnicas se destacan: los métodos estadísticos,
algoritmos genéticos, árboles de decisión fuzzy, redes
neurales, y los sistemas neuro-fuzzy. En el análisis del
sistema NFHB para clasificación de datos se tuvieron en
cuenta las peculiaridades del modelo, que posee :
aprendizaje de la extructura, particionamiento recursivo
del espacio de entrada, acepta mayor número de entradas que
los otros sistemas neuro-fuzzy, además de reglas fuzzy
recursivas. El sistema NFHB, sin embargo, no es un modelo
exactamente desarrollado para clasificación de padrones. El
modelo NFHB original posee apenas una salida y para
utilizarlo conmo un clasificador fue necesario crear un
criterio de intervalos de valores (ventanas) para
representar las clases. Así, se decidió crear nuevos
modelos que supriman esta deficiencia. Se definieron dos
nuevos sistemas NFHB para clasificación de padrones: NFHB-
Invertido y NFHB-Clas. El primero utiliza la arquitectura
del modelo NFHB original en el aprendizaje y en seguida la
inversión de la arquitectura para la validación de los
resultados. La inversión del sistema es un medio para
adaptar el nuevo sistema, específicamente a la
clasificación, ya que el sistema pasó a tener número de
salidas igual al número de clases, al contrario del
criterio de intervalo de valores utilizado en el modelo
NFHB original. En el sistema NFHB-Clas se utilizó, tanto
para la fase de aprendizajeo, cuanto para la fase de
validación, el modelo NFHB original invertido. Ambos
sistemas poseen el número de salidas igual al número de
clases de los padrones, lo que representa una gran
diferencia en relación al modelo NFHB original. Además del
objetivo de clasificación de padrones, el sistema NFHB-Clas
fue capaz de extraer conocimento en forma de reglas fuzzy
interpretables. Esas reglas se expresan de la siguiente
manera: Si x es A e y es B entonces el padrón pertenece a
la clase Z. Se realizó un amplio estudio de casos,
utilizando diversas bases de datos Benchmark para la
clasificación, tales como: Iris Dataset, Wine Data, Pima
Indians Diabetes Database, Bupa Liver Disorders y Heart
Disease. Los resultados se compararon con diversos modelos
y algoritmos de clasificación de padrones. Los resultados
encontrados con los modelos NFHB-Invertido y NFHB-Clas se
mostraron, en la mayoría de los casos, superiores o iguales
a los mejores resultados encontrados por los otros modelos
y algoritmos con los cuales fueron comparados. El desempeño
de los modelos NFHB-Invertido y NFHB-Clas en relación al
tiempo de procesamiento tambiém se mostró muy bien. Para
todas las bases de datos descritas en el estudio de casos
(capítulo 8), los modelos convergieron para una solución
óptima, además de la extracción de las reglas fuzzy, con
tiemp
|
166 |
[pt] GERAÇÃO DE DESCRIÇÕES DE PRODUTOS A PARTIR DE AVALIAÇÕES DE USUÁRIOS USANDO UM LLM / [en] PRODUCT DESCRIPTION GENERATION FROM USER REVIEWS USING A LLMBRUNO FREDERICO MACIEL GUTIERREZ 04 June 2024 (has links)
[pt] No contexto de comércio eletrônico, descrições de produtos exercem
grande influência na experiência de compra. Descrições bem feitas devem
idealmente informar um potencial consumidor sobre detalhes relevantes do
produto, esclarecendo potenciais dúvidas e facilitando a compra. Gerar boas
descrições, entretanto, é uma atividade custosa, que tradicionalmente exige
esforço humano. Ao mesmo tempo, existe uma grande quantidade de produtos
sendo lançados a cada dia. Nesse contexto, este trabalho apresenta uma nova
metodologia para a geração automatizada de descrições de produtos, usando
as avaliações deixadas por usuários como fonte de informações. O método
proposto é composto por três etapas: (i) a extração de sentenças adequadas
para uma descrição a partir das avaliações (ii) a seleção de sentenças dentre
as candidatas (iii) a geração da descrição de produto a partir das sentenças
selecionadas usando um Large Language Model (LLM) de forma zero-shot.
Avaliamos a qualidade das descrições geradas pelo nosso método comparando-as com descrições de produto reais postadas pelos próprios anunciantes. Nessa
avaliação, contamos com a colaboração de 30 avaliadores, e verificamos que
nossas descrições são preferidas mais vezes do que as descrições originais,
sendo consideradas mais informativas, legíveis e relevantes. Além disso, nessa
mesma avaliação replicamos um método da literatura recente e executamos
um teste estatístico comparando seus resultados com o nosso método, e dessa
comparação verificamos que nosso método gera descrições mais informativas e
preferidas no geral. / [en] In the context of e-commerce, product descriptions have a great influence on the shopping experience. Well-made descriptions should ideally inform a potential consumer about relevant product details, clarifying potential doubt sand facilitating the purchase. Generating good descriptions, however, is a costly activity, which traditionally requires human effort. At the same time, there are a large number of products being launched every day. In this context, this work presents a new methodology for the automated generation of product descriptions, using reviews left by users as a source of information. The proposed method consists of three steps: (i) the extraction of suitable sentences for a description from the reviews (ii) the selection of sentences among the candidates (iii) the generation of the product description from the selected sentences using a Large Language Model (LLM) in a zero-shot way. We evaluate the quality of descriptions generated by our method by comparing them to real product descriptions posted by sellers themselves. In this evaluation, we had the collaboration of 30 evaluators, and we verified that our descriptions are preferred more often than the original descriptions, being considered more informative, readable and relevant. Furthermore, in this same evaluation we replicated a method from recent literature and performed a statistical test comparing its results with our method, and from this comparison we verified that our method generates more informative and preferred descriptions overall.
|
167 |
[en] DATA MINING APPLIED TO DIRECT MARKETING AND MARKET SEGMENTATION / [es] MINERACIÓN DE DATOS PARA LA SOLUCIÓN DE PROBLEMAS DE MARKETING DIRECTO Y SEGMENTACIÓN DE MERCADO / [pt] MINERAÇÃO DE DADOS APLICADA NA SOLUÇÃO DE PROBLEMAS DE MARKETING DIRETO E SEGMENTAÇÃO DE MERCADOHUGO LEONARDO COSTA DE AZEVEDO 28 August 2001 (has links)
[pt] Devido à quantidade cada vez maior de dados armazenada
pelas instituições, a área de mineração de dados tem se
tornado cada vez mais relevante e vários métodos e métodos
têm sido propostos de maneira a aumentar sua aplicabilidade
e desempenho. Esta dissertação investiga o uso de diversos
métodos e técnicas de mineração de dados na modelagem e
solução de problemas de Marketing. O objetivo do trabalho
foi fazer um levantamento de alguns métodos e técnicas de
mineração, avaliar seus desempenhos e procurar integrá-los
na solução de problemas de marketing que envolvessem
tarefas de agrupamento ou classificação. O trabalho
consistiu de quatro etapas principais: estudo sobre o
processo de descoberta de conhecimento em bancos de dados
(KDD - Knowledge Discovery in Databases); estudo sobre
Marketing e alguns problemas de Marketing de Banco de Dados
(DBM - Database Marketing) que envolvessem tarefas de
agrupamento e classificação; levantamento e estudo de
métodos e técnicas de Inteligência Computacional e
Estatística que pudessem ser empregados na solução de
alguns desses problemas; e estudos de caso. A primeira
etapa do trabalho envolveu um estudo detalhado das diversas
fases do processo de KDD: limpeza dos dados; seleção;
codificação e transformação; redução de dimensionalidade;
mineração; e pós-processamento. Na segunda etapa foram
estudados os principais conceitos de Marketing e de DBM e a
relação entre eles e o processo de KDD. Pesquisaram-se
alguns dos tipos de problemas comuns na área e escolheram-
se para análise dois que fossem suficientemente complexos e
tivessem a possibilidade de se ter acesso a alguma empresa
que fornecesse os dados e validasse a solução
posteriormente. Os casos selecionados foram um de marketing
direto e outro de segmentação de mercado. Na terceira
etapa, foram estudados os métodos de Inteligência
Computacional e Estatística usualmente empregados em
tarefas de agrupamento e classificação de dados. Foram
estudados: Redes Perceptron Multi-Camadas, Mapas Auto-
Organizáveis, Fuzzy C-Means, K-means, sistemas Neuro-Fuzzy,
Árvores de Decisão, métodos Hierárquicos de agrupamento,
Regressão Logística, Fuções Discriminantes de Fisher, entre
outros. Por fim, na última etapa, procurou-se integrar
todos os métodos e técnicas estudados na solução de dois
estudos de caso, propostos inicialmente na segunda etapa do
trabalho. Uma vez proposta a solução para os estudos de
caso, elas foram levadas aos especialistas em Marketing das
empresas para serem validadas no âmbito do negócio. Os
estudos de caso mostraram a grande utilidade e
aplicabilidade dos métodos e técnicas estudadas em
problemas de marketing direto e segmentação de mercado. Sem
o emprego dos mesmos, a solução para muitos desses
problemas tornar-se-ia extremamente imprecisa ou até mesmo
inviável. Mostraram também a grande importância das fases
iniciais de pré-processamento dos dados no processo de KDD.
Muitos desafios persistem ainda na área de mineração de
dados, como a dificuldade de modelar dados não lineares e
de manipular quantidades muito grande de dados, o que
garante um vasto campo para pesquisa nos próximos anos. / [en] The Data Mining field has received great attention lately,
due to the increasing amount of data stored by companies
and institutions. A great number of Data Mining methods
have been proposed so far, which is good but sometimes
leads to confusion. This dissertation investigates the
performance of many different methods and techniques of
Data Mining used to model and solve Marketing problems. The
goal of this research was to look for and study some data
mining methods, compare them, and try to integrate them to
solve Marketing problems involving clustering and
classification tasks. This research can be divided in four
stages: a study of the process of Knowledge Discovery in
Databases (KDD); a study about Marketing problems involving
clustering and classification; a study of some methods and
techniques of Statistics and Computational Intelligence
that could be used to solve some of those problems; and
case studies. On the first stage of the research, the
different tasks (clustering, classification, modeling, etc)
and phases (data cleansing, data selection, data
transformation, Data Mining, etc) of a KDD process were
studied in detail. The second stage involved a study of the
main concepts of Marketing and Database Marketing and their
relation to the KDD process. The most common types of
problems in the field were studied and, among them, two
were selected to be furthered analyzed as case studies. One
case was related to Direct Marketing and the other to
Market Segmentation. These two cases were chosen because
they were complex enough and it was possible to find a
company to provide data to the problem and access to their
marketing department. On the third stage, many different
methods for clustering and classification were studied and
compared. Among those methods, there were: Multilayer
Perceptrons, Self Organizing Maps, Fuzzy C-Means, K-Means,
Neuro-Fuzzy systems, Decision Trees, Hierarquical
Clustering Methods, Logistic Regression, Fisher`s Linear
Discriminants, etc Finally, on the last stage, all the
methods and techniques studied were put together to solve
the two case studies proposed earlier. Once they were
solved, their solutions were submitted to the Marketing
Department of the company who provided the data, so that
they could validate the results in the context of their
business. The case studies were able to show the large
potential of applicability of the methods and techniques
studied on problems of Market Segmentation and Direct
Marketing. Without employing those methods, it would
be very hard or even impossible to solve those problems.
The case studies also helped verify the very important
role of the data pre-processing phase on the KDD process.
Many challenges persist in the data mining field. One could
mention, for example, the difficulty to model non-linear
data and to manipulate larges amounts of data. These and
many other challenges provide a vast field of research to
be done in the next years. / [es] Debido a la cantidad cada vez mayor de datos almacenados
por las instituiciones, el área de mineración de datos há
ganado relevancia y varios métodos han sido propuestos para
aumentar su aplicabilidad y desempeño. Esta disertación
investiga el uso de diversos métodos y técnicas de
mineración de datos en la modelación y solución de
problemas de Marketing. EL objetivo del trabajo fue hacer
un levantamiento de algunos métodos y técnicas de
mineración, evaluar su desempeño e integrarlos en la
solución de problemas de marketing que involucran tareas de
agrupamiento y clasificación. EL trabajo consta de cuatro
etapas principales: estudio sobre el proceso de
descubrimiento de conocimientos en bancos de datos (KDD -
Knowledge Discovery in Databases); estudio sobre Marketing
y algunos problemas de Marketing de Banco de Datos (DBM -
Database Marketing) que incluyen tareas de agrupamientoy
clasificación; levantamiento y estudio de métodos y
técnicas de Inteligencia Computacional y Estadística que
pueden ser empleados en la solución de algunos problemas; y
por último, estudios de casos. La primera etapa del trabajo
contiene un estudio detallado de las diversas fases del
proceso de KDD: limpeza de datos; selección; codificación y
transformación; reducción de dimensionalidad; mineración; y
posprocesamento. En la segunda etapa fueron estudados los
principales conceptos de Marketing y de DBM y la relación
entre ellos y el proceso de KDD. Algunos de los tipos de
problemas comunes en la área fueron investigados,
seleccionando dos de ellos, por ser suficientemente
complejos y tener posibilidad de acceso a alguna empresa
que suministrase los datos y evaluase posteriormente la
solución. Los casos selecionados fueron uno de marketing
directo y otro de segmentación de mercado. En la tercera
etapa, se estudiaron los métodos de Inteligencia
Computacional y Estadística que son empleados usualmente en
tareas de agrupamiento y clasificación de datos. Éstos
fueron: Redes Perceptron Multicamada, Mapas
Autoorganizables, Fuzzy C-Means, K-means, sistemas Neuro-
Fuzzy, Árboles de Decisión, métodos Jerárquicos de
agrupamiento, Regresión Logística, Fuciones Discriminantes
de Fisher, entre otros. En la última etapa, se integraron
todos los métodos y técnicas estudiados en la solución de
dos estudios de casos, propuestos inicialmente en la
segunda etapa del trabajo. Una vez proposta la solución
para el estudios de casos, éstas fueron evaluadas por los
especialistas en Marketing de las empresas. Los estudios de
casos mostraron la grande utilidad y aplicabilidad de los
métodos y técnicas estudiadas en problemas de marketing
directo y segmentación de mercado. Sin el empleo de dichos
métodos, la solución para muchos de esos problemas sería
extremadamente imprecisa o hasta incluso inviáble. Se
comprobó también la gran importancia de las fases iniciales
de preprocesamiento de datos en el proceso de KDD. Existen
todavía muchos desafíos en el área de mineración de datos,
como la dificuldad de modelar datos no lineales y de
manipular cantidades muy grandes de datos, lo que garantiza
un vasto campo de investigación
|
168 |
[en] TS-TARX: TREE STRUCTURED - THRESHOLD AUTOREGRESSION WITH EXTERNAL VARIABLES / [pt] TS-TARX: UM MODELO DE REGRESSÃO COM LIMIARES BASEADO EM ÁRVORE DE DECISÃOCHRISTIAN NUNES ARANHA 28 January 2002 (has links)
[pt] Este trabalho propõe um novo modelo linear por partes
para a extração de regras de conhecimento de banco de
dados. O modelo é uma heurística baseada em análise de
árvore de regressão, como introduzido por Friedman (1979)
e discutido em detalhe por Breiman (1984). A motivação
desta pesquisa é trazer uma nova abordagem combinando
técnicas estatísticas de modelagem e um algoritmo de
busca por quebras eficiente. A decisão de quebra usada no
algoritmo de busca leva em consideração informações do
ajuste de equações lineares e foi implementado tendo por
inspiração o trabalho de Tsay
(1989). Neste, ele sugere um procedimento para construção
um modelo para a análise de séries temporais chamado TAR
(threshold autoregressive model), introduzido por
Tong (1978) e discutido em detalhes por Tong e Lim (1980)
e Tong (1983). O modelo TAR é um modelo linear por partes
cuja idéia central é alterar os parâmetros do modelo
linear autoregressivo de acordo com o valor de uma
variável observada, chamada de variável limiar. No
trabalho de Tsay, a Identificação do número e
localização do potencial limiar era baseada na analise de
gráficos. A idéia foi então criar um novo algoritmo todo
automatizado. Este processo é um algoritmo que preserva
o método de regressão por mínimos quadrados recursivo
(MQR) usado no trabalho de Tsay. Esta talvez seja uma das
grandes vantagens da metodologia introduzida neste
trabalho, visto que Cooper (1998) em seu trabalho de
análise de múltiplos regimes afirma não ser possível
testar cada quebra. Da combinação da árvore de decisão
com a técnica de regressão (MQR), o modelo se tornou o
TS-TARX (Tree Structured - Threshold AutoRegression with
eXternal variables). O procedimento consiste numa busca
em árvore binária calculando a estatística F para a
seleção das variáveis e o critério de informação BIC para
a seleção dos modelos. Ao final, o algoritmo gera como
resposta uma árvore de decisão (por meio de regras) e as
equações de regressão estimadas para cada regime da
partição. A principal característica deste tipo de
resposta é sua fácil interpretação. O trabalho conclui
com algumas aplicações em bases de dados padrões
encontradas na literatura e outras que auxiliarão o
entendimento do processo implementado. / [en] This research work proposes a new piecewise linear model to
extract knowledge rules from databases. The model is an
heuristic based on analysis of regression trees, introduced
by Friedman (1979) and discussed in detail by Breiman
(1984). The motivation of this research is to come up with
a new approach combining both statistical modeling
techniques and an efficient split search algorithm.
The split decision used in the split search algorithm
counts on information from adjusted linear equation and was
implemented inspired by the work of Tsay (1989). In his
work, he suggests a model-building procedure for a
nonlinear time series model called by TAR (threshold
autoregressive model), first proposed by Tong (1978) and
discussed in detail by Tong and Lim (1980) and Tong (1983).
The TAR model is a piecewise linear model which main idea
is to set the coefficients of a linear autoregressive
process in accordance with a value of observed variable,
called by threshold variable. Tsay`s identification of the
number and location of the potential thresholds was based
on supplementary graphic devices. The idea is to get the
whole process automatic on a new model-building process.
This process is an algorithm that preserves the method of
regression by recursive least squares (RLS) used in Tsay`s
work. This regression method allowed the test of all
possibilities of data split. Perhaps that is the main
advantage of the methodology introduced in this work,
seeing that Cooper, S. (1998) said about the impossibility
of testing each break.Thus, combining decision tree
methodology with a regression technique (RLS), the model
became the TS-TARX (Tree Structured - Threshold
AutoRegression with eXternal variables). It searches on a
binary tree calculating F statistics for variable selection
and the information criteria BIC for model selection. In
the end, the algorithm produces as result a decision tree
and a regression equation adjusted to each regime of the
partition defined by the decision tree. Its major advantage
is easy interpretation.This research work concludes with
some applications in benchmark databases from literature
and others that helps the understanding of the algorithm
process.
|
Page generated in 0.0651 seconds