Spelling suggestions: "subject:"interval 1inear degression"" "subject:"interval 1inear aregression""
1 |
Agrupamento e regressão linear de dados simbólicos intervalares baseados em novas representaçõesSOUZA, Leandro Carlos de 28 March 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2016-08-08T12:52:58Z
No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
teseCinLeandro.pdf: 1316077 bytes, checksum: 61e762c7526a38a80ecab8f5c7769a47 (MD5) / Made available in DSpace on 2016-08-08T12:52:58Z (GMT). No. of bitstreams: 2
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
teseCinLeandro.pdf: 1316077 bytes, checksum: 61e762c7526a38a80ecab8f5c7769a47 (MD5)
Previous issue date: 2016-01-18 / Um intervalo é um tipo de dado complexo usado na agregação de informações ou na
representação de dados imprecisos. Este trabalho apresenta duas novas representações para
intervalos com o objetivo de se construir novos métodos de agrupamento e regressão linear para
este tipo de dado. O agrupamento por nuvens dinâmicas define partições nos dados e associa
protótipos a cada uma destas partições. Os protótipos resumem a informação das partições e são
usados na minimização de um critério que depende de uma distância, responsável por quantificar
a proximidade entre instâncias e protótipos. Neste sentido, propõe-se a formulação de uma nova
distância híbrida entre intervalos baseando-se em distâncias para pontos. Os pontos utilizados
são obtidos dos intervalos através de um mapeamento. Também são propostas duas versões com
pesos para a distância criada: uma com pesos no hibridismo e outra com pesos adaptativos. Na
regressão linear, propõe-se a representação dos intervalos através da equação paramétrica da reta.
Esta parametrização permite o ajuste dos pontos nas variáveis regressoras que dão as melhores
estimativas para os limites da variável resposta. Antes da realização da regressão, um critério é
calculado para a verificação da coerência matemática da predição, na qual o limite superior deve
ser maior ou igual ao inferior. Se o critério mostra que a coerência não é garantida, propõe-se a
aplicação de uma transformação sobre a variável resposta. Assim, este trabalho também propõe
algumas transformações que podem ser aplicadas a dados intervalares, no contexto de regressão.
Dados sintéticos e reais são utilizados para comparar os métodos provenientes das representações
propostas e aqueles presentes na literatura. / An interval is a complex data type used in the information aggregation or in the
representation of imprecise data. This work presents two new representations of intervals
in order to construct a new cluster method and a new linear regression method for this kind of
data. Dynamic clustering defines partitions into the data and it defines prototypes associated with
each one of these partitions. The prototypes summarize the information about the partitions and
they are used in a minimization criterion which depends on a distance, which is responsible for
quantifying the proximity between instances and prototypes. In this way, it is proposed a new hybrid
distance between intervals based on a family of distances between points. Points are obtained
from the interval through a mapping. Also, it is proposed two versions of the hybrid distance,
both with weights: one with weights in hybridism and other with adaptive weights. In linear
regression, it is proposed to represent the intervals through the parametric equation of the line.
This parametrization allows to find the set of points in the regression variables corresponding to
the best estimates for the response variable limits. Before the regression construction, a criterion
is computed to verify the mathematical consistency of prediction, where the upper limit must
be greater than or equal to the lower. If the test shows that consistency is not guaranteed, then
the application proposes a transformation of the response variable. Therefore, this work also
proposes some transformations that can be applied to interval data in the regression context.
Synthetic and real data are used to compare the proposed methods and those one proposed on
literature.
|
Page generated in 0.0792 seconds