Spelling suggestions: "subject:"estatistica -"" "subject:"statistica -""
541 |
Regressão quantílica sob enfoque bayesiano como alternativa no ajuste da eficiência técnica: uma aplicação para a agricultura familiar brasileira / Bayesian quantile regression as an alternative to tecnical efficiency estimation: an application to family farming in Brazilneto, Raimundo Cardoso de Oliveira 23 February 2018 (has links)
Submitted by Nathália Faria da Silva (nathaliafsilva.ufv@gmail.com) on 2018-07-10T19:43:00Z
No. of bitstreams: 1
textocompleto.pdf: 1702143 bytes, checksum: 51706f2c8c1a831cdb9c323d9c970ecd (MD5) / Made available in DSpace on 2018-07-10T19:43:00Z (GMT). No. of bitstreams: 1
textocompleto.pdf: 1702143 bytes, checksum: 51706f2c8c1a831cdb9c323d9c970ecd (MD5)
Previous issue date: 2018-02-23 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / O presente trabalho tem como objetivo propor o uso de Regressão Quantílica sob o enfoque bayesiano para ajustar a eficiência técnica de unidades produtivas. Para tanto, é fornecida uma breve revisão compreendendo os primeiros trabalhos relevantes para a definição de eficiência técnica, métodos tradicionais utilizados para ajustar esta medida, e as propostas de Regressão Quantílica encontradas na literatura. Foi realizado um estudo de simulação consistindo do ajuste da efici- ência por Análise Envoltória de Dados (DEA), Análise de Fronteira Estocástica (SFA) e Regressão Quantílica frequentista (RQ) e bayesiana (BRQ), em conjuntos de dados simulados. Os dados foram simulados por um modelo de SFA abran- gendo cenários com e sem quebra de suposições quanto a homogeneidade das unidades produtivas e diferentes suposições de dominância do erro por parte de fatores aleatórios. Verificou-se que a Regressão Quantílica bayesiana fornece bom ajuste da eficiência, com relação a viés e classificação das unidades produ- tivas, inclusive em cenários considerados ideais para SFA e DEA, mesmo sem ter usado informação a priori relevante. Além disso, a metodologia foi aplicada ao estudo da eficiência da agricultura familiar brasileira, a nível de microrregião. Observou-se que a eficiência técnica média das microrregiões com base no quan- til 0,95 é 41,09% com desvio padrão de 25,26%, tendo a região Nordeste a menor média de eficiência. Observou-se também, que nas microrregiões com melho- res práticas de produção a mão-de-obra é o insumo mais importante, seguido de máquinas e implementos agrícolas, e ainda, que a produção destas microrregiões não responde de forma significativa à mudanças na quantidade de área utilizada. Assim, concluiu-se que a regressão quantílica sob enfoque bayesiano caracteriza- se como uma alternativa interessante para ajustar a eficiência técnica / This work proposes the use of Bayesian Quantile Regression to estimate the tech- nical efficiency of productive units. For such, it is given a short review comprising from the initial relevant works for the definition of tecnical efficiency, traditional methods for estimating such a measure, and the Quantile Regression proposals found in the literature. Besides that, a simulation study was conducted consis- ting of the estimation of efficiency by Data Envelopment Analyzes (DEA), Sto- chastic Frontier Analyzes (SFA) and Quantile Regression, frequentist (QR) and bayesian (BQR). The datasets were simulated by a SFA model with and without the homocesdasticity assumption about the produtive units as well as different assumptions of error dominance by random noise.it was verified that Bayesian Quantile Regression estimates the efficiency consistently, considering bias and units ranking, including in scenarios considered ideal for DEA and SFA, although no relevant a priori information was used. As an ilustration, the efficiency of fa- mily farming, at microregion level, in Brazil is estimated by Bayesian Quantile Regression. The mean efficiency in the country was 41.09%, based on the 0.95 quantile, with standard deviation of 25.26%, while the Northestern region had the highest concentration of microregions with lower levels of efficiency. In ad- dition, the microregions with best practices have the labor as the most important input, followed by machinery, and their production does not change significantly in response to changes in area used for production. Thus, it can be concluded that Bayesian regression quantile is an interesting alternative to estimate efficiency le- vels
|
542 |
Predição genômica da resistência à ferrugem alaranjada em café arábica via algoritmos de aprendizagem de máquina / Genomic prediction of leaf rust resistance to arabica coffee using machine learning algorithmsSousa, Ithalo Coelho de 26 February 2018 (has links)
Submitted by Marco Antônio de Ramos Chagas (mchagas@ufv.br) on 2018-07-11T12:09:39Z
No. of bitstreams: 1
textocompleto.pdf: 925551 bytes, checksum: 6e6a52bb70c4e45081687d495922f845 (MD5) / Made available in DSpace on 2018-07-11T12:09:39Z (GMT). No. of bitstreams: 1
textocompleto.pdf: 925551 bytes, checksum: 6e6a52bb70c4e45081687d495922f845 (MD5)
Previous issue date: 2018-02-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A seleção genômica (SG) foi proposta como uma forma de aumentar a eficiência e acelerar o melhoramento genético. A SG enfatiza a predição simultânea dos efeitos genéticos de milhares de marcadores dispersos em todo o genoma de um organismo. Algumas metodologias estatísticas têm sido utilizadas em SG para a predição do mérito genético, como por exemplo a Ridge Regression Best Linear Unbiased Prediction (RR- BLUP), Bayesian Lasso (BLASSO). Porém tais metodologias exigem algumas pressuposições a respeito dos dados tais como normalidade da distribuição dos valores fenotípicos. Além disto, a presença de fatores complicadores tais como epistasia e dominância atrapalham a utilização destes modelos, uma vez que exigem que tais efeitos sejam estabelecidos à priori pelo pesquisador. Visando contornar a não normalidade dos valores fenotípicos a literatura sugere o uso dos modelos lineares generalizados sob o enfoque bayesiano (BGLR). Outra alternativa são os modelos baseados em aprendizagem de máquina (AM), representados por metodologias tais como Redes Neurais (RNA), Árvores de Decisão (AD) e seus possíveis refinamentos (Bagging, Random Forest e Boosting) as quais podem incorporar a epistasia e a dominância no modelo além de não exigirem pressuposições quanto ao modelo e a distribuição dos valores fenotípicos. Diante disso, o objetivo deste trabalho foi utilizar AD e seus refinamentos Bagging, Random Forest e Boosting para predição da resistência a ferrugem alaranjada no café arábica. Além disso, AD e seus refinamentos foram utilizadas para identificar a importância dos marcadores relacionados a característica de interesse. Os resultados foram comparados com aqueles provenientes do GBLASSO (Lasso Bayesiano Generalizado) e RNA. Foram utilizados dados da resistência a ferrugem do café de 245 plantas derivadas do cruzamento do Híbrido de Timor e do Catuaí Amarelo, genotipados para 137 marcadores. A AD e seus refinamentos obtiveram resultados satisfatórios, visto que apresentaram valores iguais ou inferiores de Taxa de Erro Aparente comparados com aqueles obtidos pelo GBLASSO e RNA. Ademais, os refinamentos da AD demonstraram ser capazes de identificar marcadores importantes para característica de interesse, visto que dentre os 10 marcadores mais importantes analisados em cada metodologia, 3-4 marcadores estavam próximos a QTL’s relacionados a resistência a doença listados na literatura. Por fim, a AD e seus refinamentos mostraram um melhor desempenho em relação ao GBLASSO e a RNA quanto ao custo computacional. / Genomic selection (GS) has been proposed as a way to increase efficiency and accelerate genetic improvement. GS emphasizes the simultaneous prediction of the genetic effects of thousands of scattered markers throughout an organism's genome. Some statistical methodologies have been used in GS for the prediction of genetic merit, such as Ridge Regression Best Linear Unbiased Prediction (RR-BLUP), Bayesian Lasso (BLASSO). However such methodologies require some assumptions about the data such as normality of the distribution of phenotypic values. In addition, the presence of complicating factors such as epistasis and dominance hinder the use of these models, since they require that such effects be established a priori by the researcher. In order to avoid the non-normality of phenotypic values, the literature suggests the use of Bayesian Generalized Linear Regression (BGLR). Another alternative is the models based on machine learning, represented by methodologies such as Artificial Neural Networks (ANN), Decision Trees (DT) and their possible refinements such as Bagging, Random Forest and Boosting, which can incorporate epistasis and dominance in the model, besides not requiring assumptions about the model and the distribution of phenotypic values. The aim of this work was to use DT and its refinements Bagging, Random Forest and Boosting for prediction of resistance to orange rust in arabica coffee. In addition, DT and its refinements were used to identify the importance of markers related to the characteristic of interest. The results were compared with those from GBLASSO (Generalized Bayesian Lasso) and ANN. Data from the coffee rust resistance of 245 plants derived from the hybrid of the Timor Hybrid and the Yellow Catuaí, genotyped for 137 markers were used. The DT and its refinements obtained satisfactory results, since they presented equal or inferior values of Apparent Error Rate compared to those obtained by GBLASSO and RNA. In addition, DT refinements seem to be able to identify important markers for characteristic of interest, since among the 10 most important markers analyzed in each methodology, 3-4 markers were close to QTLs related to resistance to disease listed in the literature. Finally, the Decision Tree and its refinements showed a better performance in relation to the GBLASSO and RNA regarding computational cost.
|
543 |
Metodologia para estimativa de bem-estar de matrizes de frango de corte utilizando monitoramento digital e construção de modelos de simulação / Methodology for estimating female broiler breeder's welfare using digital monitoring and simulation models constructionPereira, Danilo Florentino 19 December 2005 (has links)
Orientador: Irenilza de Alencar Naas / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-05T13:34:42Z (GMT). No. of bitstreams: 1
Pereira_DaniloFlorentino_D.pdf: 4613464 bytes, checksum: f69737da451ffc0d2ceecda7fcdacd9b (MD5)
Previous issue date: 2003 / Resumo: Esse trabalho propôs o uso de ferramentas de precisão para o monitoramento de matrizes pesadas que sirvam para a coleta de dados comportamentais que contribuem para a predição de bem-estar. Foram conduzidos dois experimentos em câmara climática onde se observaram os efeitos do ambiente, idade e linhagem, nos comportamentos expressos pelas matrizes. Para a gestão dos dados e das informações, foi desenvolvido um software que faz a interface do usuário com um banco de dados relacional FireBird®. Para o monitoramento dos comportamentos, utilizaram-se duas tecnologias de precisão: câmeras de vídeo e identificação eletrônica. Os resultados das análises exploratórias de Componentes Principais e Gráficos de Interação mostraram diferenças importantes nos comportamentos em função dos fatores experimentais idade, linhagem e ambiente. Os resultados foram confirmados através de teste de médias de Tukey e modelos de Regressão Dummy, que utiliza variáveis contínuas e categóricas. A freqüência de ocorrências dos comportamentos Ciscar, Deitar e ida ao Ninho, bem como o tempo médio de duração dos comportamentos Limpar Penas e presença no Bebedouro foram modelados e podem ser usados para ajudar a avaliar o bem-estar das matrizes em alojamentos. Os resultados permitem afirmar que mesmo em amplitudes pequenas de temperatura e amônia, os comportamentos são afetados pelo ambiente e contribuem para o entendimento do bem-estar de matrizes pesadas. A tecnologia associada à metodologia aplicada foi eficiente no registro das informações de produção, permitindo estudar a influência do ambiente no comportamento das matrizes / Abstract: This research proposed the use of precision tools for monitoring female broiler breeders in order to register behavior pattern data that may contribute for welfare prediction. Two experiments were conduced inside an environmental chamber where environment, age and breeding effect in the female broiler breeder behavior were observed. For managing the recorded data and information a software was developed in order to make a user¿s interface with the relational database called FireBird®. For monitoring behavior two precision technologies were used: video camera recording and electronic identification. Exploratory analysis of Principal Components Results and Interaction Graphs showed important differences in the behavior related to the experimental factors such as age, breeding and environmental data. Results were confirmed through average analysis as Tukey Test and Dummy Regression Model that uses continuous and categorical variables. The frequency of behavior occurrence such as foraging, lying down and moving to the nest, as well as the behavior average duration time in preening, staying at the drinker were modeled, and can be used to help evaluating intensive housed broiler breeder welfare assessment. Results allow stating that even in small amplitude of ambient temperature and housing ammonia concentration variation behavior pattern is affect by the environment, and it may contribute for understanding broiler breeder¿s welfare. The technology associated to the methodology was efficient in allowing the study of the environment effect in female broiler breeder behavior / Doutorado / Construções Rurais e Ambiencia / Doutor em Engenharia Agrícola
|
544 |
Modelo de Grubbs em grupos / Grubbs' model with subgroupsZeller, Camila Borelli 23 February 2006 (has links)
Orientador: Filidor Edilfonso Vilca Labra / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-05T23:55:16Z (GMT). No. of bitstreams: 1
Zeller_CamilaBorelli_M.pdf: 3683998 bytes, checksum: 26267086098b12bd76b1d5069f688223 (MD5)
Previous issue date: 2006 / Resumo: Neste trabalho, apresentamos um estudo de inferência estatística no modelo de Grubbs em grupos, que representa uma extensão do modelo proposto por Grubbs (1948,1973) que é freqüentemente usado para comparar instrumentos ou métodos de medição. Nós consideramos a parametrização proposta por Bedrick (2001). O estudo é baseado no método de máxima verossimilhança. Testes de hipóteses são considerados e baseados nas estatísticas de wald, escore e razão de verossimilhanças. As estimativas de máxima verossimilhança do modelo de Grubbs em grupos são obtidas usando o algoritmo EM e considerando que as observações seguem uma distribuição normal. Apresentamos um estudo de análise de diagnóstico no modelo de Grubbs em grupos com o interesse de avaliar o impacto que um determinado subgrupo exerce na estimativa dos parâmetros. Vamos utilizar a metodologia de influência local proposta por Cook (1986), considerando o esquema de perturbação: ponderação de casos. Finalmente, apresentamos alguns estudos de simulação e ilustramos os resultados teóricos obtidos usando dados encontrados na literatura / Abstract: In this work, we presented a study of statistical inference in the Grubbs's model with subgroups, that represents an extension of the model proposed by Grubbs (1948,1973) that is frequently used to compare instruments or measurement methods. We considered the parametrization proposed by Bedrick (2001). The study is based on the maximum likelihood method. Tests of hypotheses are considered and based on the wald statistics, score and likelihood ratio statistics. The maximum likelihood estimators of the Grubbs's model with subgroups are obtained using the algorithm EM and considering that the observations follow a normal distribution. We also presented a study of diagnostic analysis in the Grubb's model with subgroups with the interest of evaluating the effect that a certain one subgroup exercises in the estimate of the parameters. We will use the methodology of local influence proposed by Cook (1986) considering the schemes of perturbation of case weights. Finally, we presented some simulation studies and we illustrated the obtained theoretical results using data found in the literature / Mestrado / Mestre em Estatística
|
545 |
Estimação de tipologia para dados funcionais agrupados / Tipology estimation for grouped functional dataMartarelli Filho, Angelo 04 July 2006 (has links)
Orientadores: Nancy Lopes Garcia, Ronaldo Dias / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-06T01:56:23Z (GMT). No. of bitstreams: 1
MartarelliFilho_Angelo_M.pdf: 1361524 bytes, checksum: 3ba2960a854a02d3a7cff9af920c357e (MD5)
Previous issue date: 2006 / Resumo: Neste trabalho abordamos o problema de estimação de dados funcionais quando as curvas não são observadas individualmente. Temos uma população dividida em subpopulações de tamanho conhecido, e as observações são somas de todas as observações funcionais individuais em todas as subpopulações observadas a intervalos de tempo fixos. Utilizando expansão em bases B-splines, é possível recuperar a curva média de cada subpopulação (tipologia), bem como a estrutura de variância e covariância das curvas. Estudos de simulação sugerem que o método estima bem as curvas mesmo com poucas replicações e é assintoticamente consistente. Aplicações para um problema real de curvas de carga de energia elétrica são apresentadas / Abstract: In this work we address the problem of estimating functional data when the curves are not individually observed. That is, the observations are the sum of all curves for the individuals in the population. Consider a population divided into subpopulations of known sizes. The objective of this work is to estimate the mean curve for each subpopulation (tipology) as well as the covariance structure. We propose an estimation method based on B-spIines expansion. Simulation studies suggest that the method is suitable even with few replications. Moreover, it appears to be consistent. AppIication to a real data set is presented. / Mestrado / Mestre em Estatística
|
546 |
Avaliação de transcritos diferencialmente expressos neoplasias humanas com ORESTES / Evaluation of differential expression profiles across neoplasic human samples using ORESTES (Opening reading frame)Peres, Tarcisio de Souza 30 August 2006 (has links)
Orientador: Fernando Lopes Alberto / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Ciencias Medicas / Made available in DSpace on 2018-08-07T09:04:32Z (GMT). No. of bitstreams: 1
Peres_TarcisiodeSouza_M.pdf: 2330056 bytes, checksum: 66c1d9241ad60e2d973cfb7361a5eb7c (MD5)
Previous issue date: 2006 / Resumo: Durante todo o século XX, a pesquisa do câncer se desenvolveu de maneira sistemática, porém os últimos 25 anos foram notadamente caracterizados por rápidos avanços que geraram uma rica e complexa base de conhecimentos, evidenciando a doença dentro de um conjunto dinâmico de alterações no genoma. Desta forma, o entendimento completo dos fenômenos moleculares envolvidos na fisiopatologia das neoplasias depende do conhecimento dos diversos processos celulares e bioquímicos característicos da célula tumoral e que, porventura, a diferenciem da célula normal (GOLUB e SLONIM, 1999). Nesse trabalho buscamos o melhor entendimento das vias moleculares no processo neoplásico por meio da análise dos dados do Projeto Genoma Humano do Câncer (CAMARGO, 2001) com vistas à identificação de genes diferencialmente expressos nas neoplasias dos seguintes tecidos: mama, cólon, cabeça e pescoço, pulmão, sistema nervoso central, próstata, estômago, testículo e útero. A metodologia de geração dos transcritos utilizada pelo Projeto Genoma Humano do Câncer é conhecida como ORESTES (DIAS et al, 2000). Inicialmente, os dados de seqüenciamento (fragmentos ORESTES) foram agrupados por meio de uma técnica conhecida em Bioinformática como ¿montagem¿, utilizando o pacote de programas de computador PHRED/PHRAP (EWING e GREEN P., 1998). A comparação de cada agrupamento com seqüências conhecidas (depositadas em bases públicas) foi realizada por meio do algoritmo BLAST (ALTSCHUL et al, 1990). Um subconjunto de genes foi selecionado com base em critérios específicos e submetido à avaliação de seus níveis de expressão em diferentes tecidos com base em abordagem de inferência Bayesiana (CHEN et al, 1998), em contraposição às abordagens mais clássicas, como testes de hipótese nula (AUDIC e CLAVERIE, 1997). A inferência Bayesiana foi viabilizada pelo desenvolvimento de uma ferramenta computacional escrita em linguagem PERL (PERES et al, 2005). Com o apoio da literatura, foi criada uma lista de genes relacionados ao fenômeno neoplásico. Esta lista foi confrontada com as informações de expressão gênica, constituindo-se em um dos parâmetros de um sistema de classificação (definido para a seleção dos genes de interesse). Desta forma, parte da base de conhecimento sobre câncer foi utilizada em conjunto com os dados de expressão gênica inferidos a partir dos fragmentos ORESTES. Para contextualização biológica da informação gerada, os genes foram classificados segundo nomenclatura GO (ASHBURNER et al, 2000) e KEGG (OGATA et al, 1999). Parte dos genes apontados como diferencialmente expressos em pelo menos um tecido tumoral, em relação ao seu equivalente normal, integram vias relacionadas ao fenômeno neoplásico (HAHN e WEINBERG, 2002). Dos genes associados a estas vias, 52% deles possuíam fator de expressão diferencial (em módulo) superior a cinco. Finalmente, dez entre os genes classificados foram escolhidos para confirmação experimental dos achados. Os resultados de qPCR em amostras de tecido gástrico normal e neoplásico foram compatíveis com com os dados de expressão gênica inferidos a partir dos fragmentos ORESTES / Abstract: The XXth century showed the development in cancer research in a systematic way, most notably in the last 25 years that were characterized by rapid advances that generated a rich and complex body of knowledge, highlighting the disease within a dynamic group of changes in the genome. The complete understanding of the molecular phenomena involved in the physiopathology of neoplasia is based upon the knowledge of the varied cellular and biochemical processes which are characteristic of the tumor and which make it different from the normal cell (GOLUB e SLONIM, 1999) In this work, we investigated the molecular pathways in the neoplasic process through data analyses of the cDNA sequences generated on the Human Cancer Genome Project (CAMARGO, 2001). The following neoplasias were included: breast, colon, head and neck, lungs, central nervous system, prostate gland, stomach, testicle and womb. The methodology of generation of transcripts used by the Genome Project of Human Cancer is known as ORESTES (DIAS et al, 2000). Initially, the sequence of data (ORESTES fragments) were grouped and assembled according to similarity scores. For this purpose, we used the package of computer programs PHRED/PHRAP (EWING e GREEN P., 1998). The resulting consensus sequences, each representing a cluster, were compared to known sequences (deposited in public databanks) through the BLAST algorithm (ALTSCHUL et al, 1990). A subgroup of genes was selected based on specific criteria and their levels of expression in different tissues were evaluated by a bayesian inference approach (CHEN et al, 1998), as compared to more classical approaches such as null hypothesis tests (AUDIC e CLAVERIE, 1997). The Bayesian inference tool was represented as a PERL script developed for this work. A list of genes, putatively related to the neoplasic phenotype, was created with the support of the literature. This list was compared to the gene expression information, becoming one of the parameters of a ranking system (defined for the selection of genes of interest). Therefore, part of the knowledge related to cancer was used together with the data of gene expression inferred from ORESTES fragments. For a more accurate understanding of the molecular pathways involved in the generated information, the genes were classified according to the Gene Ontology (ASHBURNER et al, 2000) and KEGG (OGATA et al, 1999) nomenclatures. Additional global analyses by pathways related to the neoplasic phenomenon (HAHN e WEINBERG, 2002) demonstrated differential expression of the selected genes. About 52% of the genes in this pathways were differentially expressed in tumor tissue with at least a 5-fold. Finally, ten genes were selected for experimental validation (in vitro) of the findings with real-time quantitative PCR, confirming in silico results / Mestrado / Ciencias Biomedicas / Mestre em Ciências Médicas
|
547 |
Misturas finitas de densidades com aplicações em reconhecimento estatistico de padrõesPereira, Jose Raimundo Gomes 28 July 2018 (has links)
Orientador : Lee Luan Ling / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-28T02:29:32Z (GMT). No. of bitstreams: 1
Pereira_JoseRaimundoGomes_D.pdf: 852311 bytes, checksum: eabeeed592db3223738ca9d43acd7975 (MD5)
Previous issue date: 2001 / Doutorado
|
548 |
Redução de características baseada em grupos semânticos aplicados à classificação de textosMARQUES, Elaine Cristina Moreira 17 July 2018 (has links)
Submitted by Mario BC (mario@bc.ufrpe.br) on 2018-11-08T12:02:13Z
No. of bitstreams: 1
Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5) / Made available in DSpace on 2018-11-08T12:02:13Z (GMT). No. of bitstreams: 1
Elaine Cristina Moreira Marques.pdf: 4610553 bytes, checksum: 274979b8aee4b03c56f9c68296eeb073 (MD5)
Previous issue date: 2018-07-17 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / The classification of texts is a technique that aims to organize and categorize information,
from textual documents present on digital platforms. Usually each of the words that constitute the documents are considered as a characteristic. This approach to simple textual representations is called Bag of Words. Although these characteristics are important for classifying documents, most of them are irrelevant and/or redundant, which causes problems such as high dimensionality, making categorization costly in terms of memory and execution. In order to reduce the large demand for computational resources, dimensionality reduction techniques are applied, such as the selection and transformation of characteristics.
Characteristic selection is widely used in the literature because it has a lower computational
cost compared to other techniques . In this technique, characteristics are selected without
presenting modifications in the original characteristics, that is, the selection of a subset that contains only the most relevant characteristics of the original set occurs. In the transformation of characteristics occurs the formation of a new set of characteristics, this new set being smaller than the original set, containing new words caused by the combination or transformation of the original words. It is important to stress that both methods have some kind of loss of information. The objective of this work is to propose a new dimensionality reduction method that minimizes the loss of characteristic information from the creation of semantically related groups of words using clustering algorithms and Word Embeddings. With this, it is possible to reduce the amount of characteristics maintaining the semantics of each word. In this work the reduction occurred through the creation of semantic groups. Initially, the words in the databases were vectorized using Word2Vec and Glove methods. After the words were vectorized, the clustering algorithms were applied, creating smaller groups of characteristics in relation to the original groups. The method was applied in widely used databases in the literature, reaching good results, especially in more unstructured data, such as Web pages, news, Twitter posts, among others. / A classificação de textos é uma técnica que tem como objetivo organizar e categorizar informações, a partir de documentos textuais presentes nas plataformas digitais. Usualmente cada uma das palavras que constituem os documentos são consideradas como uma característica. Esta abordagem para representações textuais simples é chamada Bag of Words. Embora estas características sejam importantes para classificar documentos, a maioria delas são irrelevantes e/ou redundantes o que provoca problemas como alta dimensionalidade, tornando a categorização custosa em termos de memória e execução. Para reduzir a
grande demanda de recursos computacionais, técnicas de redução de dimensionalidade são aplicadas, como a seleção e a transformação de características. A seleção de características é bastante utilizada na literatura, pelo fato desta possuir um custo computacional mais baixo em relação as outras técnicas. Nesta técnica, características são selecionadas sem apresentar modificações nas características originais, ou seja, ocorre a seleção de um subconjunto que contém apenas as características mais relevantes do conjunto original. Na transformação de características ocorre a formação de um novo conjunto de características, sendo este novo
conjunto menor que o conjunto original, contendo novas palavras ocasionadas por meio da combinação ou transformação das palavras originais. É importante frisar que ambos os métodos possuem algum tipo de perda de informação. O objetivo deste trabalho é propor um novo método de redução de dimensionalidade que minimize a perda de informação das características a partir da criação de grupos de palavras semanticamente relacionadas utilizando algoritmos de agrupamento e Word Embeddings. Com isso, é possível reduzir a quantidade de características mantendo a semântica de cada palavra. Neste trabalho a redução ocorreu por meio da criação de grupos semânticos. Inicialmente as palavras das bases de dados passaram por uma vetorização, utilizando os métodos Word2Vec e o Glove. Após a vetorização das palavras, foram aplicados os algoritmos de agrupamento, criando grupos menores de características em relação aos grupos originais. O método foi aplicado em bases de dados bastante utilizadas na literatura, alcançando bons resultados,
principalmente em dados mais desestruturados, como páginas da Web, notícias, postagens feitas em Twitter, entre outras.
|
549 |
Variaveis instrumentais no modelo canonico de contagio heteroscedastico / Instrumental variables in heteroskedastic canonical model of contagionRibeiro, Andre Luiz Prima 15 August 2018 (has links)
Orientador: Luiz Koodi Hotta / Dissertação ( mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-15T13:05:45Z (GMT). No. of bitstreams: 1
Ribeiro_AndreLuizPrima_M.pdf: 3151695 bytes, checksum: d87230fa6191977394ccb585657639ad (MD5)
Previous issue date: 2010 / Resumo: O conhecimento das relações de dependência entre as economias são relevantes para tomadas de decisões de Bancos Centrais, investidores e governos. Um tema desafiador é o estudo da existência de contágio entre as economias. Este trabalho considera o Modelo Canônico de Contágio estudado por Pesaran e Pick (2007), o qual diferencia contágio de interdependência. O estimador de mínimos quadrados ordinário para este modelo é viesado devido à existência de variáveis endógenas no modelo. A teoria de variáveis instrumentais é utilizada para diminuir o viés existente nos estimadores de mínimos quadrados ordinários. Este trabalho estuda este modelo na presença de erros heteroscedásticos e utiliza as volatilidades condicionais como variáveis instrumentais. São estudados vários métodos para teste de hipóteses, com ênfase em testes robustos a instrumentos fracos. São abordadas duas diferentes definições de crise e são postuladas como instrumentos válidos as volatilidades condicionais dos índices de desempenho das economias e analisadas por meio de simulações de Monte Carlo a validade destes instrumentos para identificar a existência de contágio. Especificamente, são consideradas as distribuições dos estimadores e a função poder dos testes propostos para diferentes tamanhos de amostras, bem como, estudadas as aproximações das distribuições assintóticas dos estimadores e estatísticas dos testes. Finalmente, o modelo canônico de contágio é utilizado na análise dos dados de retorno dos principais índices acionários de Argentina, Brasil, México e EUA, assim como para alguns países asiáticos / Abstract: The understanding of the dependence among the economies are relevant to policy makers, Central Banks and investors in the decision making process. An important issue is the study of the existence of contagion among the economies. This work consider the Canonical Model of Contagion of Pesaran and Pick (2007), which diferentiates contagion of interdependence. The ordinary least squares estimator for this model is biased because there are endogenous variables in the model. Instrumental variable are used in order to decrease the bias of the ordinary least squares estimators. The model is extended to the case of heteroskedastic errors, feature usually found in financial data. Two definitions of crises are applied and we postulate the conditional volatility of the performance indexes as a instrumental variable. We analyze the validity of this instruments by means of Monte Carlo simulations. Monte Carlo simulations are used to analyst the distributions of the estimators and the power functions of the tests proposed. Finally, the canonical model of contagion is used to analyst the data of the most important performance indexes of Argentina, Brazil, Mexico and USA, as well the performance indexes of seven Asiatic countries / Mestrado / Estatistica / Mestre em Estatística
|
550 |
Testes de hipoteses para dados funcionais baseados em distancias : um estudo usando splines / Distances approach to test hypothesis for functional dataSouza, Camila Pedroso Estevam de 25 April 2008 (has links)
Orientador: Ronaldo Dias / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Matematica, Estatistica e Computação Cientifica / Made available in DSpace on 2018-08-10T22:55:48Z (GMT). No. of bitstreams: 1
Souza_CamilaPedrosoEstevamde_M.pdf: 4239065 bytes, checksum: 099f19df22c0b40a411d07eacc2fe0d1 (MD5)
Previous issue date: 2008 / Resumo: Avanços na tecnologia moderna têm facilitado a coleta e análise de dados de alta dimensão, ou dados que são formados por medidas repetidas de um mesmo objeto. Quando os dados são registrados densamente ao longo do tempo, freqüentemente por máquinas, eles são tipicamente chamados de dados funcionais, com uma curva (ou função) observada por objeto em estudo. A análise estatística de uma amostra de n curvas como essas é comumente chamada de análise de dados funcionais, ou ADF. Conceitualmente, dados funcionais são continuamente definidos. Claro que na prática eles geralmente são observados em pontos discretos. Não há exigência para que os dados sejam suaves, mas freqüentemente a suavidade ou outra regularidade será um aspecto chave da análise, em alguns casos derivadas das funções observadas serão importantes. Nessa dissertação diferentes técnicas de suavização serão apresentadas e discutidas, principalmente aquelas baseadas em funções splines...Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: Advances in modern technology have facilitated the collection and analysis of high-dimensional data, or data that are repeated measurements of the same subject. When the data are recorded densely over time, often by machine, they are typically termed functional or curve data, with one observed curve (or function) per subject. The statistical analysis of a sample of n such curves is commonly termed functional data analysis, or FDA. Conceptually, functional data are continuously defined. Of course, in practice they are usually observed at discrete points. There is no general requirement that the data be smooth, but often smoothness or other regularity will be a key aspect of the analysis, in some cases derivatives of the observed functions will be important. In this project different smooth techniques are presented and discussed, mainly those based on splines functions...Note: The complete abstract is available with the full electronic digital thesis or dissertations / Mestrado / Estatistica Não Parametrica / Mestre em Estatística
|
Page generated in 0.1235 seconds