• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 68
  • 62
  • 11
  • 10
  • 10
  • 6
  • 5
  • 4
  • 4
  • 3
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 191
  • 47
  • 45
  • 39
  • 31
  • 25
  • 20
  • 19
  • 18
  • 17
  • 16
  • 16
  • 16
  • 15
  • 14
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
111

Contribuições à análise de outliers em modelos de equações estruturais / Contributions to the analysis of outliers in structural equation models

Rodrigo de Souza Bulhões 10 May 2013 (has links)
O Modelo de Equações Estruturais (MEE) é habitualmente ajustado para realizar uma análise confirmatória sobre as conjecturas de um pesquisador acerca do relacionamento entre as variáveis observadas e latentes de algum estudo. Na prática, a maneira mais recorrente de avaliar a qualidade das estimativas de um MEE é a partir de medidas que buscam mensurar o quanto a usual matriz de covariâncias clássicas ou ordinárias se distancia da matriz de covariâncias do modelo ajustado, ou a magnitude do afastamento entre as funções de discrepância do modelo hipotético e do modelo saturado. Entretanto, elas podem não captar problemas no ajuste quando há muitos parâmetros a estimar ou bastantes observações. A fim de detectar irregularidades no ajustamento resultantes do impacto provocado pela presença de outliers no conjunto de dados, este trabalho contemplou alguns indicadores conhecidos na literatura, como também considerou alterações no Índice da Qualidade do Ajuste (ou GFI, de Goodness-of-Fit Index) e no Índice Corrigido da Qualidade do Ajuste (ou AGFI, de Ajusted Goodness-of-Fit Index), ambos nas expressões para estimação de parâmetros pelo método de Máxima Verossimilhança, que consistiram em substituir a tradicional matriz de covariâncias pelas matrizes de covariâncias computadas com os seguintes estimadores: Elipsoide de Volume Mínimo, Covariância de Determinante Mínimo, S, MM e Gnanadesikan-Kettenring Ortogonalizado (GKO). Através de estudos de simulação sobre perturbações de desvio de simetria e excesso de curtose, em baixa e alta frações de contaminação, em diferentes tamanhos de amostra e quantidades de variáveis observadas afetadas, foi possível constatar que as propostas de modificação do GFI e do AGFI adaptadas pelo estimador GKO foram as únicas que conseguiram ser informativas em todas essas situações, devendo-se escolher a primeira ou a segunda respectivamente quando a quantidade de parâmetros a serem estimados é baixa ou elevada. / The Structural Equation Model (SEM) is usually set to perform a confirmatory analysis on the assumptions of a researcher about the relationship between the observed variables and the latent variables of such a study. In practice, the most iterant way of evaluating the quality of the estimates of a SEM comes either from procedures of measuring how distant the usual classic or ordinary covariance matrix is from the covariance matrix of the adjusted model, or from the magnitude of the hiatus in discrepancy functions of both the hypothetical model and the saturated model. Nevertheless, they may fail to capture problems in the adjustment in the occurrence of either several parameters to estimate or several observations. This study included indicators known in the literature in order to detect irregularities in the adjustment resulting from the impact caused by the presence of outliers in the data set. This study has also considered changes in both the Goodness-of-Fit Index (GFI) and the Adjusted Goodness-of-Fit Index (AGFI) in the expressions for parameter estimation by Maximum Likelihood method, which consisted in replacing the traditional covariance matrix by the robust covariance matrices computed through the following estimators: Minimum Volume Ellipsoid, Minimum Covariance Determinant, S, MM and Orthogonalized Gnanadesikan-Kettenring (OGK). Through simulation studies on disturbances of both symmetry deviations and excess kurtosis in both low and high fractions of contamination in different sample sizes and quantities of affected observed variables it has become clear that the proposals of modification of both the GFI and the AGFI adapted by the OGK estimator were the only ones able to be informative in all these situations. It must be considered that GFI or AGFI must be used when the number of parameters to be estimated is either low or high, respectively.
112

Análise do impacto de perturbações sobre medidas de qualidade de ajuste para modelos de equações estruturais / Analysis of the impact of disturbances over the measures of goodness of fit for structural equation models

Renata Trevisan Brunelli 11 May 2012 (has links)
A Modelagem de Equações Estruturais (SEM, do inglês Structural Equation Modeling) é uma metodologia multivariada que permite estudar relações de causa/efeito e correlação entre um conjunto de variáveis (podendo ser elas observadas ou latentes), simultaneamente. A técnica vem se difundindo cada vez mais nos últimos anos, em diferentes áreas do conhecimento. Uma de suas principais aplicações é na conrmação de modelos teóricos propostos pelo pesquisador (Análise Fatorial Conrmatória). Existem diversas medidas sugeridas pela literatura que servem para avaliar o quão bom está o ajuste de um modelo de SEM. Entretanto, é escassa a quantidade de trabalhos na literatura que listem relações entre os valores de diferentes medidas com possíveis problemas na amostra e na especicação do modelo, isto é, informações a respeito de que possíveis problemas desta natureza impactam quais medidas (e quais não), e de que maneira. Tal informação é importante porque permite entender os motivos pelos quais um modelo pode estar sendo considerado mal-ajustado. O objetivo deste trabalho é investigar como diferentes perturbações na amostragem, especicação e estimação de um modelo de SEM podem impactar as medidas de qualidade de ajuste; e, além disso, entender se o tamanho da amostra influencia esta resposta. Simultaneamente, também se avalia como tais perturbações afetam as estimativas, dado que há casos de perturbações em que os parâmetros continuam sendo bem ajustados, mesmo com algumas medidas indicando um mau ajuste; ao mesmo tempo, há ocasiões em que se indica um bom ajuste, enquanto que os parâmetros são estimados de forma distorcida. Tais investigações serão realizadas a partir de simulações de exemplos de amostras de diferentes tamanhos para cada tipo de perturbação. Então, diferentes especicações de modelos de SEM serão aplicados a estas amostras, e seus parâmetros serão estimados por dois métodos diferentes: Mínimos Quadrados Generalizados e Máxima Verossimilhança. Conhecendo tais resultados, um pesquisador que queira aplicar a técnica de SEM poderá se precaver e, dentre as medidas de qualidade de ajuste disponíveis, optar pelas que mais se adequem às características de seu estudo. / The Structural Equation Modeling (SEM) is a multivariate methodology that allows the study of cause-and-efect relationships and correlation of a set of variables (that may be observed or latent ones), simultaneously. The technique has become more diuse in the last years, in different fields of knowledge. One of its main applications is on the confirmation of theoretical models proposed by the researcher (Confirmatory Factorial Analysis). There are several measures suggested by literature to measure the goodness of t of a SEM model. However, there is a scarce number of texts that list relationships between the values of different of those measures with possible problems that may occur on the sample or the specication of the SEM model, like information concerning what problems of this nature impact which measures (and which not), and how does the impact occur. This information is important because it allows the understanding of the reasons why a model could be considered bad fitted. The objective of this work is to investigate how different disturbances of the sample, the model specification and the estimation of a SEM model are able to impact the measures of goodness of fit; additionally, to understand if the sample size has influence over this impact. It will also be investigated if those disturbances affect the estimates of the parameters, given the fact that there are disturbances for which occurrence some of the measures indicate badness of fit but the parameters are not affected; at the same time, that are occasions on which the measures indicate a good fit and there are disturbances on the estimates of the parameters. Those investigations will be made simulating examples of different size samples for which type of disturbance. Then, SEM models with different specifications will be fitted to each sample, and their parameters will be estimated by two dierent methods: Generalized Least Squares and Maximum Likelihood. Given those answers, a researcher that wants to apply the SEM methodology to his work will be able to be more careful and, among the available measures of goodness of fit, to chose those that are more adequate to the characteristics of his study.
113

Análise do impacto de perturbações sobre medidas de qualidade de ajuste para modelos de equações estruturais / Analysis of the impact of disturbances over the measures of goodness of fit for structural equation models

Brunelli, Renata Trevisan 11 May 2012 (has links)
A Modelagem de Equações Estruturais (SEM, do inglês Structural Equation Modeling) é uma metodologia multivariada que permite estudar relações de causa/efeito e correlação entre um conjunto de variáveis (podendo ser elas observadas ou latentes), simultaneamente. A técnica vem se difundindo cada vez mais nos últimos anos, em diferentes áreas do conhecimento. Uma de suas principais aplicações é na conrmação de modelos teóricos propostos pelo pesquisador (Análise Fatorial Conrmatória). Existem diversas medidas sugeridas pela literatura que servem para avaliar o quão bom está o ajuste de um modelo de SEM. Entretanto, é escassa a quantidade de trabalhos na literatura que listem relações entre os valores de diferentes medidas com possíveis problemas na amostra e na especicação do modelo, isto é, informações a respeito de que possíveis problemas desta natureza impactam quais medidas (e quais não), e de que maneira. Tal informação é importante porque permite entender os motivos pelos quais um modelo pode estar sendo considerado mal-ajustado. O objetivo deste trabalho é investigar como diferentes perturbações na amostragem, especicação e estimação de um modelo de SEM podem impactar as medidas de qualidade de ajuste; e, além disso, entender se o tamanho da amostra influencia esta resposta. Simultaneamente, também se avalia como tais perturbações afetam as estimativas, dado que há casos de perturbações em que os parâmetros continuam sendo bem ajustados, mesmo com algumas medidas indicando um mau ajuste; ao mesmo tempo, há ocasiões em que se indica um bom ajuste, enquanto que os parâmetros são estimados de forma distorcida. Tais investigações serão realizadas a partir de simulações de exemplos de amostras de diferentes tamanhos para cada tipo de perturbação. Então, diferentes especicações de modelos de SEM serão aplicados a estas amostras, e seus parâmetros serão estimados por dois métodos diferentes: Mínimos Quadrados Generalizados e Máxima Verossimilhança. Conhecendo tais resultados, um pesquisador que queira aplicar a técnica de SEM poderá se precaver e, dentre as medidas de qualidade de ajuste disponíveis, optar pelas que mais se adequem às características de seu estudo. / The Structural Equation Modeling (SEM) is a multivariate methodology that allows the study of cause-and-efect relationships and correlation of a set of variables (that may be observed or latent ones), simultaneously. The technique has become more diuse in the last years, in different fields of knowledge. One of its main applications is on the confirmation of theoretical models proposed by the researcher (Confirmatory Factorial Analysis). There are several measures suggested by literature to measure the goodness of t of a SEM model. However, there is a scarce number of texts that list relationships between the values of different of those measures with possible problems that may occur on the sample or the specication of the SEM model, like information concerning what problems of this nature impact which measures (and which not), and how does the impact occur. This information is important because it allows the understanding of the reasons why a model could be considered bad fitted. The objective of this work is to investigate how different disturbances of the sample, the model specification and the estimation of a SEM model are able to impact the measures of goodness of fit; additionally, to understand if the sample size has influence over this impact. It will also be investigated if those disturbances affect the estimates of the parameters, given the fact that there are disturbances for which occurrence some of the measures indicate badness of fit but the parameters are not affected; at the same time, that are occasions on which the measures indicate a good fit and there are disturbances on the estimates of the parameters. Those investigations will be made simulating examples of different size samples for which type of disturbance. Then, SEM models with different specifications will be fitted to each sample, and their parameters will be estimated by two dierent methods: Generalized Least Squares and Maximum Likelihood. Given those answers, a researcher that wants to apply the SEM methodology to his work will be able to be more careful and, among the available measures of goodness of fit, to chose those that are more adequate to the characteristics of his study.
114

Restrições da correlação nos testes de germinação de sementes e emergência de plântulas / Restrictions of the correlation in the tests of seed germination and seedling emergence

Cursino, Celso 27 December 2006 (has links)
Coefficient of Pearson r is used to compare scientific tests. In seeds technology it is used to compare results of procedures that measure vigour. When the correspondly similar results are not found in very similar conditions, Person s correlation faces criticism mainly due to two factors. The first one comes from statistics for whose usage of Person s correlation there are prescriptions that are not always observed, when they are not understood as assumption. Variables naturally associated are required with bivariated normal distribution, pairing; homoscedasticity, rectilinear dispersion; detection of outliers. Added to them, there are practical observations in what refers the correlation to be valid only in a restrict range of the data series, the necessity to create value ranges to consider this correlation as good or bad , the need of the graphical analysis, the use and interpretation of the significance, among others. The second cause of odd results would be the existence of several biological factors, which are sometimes support for the reserarcher conclusions. With the objective of identifying applicability of correlations and the causes for odd results of r, there have been compared data existent in the Seeds Analysis Laboratory of ICIAG of the Universidade Federal de Uberlândia-MG, as well as tests of germination of acelerated aging in optimal conditions of repetibility done in laboratory, and tests of field seedling emergency, as well as other simulated variables. The results showed odd results. The normal scattergram between X and Y is enough clear to elucidate only correlated variables of large samples. Although, if the covariance is not as obvious the dispersion Y=f(X) is not enough to show simultaneous increasing or decreasing between variables. With an alternative methodology of plotting the variables related to another auxiliar variable Z of the same n elements of X and Y, we could study the variable behavior in an individual way. It was possible to create graphic criteria to assess non-valid correlations, such as similarity of variables comparable to homoscedastity; influence of outliers on small or big n; grouping of outliers in a dissident range , influence of treatments effect. In the analysed cases, we concluded that, comparing seeds vigour with only laboratory results, as well as its relation with the field results and among simulated data, the results inconsistency of correlations are prevalent as they do not follow the literature prescriptions, among others. The magnitude of the distortions due to statistical causes did not leave space for measuring effects of the variation of the biological seeds conditions, temporal alterations related to management or the edafoclimatic ones. Keywords: 1. Failure in correlations 2. Correlation reliability / Coeficiente de Pearson r é usado para comparar experimentos científicos. Em tecnologias de sementes serve para comparar resultados de procedimentos que medem vigor. Quando se prognosticam resultados de correlações baseados em condições similares e eles não acontecem, a correlação de Pearson enfrenta críticas, atribuídas principalmente a duas causas. Primeiramente pela estatística, para cuja utilização da correlação de Pearson existem prescrições nem sempre observadas, talvez por não serem entendidas como pressuposições. Exigem-se variáveis métricas naturalmente associadas, com distribuição normal bivariada, pareamento, homoscedasticidade, nuvem de dispersão retilínea; detectção de outliers. Somam-se observações práticas quanto à validade restrita a um trecho da série de dados, da criação de faixas de valores para considerá-la de baixa a alta , da necessidade da análise gráfica, da interpretação de significância, entre outras. A segunda causa seria justamente a existência de variação biológica devido a fatores diversos externos e interno às sementes, servindo às vezes de sustentáculo para conclusões de interesse do pesquisador. No objetivo de identificar aplicabilidade das correlações e as causas de resultados estranhos, foram comparados dados existentes no Laboratório de Análises de Sementes do ICIAG da Universidade Federal de Uberlândia-MG, testes germinação de envelhecimento acelerado em condições ideais de repetibilidade em laboratório, e teste de emergência de plântulas em campo, e outras variáveis simuladas, havendo incidência de resultados estranhos. A representação gráfica normal da dispersão entre X e Y mostra satisfatoriamente o correlacionamento de variáveis naturalmente associadas com n grande. Entretanto, se a covariância não é tão óbvia, a disperção Y=f(X) não é suficiente para mostrar crescimento ou decréscimo simultâneo entre as variáveis. Usando metodologia alternativa de plotagem das variáveis em relação a uma variável auxiliar Z, de mesmos n elementos que X e Y, pôde-se estudar individualmente o comportamento das variáveis. O método gráfico permitiu taxar correlações em válidas ou não pela similaridade das variáveis, comparável à homoscedasticidade; verificar outliers em n pequeno ou grande; agrupamento de outliers em trecho dissidente e mostrar efeito de tratamentos. Nos casos analisados, concluiu-se que, comparando vigor de sementes com resultados só de laboratório, tão bem como no seu relacionamento com os de campo; e entre dados simulados, as inconsistências de resultados de correlações são preponderantes por não seguirem as prescrições da literatura, entre outras. A magnitude das distorções por causas estatísticas não deixou espaço para mensurar efeitos da variação de condições biológicas de sementes, alterações temporais relativas a manuseio ou edafoclimáticas. / Mestre em Agronomia
115

Détection d'outliers : modéllsation et prédiction : application aux données de véhicules d'occasion / Outliers detection : modelling and prediction : application to used cars dataset

Dimby, Solohaja Faniaha 21 December 2015 (has links)
La société Autobiz édite et diffuse de l’information sur le secteur automobile. Cette thèse contribue à l’enrichissement de cette information et à une meilleure compréhension du marché de l’occasion par l’élaboration des modèles de prédiction du prix des véhicules et du délai de vente qui leur est associé. Nous avons eu à notre disposition une base de données réelles constituée d’annonces de sources diverses induisant un nombre considérable d’outliers. Ainsi, la première partie de travail s’est consacrée à la construction de méthodes de détection d’outliers incluant aussi bien de simples règles empiriques qu’un test statistique dont les propriétés asymptotiques ont été étudiées. Partant d’un état de l’art sur la prédiction des prix des véhicules d’occasion, il est apparu que les études existantes soulèvent le besoin de fonder une méthodologie d’analyse plus rigoureuse. Cette méthodologie a été développée dans un objectif de proposer des solutions automatisables et adaptées aux contraintes imposées par les experts. Nous faisons alors l’hypothèse que les prix des véhicules d’une même version se déprécient en fonction de l’âge et du kilométrage selon une forme qui lui est propre. La dernière partie du travail est dédiée à l’analyse des délais de vente. Dans un premier temps, nous caractérisons la variable associée aux délais de vente. Ensuite nous proposons une modélisation de cette variable par une régression à l’échelle d’un segment correspondant à l’arborescence marque-modèle-carrosserie-énergie en fonction des variables liées au kilométrage, au prix et à l’âge. Enfin, nous discutons de la possibilité de modéliser le nombre de véhicules vendus dans une période donnée selon une loi binomiale négative. / Autobiz publishes information on the automotive sector. The subject of this the-sis is to give more tools for best understanding the used cars market by proposing modeling the price and the sale duration of vehicles. In our disposal we have a dataset consisted of used car advertisements automatically collected from the most popular website in France. Such data records often include outlying values. So, we need to start our analysis by considering outliers problem and we propose an outliers detector for univariate case for which we study asymptotic properties. Next, we develop a predicting model for used cars price. Although enumerable amount of works are stored in the literature we see that each of them lacks rigorous statistical foundations. We investigate the relationships between the price, the mileage, the age and others vehicle characteristics. More precisely we discuss how incorporate these variables in a model and compare different modeling approaches with the object to find the one best fitting the dataset and easy to implement. Expert’s opinions are minded at different stages of the model-building process. Next, we identify variables and how they affect the probability of a used vehicle’s sale from a list of explanatory variables related to price, mileage and age. In the sequel, we build a model allowing predicting the sale duration. Finally, we discuss about modeling sales of used cars by using the negative binomial distribution.
116

Simulating Statistical Power Curves with the Bootstrap and Robust Estimation

Herrington, Richard S. 08 1900 (has links)
Power and effect size analysis are important methods in the psychological sciences. It is well known that classical statistical tests are not robust with respect to power and type II error. However, relatively little attention has been paid in the psychological literature to the effect that non-normality and outliers have on the power of a given statistical test (Wilcox, 1998). Robust measures of location exist that provide much more powerful tests of statistical hypotheses, but their usefulness in power estimation for sample size selection, with real data, is largely unknown. Furthermore, practical approaches to power planning (Cohen, 1988) usually focus on normal theory settings and in general do not make available nonparametric approaches to power and effect size estimation. Beran (1986) proved that it is possible to nonparametrically estimate power for a given statistical test using bootstrap methods (Efron, 1993). However, this method is not widely known or utilized in data analysis settings. This research study examined the practical importance of combining robust measures of location with nonparametric power analysis. Simulation and analysis of real world data sets are used. The present study found that: 1) bootstrap confidence intervals using Mestimators gave shorter confidence intervals than the normal theory counterpart whenever the data had heavy tailed distributions; 2) bootstrap empirical power is higher for Mestimators than the normal theory counterpart when the data had heavy tailed distributions; 3) the smoothed bootstrap controls type I error rate (less than 6%) under the null hypothesis for small sample sizes; and 4) Robust effect sizes can be used in conjuction with Cohen's (1988) power tables to get more realistic sample sizes given that the data distribution has heavy tails.
117

Abordagem de diferentes aspectos do microambiente e da heterogeneidade tumoral e sua influência no comportamento de gliomas

Onzi, Giovana Ravizzoni January 2018 (has links)
A heterogeneidade entre as células tumorais e o suporte a elas proporcionado pelos componentes do microambiente tumoral (TME) são os dois principais responsáveis pela progressão do câncer e por tornar essas doenças essencialmente incuráveis. Assim, identificar as principais dependências das células malignas, sejam elas internas ou advindas do meio extracelular, é fundamental para entender seu comportamento e propor terapias mais eficientes. Nesta tese, abordamos aspectos destas duas questões separadamente. Em um primeiro trabalho, investigamos as interações de células tumorais com células-tronco mesenquimais (MSCs), um dos principais componentes do TME. MSCs participam ativamente do nicho tumoral, especialmente por serem capazes de liberar uma vasta gama de moléculas que, via sinalização parácrina, podem modular as células ao seu redor. No entanto, os principais mediadores e respectivos efeitos do secretoma dessas células nos tumores ainda precisam ser melhor elucidados. Ao investigar esses efeitos em glioblastomas (GBM), um dos tumores primários mais agressivos em adultos, mostramos que o secretoma de células-tronco mesenquimais derivadas de tecido adiposo humano (hADSCs) foi capaz de bloquear a autofagia das células malignas. Nossos dados revelaram que o secretoma de hADSCs ativou a via de sinalização de mTORC1 e reduziu a translocação nuclear de TFEB, um fator de transcrição chave que regula a autofagia e a a função lisossomal, nas células de GBM, impedindo que o fluxo autofágico fosse completado. Já em um segundo trabalho, no contexto da heterogeneidade celular em tumores, propusemos uma abordagem para análise de dados de céulas únicas focada em outliers. Minorias celulares com níveis anormalmente elevados, ou reduzidos, de expressão de determinados genes ou proteínas são em muitos casos responsáveis por resistir aos tratamentos e levar à recidiva da doença, ao mesmo tempo que, por serem outliers, são muitas vezes ignoradas ou excluídas das análises de dados. Assim, decidimos utilizar métodos estatísticos em dados de expressão de células únicas para detectar e analisar células outliers, comparando o seu comportamento com as demais células não-outliers. Denominamos essa abordagem de Single Cell OUTlier analysis (SCOUT) e a testamos em dados de células tumorais avaliadas por citometria de massas e por sequenciamento de RNA de células únicas (sc-RNA-seq). Como resultado, pudemos confirmar que, especialmente diante de determinados tratamentos, células outliers podem se comportar de maneira distinta de não-outliers, revelando informações potencialmente relevantes ao desenvolvimento de estretégias terapêuticas. Por fim, desenvolvemos uma ferramenta para automatizar a detecção e seleção de outliers em dados de célula única a fim de facilitar o estudo dessas células em diversos aspectos na pesquisa do câncer. / Intratumoral heterogeneity and the support provided by components of the tumor microenvironment (TME) to malignant cells are major contributors to cancer progression, and the two main factors that make this disease essentially incurable. Thus, identifying malignant cells dependencies, either in the intra- or extracellular environment, is fundamental to understand their behavior and propose more efficient therapies. In this thesis, we approached aspects of these two issues separately. In a first work, we investigated interactions between tumors and mesenchymal stem cells (MSCs), one of the main components in the TME. MSCs actively participate in the tumor niche, especially due to their capacity of releasing a wide range of molecules that can modulate cells in their surroundings. However, little is known about the effects of MSCs-derived molecules in tumor cells behavior. In investigating these effects on glioblastomas (GBM), one of the most aggressive primary tumors in adults, we found out that the secretome of human adipose-derived stromal cells (hADSCs) was able to block autophagy in malignant cells. Our data revealed that hADSCs secretome activated mTORC1 signaling pathway and reduced nuclear translocation of TFEB, a master transcription factor that regulates autophagy and lysosomal function, in GBM cells, preventing autophagic flux from being completed. In a second work, we addressed intratumoral heterogeneity by proposing an approach to analyze outliers in single cell data. Cellular minorities with abnormally high, or low, expression levels of certain genes or proteins are in many cases responsible for resisting treatments and lead to disease relapse, while for being outliers they are also frequently ignored or excluded from data analysis. Thus, we decided to apply statistical methods on single cell expression data to detect outliers and analyze them, comparing their behavior with the remaining non-outlier cells. We called this approach Single Cell OUTlier analysis (SCOUT) and tested it on tumor cell datasets obtained from mass cytometry and single cell RNA sequencing (scRNA-seq) experiments. Using SCOUT we were able to confirm that, especially upon specific treatments, outlier cells may behave differently from non-outliers, revealing potentially relevant information to aid in the development of novel therapeutic strategies. Finally, we developed a tool to automate detection and selection of outliers in single cell data with the aim to facilitate the study of these cells under different contexts in cancer research.
118

Planejamento de redes horizontais por simulações numéricas

Guzatto, Matheus Pereira January 2017 (has links)
Embora o tema planejamento de redes geodésicas seja largamente investigado, especialmente a partir da segunda metade da década de 70, no âmbito nacional, poucos estudos são encontrados relativos ao planejamento de redes geodésicas, especialmente por meio de simulações numéricas. Recentemente, KLEIN (2014) propôs um método para o planejamento de redes geodésicas (denominado aqui de Método Klein – MK), solucionado por meio de tentativa e erro. Dentro desse contexto objetivo deste trabalho é propor melhorias e adaptar o MK para redes horizontais por meio de simulações numéricas, algo que ainda não é encontrado na Literatura aplicado à otimização de redes. No referido método, cada vez que a rede é reprovada em algum dos critérios considerados, necessita-se de um incremento feito com base na expertise do usuário. Neste trabalho foi desenvolvido um programa (em código aberto) para tornar o método independente de decisões por parte do usuário com o objetivo de tornar o MK viável. Enquanto o geodesista testa decisões em um espaço limitado de opções (por tentativa e erro), a proposta desenvolvida nessa pesquisa testa à exaustão todas as possibilidades do problema por simulações numéricas. Para isso, o usuário deve informar, além dos parâmetros considerados no MK, as seguintes informações: as coordenadas dos pontos de controle (suas precisões e direção(ões) do(os) azimute(es)); as coordenadas aproximadas dos pontos desconhecidos; quais observações serão usadas inicialmente; possíveis novas observações e, por fim, os equipamentos disponíveis. Foram implementadas três estratégias visando minimizar o custo na etapa de planejamento, em ordem crescente de custo, são elas: repetição das observações originalmente propostas (E1); adição de novas visadas (E2) e troca de equipamento por outro de maior precisão (E3). O programa desenvolvido foi testado em três experimentos usando dados provenientes de uma rede real implantada no entorno do campus Florianópolis do Instituto Federal de Santa Catarina e simulando o uso de três equipamentos distintos. Os resultados obtidos mostram que as adaptações tornaram o MK viável do ponto de vista prático e os objetivos propostos foram concluídos com sucesso. Entre as conclusões obtidas deve-se citar: existe uma limitação para incerteza final da rede em função do equipamento utilizado; as visadas adicionais devem ser combinadas de forma a diminuir o número de estações entre os pontos de controle e os vértices desconhecidos da rede; a melhor maneira de aumentar consideravelmente o nível de confiabilidade de uma observação é repetindo-a. Por fim, são feitas considerações sobre as limitações do método proposto: dificuldade do usuário em encontrar valores ideais para a incerteza final da rede; interface visual pouco amigável; método limitado a redes horizontais; e ausência da variável custo de maneira quantitativa na etapa de planejamento. / Although the topic of geodetic network planning has been extensively investigated, especially since the second half of the 1970s, at the national level, few studies have been carried out regarding the planning of geodetic networks, especially through numerical simulations. Recently, KLEIN (2014) proposed a method for the planning of geodesic networks (here called Klein - MK Method), solved by trial and error. Within this context, the objective of this work is to propose improvements and to adapt the MK to horizontal networks through numerical simulations, something that is not yet found in Literature applied to network optimization. In Klein’s work, each time the network is disapproved in any of the considered criteria, an increment is necessary based on the user's expertise. In this work, a program (open source) was developed to make the method independent of user’s decisions with the objective of disseminating the Klein Method (MK) in the related community. While the geodesist tests decisions in a limited range of options (by trial and error), the proposal developed in this paper exhausts all possibilities of the problem by numerical simulations. For this, the user must inform, in addition to the parameters considered in the MK, the following information: coordinates control points (their precisions and direction (s) of the azimuth (s)); approximate coordinates of the unknown points; which observations will be used initially; new possible observations and, finally, the available equipments. Three strategies were implemented in order to minimize the cost of the designing step, in order of increasing cost, they are: repetition of the originally proposed observations (E1); Addition of new sights (E2) and exchange of equipment for another one of better precision (E3). The developed program was tested in three experiments using data from a real network implanted in the surroundings of Florianópolis campus of the Federal Institute of Santa Catarina and simulating the use of three different equipments. Satisfactory results were obtained and the proposed objectives were successfully completed. Among the conclusions obtained should be mentioned: there is a limitation for the final accuracy of the network according to the equipment used; additional sights must be combined in such a way to reduce the number of stations between control points and unknown vertices of the network; The best way to greatly increase the level of reliability of an observation is by repeating it. Finally, considerations are made about the limitations of the proposed method: the difficulty of the user to find ideal values for the final uncertainty of the network; Unfriendly visual interface; Method limited to horizontal networks and absence of quantitative cost analysis in the planning step.
119

Confiabilidade de rede GPS de referência cadastral municipal - estudo de caso : rede do município de Vitória (ES) / Reliability of network GPS of municipal cadastral reference - study of case : network of the municipal district of Vitória (ES)

Geraldo Passos Amorim 25 March 2004 (has links)
A proposta deste trabalho é estudar as teorias de análise de qualidade de rede GPS, baseando-se nas teorias de confiabilidade de rede propostas por Baarda, em 1968. As hipóteses estatísticas para detecção de "outliers" constituem a base desse estudo, pois são fundamentais para elaboração dos testes de detecção de "outliers", localização e eliminação de erros grosseiros e, também, para a análise da confiabilidade da rede. A confiabilidade, que traduz a controlabilidade da rede e depende do número de redundância, é estudada em dois aspectos: confiabilidade interna e confiabilidade externa. A rede de referência cadastral do município de Vitória – ES, escolhida para o estudo de caso foi estabelecida por GPS, em 2001, tendo como concepção básica a implantação de 37 pares de vértices intervisíveis, privilegiando locais públicos e de livre acesso. Essa rede foi ajustada em 2001 pela Prefeitura Municipal de Vitória, e as coordenadas ajustadas dos vértices são usadas, deste então, para apoiar todos os levantamentos topográficos e cadastrais realizados no município. O ajustamento dessa rede, em 2001, constituiu-se de um ajustamento simples em que os testes estatísticos de detecção de "outliers", a localização e eliminação dos erros grosseiros não foram levados em conta. A parte prática desta pesquisa compreendeu a medição de 21 novos vetores (linhas bases) para formar uma rede de controle, conforme estabelece a NBR-14166, o ajustamento dessa rede de controle (15 vértices) e o ajustamento da rede principal (78 vértices), tendo por injunção a rede de controle previamente ajustada. A principal diferença ente o ajustamento de 2001, feito pela Prefeitura Municipal de Vitória, e ajustamento de 2004, feito para esta pesquisa, foi a consideração no novo ajustamento dos testes estatísticos baseados nas teorias de confiabilidade propostas por Baarda. A comparação entre os resultados dos dois ajustamentos da rede cadastral de Vitória não apontou diferenças significativas entre as coordenadas ajustadas / The proposal of this work is to study the theories of analysis of network quality GPS, basing on the theories of reliability network proposed by Baarda, in 1968. The statistical hypotheses for outlier's detection constitute the base of this study, because they are fundamental for elaboration of the tests of outlier's detection tests, location and elimination of observations with gross errors as well as for the analysis of the realiability of the network. The reliability, that translates the controllability of the network and it depends of the redundancy number, it was studied in two aspects: internal reliability and external reliability. The network of cadastral reference of the municipal district of Vitória (ES), chosen for the case study it established by GPS, in 2001. The basic conception of this network was the implantation of 37 pair of vertexes inter-visible, privileging public places (of free access), as sidewalks and central stonemasons. This network adjusted in 2001 by the Municipal City Hall of Vitória, and the adjusted coordinates of the vertexes used, of this then, to support all topographical and cadastral survey accomplished in the municipal district. The adjustment of this network, in 2001, constituted of a simple adjustment in that did not take into account the statistical tests of outlier's detection and location and elimination of observations with gross errors. The practical part of this research was constituted of the measurement of 21 new vectors (line bases) to form a control network, as it establishes NBR-14166, the adjustment of that control network (15 vertexes) and the adjustment of the main network (78 vertexes), tends previously for injunction the control network adjusted. To principal it differentiates being the adjustment of 2001, done by the Municipal City Hall of Vitória, and adjustment of 2004, done for this research; it was the consideration in the new adjustment of the based statistical tests, mainly, in the reliability theories proposed by Baarda. The results of the adjustment of 2001 and of 2004 compared, and it verified that, in the case of the cadastral network of Vitória, there was not significant difference among results found in the two adjustments
120

Robustifikace statistických a ekonometrických metod regrese / Robustification of statistical and econometrical regression methods

Jurczyk, Tomáš January 2016 (has links)
Title: Robustification of statistical and econometrical regression methods Author: Mgr. Tomáš Jurczyk Department: Department of probability and mathematical statistics Supervisor: prof. RNDr. Jan Ámos Víšek CSc., IES FSV UK Praha Abstract: Multicollinearity and outlier presence are two problems of data which can occur during the regression analysis. In this thesis we are interested mainly in situations where combined outlier-multicollinearity problem is present. We will show first the behavior of classical methods developed for overcoming one of these problems. We will investigate the functionality of methods proposed as robust multicollinearity detectors as well. We will prove that proposed two-step procedures (in one step typically based on robust regression methods) are failing in outlier detection and therefore also multicollinearity detection, if the strong multicollinearity is present in the majority of the data. We will propose a new one-step method as a candidate for the robust detector of multicollinearity as well as the robust ridge regression estimate. We will derive its properties, behavior and propose the diagnostic tools derived from that method. Keywords: multicollinearity, outliers, robust detector of multicollinearity, ro- bust ridge regression 1

Page generated in 0.0406 seconds