• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 220
  • 68
  • 62
  • 50
  • 21
  • 14
  • 13
  • 10
  • 9
  • 8
  • 3
  • 2
  • 2
  • 2
  • 2
  • Tagged with
  • 549
  • 104
  • 73
  • 59
  • 56
  • 55
  • 55
  • 49
  • 42
  • 38
  • 38
  • 37
  • 35
  • 35
  • 35
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
161

The Recall Dynamics of Importance in Delayed Free Recall

January 2015 (has links)
abstract: An emerging literature on the relation between memory and importance has shown that people are able to selectively remember information that is more, relative to less important. Researchers in this field have operationalized importance by assigning value to the different information that participants are asked to study and remember. In the present investigation I developed two experiments, using a slightly altered value-directed-remembering (VDR) paradigm, to investigate whether and how value modifies the dynamics of memory organization and search. Moreover, I asked participants to perform a surprise final free recall task in order to examine the effects of value in the recall dynamics of final free recall. In Experiment 1, I compared the recall dynamics of delayed and final free recall between a control and a value condition, in the latter of which numbers appeared next to words, in random order, denoting the value of remembering each word during recall. In Experiment 2, I manipulated the order of presentation of the values by adding an ascending and a descending condition where values were presented in either an ascending or a descending order, respectively. Overall, my results indicated that value affected several measures of delayed and final free recall, without, in most cases, taking away the serial position effects on those same measures. / Dissertation/Thesis / Masters Thesis Psychology 2015
162

The Exhibitor Perspective – Providing Facility Services for a Successful Trade Show

January 2017 (has links)
abstract: Currently, show management for convention centers have several resources to help determine where to place their efforts in facility services for exhibitors, one of which is to use research results from an importance-performance analysis study. In order to help show management refine their understanding of the needs of exhibitors before a trade show, this study explores the relationship between the exhibitor’s ranking of importance placed on facility services through the Importance-Performance Analysis, and the goals exhibitors have for the trade show. A survey was conducted at three different trade shows taking place in two convention centers. Using a sample of 115 exhibitors, the underlying factors were determined for the importance exhibitors placed on facility attributes and their goals. The findings from the research show that the correlations between importance factors and goals are statistically weak, albeit some notable correlations were made. The importance performance analysis remains a strong and useful tool for show management to use and implementing the iso-rating line provides more detail for a show manager to work with. The finding of this study offer insights into the factor analysis of facility attributes as well as the importance-goals analysis conducted. / Dissertation/Thesis / Masters Thesis Community Resources and Development 2017
163

Estudo das interações entre as comunidades localizadas no entorno da reserva biológica Guaribas PB e a fauna de quirópteros: perspectivas para conservação.

Rêgo, Karlla Morganna da Costa 26 February 2014 (has links)
Made available in DSpace on 2015-05-07T14:49:27Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 2160367 bytes, checksum: 9b7d06b1d541930bbaf10f42ecf546ef (MD5) Previous issue date: 2014-02-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Part of the conservation process to disrupt certain myths and beliefs that exist about animals that are critically important. Among the animals that are perceived negatively by society are the bats. The bats play an important role in maintaining ecosystems and levels as indicators of habitat disruption, because they are considered good material for studies on diversity. However society has little opportunity to observe the behavior and biology of bats, due to the fact that most of the population live in cities and do not have any direct contact with wildlife, apart from of information about it. The main objective of this study was to investigate the perception of people of three communities located in the neighborhood of a biological reserve about bats, analyze the resident biodiversity of these animals and start work to raise awareness and conservation in the community. The study was conducted in Guaribas Biological Reserve, located in rural communities around the cities of Mamanguape and Rio Tinto, Paraiba, Brazil, in two major fragments, with the presence of human occupation. To inventory the fauna of bats use mist nets placed in habitats Woods, region Board and communities. Semi-structured interviews were conducted in association with the distribution of explanatory booklet to clarify questions and information about the importance of bats. The most abundant species in the areas of village and REBIO corresponds to Phyllostomidae family. Could be seen that most of the population has a negative image about the bats, and unaware of their importance in the ambience. However, they have some knowledge of their biology, even in brief, and certain load of aggregate cultural concepts. This knowledge is directly linked to frugivorous characteristic of these animals. / Faz parte do processo de conservação que determinados mitos e crendices que existem sobre animais que são criticamente importantes sejam desfeitos. Dentre os animais que são mal vistos pela sociedade estão os morcegos. Os quirópteros têm papel importante na manutenção dos ecossistemas e como indicadores de níveis de ruptura de hábitats, pois são considerados bom material de estudos sobre diversidade. No entanto a sociedade tem pouca oportunidade de observar o comportamento e a biologia dos morcegos, devido ao fato que a maioria da população viver nas cidades e não tem nenhum tipo de contato direto com a vida selvagem, além da falta de informação acerca da mesma. O objetivo principal desse trabalho foi verificar a percepção de habitantes de três comunidades situadas no entorno de uma reserva biológica sobre quirópteros, analisar a biodiversidade local desses animais e realizar trabalhos de sensibilização e conservação junto à comunidade. O estudo foi realizado na Reserva Biológica Guaribas localizada nas cidades de Mamanguape e Rio Tinto, Paraíba, Brasil, em dois importantes fragmentos, com presença de comunidades rurais do seu entorno. Para o inventário da fauna de quirópteros utilizamos redes de neblina dispostas nos hábitats de Mata, Tabuleiro e nas comunidades. Entrevistas semiestruturadas foram realizadas em associação com a distribuição de cartilha explicativa para o esclarecimento de dúvidas e informação sobre a importância dos morcegos. As espécies mais abundantes nas áreas das comunidades e da ReBio, corresponde a Família Phyllostomidae. Pôde-se perceber que a maior parte da população tem uma imagem negativa a respeito dos quirópteros, e desconhece sua importância no ambiente. No entanto, estes possuem certo conhecimento sobre sua biologia, mesmo que de modo resumido, e com certa carga de conceitos culturais agregados. Esse conhecimento está ligado diretamente à característica frugívora destes animais.
164

A cadeia produtiva da indústria de semicondutores : um estudo exploratório

Aita, Bruna Homrich January 2013 (has links)
A competição global resultou na formação de cadeias complexas com relações múltiplas entre empresas que apresentam muitas vezes interesses individuais conflitantes. A indústria de semicondutores é fortemente impactada por isto. Neste contexto, em que os fluxos de materiais e informações são interorganizacionais desde a obtenção da matéria-prima até a entrega de bens de consumo aos clientes, o estudo da cadeia produtiva tem o intuito de compreender a estrutura e o desenvolvimento desta indústria. Apesar deste tópico ser largamente discutido na literatura, a cadeia produtiva da indústria de semicondutores apresenta-se limitada às etapas de fabricação do semicondutor como matéria-prima. Desta forma, o trabalho busca estudar de forma exploratória a cadeia produtiva da indústria de semicondutores, visando compreender a sua estrutura estendida até os clientes finais, as suas estruturas de governança e as percepções de importância dos agentes quanto aos membros da cadeia através da aplicação do AHP (Analytic Hierarchy Process). A pesquisa propôs um mapeamento desta cadeia composto por oito agentes: desing house, foundry, encapsuladora de chips, integrador da memória, integrador do computador, distribuidor, revendedor e cliente final. Os resultados da pesquisa demonstram que as estruturas de governança estão condicionadas às características do ambiente e das relações e que elas vêm promovendo o estreitamento dos agentes intermediários da cadeia devido à força e importância assumida pelos membros que compõem seus extremos. / Networks based on multi-relations between companies, which often present different individual interests, result from global competition. The semiconductor industry is strongly affected by that. In this context, while material and information flow inter-organizationally involving all activities from raw material procurement to final products delivery to customers, the study of production chain intents to understand this market structure and development. Despite this subject has been extensively discussed by literature, the production chain of semiconductor industry has been limited to semiconductor manufacturing (raw material) steps. Hence, the aim of this paper is to study, in an exploratory way, the production chain of semiconductor industry, with the purpose of understanding its expanded structure up to final customers, its governance structures and its enterprises perception of members’ importance through AHP (Analytic Hierarchy Process) method application. This research has proposed a production chain mapping with eight members: design house, foundry, packaging company, memory integrator, computer integrator, distributor, retailer and final customer. The results suggest that governance structures depend on environment and relationships characteristics and that they have been narrowing the center of this production chain due to the strength and importance expressed by its outermost members.
165

Seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS / Selecting the most relevant predictive variables based on variable importance indices and PLS regression

Zimmer, Juliano January 2012 (has links)
A presente dissertação propõe métodos para seleção de variáveis preditivas com base em índices de importância das variáveis e regressão PLS (Partial Least Squares). Partindo-se de uma revisão da bibliografia sobre PLS e índices de importância das variáveis, sugere-se um método, denominado Eliminação Backward (EB), para seleção de variáveis a partir da eliminação sistemática de variáveis de acordo com a ordem definida por índices de importância das variáveis. Um novo índice de importância de variáveis, proposto com base nos parâmetros da regressão PLS, tem seu desempenho avaliado frente a outros índices reportados pela literatura. Duas variações do método EB são propostas e testadas através de simulação: (i) o método EBM (Eliminação backward por mínimos), que identifica o conjunto que maximiza o indicador de acurácia preditiva sem considerar o percentual de variáveis retidas, e (ii) o método EBDE (Eliminação backward por distância euclidiana), que seleciona o conjunto de variáveis responsável pela mínima distância euclidiana entre os pontos do perfil gerado pela eliminação das variáveis e um ponto ideal hipotético definido pelo usuário. A aplicação dos três métodos em quatro bancos de dados reais aponta o EBDE como recomendável, visto que retém, em média, apenas 13% das variáveis originais e eleva a acurácia de predição em 32% em relação à utilização de todas as variáveis. / This dissertation presents new methods for predictive variable selection based on variable importance indices and PLS regression. The novel method, namely Backward Elimination (BE), selects the most important variables by eliminating process variables according to their importance described by the variable importance indices. A new variable importance index is proposed, and compared to previous indices for that purpose. We then offer two modifications on the BE method: (i) the EBM method, which selects the subset of variables yielding the maximum predictive accuracy (i.e., the minimum residual index), and (ii) the EBDE, which selects the subset leading to the minimum Euclidian distance between the points generated by variable removal and a hypothetical ideal point defined by the user. When applied to four manufacturing data sets, the recommended method, EBDE, retains average 13% of the original variables and increases the prediction accuracy in average 32% compared to using all the variables.
166

Análise do desempenho das indústrias ervateiras do alto Taquari no Rio Grande do Sul

Silveira, Caroline Soares da January 2017 (has links)
O mercado de erva-mate vem crescendo e ganhando importância nos países e Estados produtores, não apenas com o uso da erva-mate para chimarrão, mas com os diversos usos alternativos que vem surgindo devido às suas importantes propriedades. Devido ao aumento da demanda em mercados diferenciados julga-se necessário a realização de pesquisas que determinam e avaliam os fatores condicionantes de desempenho visando a gerar informações para subsidiar ações prioritárias de melhoramento para o setor e aumento da sua eficiência. Neste sentido, a presente pesquisa teve como objetivo identificar os fatores que condicionam o desempenho das indústrias ervateiras do Alto Taquari/RS. Como aporte teórico para subsidiar a análise dos dados utilizou-se a teoria da Economia Industrial, a Economia dos Custos de Transação e a teoria associada ao uso da Matriz Importância - Desempenho. Os dados primários foram coletados através de questionários estruturados, de forma quantitativa, com o uso da escala Likert de 1-7 pontos. Os questionários foram aplicados via Google Docs e posteriormente de forma presencial com os agentes das indústrias no polo ervateiro do Alto Taquari/RS. O questionário foi estruturado em sete seções, a primeira e a segunda foi referente as informações sobre os entrevistados e as indústrias ervateiras, na qual teve como objetivo descrever e caracterizar o objeto de estudo. As próximas quatro seções referiram-se as dimensões condicionantes de desempenho, são elas: Fatores de Produção/ Mercados/ Logística/ Ambiente Institucional/ e a sétima e última seção sobre a visão da cadeia produtiva da erva-mate pela perspectiva das indústrias ervateiras. O método de análise dos dados constituiu-se na aplicação da matriz importância - desempenho proposta por Slack, Chambers e Johnston (2002), na qual fornecem informações sobre o nível de importância e de desempenho atribuído aos fatores que compõem cada uma destas dimensões. Os dados foram organizados em planilhas do Excel e submetidos à análise da estatística descritiva, com os valores da média referente ao grau de importância e a média referente ao nível de desempenho de cada fator para a construção de uma matriz importância – desempenho para cada dimensão analisada. Com os resultados da pesquisa conclui-se que na dimensão “fatores de produção” os itens que necessitam de ações melhoramento são a disponibilidade de matéria-prima, o custo de aquisição de maquinários, a disponibilidade de mão de obra e o porte e capacidade dos maquinários. Na dimensão “mercados” os itens que necessitam de ações de melhoramento são os 9 fatores sobre produtos substitutos, a colocação do produto no mercado externo, o grau de concentração dos fornecedores de matéria-prima e a qualidade do produto final. Na dimensão “logística” alguns fatores ficaram alocados na zona de ação urgente, como o custo do transporte até a indústria, capacidade de armazenamento até a indústria, condições de transporte até a indústria e as condições de armazenamento até a indústria. Nesta mesma dimensão, alguns fatores como os fluxos de informações tecnológicas, contrato entre o produtor e a indústria, contrato entre a indústria e o varejo e os custos de armazenamento para a indústria necessitam de ações de melhoramento. Na dimensão “ambiente institucional”, os fatores referentes aos indicadores macroeconômicos, legislação ambiental e o processamento agroindustrial, a legislação ambiental e a produção rural, inspeção sanitária e o processamento agroindustrial e o acesso às condições de crédito para a indústria também necessitam de ações de melhoramento para aumentar o seu desempenho. Estas conclusões devem fornecer subsídios e informações que contribuirão na tomada de decisão e no estabelecimento de estratégias empresariais a fim de aumentar o desempenho das atividades dentro da indústria ervateira, tornando-a mais competitiva no mercado que estão inseridas. / The yerba mate Market has been growing and getting featured in the most important countries and states which produces it, using the yerba mate not only for it’s traditional drink, “the chimarrão”, but with other alternative uses that has been appearing because of it’s important properties. Due to the increasing of the demand in different kinds of markets, they request the need of researches which evaluate and confirms the conditioning facts of the performance aiming to generate informations to subsidize priority actions of the improvement for it’s increasing sector. In this case, the actual research had as objective to identify the factors which condition the “ervateiras” industries performance from Alto Taquari/RS. As the theoretical contribution for the subsidized review of the data had used the Economical Industry theory, the Costs Economy of transactions and the theory which had involved the use of Importance-Performance Matrix. The primary data were collected through structured questionnaires in a quantitative way, using the likert scale of 1-7 points. The questionnaires were applied via Google Docs and after that shown physically through the industry agents in the “ervateiro” pole from Alto Taquari/RS. The questionnaire was structured in seven sections, both first and second questions referred to the gathered information about the interviewed people and the “ervateiras” industries, which had as objective describe and characterize the studied objetct. The four other sections referred to the conditioning dimensions of the performance, which are they: Production Factors/ Markets/ Logistics/ Institutional Ambient/ and the seventh section was about the view of the productive chain of yerba mate seen by the “ervateiras” industries. The analytical method of the data was consisted in the application of the matrix importance-performance suggested by Slack, Chambers and Johnston (2002), in which provide information about the importance level and assigned performance of the factors that made each one of these dimensions. The data was organized in spreadsheets of the excel and submitted to a describing statistic analysis, with average values referred to the degree of importance and the average referred to the level of performance for each dimension analyzed. With the result of research it is concluded that the dimension of “production factors” the necessary items of the improvement actions are the availability of the raw material , the acquisition cost of the machinery, the availability of labor and the possession and capacity of the machinery. In the “market” dimension, the items that have the need of 11 improvement actions are the factors about the swapped products, the placement of the product in outside market, the degree of concentrations of the raw material developers and the final product’s quality. In the logistic dimension some factors were placed in the urgent-action-zone, like the cost of means of transportation to the industry, the storage capacity to the industry, conditions of the transport to de industry and the conditions of the storage to the industry. In the same dimension, some factors like the flow of technological information, the contract between the industry and the producer, the contract between and the retail, the costs of the storage for the industries needs the improvement actions. In the “Institutional Ambient” dimension, the factors which refers to the macroeconomic indicators, environmental legislation and the agroindustrial process, the environmental legislation and the rural production, sanitary inspection and the agroindustrial process and the access to the credit condition for the industries still need the actions of improvement to increase it’s performance. This condition should provide subsidies and information that will contribute with the decision taken and in the establishment of business strategies with the desire of increasing the performance of the activities inside the “ervateiras” industries, turning into the most competitive one in the market which they are part of.
167

Seleção de variáveis para classificação de bateladas produtivas

Kahmann, Alessandro January 2013 (has links)
Bancos de dados oriundos de processos industriais são caracterizados por elevado número de variáveis correlacionadas, dados ruidosos e maior número de variáveis do que observações, tornando a seleção de variáveis um importante problema a ser analisado no monitoramento de tais processos. A presente dissertação propõe sistemáticas para seleção de variáveis com vistas à classificação de bateladas produtivas. Para tanto, sugerem-se novos métodos que utilizam Índices de Importância de Variáveis para eliminação sistemática de variáveis combinadas a ferramentas de classificação; objetiva-se selecionar as variáveis de processo com maior habilidade discriminante para categorizar as bateladas em classes. Os métodos possuem uma sistematização básica que consiste em: i) separar os dados históricos em porções de treino e teste; ii) na porção de treino, gerar um Índice de Importância de Variáveis (IIV) que ordenará as variáveis de acordo com sua capacidade discriminante; iii) a cada iteração, classificam-se as amostras da porção de treino e removem-se sistematicamente as variáveis; iv) avaliam-se então os subconjuntos através da distância Euclidiana dos resultados dos subconjuntos a um ponto hipotético ótimo, definindo assim o subconjunto de variáveis a serem selecionadas. Para o cumprimento das etapas acima, são testadas diferentes ferramentas de classificação e IIV. A aplicação dos métodos em bancos reais e simulados verifica a robustez das proposições em dados com distintos níveis de correlação e ruído. / Databases derived from industrial processes are characterized by a large number of correlated, noisy variables and more variables than observations, making of variable selection an important issue regarding process monitoring. This thesis proposes methods for variable selection aimed at classifying production batches. For that matter, we propose new methods that use Variable Importance Indices for variable elimination combined with classification tools; the objective is to select the process variables with the highest discriminating ability to categorize batch classes. The methods rely on a basic framework: i) split historical data into training and testing sets; ii) in the training set, generate a Variable Importance Index (VII) that will rank the variables according to their discriminating ability; iii) at each iteration, classify samples from the training set and remove the variable with the smallest VII; iv) candidate subsets are then evaluated through the Euclidean distance to a hypothetical optimum, selecting the recommended subset of variables. The aforementioned steps are tested using different classification tools and VII’s. The application of the proposed methods to real and simulated data corroborates the robustness of the propositions on data with different levels of correlation and noise.
168

Identificação e avaliação de atributos de desempenho aplicáveis aos centros de atendimento a emergências da indústria do petróleo

Wegner, Isaac Rafael January 2015 (has links)
Os vazamentos de petróleo podem causar sérios impactos econômicos e ambientais, sendo que a preservação do meio ambiente torna-se cada vez mais uma prioridade para a sociedade. A partir da repercussão de grandes vazamentos, governos e indústrias de petróleo se prepararam para atuar na resposta a estes eventos, mantendo recursos em centros de atendimento a emergências, estrategicamente instalados e especialmente preparados para uma atuação rápida e eficaz, evidenciando uma maior qualidade nos serviços prestados. Garantir que um centro tenha sucesso frente a um vazamento de petróleo é um desafio, uma vez que tais ocorrências são raras, mas por demais indesejadas, diminuindo as possibilidades de um conhecimento maior de seu desempenho. O objetivo geral deste trabalho é determinar o desempenho dos centros de atendimento a emergências ambientais com vazamento de petróleo, considerando atributos relevantes para uma atuação rápida e eficaz no que diz respeito à minimização dos impactos. Além disso, os objetivos específicos do trabalho dizem respeito à identificação dos atributos de desempenho mais importantes para os clientes e especialistas, definição de sua importância relativa, definição dos principais requisitos técnicos, bem como a priorização de ações de melhoria. Para tal, foram identificados os atributos relevantes e as lacunas de desempenho na literatura, bem como a capacidade de resposta à emergência. Posteriormente, foi realizada uma pesquisa survey com clientes, especialistas e principais prestadores deste serviço no Brasil. Os resultados permitiram gerar requisitos técnicos e os respectivos níveis de desempenho, evidenciando oportunidades de melhoria. A avaliação permitiu, através de uma matriz de importância e desempenho, evidenciar a capacidade de resposta dos centros, tratando de forma objetiva aspectos antes considerados subjetivos e intangíveis. / Oil spills may cause serious economic and environmental impacts, and protect the environment becomes increasingly a Company’s priority. After the impact of large spills, governments and oil industries become better prepared for the oil spill response, keeping resources in emergency response centers, strategically installed and specially prepared for quick and effective action, improving the quality of services. Ensure that a center will be successful against an oil spill is a challenge, since such occurrences are rare and unwanted, which reduces the chances to evaluate their performance. The aim of this study is to determine the oil spills response centers performance, considering relevant attributes for quick and effective action for impacts mitigation. In addition, the specific objectives of the study includes the identification of the most important performance factors for customers and experts, defining their relative importance and the main technical requirements, as well as the improvement actions prioritization. For that, a literature search was performed to identify the relevant attributes and performance gaps in emergency response capability. Subsequently, a customer survey was conducted through experts and the main service providers in Brazil. The results have produced technical requirements and their performance levels, showing improvement opportunities. The evaluation through a matrix of importance and performance demonstrates the centers response capability, treating objectively aspects previously considered subjective and intangible.
169

Alternative Methods via Random Forest to Identify Interactions in a General Framework and Variable Importance in the Context of Value-Added Models

January 2013 (has links)
abstract: This work presents two complementary studies that propose heuristic methods to capture characteristics of data using the ensemble learning method of random forest. The first study is motivated by the problem in education of determining teacher effectiveness in student achievement. Value-added models (VAMs), constructed as linear mixed models, use students’ test scores as outcome variables and teachers’ contributions as random effects to ascribe changes in student performance to the teachers who have taught them. The VAMs teacher score is the empirical best linear unbiased predictor (EBLUP). This approach is limited by the adequacy of the assumed model specification with respect to the unknown underlying model. In that regard, this study proposes alternative ways to rank teacher effects that are not dependent on a given model by introducing two variable importance measures (VIMs), the node-proportion and the covariate-proportion. These VIMs are novel because they take into account the final configuration of the terminal nodes in the constitutive trees in a random forest. In a simulation study, under a variety of conditions, true rankings of teacher effects are compared with estimated rankings obtained using three sources: the newly proposed VIMs, existing VIMs, and EBLUPs from the assumed linear model specification. The newly proposed VIMs outperform all others in various scenarios where the model was misspecified. The second study develops two novel interaction measures. These measures could be used within but are not restricted to the VAM framework. The distribution-based measure is constructed to identify interactions in a general setting where a model specification is not assumed in advance. In turn, the mean-based measure is built to estimate interactions when the model specification is assumed to be linear. Both measures are unique in their construction; they take into account not only the outcome values, but also the internal structure of the trees in a random forest. In a separate simulation study, under a variety of conditions, the proposed measures are found to identify and estimate second-order interactions. / Dissertation/Thesis / Ph.D. Statistics 2013
170

Selection Bias Correction in Supervised Learning with Importance Weight / L'apprentissage des modèles graphiques probabilistes et la correction de biais sélection

Tran, Van-Tinh 11 July 2017 (has links)
Dans la théorie de l'apprentissage supervisé, l'hypothèse selon laquelle l'échantillon de d'apprentissage et de test proviennent de la même distribution de probabilité, joue un rôle crucial. Malheureusement, cette hypothèse essentielle est souvent violée en présence d'un biais de sélection. Dans ce contexte, les algorithmes d'apprentissage supervisés standards peuvent souffrir d'un biais significatif. Dans cette thèse, nous abordons le problème du biais de sélection en apprentissage supervisé en utilisant la méthode de pondération de l'importance ("importance weighting" en anglais).Dans un premier temps, nous présentons le cadre formel de l'apprentissage supervisé et discutons des effets potentiellement néfastes du biais sur les performances prédictives. Nous étudions ensuite en détail comment les techniques de pondération de l'importance permettent, sous certaines hypothèses, de corriger le biais de sélection durant l'apprentissage de modèles génératifs et discriminants. Nous étudions enfin le potentiel des réseaux bayésiens comme outils de représentation graphique des relations d'indépendances conditionnelles entre les variables du problème et celles liées au mécanisme de sélection lui-même. Nous illustrons sur des exemples simples comment la graphe, construit avec de la connaissance experte, permet d'identifier a posteriori un sous-ensemble restreint de variables sur lesquelles « agir » pour réduire le biais.Dans un second temps, nous accordons une attention particulière au « covariate shift », i.e. un cas particulier de biais de sélection où la distribution conditionnelle P(y|x) est invariante entre l'échantillon d'apprentissage et de test. Nous proposons deux méthodes pour améliorer la pondération de l'importance en présence de covariate shift. Nous montrons d'abord que le modèle non pondéré est localement moins biaisé que le modèle pondéré sur les échantillons faiblement pondérés, puis nous proposons une première méthode combinant les modèles pondérés et non pondérés afin d'améliorer les performances prédictives dans le domaine cible. Enfin, nous étudions la relation entre le covariate shift et le problème des données manquantes dans les jeux de données de petite taille et proposons une seconde méthode qui utilise des techniques d'imputation de données manquantes pour corriger le covariate shift dans des scénarios simples mais réalistes. Ces méthodes sont validées expérimentalement sur de nombreux jeux de données / In the theory of supervised learning, the identical assumption, i.e. the training and test samples are drawn from the same probability distribution, plays a crucial role. Unfortunately, this essential assumption is often violated in the presence of selection bias. Under such condition, the standard supervised learning frameworks may suffer a significant bias. In this thesis, we address the problem of selection bias in supervised learning using the importance weighting method. We first introduce the supervised learning frameworks and discuss the importance of the identical assumption. We then study the importance weighting framework for generative and discriminative learning under a general selection scheme and investigate the potential of Bayesian Network to encode the researcher's a priori assumption about the relationships between the variables, including the selection variable, and to infer the independence and conditional independence relationships that allow selection bias to be corrected.We pay special attention to covariate shift, i.e. a special class of selection bias where the conditional distribution P(y|x) of the training and test data are the same. We propose two methods to improve importance weighting for covariate shift. We first show that the unweighted model is locally less biased than the weighted one on low importance instances, and then propose a method combining the weighted and the unweighted models in order to improve the predictive performance in the target domain. Finally, we investigate the relationship between covariate shift and the missing data problem for data sets with small sample sizes and study a method that uses missing data imputation techniques to correct the covariate shift in simple but realistic scenarios

Page generated in 0.0525 seconds