Global ETD Search

151	[en] TEXT CATEGORIZATION: CASE STUDY: PATENT S APPLICATION DOCUMENTS IN PORTUGUESE / [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS NEIDE DE OLIVEIRA GOMES 08 January 2015 (has links) [pt] Atualmente os categorizadores de textos construídos por técnicas de aprendizagem de máquina têm alcançado bons resultados, tornando viável a categorização automática de textos. A proposição desse estudo foi a definição de vários modelos direcionados à categorização de pedidos de patente, no idioma português. Para esse ambiente foi proposto um comitê composto de 6 (seis) modelos, onde foram usadas várias técnicas. A base de dados foi constituída de 1157 (hum mil cento e cinquenta e sete) resumos de pedidos de patente, depositados no INPI, por depositantes nacionais, distribuídos em várias categorias. Dentre os vários modelos propostos para a etapa de processamento da categorização de textos, destacamos o desenvolvido para o Método 01, ou seja, o k-Nearest-Neighbor (k-NN), modelo também usado no ambiente de patentes, para o idioma inglês. Para os outros modelos, foram selecionados métodos que não os tradicionais para ambiente de patentes. Para quatro modelos, optou-se por algoritmos, onde as categorias são representadas por vetores centróides. Para um dos modelos, foi explorada a técnica do High Order Bit junto com o algoritmo k- NN, sendo o k todos os documentos de treinamento. Para a etapa de préprocessamento foram implementadas duas técnicas: os algoritmos de stemização de Porter; e o StemmerPortuguese; ambos com modificações do original. Foram também utilizados na etapa do pré-processamento: a retirada de stopwords; e o tratamento dos termos compostos. Para a etapa de indexação foi utilizada principalmente a técnica de pesagem dos termos intitulada: frequência de termos modificada versus frequência de documentos inversa TF -IDF . Para as medidas de similaridade ou medidas de distância destacamos: cosseno; Jaccard; DICE; Medida de Similaridade; HOB. Para a obtenção dos resultados foram usadas as técnicas de predição da relevância e do rank. Dos métodos implementados nesse trabalho, destacamos o k-NN tradicional, o qual apresentou bons resultados embora demande muito tempo computacional. / [en] Nowadays, the text s categorizers constructed based on learning techniques, had obtained good results and the automatic text categorization became viable. The purpose of this study was the definition of various models directed to text categorization of patent s application in Portuguese language. For this environment was proposed a committee composed of 6 (six) models, where were used various techniques. The text base was constituted of 1157 (one thousand one hundred fifty seven) abstracts of patent s applications, deposited in INPI, by national applicants, distributed in various categories. Among the various models proposed for the step of text categorization s processing, we emphasized the one devellopped for the 01 Method, the k-Nearest-Neighbor (k-NN), model also used in the English language patent s categorization environment. For the others models were selected methods, that are not traditional in the English language patent s environment. For four models, there were chosen for the algorithms, centroid vectors representing the categories. For one of the models, was explored the High Order Bit technique together with the k-NN algorithm, being the k all the training documents. For the pre-processing step, there were implemented two techniques: the Porter s stemization algorithm; and the StemmerPortuguese algorithm; both with modifications of the original. There were also used in the pre-processing step: the removal of the stopwards; and the treatment of the compound terms. For the indexing step there was used specially the modified documents term frequency versus documents term inverse frequency TF-IDF . For the similarity or distance measures there were used: cosine; Jaccard; DICE; Similarity Measure; HOB. For the results, there were used the relevance and the rank technique. Among the methods implemented in this work it was emphasized the traditional k-NN, which had obtained good results, although demands much computational time. [pt] CATEGORIZACAO DE TEXTOS [en] TEXT CATEGORIZATION [pt] CLASSIFICACAO DE TEXTOS [en] TEXT CLASSIFICATION [pt] STEMIZACAO [en] STEMMING [en] CENTROID OR PROTOTYPE ALGORITHM
152	[en] PERCEPTUAL CLASSIFICATION IN ACTION PROJECTUAL ELECTRONIC GAMES / [pt] CLASSIFICAÇÃO PERCEPTIVA NA AÇÃO PROJETUAL DOS JOGOS ELETRÔNICOS LEANDRO DUARTE CICCARELLI 30 May 2019 (has links) [pt] Essa dissertação procurou refletir a deficiência sensorial no universo dos jogos eletrônicos, balizando-se nos conceitos da fenomenologia, sinestesia, interface, virtualidade do corpo e comunicação procurando contextualizá-los com exemplos, citando reportagens, estudos acadêmicos, bem como algumas possibilidades advindas da tecnologia de substituição sensorial eletrotátil. Trabalhou-se o conceito de game sinestésico, tipo de jogo eletrônico que permite ao jogador perceber os elementos virtuais, sejam eles visuais, auditivos, táteis, gustativos ou olfativos, por meio de um canal sensorial não tradicional. Essa ocorrência insere-se no âmbito da sinestesia constitutiva, que compreende a integração dos mecanismos cerebrais e cognitivos, onde o indivíduo pode realmente enxergar cores ao escutar um determinado som, pode sentir um sabor ao encostar numa determinada superfície. Vale ressaltar a natureza filosófica de tal tecnologia, ou seja, abrange o maior número possível de pessoas, sejam deficientes sensoriais (em todos seus níveis) ou pessoas que não possuem nenhuma deficiência sensorial significativa. O desdobramento do estudo resultou no desenvolvimento de uma classificação perceptiva para os jogos eletrônicos. / [en] This dissertation sought to reflect the sensory disability in the world of video games, it marks on the concepts of phenomenology, synesthesia, interface, virtual communication and the body looking for contextualizing them with examples, citing media reports, academic studies, as well as some possibilities that come from technology electrotactile sensory substitution. Worked up the concept of kinesthetic game, kind of electronic game that allows players to realize the virtual elements, be they visual, auditory, tactile, taste or smell, through a sensory channel non-traditional. This occurrence is within the scope of the constitutive synesthesia, which includes the integration of brain and cognitive mechanisms, where the individual can actually see colors when listening to a particular sound, you can feel a taste for touching a surface. It is worth mentioning the philosophical nature of such technology, in other words, covering the largest possible number of people with disabilities are sensory (all levels) or people who have no significant sensory impairment. The unfolding of the study resulted in the development of a perceptual classification for games. [pt] ESTIGMA [en] STIGMA [pt] FENOMENOLOGIA [en] PHENOMENOLOGY [pt] GAME DESIGN [en] GAME DESIGN [pt] DEFICIENCIA VISUAL [en] VISUAL IMPAIRMENTS [pt] SINESTESIA [en] SYNESTHESIA [pt] GAME SINESTESICO [en] GAME KINESTHETIC [pt] CLASSIFICACAO PERCEPTIVA DOS GAMES [pt] VIRTUALIDADE DO CORPO [en] VIRTUAL BODY [pt] BRAINPORT [en] BRAINPORT
153	Quantificação e caracterização química da água da chuva e throughfall e fluxos de gases traço em floresta da terra firme na FLONA Tapajós, Belterra- Pará OLIVEIRA JÚNIOR, Raimundo Cosme de 29 June 2006 (has links) Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2017-05-02T21:34:02Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_QuantificacaoCaracterizacaoQuimica.pdf: 28493229 bytes, checksum: d4899763bc9c0d1a515d650dfc836bae (MD5) / Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2017-05-02T22:06:52Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_QuantificacaoCaracterizacaoQuimica.pdf: 28493229 bytes, checksum: d4899763bc9c0d1a515d650dfc836bae (MD5) / Made available in DSpace on 2017-05-02T22:06:52Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_QuantificacaoCaracterizacaoQuimica.pdf: 28493229 bytes, checksum: d4899763bc9c0d1a515d650dfc836bae (MD5) Previous issue date: 2006-06-29 / A Floresta Nacional do Tapajós, FLONA Tapajós, com 600.000 ha de floresta protegida, é situada a 50 quilômetros ao sul de Santarém, Pará, Brasil. Os solos são altamente intemperizados e profundos, bem drenados, caoliníticos, classificados como Latossolo Amarelo e, pela classificação americana, como Oxisol (Haplustox), com pH acido (4,5) e livre de duripans e concreções lateríticas. Em um ecossistema como a floresta tropical úmida, nutrientes estão sendo ciciados. Esta ciclagem de nutrientes envolve entradas para o sistema vindo da atmosfera e do intemperismo das rochas e minerais presentes no solo, saído através da água de drenagem e a circulação interna dentro do sistema. Esta circulação interna envolve a transferência de nutrientes da vegetação para o solo através da lavagem (throughfall e escorrimento pelo tronco), onde não intervem organismos decompositores. Concentrações dos íons Cl-, NO3-, PO4-3, SO4-2, Na+, NH4+, K+, Mg+2 e Ca+2 foram analisados através cromatografia liquida utilizando cromatógrafo Dionex DX-120. Para os gases, tubos de aço inoxidável foram instalados nas paredes laterais de três perfis escavados no campo, nas profundidades de 5, 15, 30, 50, 100 e 200 centímetros. As concentrações de N2O e Co2 foram analisadas através de cromatografia gasosa usando o método de ECD (electron capture detector), enquanto as concentrações do CH4 foram medidas através de FID (flame injection detector). Os cromatógrafos foram calibrados com 3 níveis padrões de ar sintético. Como principais conclusões, apresentamos: a estação exerce forte influencia na concentração dos cátions básicos; throughfall é um dos mais importantes caminhos para a entrada de nutrientes na Flana Tapajós; há um aporte significativo de macronutrientes mais cloro e sódio, principalmente, oriundos da agricultura intensiva de grãos; houve maior volume de precipitação do que a média dos últimos vinte anos; a deposição seca é o mais importante processo de enriquecimento da água que alcança o solo da floresta; a duração do período seco antecedente é fator dominante no fluxo de nutrientes na Flona Tapajós; dentro do período seco ocorrem as maiores variações entre os íons analisados; processos de convecção que acumulam os nutrientes sobre a Flona, em virtude da brisa do rio Tapajós, favorecem o aumento nos teores dos elementos estudados; a análise dos componentes principais facilita a interpretação da caracterização da,.água de precipitação, mostrando, neste estudo, a influencia de fontes antropogênicas (agricultura, queima da biomassa e poeira); o processo de nitrificação exerce um papel fundamental na química da água da chuva, devendo ser mais bem estudada. Quanto aos gases estudados, verificaram-se fluxos, até a profundidade de 15cm, durante os períodos secos, menores do que os fluxos no período úmido, dentro dessas profundidades; nas outras profundidades os fluxos no período seco são sempre maiores do que no período úmido, demonstrando que a umidade, nas profundidades maiores do que 15cm é suficiente para promover a produção e emissão de gases, não restringindo a difusão interna do mesmo.Houve sensível variação sazonal entre os fluxos de óxido nitroso e gás carbônico, com mais baixos fluxos no período seco; Os fluxos, em kg.ha-1.ano-1, apontaram 182.102, 22,97 e 14,08, respectivamente, para gás carbônico, óxido nitroso e metano; Há elevada variação sazonal na umidade do solo, entre o período seco e úmido; O solo apresenta déficit de água disponível durante o período seco, considerando-se a profundidade de 0-100cm. Na camada de 100-200cm, não foi observado déficit; Há significativa correlação entre a umidade do solo e o fluxo de óxido nitroso; Não evidente variação na temperatura do solo ao longo das profundidades estudadas; Não há nítida variação sazonal na temperatura do solo, durante o período úmido e seco; Material orgânico degradável e nitrogênio são, juntamente com já umidade e a temperatura do solo, importantes fatores para a produção e emissão de óxido nitroso e gás carbônico. / The Tapajós National Forest, FLONA Tapajós, with 600.000 ha of protected forest is located at the km 50 south of Santarém, Pará, Brazil. Soils are highly weathered and deep, well drained, kaolinitc, classified as Yellow Latosol and according to north American classification as Oxisol (Haplustox), with a acidic pH (4.5) and free of duripans and lateritic concretions. In a ecosystem like a humid tropical forest, nutrients are being cycled. This cycling involves inputs from atmosphere and from the weathering of rocks and minerais present in the soil, with output through drainage water and internai circulation of the system. This circulation involves the transfer of nutrients from vegetation to the soil through the washing (throughfall and runoff on the bole), where there is no intervention by decomposers. Concentrations of ions Cl-, NO3-, PO4-3, SO4-2, Na+, NH4+, K+, Mg+2 and Ca+2 were analyzed by liquid chromatography using a Dionex DX - 120. For gas sampling, stainless steel tubings were installed on the lateral walls of three profiles dig on the ground at the following depths of 5, 15, 30, 50, 100 and 200 centimeters. The concentrations of N20 and CO2 were analyzed by gas chromatography using electron capture detector (ECD), whereas CH4 concentrations were measured using a flame ionization detector (FID). The chromatographs were calibrated using 3 different leveis of synthetic air standards. As results, we observed: The station has strong influence on the basic cation concentration; throughfall is one of the most important ways for nutrient inputs pt the FLONA Tapajós; there is a significant arrival of macronutrients together with Chlorine and sodium coming from the intensive grain agriculture. We observed the greatest volume of precipitation over the last 20 years. Dry deposition is the most important process of water enrichment that reaches the forest soil. The duration of the previous dry period is predominant to determine the input of nutrients into the Tapajós National forest. Within the dry period occur the greatest variations among the ions analyzed. Convection processes that accumulate the nutrients over the FLONA area, due to the breeze of the Tapajós river, favor the increase in the amount of the studied elements; the analyzes of the main components facilitate the interpretation of water characterization from precipitation, showing in this study, the influence of anthropogenic sources (agriculture, biomass burning) and dust; The process of nitrification plays a major role on chemistry,of water from precipitation and should be more studied. About the studied gases, we verified fluxes at a 15 cm depth during the dry period lower than the fluxes observed during the wet period at the same depth. For the other depths, the fluxes during the dry period are always greater than the fluxes during wet period, showing that moisture at depths deeper than 15 cm is enough to promote'the prodúction and emissjon of those gases, not constraining the soil diffusion. We observed sensible seasonal variation among the fluxes of N2O and CO2, with the lowest rates taking place during the dry period. The fluxes, in kg ha-1 year-1, showed 182.1, 22. 97 and 14.08 for CO2, N2O, and CH4, respectively. Strong seasonal variation was observed for soil water content between dry and wet seasons. The soil shows a deficit for available water during dry period when we consider the depth down to 100 cm. At the 100 cm layer down to 200 cm, there was observed no deficit. There was significant correlation between soil water content and N2O flux. No evident variation in soil temperature along the various depths studied. There was no olear seasonal variation in soil temperature between dry and wet periods. Degradable organic material and nitrogen are, together with moisture and soil temperature major factors determining the production and emission of N2O and CO2. Biogeoquímica Geoquímica Gases traços Gás carbônico Metano Óxido nitroso Água de chuva Floresta de terra-firme FLONA Tapajós
154	[en] DATA MINING APPLIED TO DIRECT MARKETING AND MARKET SEGMENTATION / [es] MINERACIÓN DE DATOS PARA LA SOLUCIÓN DE PROBLEMAS DE MARKETING DIRECTO Y SEGMENTACIÓN DE MERCADO / [pt] MINERAÇÃO DE DADOS APLICADA NA SOLUÇÃO DE PROBLEMAS DE MARKETING DIRETO E SEGMENTAÇÃO DE MERCADO HUGO LEONARDO COSTA DE AZEVEDO 28 August 2001 (has links) [pt] Devido à quantidade cada vez maior de dados armazenada pelas instituições, a área de mineração de dados tem se tornado cada vez mais relevante e vários métodos e métodos têm sido propostos de maneira a aumentar sua aplicabilidade e desempenho. Esta dissertação investiga o uso de diversos métodos e técnicas de mineração de dados na modelagem e solução de problemas de Marketing. O objetivo do trabalho foi fazer um levantamento de alguns métodos e técnicas de mineração, avaliar seus desempenhos e procurar integrá-los na solução de problemas de marketing que envolvessem tarefas de agrupamento ou classificação. O trabalho consistiu de quatro etapas principais: estudo sobre o processo de descoberta de conhecimento em bancos de dados (KDD - Knowledge Discovery in Databases); estudo sobre Marketing e alguns problemas de Marketing de Banco de Dados (DBM - Database Marketing) que envolvessem tarefas de agrupamento e classificação; levantamento e estudo de métodos e técnicas de Inteligência Computacional e Estatística que pudessem ser empregados na solução de alguns desses problemas; e estudos de caso. A primeira etapa do trabalho envolveu um estudo detalhado das diversas fases do processo de KDD: limpeza dos dados; seleção; codificação e transformação; redução de dimensionalidade; mineração; e pós-processamento. Na segunda etapa foram estudados os principais conceitos de Marketing e de DBM e a relação entre eles e o processo de KDD. Pesquisaram-se alguns dos tipos de problemas comuns na área e escolheram- se para análise dois que fossem suficientemente complexos e tivessem a possibilidade de se ter acesso a alguma empresa que fornecesse os dados e validasse a solução posteriormente. Os casos selecionados foram um de marketing direto e outro de segmentação de mercado. Na terceira etapa, foram estudados os métodos de Inteligência Computacional e Estatística usualmente empregados em tarefas de agrupamento e classificação de dados. Foram estudados: Redes Perceptron Multi-Camadas, Mapas Auto- Organizáveis, Fuzzy C-Means, K-means, sistemas Neuro-Fuzzy, Árvores de Decisão, métodos Hierárquicos de agrupamento, Regressão Logística, Fuções Discriminantes de Fisher, entre outros. Por fim, na última etapa, procurou-se integrar todos os métodos e técnicas estudados na solução de dois estudos de caso, propostos inicialmente na segunda etapa do trabalho. Uma vez proposta a solução para os estudos de caso, elas foram levadas aos especialistas em Marketing das empresas para serem validadas no âmbito do negócio. Os estudos de caso mostraram a grande utilidade e aplicabilidade dos métodos e técnicas estudadas em problemas de marketing direto e segmentação de mercado. Sem o emprego dos mesmos, a solução para muitos desses problemas tornar-se-ia extremamente imprecisa ou até mesmo inviável. Mostraram também a grande importância das fases iniciais de pré-processamento dos dados no processo de KDD. Muitos desafios persistem ainda na área de mineração de dados, como a dificuldade de modelar dados não lineares e de manipular quantidades muito grande de dados, o que garante um vasto campo para pesquisa nos próximos anos. / [en] The Data Mining field has received great attention lately, due to the increasing amount of data stored by companies and institutions. A great number of Data Mining methods have been proposed so far, which is good but sometimes leads to confusion. This dissertation investigates the performance of many different methods and techniques of Data Mining used to model and solve Marketing problems. The goal of this research was to look for and study some data mining methods, compare them, and try to integrate them to solve Marketing problems involving clustering and classification tasks. This research can be divided in four stages: a study of the process of Knowledge Discovery in Databases (KDD); a study about Marketing problems involving clustering and classification; a study of some methods and techniques of Statistics and Computational Intelligence that could be used to solve some of those problems; and case studies. On the first stage of the research, the different tasks (clustering, classification, modeling, etc) and phases (data cleansing, data selection, data transformation, Data Mining, etc) of a KDD process were studied in detail. The second stage involved a study of the main concepts of Marketing and Database Marketing and their relation to the KDD process. The most common types of problems in the field were studied and, among them, two were selected to be furthered analyzed as case studies. One case was related to Direct Marketing and the other to Market Segmentation. These two cases were chosen because they were complex enough and it was possible to find a company to provide data to the problem and access to their marketing department. On the third stage, many different methods for clustering and classification were studied and compared. Among those methods, there were: Multilayer Perceptrons, Self Organizing Maps, Fuzzy C-Means, K-Means, Neuro-Fuzzy systems, Decision Trees, Hierarquical Clustering Methods, Logistic Regression, Fisher`s Linear Discriminants, etc Finally, on the last stage, all the methods and techniques studied were put together to solve the two case studies proposed earlier. Once they were solved, their solutions were submitted to the Marketing Department of the company who provided the data, so that they could validate the results in the context of their business. The case studies were able to show the large potential of applicability of the methods and techniques studied on problems of Market Segmentation and Direct Marketing. Without employing those methods, it would be very hard or even impossible to solve those problems. The case studies also helped verify the very important role of the data pre-processing phase on the KDD process. Many challenges persist in the data mining field. One could mention, for example, the difficulty to model non-linear data and to manipulate larges amounts of data. These and many other challenges provide a vast field of research to be done in the next years. / [es] Debido a la cantidad cada vez mayor de datos almacenados por las instituiciones, el área de mineración de datos há ganado relevancia y varios métodos han sido propuestos para aumentar su aplicabilidad y desempeño. Esta disertación investiga el uso de diversos métodos y técnicas de mineración de datos en la modelación y solución de problemas de Marketing. EL objetivo del trabajo fue hacer un levantamiento de algunos métodos y técnicas de mineración, evaluar su desempeño e integrarlos en la solución de problemas de marketing que involucran tareas de agrupamiento y clasificación. EL trabajo consta de cuatro etapas principales: estudio sobre el proceso de descubrimiento de conocimientos en bancos de datos (KDD - Knowledge Discovery in Databases); estudio sobre Marketing y algunos problemas de Marketing de Banco de Datos (DBM - Database Marketing) que incluyen tareas de agrupamientoy clasificación; levantamiento y estudio de métodos y técnicas de Inteligencia Computacional y Estadística que pueden ser empleados en la solución de algunos problemas; y por último, estudios de casos. La primera etapa del trabajo contiene un estudio detallado de las diversas fases del proceso de KDD: limpeza de datos; selección; codificación y transformación; reducción de dimensionalidad; mineración; y posprocesamento. En la segunda etapa fueron estudados los principales conceptos de Marketing y de DBM y la relación entre ellos y el proceso de KDD. Algunos de los tipos de problemas comunes en la área fueron investigados, seleccionando dos de ellos, por ser suficientemente complejos y tener posibilidad de acceso a alguna empresa que suministrase los datos y evaluase posteriormente la solución. Los casos selecionados fueron uno de marketing directo y otro de segmentación de mercado. En la tercera etapa, se estudiaron los métodos de Inteligencia Computacional y Estadística que son empleados usualmente en tareas de agrupamiento y clasificación de datos. Éstos fueron: Redes Perceptron Multicamada, Mapas Autoorganizables, Fuzzy C-Means, K-means, sistemas Neuro- Fuzzy, Árboles de Decisión, métodos Jerárquicos de agrupamiento, Regresión Logística, Fuciones Discriminantes de Fisher, entre otros. En la última etapa, se integraron todos los métodos y técnicas estudiados en la solución de dos estudios de casos, propuestos inicialmente en la segunda etapa del trabajo. Una vez proposta la solución para el estudios de casos, éstas fueron evaluadas por los especialistas en Marketing de las empresas. Los estudios de casos mostraron la grande utilidad y aplicabilidad de los métodos y técnicas estudiadas en problemas de marketing directo y segmentación de mercado. Sin el empleo de dichos métodos, la solución para muchos de esos problemas sería extremadamente imprecisa o hasta incluso inviáble. Se comprobó también la gran importancia de las fases iniciales de preprocesamiento de datos en el proceso de KDD. Existen todavía muchos desafíos en el área de mineración de datos, como la dificuldad de modelar datos no lineales y de manipular cantidades muy grandes de datos, lo que garantiza un vasto campo de investigación [pt] REDES NEURAIS [en] NEURAL NETWORKS [es] REDES NEURALES [pt] MINERACAO DE DADOS [en] DATA MINING [es] MINERACION DE DATOS [pt] CLASSIFICACAO DE PADROES [en] PATTERN CLASSIFICATION [en] KNOWLEDGE DISCOVERY IN DATABASES [pt] LOGICA FUZZY [en] FUZZY LOGIC [pt] SEGMENTACAO DE MERCADO [en] MARKET SEGMENTATION [pt] MARKETING DIRETO [en] DIRECT MARKETING [pt] KOHONEN [en] KOHONEN
155	[en] PREDICTING DRUG SENSITIVITY OF CANCER CELLS BASED ON GENOMIC DATA / [pt] PREVENDO A EFICÁCIA DE DROGAS A PARTIR DE CÉLULAS CANCEROSAS BASEADO EM DADOS GENÔMICOS SOFIA PONTES DE MIRANDA 22 April 2021 (has links) [pt] Prever com precisão a resposta a drogas para uma dada amostra baseado em características moleculares pode ajudar a otimizar o desenvolvimento de drogas e explicar mecanismos por trás das respostas aos tratamentos. Nessa dissertação, dois estudos de caso foram gerados, cada um aplicando diferentes dados genômicos para a previsão de resposta a drogas. O estudo de caso 1 avaliou dados de perfis de metilação de DNA como um tipo de característica molecular que se sabe ser responsável por causar tumorigênese e modular a resposta a tratamentos. Usando perfis de metilação de 987 linhagens celulares do genoma completo na base de dados Genomics of Drug Sensitivity in Cancer (GDSC), utilizamos algoritmos de aprendizado de máquina para avaliar o potencial preditivo de respostas citotóxicas para oito drogas contra o câncer. Nós comparamos a performance de cinco algoritmos de classificação e quatro algoritmos de regressão representando metodologias diversas, incluindo abordagens tree-, probability-, kernel-, ensemble- e distance-based. Aplicando sub-amostragem artificial em graus variados, essa pesquisa procura avaliar se o treinamento baseado em resultados relativamente extremos geraria melhoria no desempenho. Ao utilizar algoritmos de classificação e de regressão para prever respostas discretas ou contínuas, respectivamente, nós observamos consistentemente excelente desempenho na predição quando os conjuntos de treinamento e teste consistiam em dados de linhagens celulares. Algoritmos de classificação apresentaram melhor desempenho quando nós treinamos os modelos utilizando linhagens celulares com valores de resposta a drogas relativamente extremos, obtendo valores de area-under-the-receiver-operating-characteristic-curve de até 0,97. Os algoritmos de regressão tiveram melhor desempenho quando treinamos os modelos utilizado o intervalo completo de valores de resposta às drogas, apesar da dependência das métricas de desempenho utilizadas. O estudo de caso 2 avaliou dados de RNA-seq, dados estes comumente utilizados no estudo da eficácia de drogas. Aplicando uma abordagem de aprendizado semi-supervisionado, essa pesquisa busca avaliar o impacto da combinação de dados rotulados e não-rotulados para melhorar a predição do modelo. Usando dados rotulados de RNA-seq do genoma completo de uma média de 125 amostras de tumor AML rotuladas da base de dados Beat AML (separados por tipos de droga) e 151 amostras de tumor AML não-rotuladas na base de dados The Cancer Genome Atlas (TCGA), utilizamos uma estrutura de modelo semi-supervisionado para prever respostas citotóxicas para quatro drogas contra câncer. Modelos semi-supervisionados foram gerados, avaliando várias combinações de parâmetros e foram comparados com os algoritmos supervisionados de classificação. / [en] Accurately predicting drug responses for a given sample based on molecular features may help to optimize drug-development pipelines and explain mechanisms behind treatment responses. In this dissertation, two case studies were generated, each applying different genomic data to predict drug response. Case study 1 evaluated DNA methylation profile data as one type of molecular feature that is known to drive tumorigenesis and modulate treatment responses. Using genome-wide, DNA methylation profiles from 987 cell lines in the Genomics of Drug Sensitivity in Cancer (GDSC) database, we used machine-learning algorithms to evaluate the potential to predict cytotoxic responses for eight anti-cancer drugs. We compared the performance of five classification algorithms and four regression algorithms representing diverse methodologies, including tree-, probability-, kernel-, ensemble- and distance-based approaches. By applying artificial subsampling in varying degrees, this research aims to understand whether training based on relatively extreme outcomes would yield improved performance. When using classification or regression algorithms to predict discrete or continuous responses, respectively, we consistently observed excellent predictive performance when the training and test sets consisted of cell-line data. Classification algorithms performed best when we trained the models using cell lines with relatively extreme drug-response values, attaining area-under-the-receiver-operating-characteristic-curve values as high as 0.97. The regression algorithms performed best when we trained the models using the full range of drug-response values, although this depended on the performance metrics we used. Case study 2 evaluated RNA-seq data as one of the most popular molecular data used to study drug efficacy. By applying a semi-supervised learning approach, this research aimed to understand the impact of combining labeled and unlabeled data to improve model prediction. Using genome-wide RNA-seq labeled data from an average of 125 AML tumor samples in the Beat AML database (varying by drug type) and 151 unlabeled AML tumor samples in The Cancer Genome Atlas (TCGA) database, we used a semi-supervised model structure to predict cytotoxic responses for four anti-cancer drugs. Semi-supervised models were generated, while assessing several parameter combinations and were compared against supervised classification algorithms. [pt] APRENDIZADO DE MAQUINA [pt] PREDICAO DA EFICACIA A DROGA [pt] MODELOS DE CLASSIFICACAO [pt] SEQUENCIAMENTO DE RNA [pt] METILACAO [pt] GENOMICA [pt] APRENDIZADO SEMI-SUPERVISIONADO [pt] APRENDIZADO SUPERVISIONADO [pt] MODELOS DE REGRESSAO [pt] CANCER [en] MACHINE LEARNING [en] DRUG RESPONSE PREDICTION [en] CLASSIFICATION MODELS [en] RNA-SEQ [en] METHYLATION [en] GENOMICS [en] SEMI-SUPERVISED LEARNING [en] SUPERVISED LEARNING [en] REGRESSION MODELS [en] CANCER
156	[pt] DESENVOLVIMENTO DE MODELOS PARA PREVISÃO DE QUALIDADE DE SISTEMAS DE RECONHECIMENTO DE VOZ / [en] DEVELOPMENT OF PREDICTION MODELS FOR THE QUALITY OF SPOKEN DIALOGUE SYSTEMS BERNARDO LINS DE ALBUQUERQUE COMPAGNONI 12 November 2021 (has links) [pt] Spoken Dialogue Systems (SDS s) são sistemas baseados em computadores desenvolvidos para fornecerem informações e realizar tarefas utilizando o diálogo como forma de interação. Eles são capazes de reconhecimento de voz, interpretação, gerenciamento de diálogo e são capazes de ter uma voz como saída de dados, tentando reproduzir uma interação natural falada entre um usuário humano e um sistema. SDS s provém diferentes serviços, todos através de linguagem falada com um sistema. Mesmo com todo o desenvolvimento nesta área, há escassez de informações sobre como avaliar a qualidade de tais sistemas com o propósito de otimização do mesmo. Com dois destes sistemas, BoRIS e INSPIRE, usados para reservas de restaurantes e gerenciamento de casas inteligentes, diversos experimentos foram conduzidos no passado, onde tais sistemas foram utilizados para resolver tarefas específicas. Os participantes avaliaram a qualidade do sistema em uma série de questões. Além disso, todas as interações foram gravadas e anotadas por um especialista.O desenvolvimento de métodos para avaliação de performance é um tópico aberto de pesquisa na área de SDS s. Seguindo a idéia do modelo PARADISE (PARAdigm for DIalogue System Evaluation – desenvolvido pro Walker e colaboradores na AT&T em 1998), diversos experimentos foram conduzidos para desenvolver modelos de previsão de performance de sistemas de reconhecimento de voz e linguagem falada. O objetivo desta dissertação de mestrado é desenvolver modelos que permitam a previsão de dimensões de qualidade percebidas por um usuário humano, baseado em parâmetros instrumentalmente mensuráveis utilizando dados coletados nos experimentos realizados com os sistemas BoRIS e INSPIRE , dois sistemas de reconhecimento de voz (o primeiro para busca de restaurantes e o segundo para Smart Homes). Diferentes algoritmos serão utilizados para análise (Regressão linear, Árvores de Regressão, Árvores de Classificação e Redes Neurais) e para cada um dos algoritmos, uma ferramenta diferente será programada em MATLAB, para poder servir de base para análise de experimentos futuros, sendo facilmente modificado para sistemas e parâmetros novos em estudos subsequentes.A idéia principal é desenvolver ferramentas que possam ajudar na otimização de um SDS sem o envolvimento direto de um usuário humano ou servir de ferramenta para estudos futuros na área. / [en] Spoken Dialogue Systems (SDS s) are computer-based systems developed to provide information and carry out tasks using speech as the interaction mode. They are capable of speech recognition, interpretation, management of dialogue and have speech output capabilities, trying to reproduce a more or less natural spoken interaction between a human user and the system. SDS s provide several different services, all through spoken language. Even with all this development, there is scarcity of information on ways to assess and evaluate the quality of such systems with the purpose of optimization. With two of these SDS s ,BoRIS and INSPIRE, (used for Restaurant Booking Services and Smart Home Systems), extensive experiments were conducted in the past, where the systems were used to resolve specific tasks. The evaluators rated the quality of the system on a multitude of scales. In addition to that, the interactions were recorded and annotated by an expert. The development of methods for performance evaluation is an open research issue in this area of SDS s. Following the idea of the PARADISE model (PARAdigm for DIalogue System Evaluation model, the most well-known model for this purpose (developed by Walker and co-workers at AT&T in 1998), several experiments were conducted to develop predictive models of spoken dialogue performance. The objective of this dissertation is to develop and assess models which allow the prediction of quality dimensions as perceived by the human user, based on instrumentally measurable variables using all the collected data from the BoRIS and INSPIRE systems. Different types of algorithms will be compared to their prediction performance and to how generic they are. Four different approaches will be used for these analyses: Linear regression, Regression Trees, Classification Trees and Neural Networks. For each of these methods, a different tool will be programmed using MATLAB, that can carry out all experiments from this work and be easily modified for new experiments with data from new systems or new variables on future studies. All the used MATLAB programs will be made available on the attached CD with an operation manual for future users as well as a guide to modify the existing programs to work on new data. The main idea is to develop tools that would help on the optimization of a spoken dialogue system without a direct involvement of the human user or serve as tools for future studies in this area. [pt] RECONHECIMENTO DE VOZ [pt] SPOKEN DIALOGUE SYSTEMS [pt] LINGUAGEM FALADA [pt] ARVORES DE CLASSIFICACAO [pt] REDES NEURAIS [pt] ENGENHARIA ELETRICA - TESES [pt] REGRESSAO LINEAR [pt] ARVORES DE REGRESSAO [en] SPEECH RECOGNITION [en] SYSTEM PERFORMANCE EVALUATION [en] SPOKEN DIALOGUE SYSTEMS [en] SPOKEN LANGUAGE [en] CLASSIFICATION TREES [en] NEURAL NETWORKS [en] ELECTRICAL ENGINEERING - THESIS [en] LINEAR REGRESSION [en] REGRESSION TREES
157	[en] ESSAYS IN ECONOMETRICS: ONLINE LEARNING IN HIGH-DIMENSIONAL CONTEXTS AND TREATMENT EFFECTS WITH COMPLEX AND UNKNOWN ASSIGNMENT RULES / [pt] ESTUDOS EM ECONOMETRIA: APRENDIZADO ONLINE EM AMBIENTES DE ALTA DIMENSÃO E EFEITOS DE TRATAMENTO COM REGRAS DE ALOCAÇÃO COMPLEXAS E DESCONHECIDAS CLAUDIO CARDOSO FLORES 04 October 2021 (has links) [pt] Essa tese é composta por dois capítulos. O primeiro deles refere-se ao problema de aprendizado sequencial, útil em diversos campos de pesquisa e aplicações práticas. Exemplos incluem problemas de apreçamento dinâmico, desenhos de leilões e de incentivos, além de programas e tratamentos sequenciais. Neste capítulo, propomos a extensão de uma das mais populares regras de aprendizado, epsilon-greedy, para contextos de alta-dimensão, levando em consideração uma diretriz conservadora. Em particular, nossa proposta consiste em alocar parte do tempo que a regra original utiliza na adoção de ações completamente novas em uma busca focada em um conjunto restrito de ações promissoras. A regra resultante pode ser útil para aplicações práticas nas quais existem restrições suaves à adoção de ações não-usuais, mas que eventualmente, valorize surpresas positivas, ainda que a uma taxa decrescente. Como parte dos resultados, encontramos limites plausíveis, com alta probabilidade, para o remorso cumulativo para a regra epsilon-greedy conservadora em alta-dimensão. Também, mostramos a existência de um limite inferior para a cardinalidade do conjunto de ações viáveis que implica em um limite superior menor para o remorso da regra conservadora, comparativamente a sua versão não-conservadora. Adicionalmente, usuários finais possuem suficiente flexibilidade em estabelecer o nível de segurança que desejam, uma vez que tal nível não impacta as propriedades teóricas da regra de aprendizado proposta. Ilustramos nossa proposta tanto por meio de simulação, quanto por meio de um exercício utilizando base de dados de um problema real de sistemas de classificação. Por sua vez, no segundo capítulo, investigamos efeitos de tratamento determinísticos quando a regra de aloção é complexa e desconhecida, talvez por razões éticas, ou para evitar manipulação ou competição desnecessária. Mais especificamente, com foco na metodologia de regressão discontínua sharp, superamos a falta de conhecimento de pontos de corte na alocação de unidades, pela implementação de uma floresta de árvores de classificação, que também utiliza aprendizado sequencial na sua construção, para garantir que, assintoticamente, as regras de alocação desconhecidas sejam identificadas corretamente. A estrutura de árvore também é útil nos casos em que a regra de alocação desconhecida é mais complexa que as tradicionais univariadas. Motivado por exemplos da vida prática, nós mostramos nesse capítulo que, com alta probabilidade e baseado em premissas razoáveis, é possível estimar consistentemente os efeitos de tratamento sob esse cenário. Propomos ainda um algoritmo útil para usuários finais que se mostrou robusto para diferentes especificações e que revela com relativa confiança a regra de alocação anteriormente desconhecida. Ainda, exemplificamos os benefícios da metodologia proposta pela sua aplicação em parte do P900, um programa governamental Chileno de suporte para escolas, que se mostrou adequado ao cenário aqui estudado. / [en] Sequential learning problems are common in several fields of research and practical applications. Examples include dynamic pricing and assortment, design of auctions and incentives and permeate a large number of sequential treatment experiments. In this essay, we extend one of the most popular learning solutions, the epsilon-greedy heuristics, to high-dimensional contexts considering a conservative directive. We do this by allocating part of the time the original rule uses to adopt completely new actions to a more focused search in a restrictive set of promising actions. The resulting rule might be useful for practical applications that still values surprises, although at a decreasing rate, while also has restrictions on the adoption of unusual actions. With high probability, we find reasonable bounds for the cumulative regret of a conservative high-dimensional decaying epsilon-greedy rule. Also, we provide a lower bound for the cardinality of the set of viable actions that implies in an improved regret bound for the conservative version when compared to its non-conservative counterpart. Additionally, we show that end-users have sufficient flexibility when establishing how much safety they want, since it can be tuned without impacting theoretical properties. We illustrate our proposal both in a simulation exercise and using a real dataset. The second essay studies deterministic treatment effects when the assignment rule is both more complex than traditional ones and unknown to the public perhaps, among many possible causes, due to ethical reasons, to avoid data manipulation or unnecessary competition. More specifically, sticking to the well-known sharp RDD methodology, we circumvent the lack of knowledge of true cutoffs by employing a forest of classification trees which also uses sequential learning, as in the last essay, to guarantee that, asymptotically, the true unknown assignment rule is correctly identified. The tree structure also turns out to be suitable if the program s rule is more sophisticated than traditional univariate ones. Motivated by real world examples, we show in this essay that, with high probability and based on reasonable assumptions, it is possible to consistently estimate treatment effects under this setup. For practical implementation we propose an algorithm that not only sheds light on the previously unknown assignment rule but also is capable to robustly estimate treatment effects regarding different specifications imputed by end-users. Moreover, we exemplify the benefits of our methodology by employing it on part of the Chilean P900 school assistance program, which proves to be suitable for our framework. [pt] LASSO [pt] APRENDIZADO DE MAQUINA [pt] REGRESSAO DISCONTINUA [pt] FLORESTAS ALEATORIAS [pt] ARVORES DE CLASSIFICACAO [pt] REGRAS DE ALOCACAO DESCONHECIDAS [pt] EFEITOS DE TRATAMENTO [pt] BANDIT [pt] APRENDIZADO ONLINE [en] LASSO [en] MACHINE LEARNING [en] REGRESSION DISCONTINUITY [en] RANDOM FOREST [en] CLASSIFICATION TREES [en] ASSIGNMENT RULES [en] DESIGN [en] BANDIT [en] ONLINE LEARNING

Page generated in 0.0506 seconds