Global ETD Search

321	Análise comparativa entre a primeira e a segunda versão do Kinect na biometria do caminhar / Comparative analysys of Kinect’s first and second version on biometrics of gait Dias, Leandro Weige 25 April 2017 (has links) Submitted by Aline Batista (alinehb.ufpel@gmail.com) on 2018-04-19T13:36:05Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Leandro_Weige_Dias.pdf: 6474786 bytes, checksum: e8c0c5d24930246b588d580da0385883 (MD5) / Approved for entry into archive by Aline Batista (alinehb.ufpel@gmail.com) on 2018-04-19T14:44:49Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Leandro_Weige_Dias.pdf: 6474786 bytes, checksum: e8c0c5d24930246b588d580da0385883 (MD5) / Made available in DSpace on 2018-04-19T14:44:56Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Leandro_Weige_Dias.pdf: 6474786 bytes, checksum: e8c0c5d24930246b588d580da0385883 (MD5) Previous issue date: 2017-04-25 / Sem bolsa / Este trabalho tem por objetivo central trazer uma comparação entre as duas versões do sensor Kinect em relação a identificação biométrica através do caminhar humano. Para realizar a comparação entre os sensores, foram implementadas quatro metodologias diferentes de extração de parâmetros do caminhar humano, sendo analisados tanto atributos antropométricos, cinemáticos como espaço-temporais. Uma análise individual de cada atributo das propostas de caracterização do caminhar foi realizada para identificar os predicados que traziam maior contribuição na identificação dos indivíduos. Com a finalidade de se criar uma base de exemplos para a extração dos parâmetros do caminhar, foram capturados 50 indivíduos através dos sensores Kinect e aplicados algoritmos de aprendizado de máquina para a classificação das pessoas. Os resultados obtidos mostraram uma acurácia superior do Kinect One na maioria das metodologias, justificando a sua utilização em relação ao Kinect 360. Neste trabalho também foram realizados como experimentos adicionais a comparação entre os sensores com relação a identificação do gênero do indivíduo e a análise da dependência de pose. / The main goal of this thesis is to bring a comparative between the two versions of the Kinect sensor in biometric identification through human gait. To compare the sensors, four different methods of human gait parameters extraction were implemented, being analyzed both anthropometric, kinematic and spatiotemporal attributes. An individual analysis of each attribute of the gait characterization methodologies was performed to identify the attributes that bring the greatest contribution in the identification of individuals. In order to create a base for extracting gait parameters, 50 individuals were captured through the Kinect sensors and machine learning algorithms were applied to classify the people. The results obtained show a superiority of Kinect One in most of the methodologies, justifying its use in relation to Kinect 360. In this work, a mapping between the sensors in relation to the identification of the individual’s gender and an analysis of the pose dependency were also performed as additional experiments. Aprendizado de máquina Biometria Kinect Machine learning Biometrics
322	Categorização hierárquica de textos em um portal agregador de notícias Borges, Hugo Lima January 2009 (has links) Orientadora: Ana Carolina Lorena / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Engenharia da Informação, 2009 APRENDIZADO COMPUTACIONAL CLASSIFICAÇÃO HIERÁRQUICA DE TEXTOS CATEGORIZAÇÃO DE TEXTOS NAIVE BAYES
323	One-class support vector machines na construção de bases normativas de medidas neuroanatômicas utilizando imagens estruturais de ressonância magnética Oliveira, Ailton Andrade de January 2013 (has links) Orientador: João Ricardo Sato / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Neurociência e Cognição, 2013 APRENDIZADO COMPUTACIONAL NEUROANATOMIA COMPUTACIONAL SUPPORT VECTOR MACHINES
324	Anotação automática de imagens médicas bidimensionais por meio de classificação multirrótulo Villani, Leonardo January 2013 (has links) Orientador: Ronaldo Cristiano Prati / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Ciência da Computação, 2013 APRENDIZADO MULTIRROTULO IMAGENS MÉDICAS BIDIMENSIONAIS
325	Investigação de predição de fluxos em redes de computadores Silva Junior, Orlando da January 2014 (has links) Orientador: Ana Carolina Lorena / Dissertação (mestrado) - Universidade Federal do ABC. Programa de Pós-Graduação em Engenharia da Informação, 2014 APRENDIZADO COMPUTACIONAL SOFTWARE - REDES DEFINIDAS POR SOFTWARE
326	Malnutrição protéica e desenvolvimento hipocampal: estudo das implicações sobre memória/aprendizado e avaliação da distribuição da Óxido Nítrico Sintase / Protein malnutrition and hippocampal development: study of memory/learning and nitric oxide synthase distribution Bruna Messias Lotufo 27 February 2012 (has links) Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A nutrição inadequada é um dos principais fatores não-genéticos que afetam o desenvolvimento do encéfalo. O hipocampo é uma estrutura bastante sensível a alterações no aporte nutricional durante o desenvolvimento. No hipocampo a óxido nítrico sintase (ONS) é uma enzima altamente expressa e o óxido nítrico (ON) já foi apontado como tendo papel fundamental na potenciação de longa duração (LTP) e depressão de longa duração (LTD), responsáveis pelo processo de memória e aprendizado. Neste trabalho estudamos o efeito da malnutrição no comportamento associado à memória e aprendizado e na distribuição da ONS, através da técnica da nicotinamida adenina dinucleotídeo fosfato diaforase (NADPH-d). O presente trabalho foi aprovado pelo COMITÊ DE ÉTICA (CEA/055/2009). Foram utilizados ratos Wistar machos, divididos em dois grupos: grupo controle (GC) e grupo malnutrido (GM). A malnutrição se deu através da administração, para a mãe, de uma ração com 0% de proteína durante os 10 primeiros dias de lactação, iniciando-se no dia do nascimento dos filhotes. O GC recebeu ração comercial (22% de proteína). Os encéfalos foram processados histologicamente nas idades de P10, P20, P30, P45 e P90 (n=5 para cada idade e grupo estudado), sendo então realizada a histoquímica da NADPH-d para avaliar a distribuição da ONS. A avaliação dos comportamentos associados à ansiedade foi realizada através do labirinto em cruz elevado (LCE), o comportamento associados à busca por novos estímulos foi medida através do campo vazado (CV) e a memória/aprendizado foi avaliada através do labirinto aquático radial de 8 braços (LAROB) em animais P40 (n=10 para cada grupo) e P90 (n=11 para cada grupo). No GM em P10 observamos maior densidade de células NADPHd+ no giro denteado. Em P20, a marcação para NADPH-d no GM foi menor e esse padrão foi mantido em P30 e P45. No GM em P90 não observamos efeitos da dieta. Em P10, no GM observamos menor número de corpos marcados no stratum pyramidale (SPy). Em P20 o SPy encontrava-se intensamente marcado em ambos os grupos. Em P30 GM observamos maior número de células marcadas no SPy. Entretanto em P45, ambos os grupos apresentaram poucos corpos marcados. Em P90, o GM apresentou mais células marcadas no SPy. Não foram observadas diferenças significativas nas variáveis analisadas para o LCE. O GM em P90 explora maior número de orifícios, tanto na periferia (F=8,1; gl=1; P=0,014) quanto no número total (F=7,5; gl=1; P=0,017). Não foram observadas diferenças significativas para as variáveis analisadas no CV em P40. No teste de memória/aprendizagem foram observadas diferenças significativas entre o GM e o GC na latência de escape no 1 dia de testes em P90 (F=5,2; gl=1; P=0,033), com o GM apresentando melhor desempenho quando comparado ao GC. Esses valores podem ser explicados pela redução da latência para encontrar a plataforma de escape no GM. Não foram observadas diferenças significativas no LAROB em P40. Nossos resultados demonstram que a malnutrição protéica restrita aos 10 primeiros dias da lactação altera a distribuição da NADPH-d no hipocampo. A malnutrição afetou o comportamento dos animais em P40. Por outro lado, em P90 os primeiro dia de teste, sugerindo que o efeito observado está mais associado à novidade do ambiente de teste. / Undernutrition is one of the main epigenetic factors that affect brain development. The hippocampus is a very vulnerable structure that is selectively affected by alterations of food intake during the developmental period. Nitric oxide synthase is an enzyme highly expressed in this structure and nitric oxide has been postulated to have a role in hippocampal LTP and LTD. Here, we evaluated, in rats, the effects of protein malnutrition during the first 10 days of lactation on the distribution of NADPH-diaphorase and on the following behaviors: anxiety, novelty seeking and memory/learning. This study was approved by our University Ethics Committee (CEA/055/2009). Wistar male rats were divided into two groups: control group (CG) and malnourished group (MG). Dams were fed ad libitum with a normoprotein diet (22% protein) during gestation. During the first 10 days of lactation, MG dams received a protein free (0% protein) diet while CG dams received a normoprotein (22%protein) diet. After P10, all dams were fed with a normoprotein diet. On each age studied, P10 until P90 (n=5 for each group), the animals brains were processed histologically and then NADPH-d histochemistry was carried out. Behavioral tests were performed with one male from each litter. Anxiety-like effects were measured in the elevated plus maze (EPM) during 5 min. The time spent in and entries into the open arms were the measured variables. The hole board (HB) was used to assess novelty-seeking (number of nose pokes) for 5 min. Memory and learning were assessed in the 8-arm radial water maze (8-ARWM). The time needed to find a small platform (4 trials/day for 5 consecutive days) submerged in cloudy water was the measured variable. P10 MG animals showed more stained NADPH-d+ cells on the dentate gyrus. At P20, we observed fewer stained cells in MG and this pattern was also observed at P30 and P45. At P90 the staining pattern in the dentate gyrus was similar for both groups. P10 MG animals showed less stained cell bodies in the stratum pyramidale. At P20, the stratum pyramidale in both groups showed intense staining. P30 MG animals showed more stained NADPH-d cells, but, at P45, we observed few stained cells in both groups. Though P90 MG animals presented more stained cells in stratum pyramidale. No differences between groups were observed regarding the anxiety measures. Regarding novelty-seeking, P90 MG animals presented a significantly (ANOVA: P=0.014 and 0,017) higher number of nose pokes that CG ones. No differences were found between groups at P40. As for memory/learning, P90 MG animals had a significantly (P=0.032) reduced latency to find the platform than CG ones in the 8-ARWM. No differences were found between groups at P40. Our results demonstrate that protein malnutrition restricted to the first 10 days of lactation altered the distribution of NADPH-d on hippocampus. The malnourished animals did not display behavioral alterations at P40. Conversely, P90 malnourished animals displayed higher levels of novelty-seeking behavior and a better memory/learning performance, mainly in the first testing day, suggesting that the effect is highly dependent on the novelty of the testing situation. Desnutrição Hipocampo NADPH-d Memória e aprendizado Malnutrition Hippocampus Memory and learning Nitric Oxide NEUROFISIOLOGIA
327	Composições curriculares na educação infantil: por um aprendizado afetivo Prates, Maria Riziane Costa 26 March 2012 (has links) Made available in DSpace on 2016-12-23T14:01:53Z (GMT). No. of bitstreams: 1 Maria Riziane Costa Prates parte 1.pdf: 2358318 bytes, checksum: cd0defc2e04fa5074b227727cd8a2104 (MD5) Previous issue date: 2012-03-26 / The text problematizes the interdiscursivities about curriculum and childhood with teachers and children in a municipal Child Educational Center in the city of Serra - Espírito Santo. It maximizes the emergence of other possible singularities in the curricular practices, from the inventive movements instituted in educational experiments: continuing education, classroom and other spaces; organization plans and immanence, in the expansions produced as an art of the encounter by playing, music and life experiences in the difference as affection assemblages, favoring an inventive learning. Its main theoretical intercessors are: Gilles Deleuze, Felix Guattari and Michel Foucault in his dialogues with Espinosa. It uses a interdiscursive, cartographic method, in the school daily life, through a micropolitical perspective of analysis, concerning curriculum movements in order to understand the curriculum practices that promote a more beautiful life in early childhood education. Thus, the process proved to be potent and happy, from the partnerships established, the work shared by the teaching staff and the visibility of otherness and minority childhoods. Therefore, writing curricula in early childhood education for affective learning requires going beyond the established. In the imbrications of the instituted and instituting curriculum, it becomes necessary the qualification and empowerment of the collective in school, valuing the children s inventive thoughts, their pulsating and latent rhythms / Problematiza as interdiscursividades sobre currículo e infância, com professoras e crianças, em um Centro Municipal de Educação Infantil na cidade de Serra - Espírito Santo. Potencializa a emergência de outras possíveis singularidades nas práticas curriculares, a partir dos movimentos inventivos instaurados nas experimentações educativas: formações continuadas; sala de aula e outros espaços; planos de organização e imanência; nas expansões produzidas como arte do encontro pelo brincar, pela música e vivências na diferença como agenciamentos de afeto, favorecendo um aprendizado inventivo. Tem como principais intercessores teóricos: Gilles Deleuze, Felix Guattari e Michel Foucault nas suas interlocuções com Espinosa. Utiliza uma metodologia cartográfica interdiscursiva, no cotidiano escolar, através de uma perspectiva de análise micropolítica, referente aos movimentos do currículo, no sentido de compreender as práticas curriculares que promovem uma vida mais bonita na educação infantil. Diante disso, o processo se mostrou potente e alegre, a partir das parcerias estabelecidas, do trabalho compartilhado por parte do corpo docente e pela visibilidade de alteridades e infâncias minoritárias. Sendo assim, compor currículos na educação infantil, por aprendizados afetivos, requer ir além do estabelecido. Nos imbricamentos do instituído e instituinte curricular, tornam-se necessárias a qualificação e potencialização do coletivo na escola, valorizando o pensamento inventivo das crianças, seus ritmos pulsantes e latentes Práticas curriculares Aprendizado afetivo Curriculum practices affective learning
328	Melhoramento do índice de detecções na espectrometria gama em amostras ambientais usando inteligência artificial / Improvement of the detection rate in gamma spectrometry of environmental samples using artificial intelligence Arine, Bruno Burini Robles [UNESP] 19 December 2016 (has links) Submitted by Bruno Burini Robles Arine null (bruno.arine@gmail.com) on 2017-02-16T22:06:06Z No. of bitstreams: 1 dissertacao.pdf: 6110929 bytes, checksum: 77eef5d96d26472d9053d49594a07b06 (MD5) / Approved for entry into archive by Juliano Benedito Ferreira (julianoferreira@reitoria.unesp.br) on 2017-02-20T20:55:33Z (GMT) No. of bitstreams: 1 arine_bbr_me_soro.pdf: 6110929 bytes, checksum: 77eef5d96d26472d9053d49594a07b06 (MD5) / Made available in DSpace on 2017-02-20T20:55:33Z (GMT). No. of bitstreams: 1 arine_bbr_me_soro.pdf: 6110929 bytes, checksum: 77eef5d96d26472d9053d49594a07b06 (MD5) Previous issue date: 2016-12-19 / A utilização de elementos radioativos se estende hoje a diversos ramos da ciência e tecnologia, exigindo maneiras eficientes, precisas e sustentáveis de monitoramento para a preservação ambiental e a saúde humana. Uma técnica eficiente e não-destrutiva de análise de elementos emissores de raios gama é a espectrometria gama. No entanto, os softwares atuais de análise se deparam com certos empecilhos quando tratam de amostras ambientais, cujas concentrações de radioatividade são próximas do limite de detecção, ou quando certos radionuclídeos de interesse estão sujeitos a interferências. Este trabalho desenvolveu algoritmos de análise através de ferramentas do campo da inteligência artificial, de forma a obter um desempenho superior do que os métodos empregados em softwares clássicos de análise radiométrica. Três classificadores do campo da inteligência artificial foram testados; árvores de decisão (AD), máquinas de vetores de suporte (MVS) e redes neurais artificiais (RNA). Em testes com uma fonte de chumbo-210 de baixa atividade, a MVS obteve acurácia de 0,93, enquanto os métodos tradicionais obtiveram acurácia máxima de 0,73. Em testes com amostras reais de nitrato de uranila, a acurácia de classificação da RNA foi de 0,91, enquanto a acurácia dos métodos tradicionais foi de 0,70. Observou-se que os modelos baseados em inteligência artificial tiveram desempenho superior aos métodos tradicionais em todos os experimentos. Entretanto, esta vantagem diminui à medida que a relação sinal-ruído dos espectros aumenta, se tornando negligível quando a relação sinal-ruído supera o limite de detecção. / Usage of radioactive elements is present in several areas of science and technology, requiring efficient, accurate, and sustainable ways of environmental conservation and human health monitoring. Gamma-ray spectrometry is an efficient and non-destructive analysis technique for identification of gamma-ray emitting elements. Nonetheless, current analysis softwares have certain limitations regarding environmental samples, whose radioactivity concentration is often close to the detection limit, or when certain radionuclides of interest are subject to interference. This work aims the development of analysis algorithms based on the field of artificial intelligence in order to achieve better performance than the methods in classical radiometric analysis software. Three artificial intelligence classifiers were tested; decision trees (DT), support vector machines (SVM) and artificial neural networks (ANN). In tests with a low-activity lead-210 source, SVM obtained an accuracy of 0.93, while the traditional methods obtained a maximum accuracy of 0.73. In tests with real samples of uranyl nitrate, the accuracy of ANN classification was 0.91, while the accuracy of the traditional methods was 0.70. It was observed that artificial intelligence-based models performed better than traditional methods in all experiments. However, this advantage decreases as the signal-to-noise ratio of the spectra increases, becoming negligible when the signal-to-noise ratio exceeds the detection limit. Radiação gama Meio ambiente Inteligência artificial Aprendizado de máquina Gamma radiation Environment Artificial intelligence Machine learning
329	A wikification prediction model based on the combination of latent, dyadic and monadic features / Um modelo de previsão para Wikification baseado na combinação de atributos latentes, diádicos e monádicos Raoni Simões Ferreira 25 April 2016 (has links) Most of the reference information, nowadays, is found in repositories of documents semantically linked, created in a collaborative fashion and freely available in the web. Among the many problems faced by content providers in these repositories, one of the most important is Wikification, that is, the placement of links in the articles. These links have to support user navigation and should provide a deeper semantic interpretation of the content. Wikification is a hard task since the continuous growth of such repositories makes it increasingly demanding for editors. As consequence, they have their focus shifted from content creation, which should be their main objective. This has motivated the design of automatic Wikification tools which, traditionally, address two distinct problems: (a) how to identify which words (or phrases) in an article should be selected as anchors and (b) how to determine to which article the link, associated with the anchor, should point. Most of the methods in literature that address these problems are based on machine learning approaches which attempt to capture, through statistical features, characteristics of the concepts and its associations. Although these strategies handle the repository as a graph of concepts, normally they take limited advantage of the topological structure of this graph, as they describe it by means of human-engineered link statistical features. Despite the effectiveness of these machine learning methods, better models should take full advantage of the information topology if they describe it by means of data-oriented approaches such as matrix factorization. This indeed has been successfully done in other domains, such as movie recommendation. In this work, we fill this gap, proposing a wikification prediction model that combines the strengths of traditional predictors based on statistical features with a latent component which models the concept graph topology by means of matrix factorization. By comparing our model with a state-of-the-art wikification method, using a sample of Wikipedia articles, we obtained a gain up to 13% in F1 metric. We also provide a comprehensive analysis of the model performance showing the importance of the latent predictor component and the attributes derived from the associations between the concepts. The study still includes the analysis of the impact of ambiguous concepts, which allows us to conclude the model is resilient to ambiguity, even though does not include any explicitly disambiguation phase. We finally study the impact of selecting training samples from specific content quality classes, an information that is available in some respositories, such as Wikipedia. We empirically shown that the quality of the training samples impact on precision and overlinking, when comparing training performed using random quality samples versus high quality samples. / Atualmente, informações de referência são disponibilizadas através de repositórios de documentos semanticamente ligados, criados de forma colaborativa e com acesso livre na Web. Entre os muitos problemas enfrentados pelos provedores de conteúdo desses repositórios, destaca-se a Wikification, isto é, a inclusão de links nos artigos desses repositórios. Esses links possibilitam a navegação pelos artigos e permitem ao usuário um aprofundamento semântico do conteúdo. A Wikification é uma tarefa complexa, uma vez que o crescimento contínuo de tais repositórios resulta em um esforço cada vez maior dos editores. Como consequência, eles têm seu foco desviado da criação de conteúdo, que deveria ser o seu principal objetivo. Isso tem motivado o desenvolvimento de ferramentas de Wikification automática que, tradicionalmente, abordam dois problemas distintos: (a) como identificar que palavras (ou frases) em um artigo deveriam ser selecionados como texto de âncora e (b) como determinar para que artigos o link, associado ao texto de âncora, deveria apontar. A maioria dos métodos na literatura que abordam esses problemas usam aprendizado de máquina. Eles tentam capturar, através de atributos estatísticos, características dos conceitos e seus links. Embora essas estratégias tratam o repositório como um grafo de conceitos, normalmente elas pouco exploram a estrutura topológica do grafo, uma vez que se limitam a descrevê-lo por meio de atributos estatísticos dos links, projetados por especialistas humanos. Embora tais métodos sejam eficazes, novos modelos poderiam tirar mais proveito da topologia se a descrevessem por meio de abordagens orientados a dados, tais como a fatoração matricial. De fato, essa abordagem tem sido aplicada com sucesso em outros domínios como recomendação de filmes. Neste trabalho, propomos um modelo de previsão para Wikification que combina a força dos previsores tradicionais baseados em atributos estatísticos, projetados por seres humanos, com um componente de previsão latente, que modela a topologia do grafo de conceitos usando fatoração matricial. Ao comparar nosso modelo com o estado-da-arte em Wikification, usando uma amostra de artigos Wikipédia, observamos um ganho de até 13% em F1. Além disso, fornecemos uma análise detalhada do desempenho do modelo enfatizando a importância do componente de previsão latente e dos atributos derivados dos links entre os conceitos. Também analisamos o impacto de conceitos ambíguos, o que permite concluir que nosso modelo se porta bem mesmo diante de ambiguidade, apesar de não tratar explicitamente este problema. Ainda realizamos um estudo sobre o impacto da seleção das amostras de treino conforme a qualidade dos seus conteúdos, uma informação disponível em alguns repositórios, tais como a Wikipédia. Nós observamos que o treino com documentos de alta qualidade melhora a precisão do método, minimizando o uso de links desnecessários. Aprendizado de máquina Fatoração matricial Previsão de links Wikificação Wikipédia Link prediction Machine learning Matrix factorization Wikification Wikipedia
330	Métodos para seleção de palavras-chave em sistemas de publicidade contextual Berlt, Klessius Renato 19 December 2012 (has links) Submitted by Geyciane Santos (geyciane_thamires@hotmail.com) on 2015-06-22T14:20:17Z No. of bitstreams: 1 Tese - Klessius Renato Berlt.pdf: 972646 bytes, checksum: c127b522da4fc3719f61df80976a23ad (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-24T13:07:06Z (GMT) No. of bitstreams: 1 Tese - Klessius Renato Berlt.pdf: 972646 bytes, checksum: c127b522da4fc3719f61df80976a23ad (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-24T13:07:02Z (GMT) No. of bitstreams: 1 Tese - Klessius Renato Berlt.pdf: 972646 bytes, checksum: c127b522da4fc3719f61df80976a23ad (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-24T14:44:22Z (GMT) No. of bitstreams: 1 Tese - Klessius Renato Berlt.pdf: 972646 bytes, checksum: c127b522da4fc3719f61df80976a23ad (MD5) / Made available in DSpace on 2015-06-24T14:44:22Z (GMT). No. of bitstreams: 1 Tese - Klessius Renato Berlt.pdf: 972646 bytes, checksum: c127b522da4fc3719f61df80976a23ad (MD5) Previous issue date: 2012-12-19 / CNPQ - Conselho Nacional de Desenvolvimento Científico e Tecnológico / In this work we address the problem of selecting keywords for contextual advertising systems in two di erent scenarios: web pages and short texts. We deal with the problem of selecting keywords from web pages using machine learning. While traditional machine learning approaches usually have the goal of selecting keywords considered as good by humans. The new machine learning strategy proposed drives the selection by the expected impact of the keyword in the nal quality of the ad placement system, which we name here as ad collection aware keyword selection (also referred in this work as ACAKS). This new approach relies on the judgement of the users about the ads each keyword can retrieve. Although this strategy requires a higher e ort to build the training set than previous approaches, we believe the gain obtained in recall is worth enough to make the ad collection aware approach a better choice. In experiments we performed with an ad collection and considering features proposed in a previous work, we found that the new ad collection aware approach led to a gain of 62% in recall over the baseline without dropping the precision values. Besides the new alternative to select keywords, we also study the use of features extracted from the ad collection in the task of selecting keywords. We also present three new methods to extract keywords from web pages which require no learning process and use Wikipedia as an external source of information to support the keyword selection. The information used from Wikipedia includes the titles of articles, co-occurrence of keywords and categories associated with each Wikipedia de nition. Experimental results show that our methods are quite competitive solutions for the task of selecting good keywords to represent target web pages, albeit being simple, e ective and time e cient. Besides selecting keywords from web pages we also study methods for selecting keywords from short texts. Short texts have became a very popular way users adopt for publishing content on the web. Every day, millions of users post their thoughts, needs and feelings on the Web through systems, such as social networks like Facebook and Twitter, or spaces for comments on news web sites. Much of these systems' revenue is from contextual advertising systems, thus selecting keywords in this new scenario raise as a new challenge. We propose and study a novel family of methods which uses the connectivity information present on Wikipedia to discover the most related concepts on each short textual unit. We also used the proposed methods as a new set of features on a Machine Learning Framework to boost the quality of the results obtained. We show that this approach presents a good performance and outperforms the best baselines by more than 35%. Finally, we apply the ACAKS approach on short texts and it yielded good results, outperforming a traditional machine learning approach by more than 80% in precision and 80% in recall. / Neste trabalho, nós estudamos o problema de seleção de palavras-chave para sistemas de publicidade contextualizada em dois diferentes cenários: páginas web e textos curtos. Nós lidamos com o problema de seleção de palavras-chave em páginas web utilizando aprendizado de máquina. Abordagens tradicionais baseadas em aprendizado de máquina geralmente possuem como objetivo selecionar palavras-chave consideradas como relevantes por um conjunto de usuários. Entretanto, a nova estratégia proposta nesse trabalho objetiva selecionar palavras-chave que gerem o melhor resultado na qualidade final do sistema de seleção de publicidade. A esta estratégia, nós demos o nome de ad collection aware keyword selection (também chamada de ACAKS). Esta nova abordagem baseia-se no julgamento dos usuário em relação às propagandas com as quais cada palavra-chave _e relacionada pelo sistema de seleção de publicidade. Apesar desta estratégia demandar um alto esforço para rotular o conjunto de treino em relação _as abordagens tradicionais, nós acreditamos que o ganho obtido em revocação é suficiente para fazer com que o ACAKS seja uma melhor alternativa. Nos experimentos que nós realizamos com uma coleção de anúncios e considerando as características propostas em um trabalho anterior, nós descobrimos que a nova abordagem proposta levou a um ganho de 62% em revocação em relação ao baseline utilizado sem perder precisão. Além desta nova alternativa para selecionar palavras-chave, nós estudamos ainda a utilização do conjunto de características estraída da coleção de anúncios para selecionar palavras-chave. Nós também apresentamos três novos métodos para extrair palavras chave de páginas web que não necessitam de treino e usam a Wikipédia como fonte externa de informação. A informação usada da Wikipédia inclui os títulos dos artigos, co ocorrência de palavras chave e categorias associadas com cada artigo da Wikipédia. Resultados experimentais mostram que nossos métodos são soluções competitivas para selecionar boas palavras-chave que representem bem o conteúdo de páginas web, enquanto se mantém simples eficientes. Além da seleção de palavras-chave de paginas web nós também estudamos métodos para selecionar palavras-chave em textos curtos. Textos curtos tem se tornado uma maneira muito popular que os usuários encontraram para publicar conteúdo na web. Todos os dias, milhões de usuários postam seus pensamentos, necessidades e sentimentos na web através de sistemas de redes sociais, como Facebook e Twitter, ou espaços para comentários em sites de notícias. Grande parte da renda destes sistemas _e proveniente de publicidade contextualizada, desta forma selecionar palavras-chave neste novo cenário surge como um novo desafio. Nós propomos e estudamos uma nova família de métodos que utiliza a informação de conectividade presente na Wikipédia para descobrir os conceitos mais relacionados em cada texto curto. Utilizamos também os métodos propostos como um novo conjunto de características em um Framework de aprendizado de máquina para melhorar a qualidade dos resultados obtidos. Nós mostramos que esta abordagem apresenta um bom desempenho e supera o melhor baseline em cerca de 35%. Finalmente, nós aplicamos a abordagem ACAKS em textos curtos e ele gerou bons resultados, superando uma abordagem tradicional baseada em aprendizado de máquina em cerca de 80% tanto em termos de precisão quanto revocação. Seleção de palavras-chave Aprendizado de máquina Publicidade contextualizada Keyword selection Contextual advertising

Search results