• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 192
  • 89
  • 5
  • 1
  • 1
  • Tagged with
  • 290
  • 186
  • 156
  • 151
  • 132
  • 68
  • 41
  • 41
  • 34
  • 34
  • 31
  • 30
  • 29
  • 27
  • 26
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
141

Caracterização mecanica da castanha de caju (Anacardium ocidentale L.) para fins de beneficiamento e desenvolvimento de decorticador de cilindros rotativos / Mechanical caracterization of the cashew nut with aim improvement , and development of rotary cylinders decorticator

Araujo, Max Cesar de 24 February 2005 (has links)
Orientador: Antonio Carlos de Oliveira Ferraz / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-04T17:41:19Z (GMT). No. of bitstreams: 1 Araujo_MaxCesarde_D.pdf: 7097825 bytes, checksum: 6b272d62beac51badea0f638230c5236 (MD5) Previous issue date: 2005 / Resumo: A agroindústria do caju tem como principal produto econômico à amêndoa da castanha e, atualmente, utiliza o impacto aleatório como princípio de decorticação, com perdas de 40 a 50% de amêndoas inteiras. O desenvolvimento de mecanismos mais adequados para a ruptura da casca e liberação de amêndoas inteiras, exige conhecimento e aplicação de parâmetros associados às propriedades mecânicas do material. Este trabalho investigou algumas destas propriedades da castanha 'CCP 76¿, tais como: variações nas dimensões características, massa e volume, microestrutura, fragilidade do endocarpo e rigidez da amêndoa. Investigou-se também, a deformação específica limite como parâmetro tecnológico para a abertura das castanhas, através de ensaios de impacto. Com os resultados obtidos nestes estudos, desenvolveu-se um protótipo decorticador de cilindros rotativos que utiliza o princípio da compressão combinado com um impacto direcionado. Utilizou-se a metodologia de superfície de resposta para avaliar os resultados dos ensaios mecânicos e de desempenho do protótipo proposto, com castanhas tratadas em diferentes níveis de umidificação e tratamento térmico. Os resultados obtidos evidenciaram alterações nas dimensões características, na massa e volume das castanhas, como também, na microestrutura do endocarpo. Os resultados do ensaio de cisalhamento do endocarpo e resistência da amêndoa apontaram diferenças entre material in natura e o tratado termicamente. Nos ensaios de impacto, obteve-se 77,55% de abertura das castanhas com liberação da amêndoa inteira utilizando-se a deformação específica limite de 19%, aplicada ao longo da largura. O protótipo decorticador proposto apresentou desempenho de 67,35% para ruptura total da casca e amêndoa inteira liberada, com apenas uma passada pelos cilindros, utilizando a rotação combinada de 1150-1750rpm. A preparação das castanhas através do efeito combinado do tempo de umidificação e tratamento térmico não afetou o desempenho do protótipo na faixa de variação utilizada, mas apontou a região de tendência onde às respostas são mais adequadas / Abstract: The cashew industry has as its main product the kernel of the cashew nut. Currently, it uses by large the random impact as decortication method which produces losses from 40 to 50% of whole kernels. The development of more appropriate mechanisms to rupture of shell and to release of whole kernel, demands knowledge and application of parameters associated with the mechanical properties of the nut. This work aimed to investigate some of these properties of cashew nut 'CCP 76', such as: variations in characteristic dimensions, mass and volume, microstructure, brittleness of the endocarp and rigidity of kernel associated with nut treatment prior to cracking. It was also investigated, the limit specific deformation as technological parameter using a specially designed impact tester. Based in those studies, it was designed and constructed a nut decorticator prototype with rotary cylinders to combine compression and impact to crack the shell. The response surface methodology was used to evaluate the results of the mechanical tests and the performance of the prototype when cashew nuts treated in different humidity levels and thermal treatment were used. The results showed changes in the characteristic dimensions, in the mass and volume of the cashew nuts as well as in the microstructure of the endocarp after heat treatment. The results for the shear tests in the endocarp and stiffness of the kernel pointed differences between in natura and thermally treated nuts. For the impact test, it was obtained 77,55% of free whole kernels using the limit specific deformation of 19%, applied along the width of the nut. The nut decorticator proposed was able to release 67,35% free whole kernel with just one pass between the cylinders, using the cylinders combined rotation of 1150-1750rpm. The combined effect of time of humidity and thermal treatment used in the preparation of the cashew nuts didn't seem to affect the performance of the prototype, in the range of used. However, it pointed out to an area in the response surface where the combination of treatments would be more appropriate / Doutorado / Maquinas Agricolas / Doutor em Engenharia Agrícola
142

[en] COLLABORATIVE FILTERING APPLIED TO TARGETED ADVERTISING / [pt] FILTRAGEM COLABORATIVA APLICADA A PUBLICIDADE DIRECIONADA

ROBERTO PEREIRA CAVALCANTE 27 October 2008 (has links)
[pt] O surgimento da World Wide Web representou uma nova oportunidade de publicidade, disponível para qualquer empresa: A possibilidade de exposição global para uma grande audiência a um custo extremamente pequeno. Como conseqüência disso, surgiu toda uma nova indústria oferecendo serviços relacionados à publicidade de busca, na qual uma empresa anunciante paga por uma posição de destaque em listas de anúncios. A fim de manter a credibilidade e a participação de mercado do serviço que os veicula - por exemplo, uma máquina de busca - os anúncios devem ser exibidos apenas para os usuários que se interessem por eles, no que se chama de Publicidade Direcionada. Em virtude disso, surge a necessidade de se utilizar um sistema de recomendação que seja capaz de escolher que anúncios exibir para quais usuários. Nos sistemas de recomendação baseados em filtragem colaborativa, as preferências de outros usuários são utilizadas como atributos para um sistema de aprendizado, pois estas podem ser bastante detalhadas, gerando recomendações não só para os itens mais populares como também para nichos de itens. Neste trabalho, é desenvolvido um sistema de recomendação de anúncios que aplica Filtragem Colaborativa baseada em fatoração de matrizes ao problema de predição do Click- Through Rate, uma métrica em Publicidade Direcionada que expressa a relevância de um anúncio para os usuários que buscam por uma determinada palavra- chave. A fim de validar o método proposto de predição do Click-Through Rate, realizamos vários experimentos em um conjunto de dados sintéticos. Adicionalmente, o trabalho contribui para o projeto do LearnAds, um framework de recomendação de anúncios baseado em Aprendizado de Máquina. / [en] The emergence of the World Wide Web represented a new advertising opportunity available to any company: The possibility of global exposure to a large audience at a very small cost. As a result, a whole new industry has emerged by offering services related to search advertising, in which an advertiser pays for a prominent position in lists of ads. In order to maintain the credibility and market share of the service that conveys them - for example, a search engine - such ads must be displayed only to users who are interested in them, on what is called Targeted Advertising. Therefore, those services need to use a recommendation system that can choose which ads show to which users. Recommendation systems based on collaborative filtering use the preferences of other users as features to a learning system, since such preferences can be quite detailed, generating recommendations not only for the most popular items but also to item niches. In this work, we develop an ads recommendation system that applies Collaborative Filtering based on matrix factorization to the problem of predicting the Click-Through Rate, a Targeted Advertising metric that expresses the relevance of a particular ad for the users searching for a specific keyword. In order to validate the proposed method of Click-Through Rate prediction, we carry out several experiments on a synthetic data set. Additionally, the work contributes to the design of LearnAds, a framework for ads recommendation systems based on Machine Learning.
143

[en] BOOSTING FOR RECOMMENDATION SYSTEMS / [pt] BOOSTING PARA SISTEMAS DE RECOMENDAÇÃO

TULIO JORGE DE A N DE S ANIBOLETE 02 April 2009 (has links)
[pt] Com a quantidade de informação e sua disponibilidade facilitada pelo uso da Internet, diversas opções são oferecidas às pessoas e estas, normalmente, possuem pouca ou quase nenhuma experiência para decidir dentre as alternativas existentes. Neste âmbito, os Sistemas de Recomendação surgem para organizar e recomendar automaticamente, através de Aprendizado de Máquina, itens interessantes aos usuários. Um dos grandes desafios deste tipo de sistema é realizar o casamento correto entre o que está sendo recomendado e aqueles que estão recebendo a recomendação. Este trabalho aborda um Sistema de Recomendação baseado em Filtragem Colaborativa, técnica cuja essência está na troca de experiências entre usuários com interesses comuns. Na Filtragem Colaborativa, os usuários pontuam cada item experimentado de forma a indicar sua relevância, permitindo que outros do mesmo grupo se beneficiem destas pontuações. Nosso objetivo é utilizar um algoritmo de Boosting para otimizar a performance dos Sistemas de Recomendação. Para isto, utilizamos uma base de dados de anúncios com fins de validação e uma base de dados de filmes com fins de teste. Após adaptações nas estratégias convencionais de Boosting, alcançamos melhorias de até 3% sobre a performance do algoritmo original. / [en] With the amount of information and its easy availability on the Internet, many options are offered to the people and they, normally, have little or almost no experience to decide between the existing alternatives. In this scene, the Recommendation Systems appear to organize and recommend automatically, through Machine Learning, the interesting items. One of the great recommendation challenges is to match correctly what is being recommended and who are receiving the recommendation. This work presents a Recommendation System based on Collaborative Filtering, technique whose essence is the exchange of experiences between users with common interests. In Collaborative Filtering, users rate each experimented item indicating its relevance allowing the use of ratings by other users of the same group. Our objective is to implement a Boosting algorithm in order to optimize a Recommendation System performance. For this, we use a database of advertisements with validation purposes and a database of movies with testing purposes. After adaptations in the conventional Boosting strategies, improvements of 3% were reached over the original algorithm.
144

[en] RECOMMENDER SYSTEMS USING RESTRICTED BOLTZMANN MACHINES / [pt] SISTEMAS DE RECOMENDAÇÃO UTILIZANDO MÁQUINAS DE BOLTZMANN RESTRITAS

FELIPE JOAO PONTES DA CRUZ 13 June 2017 (has links)
[pt] Sistemas de recomendação aparecem em diversos domínios do mundo real. Vários modelos foram propostos para o problema de predição de entradas faltantes em um conjunto de dados. Duas das abordagens mais comuns são filtragem colaborativa baseada em similaridade e modelos de fatores latentes. Uma alternativa, mais recente, foi proposta por Salakhutdinov em 2007, usando máquinas de Boltzmann restritas, ou RBMs. Esse modelo se encaixa na família de modelos de fatores latentes, no qual, modelamos fatores latentes dos dados usando unidades binárias na camada escondida das RBMs. Esses modelos se mostraram capazes de aproximar resultados obtidos com modelos de fatoração de matrizes. Nesse trabalho vamos revisitar esse modelo e detalhar cuidadosamente como modelar e treinar RBMs para o problema de predição de entradas vazias em dados tabulares. / [en] Recommender systems can be used in many problems in the real world. Many models were proposed to solve the problem of predicting missing entries in a specific dataset. Two of the most common approaches are neighborhood-based collaborative filtering and latent factor models. A more recent alternative was proposed on 2007 by Salakhutdinov, using Restricted Boltzmann Machines. This models belongs to the family of latent factor models, in which, we model latent factors over the data using hidden binary units. RBMs have shown that they can approximate solutions trained with a traditional matrix factorization model. In this work we ll revisit this proposed model and carefully detail how to model and train RBMs for the problem of missing ratings prediction.
145

Exploring ensemble learning techniques to optimize the reverse engineering of gene regulatory networks / Explorando técnicas de ensemble learning para otimizar a engenharia reversa de redes regulatórias genéticas

Recamonde-Mendoza, Mariana January 2014 (has links)
Nesta tese estamos especificamente interessados no problema de engenharia re- versa de redes regulatórias genéticas a partir de dados de pós-genômicos, um grande desafio na área de Bioinformática. Redes regulatórias genéticas são complexos cir- cuitos biológicos responsáveis pela regulação do nível de expressão dos genes, desem- penhando assim um papel fundamental no controle de inúmeros processos celulares, incluindo diferenciação celular, ciclo celular e metabolismo. Decifrar a estrutura destas redes é crucial para possibilitar uma maior compreensão à nível de sistema do desenvolvimento e comportamento dos organismos, e eventualmente esclarecer os mecanismos de doenças causados pela desregulação dos processos acima mencio- nados. Devido ao expressivo aumento da disponibilidade de dados experimentais de larga escala e da grande dimensão e complexidade dos sistemas biológicos, métodos computacionais têm sido ferramentas essenciais para viabilizar esta investigação. No entanto, seu desempenho ainda é bastante deteriorado por importantes desafios com- putacionais e biológicos impostos pelo cenário. Em particular, o ruído e esparsidade inerentes aos dados biológicos torna este problema de inferência de redes um difícil problema de otimização combinatória, para o qual métodos computacionais dispo- níveis falham em relação à exatidão e robustez das predições. Esta tese tem como objetivo investigar o uso de técnicas de ensemble learning como forma de superar as limitações existentes e otimizar o processo de inferência, explorando a diversidade entre um conjunto de modelos. Com este intuito, desenvolvemos métodos computa- cionais tanto para gerar redes diversificadas, como para combinar estas predições em uma solução única (solução ensemble ), e aplicamos esta abordagem a uma série de cenários com diferentes fontes de diversidade a fim de compreender o seu potencial neste contexto específico. Mostramos que as soluções propostas são competitivas com algoritmos tradicionais deste campo de pesquisa e que melhoram nossa capa- cidade de reconstruir com precisão as redes regulatórias genéticas. Os resultados obtidos para a inferência de redes de regulação transcricional e pós-transcricional, duas camadas adjacentes e complementares que compõem a rede de regulação glo- bal, tornam evidente a eficiência e robustez da nossa abordagem, encorajando a consolidação de ensemble learning como uma metodologia promissora para decifrar a estrutura de redes regulatórias genéticas. / In this thesis we are concerned about the reverse engineering of gene regulatory networks from post-genomic data, a major challenge in Bioinformatics research. Gene regulatory networks are intricate biological circuits responsible for govern- ing the expression levels (activity) of genes, thereby playing an important role in the control of many cellular processes, including cell differentiation, cell cycle and metabolism. Unveiling the structure of these networks is crucial to gain a systems- level understanding of organisms development and behavior, and eventually shed light on the mechanisms of diseases caused by the deregulation of these cellular pro- cesses. Due to the increasing availability of high-throughput experimental data and the large dimension and complexity of biological systems, computational methods have been essential tools in enabling this investigation. Nonetheless, their perfor- mance is much deteriorated by important computational and biological challenges posed by the scenario. In particular, the noisy and sparse features of biological data turn the network inference into a challenging combinatorial optimization prob- lem, to which current methods fail in respect to the accuracy and robustness of predictions. This thesis aims at investigating the use of ensemble learning tech- niques as means to overcome current limitations and enhance the inference process by exploiting the diversity among multiple inferred models. To this end, we develop computational methods both to generate diverse network predictions and to combine multiple predictions into an ensemble solution, and apply this approach to a number of scenarios with different sources of diversity in order to understand its potential in this specific context. We show that the proposed solutions are competitive with tra- ditional algorithms in the field and improve our capacity to accurately reconstruct gene regulatory networks. Results obtained for the inference of transcriptional and post-transcriptional regulatory networks, two adjacent and complementary layers of the overall gene regulatory network, evidence the efficiency and robustness of our approach, encouraging the consolidation of ensemble systems as a promising methodology to decipher the structure of gene regulatory networks.
146

Aplicação de máquinas de vetores de suporte para desenvolvimento de modelos de classificação e calibração multivariada em espectroscopia no infravermelho / Application of support vector machines in development of classification and multivariate calibration models in infrared spectroscopy

Maretto, Danilo Althmann 18 August 2018 (has links)
Orientador: Ronei Jesus Popi / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Química / Made available in DSpace on 2018-08-18T17:27:36Z (GMT). No. of bitstreams: 1 Maretto_DaniloAlthmann_D.pdf: 2617064 bytes, checksum: 1ebea2b6ab73ef552155cd9b79b6fd1b (MD5) Previous issue date: 2011 / Resumo: O objetivo desta tese de doutorado foi de utilizar o algoritmo Máquinas de Vetores de Suporte (SVM) em problemas de classificação e calibração, onde algoritmos mais tradicionais (SIMCA e PLS, respectivamente) encontram problemas. Foram realizadas quatro aplicações utilizando dados de espectroscopia no infravermelho. Na primeira o SVM se mostrou ser uma ferramenta mais indicada para a determinação de Carbono e Nitrogênio em solo por NIR, quando estes elementos estão em solos sem que se saiba se há ou não a presença do mineral gipsita, obtendo concentrações desses elementos com erros consideravelmente menores do que a previsão feita pelo PLS. Na determinação da concentração de um mineral em polímero por NIR, que foi a segunda aplicação, o PLS conseguiu previsões com erros aceitáveis, entretanto, através da análise do teste F e o gráfico de erros absolutos das previsões, foi possível concluir que o modelo SVM conseguiu chegar a um modelo mais ajustado. Na terceira aplicação, que consistiu na classificação de bactérias quanto às condições de crescimento (temperaturas 30 ou 40°C e na presença ou ausência de fosfato) por MIR, o SIMCA não foi capaz de classificar corretamente a grande maioria das amostras enquanto o SVM produziu apenas uma previsão errada. E por fim, na última aplicação, que foi a diferenciação de nódulos cirróticos e de hepatocarcinoma por microespectroscopia MIR, a taxa das previsões corretas para os conjuntos de validação do SVM foram maiores do que do SIMCA. Nas quatro aplicações o SVM produziu resultados melhores do que o SIMCA e o PLS, mostrando que pode ser uma alternativa aos métodos mais tradicionais de classificação e calibração multivariada / Abstract: The objective of this thesis was to use the algorithm Support Vector Machines (SVM) in problems of classification and calibration, where more traditional algorithms (SIMCA and PLS, respectively) present problems. Four applications were developed using data for infrared spectra. In the first one, the SVM proved to be a most suitable tool for determination of carbon and nitrogen in soil by NIR, when these elements are in soils without knowledge whether or not the presence of the gypsum mineral, obtaining concentrations of these elements with errors considerably smaller than the estimated by the PLS. In the determination of the concentration of a mineral in a polymer by NIR, which was the second application, the PLS presented predictions with acceptable errors, however, by examining the F test and observing absolute errors of predictions, it was concluded that the SVM was able to reach a more adjusted model. In the third application, classification of bacteria on the different growth conditions (temperatures 30 or 40 ° C and in the presence or absence of phosphate) by MIR, the SIMCA was not able to correctly classify the majority of the samples while the SVM produced only one false prediction. Finally, in the last application, which was the differentiation of cirrhotic nodules and Hepatocellular carcinoma by infrared microspectroscopy, the rate of correct predictions for the validation of sets of SVM was higher than the SIMCA. In the four applications SVM produced better results than SIMCA and PLS, showing that it can be an alternative to the traditional algorithms for classification and multivariate calibration / Doutorado / Quimica Analitica / Doutor em Ciências
147

[pt] APRENDIZADO EM DOIS ESTÁGIOS PARA MÉTODOS DE COMITÉ DE ÁRVORES DE DECISÃO / [en] TWO-STAGE LEARNING FOR TREE ENSEMBLE METHODS

ALEXANDRE WERNECK ANDREZA 23 November 2020 (has links)
[pt] Tree ensemble methods são reconhecidamente métodos de sucesso em problemas de aprendizado supervisionado, bem como são comumente descritos como métodos resistentes ao overfitting. A proposta deste trabalho é investigar essa característica a partir de modelos que extrapolem essa resistência. Ao prever uma instância de exemplo, os métodos de conjuntos são capazes de identificar a folha onde essa instância ocorre em cada uma das árvores. Nosso método então procura identificar uma nova função sobre todas as folhas deste conjunto, minimizando uma função de perda no conjunto de treino. Uma das maneiras de definir conceitualmente essa proposta é interpretar nosso modelo como um gerador automático de features ou um otimizador de predição. / [en] In supervised learning, tree ensemble methods have been recognized for their high level performance in a wide range of applications. Moreover, several references report such methods to present a resistance of to overfitting. This work investigates this observed resistance by proposing a method that explores it. When predicting an instance, tree ensemble methods determines the leaf of each tree where the instance falls. The prediction is then obtained by a function of these leaves, minimizing a loss function or an error estimator for the training set, overfitting in the learning phase in some sense. This method can be interpreted either as an Automated Feature Engineering or a Predictor Optimization.
148

[pt] AGRUPAMENTO DE AÇÕES POR EMBEDDINGS TEXTUAIS NA PREVISÃO DE PREÇOS / [en] STOCK CLUSTERING BASED ON TEXTUAL EMBEDDINGS APPLIED TO PRICE PREDICTION

ANDRE DAVYS CARVALHO MELO DE OLIVEIRA 17 August 2020 (has links)
[pt] Realizar previsões de preços no mercado de ações é uma tarefa difícil devido ao fato de o mercado financeiro ser um ambiente altamente dinâmico, complexo e caótico. Para algumas teorias financeiras, usar as informações disponíveis para tentar prever o preço de uma ação a curto prazo é um esforço em vão já que ele sofre a influência de diversos fatores externos e, em decorrência, sua variação assemelha-se à de um passeio aleatório. Estudos recentes, como (37) e (51), abordam o problema com modelos de predição específicos para o comportamento do preço de uma ação isolada. Neste trabalho, apresenta-se uma proposta para prever variações de preço tendo como base conjuntos de ações consideradas similares. O objetivo é criar um modelo capaz de prever se o preço de diferentes ações tendem a subir ou não a curto prazo, considerando informações de ações pertencentes a conjuntos similares com base em duas fontes de informações: os dados históricos das ações e as notícias do Google Trends. No estudo proposto, primeiramente é aplicado um método para identificar conjuntos de ações similares para então criar um modelo de predição baseado em redes neurais LSTM (long shortterm memory) para esses conjuntos. Mais especificamente, foram conduzidos dois experimentos: (1) aplicação do algoritmo K-Means para a identificação dos conjuntos de ações similares, seguida da utilização de uma rede neural LSTM para realizar as previsões, e (2) aplicação do algoritmo DBSCAN para a criação dos conjuntos seguida da mesma rede LSTM para prever as variações de preço. O estudo foi realizado em um conjunto com 51 ações do mercado acionário brasileiro, e os experimentos sugeriram que utilizar um método para criar conjuntos de ações similares melhora os resultados em aproximadamente 7 porcento de acurácia e f1-score, e 8 porcento de recall e precision quando comparados a modelos para ações isoladas. / [en] Predicting stock market prices is a hard task. The main reason for that is due to the fact its environment is highly dynamic, intrinsically complex and chaotic. The traditional economic theories tell us that trying to predict short-term stock price movements is a wasted effort because the market is influenced by several external events and its behavior approximates a random walk. Recent studies, such as (37) and (51), address this problem and create specific prediction models for the price behavior of an isolated stock. This work presents a proposal to predict price movements based on stock sets considered similar. Our goal is building a model to identify whether the price tends to bullishness or bearishness in the (near) future, considering stock information from similar sets based on two sources of information: historical stock data and Google Trends news. Firstly, the proposed study applies a method to identify similar stock sets and then creates a predictive model based on LSTM (long short-term memory) for these sets. More specifically, two experiments were conducted: (1) using the K-Means algorithm to identify similar stock sets and then using a LSTM neural network to predict stock price movements for these stock sets; (2) using the DBSCAN algorithm to identify similar stock sets and then using the same LSTM neural network to forecast stock price movements. The study was conducted over 51 stocks of the brazilian stock market. The results suggested that using an algorithm to identify similar stock clusters yields an improvement of approximately 7 percent in accuracy and f1-score and 8 percent in recall and precision when compared to specific models for isolated stocks.
149

[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA / [en] SEMANTIC JOB VACANCY SEGMENTATION: COMPARATIVE STUDY OF CLASSICAL MACHINE LEARNING ALGORITHMS

DAVID EVANDRO AMORIM MARTINS 18 August 2020 (has links)
[pt] Este trabalho demonstra como web mining, processamento de linguagem natural e aprendizado de máquina podem ser combinados para melhorar a compreensão de vagas de emprego segmentando semanticamente os textos de suas descrições. Para atingir essa finalidade, foram coletados dados textuais de três grandes sites de vagas de emprego: Catho, LinkedIn e VAGAS.com.br. Baseado na literatura, este trabalho propôe uma estrutura semântica simplificada em que cada sentença da descrição da vaga de emprego pode pertencer a uma dessas classes: Responsabilidades, Requisitos, Benefícios e Outros. De posse dessa ideia, a tarefa de segmentação semântica pode ser repensada como uma segmentação de sentenças seguida de uma classificação. Usando o Python como ferramenta, são experimentadas algumas formas de construção de atributos a partir de textos, tanto léxicas quanto semânticas, e quatro algoritmos clássicos de aprendizado de máquina: Naive Bayes, Regressão Logística, Máquina de Vetores de Suporte e Floresta Aleatória. Como resultados, este trabalho traz um classificador (Regressão Logística com representação binária) com 95.58 porcento de acurácia, sem sobreajuste de modelo e sem degenerar as classificações por desbalanceio de classes, que é comparável ao estado da arte para Classificação de Texto. Esse classificador foi treinado e validado usando dados do Catho, mas foi testado também nos dados do VAGAS.com.br (88.60 porcento) e do LinkedIn (91.14 porcento), apresentando uma evidência de que seu aprendizado é generalizável para dados de outros sites. Além disso, o classificador foi usado para segmentação semântica das vagas de emprego e obteve uma métrica Pk de 3.67 porcento e uma métrica WindowDiff de 4.78 porcento, que é comparável ao estado da arte de Segmentação de Texto. Por fim, vale salientar duas contribuições indiretas deste trabalho: 1) uma estrutura para pensar e analisar vagas de emprego e 2) uma indicação de que algoritmos clássicos também podem alcançar o estado da arte e, portanto, sempre devem experimentados. / [en] This dissertation demonstrates how web mining, natural language processing, and machine learning can be combined to improve understanding of job openings by semantically segmenting the texts of their descriptions. To achieve this purpose, textual data were collected from three major job sites: Catho, LinkedIn and VAGAS.com.br. Based on the literature, this work proposes a simplified semantic structure in which each sentence of the job description can belong to one of these classes: Responsibilities, Requirements, Benefits and Others. With this idea, the semantic segmentation task can be rethought as a sentence segmentation followed by a classification. Using Python as a tool, some ways of constructing features from texts are tried out, both lexical and semantic, and four classic machine learning algorithms: Naïve Bayes, Logistic Regression, Support Vector Machine, and Random Forest. As a result, this work presents a classifier (Logistic Regression with binary representation) with 95.58 percent accuracy, without model overfitting and without degeneration by class unbalance, which is comparable to state-of-the-art for Text Classification. This classifier was trained and validated using Catho data, but was also tested on VAGAS.com.br (88.60 percent) and LinkedIn (91.14 percent) data, providing evidence that its learning is generalizable to data from other sites. In addition, the classifier was used for semantic segmentation of job openings and obtained a Pk metric equals to 3.67 percent and a WindowDiff metric equals to 4.78 percent, which is comparable to state-of-the-art for Text Segmentation. Finally, it is worth highlighting two indirect contributions of this work: 1) a structure for thinking and analyzing job openings and 2) an indication that classical algorithms can also reach the state of the art and therefore should always be tried.
150

[en] LIMITED TIME MACHINE TEACHING FOR REGRESSION PROBLEMS / [pt] MACHINE TEACHING COM TEMPO LIMITADO PARA PROBLEMAS DE REGRESSÃO

PEDRO LAZERA CARDOSO 02 December 2021 (has links)
[pt] Este trabalho considera o problema de Regressão com Tempo Limitado. Dados um dataset, um algoritmo de aprendizado (Learner) a ser treinado e um tempo limitado, não sabemos se seria possível treinar o modelo com todo o dataset dentro deste tempo. Queremos então elaborar a estratégia que extraia o melhor modelo possível deste algoritmo de aprendizado respeitando o limite de tempo. Uma estratégia consiste em interagir com o Learner de duas formas: enviando exemplos para o Learner treinar e enviando exemplos para o Learner rotular. Nós definimos o que é o problema de Regressão com Tempo Limitado, decompomos o problema de elaborar uma estratégia em subproblemas mais simples e bem definidos, elaboramos uma estratégia natural baseada em escolha aleatória de exemplos e finalmente apresentamos uma estratégia, TW+BH, que supera a estratégia natural em experimentos que realizamos com diversos datasets reais. / [en] This work considers the Time-Limited Regression problem. Given a dataset, a learning algorithm (Learner) to be trained and a limited time, we do not know if it s going to be possible to train the model with the entire dataset within this time constraint. We then want to elaborate the strategy that extracts the best possible model from this learning algorithm respecting the time limit. A strategy consists of a series of interactions with the Learner, in two possible ways: sending labeled examples for the Learner to train and sending unlabeled examples for the Learner to classify. We define what the Time-Limited Regression problem is, we decompose the problem of elaborating a strategy into simpler and more well-defined sub-problems, we elaborate a natural strategy based on random choice of examples and finally we present a strategy, TW+BH, that performs better than the natural strategy in experiments we have done with several real datasets.

Page generated in 0.0437 seconds