Spelling suggestions: "subject:"maquinas"" "subject:"maquinaria""
141 |
Caracterização mecanica da castanha de caju (Anacardium ocidentale L.) para fins de beneficiamento e desenvolvimento de decorticador de cilindros rotativos / Mechanical caracterization of the cashew nut with aim improvement , and development of rotary cylinders decorticatorAraujo, Max Cesar de 24 February 2005 (has links)
Orientador: Antonio Carlos de Oliveira Ferraz / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Agricola / Made available in DSpace on 2018-08-04T17:41:19Z (GMT). No. of bitstreams: 1
Araujo_MaxCesarde_D.pdf: 7097825 bytes, checksum: 6b272d62beac51badea0f638230c5236 (MD5)
Previous issue date: 2005 / Resumo: A agroindústria do caju tem como principal produto econômico à amêndoa da castanha e, atualmente, utiliza o impacto aleatório como princípio de decorticação, com perdas de 40 a 50% de amêndoas inteiras. O desenvolvimento de mecanismos mais adequados para a ruptura da casca e liberação de amêndoas inteiras, exige conhecimento e aplicação de parâmetros associados às propriedades mecânicas do material. Este trabalho investigou algumas destas propriedades da castanha 'CCP 76¿, tais como: variações nas dimensões características, massa e volume, microestrutura, fragilidade do endocarpo e rigidez da amêndoa. Investigou-se também, a deformação específica limite como parâmetro tecnológico para a abertura das castanhas, através de ensaios de impacto. Com os resultados obtidos nestes estudos, desenvolveu-se um protótipo decorticador de cilindros rotativos que utiliza o princípio da compressão combinado com um impacto direcionado. Utilizou-se a metodologia de superfície de resposta para avaliar os resultados dos ensaios mecânicos e de desempenho do protótipo proposto, com castanhas tratadas em diferentes níveis de umidificação e tratamento térmico. Os resultados obtidos evidenciaram alterações nas dimensões características, na massa e volume das castanhas, como também, na microestrutura do endocarpo. Os resultados do ensaio de cisalhamento do endocarpo e resistência da amêndoa apontaram diferenças entre material in natura e o tratado termicamente. Nos ensaios de impacto, obteve-se 77,55% de abertura das castanhas com liberação da amêndoa inteira utilizando-se a deformação específica limite de 19%, aplicada ao longo da largura. O protótipo decorticador proposto apresentou desempenho de 67,35% para ruptura total da casca e amêndoa inteira liberada, com apenas uma passada pelos cilindros, utilizando a rotação combinada de 1150-1750rpm. A preparação das castanhas através do efeito combinado do tempo de umidificação e tratamento térmico não afetou o desempenho do protótipo na faixa de variação utilizada, mas apontou a região de tendência onde às respostas são mais adequadas / Abstract: The cashew industry has as its main product the kernel of the cashew nut. Currently, it uses by large the random impact as decortication method which produces losses from 40 to 50% of whole kernels. The development of more appropriate mechanisms to rupture of shell and to release of whole kernel, demands knowledge and application of parameters associated with the mechanical properties of the nut. This work aimed to investigate some of these properties of cashew nut 'CCP 76', such as: variations in characteristic dimensions, mass and volume, microstructure, brittleness of the endocarp and rigidity of kernel associated with nut treatment prior to cracking. It was also investigated, the limit specific deformation as technological parameter using a specially designed impact tester. Based in those studies, it was designed and constructed a nut decorticator prototype with rotary cylinders to combine compression and impact to crack the shell. The response surface methodology was used to evaluate the results of the mechanical tests and the performance of the prototype when cashew nuts treated in different humidity levels and thermal treatment were used. The results showed changes in the characteristic dimensions, in the mass and volume of the cashew nuts as well as in the microstructure of the endocarp after heat treatment. The results for the shear tests in the endocarp and stiffness of the kernel pointed differences between in natura and thermally treated nuts. For the impact test, it was obtained 77,55% of free whole kernels using the limit specific deformation of 19%, applied along the width of the nut. The nut decorticator proposed was able to release 67,35% free whole kernel with just one pass between the cylinders, using the cylinders combined rotation of 1150-1750rpm. The combined effect of time of humidity and thermal treatment used in the preparation of the cashew nuts didn't seem to affect the performance of the prototype, in the range of used. However, it pointed out to an area in the response surface where the combination of treatments would be more appropriate / Doutorado / Maquinas Agricolas / Doutor em Engenharia Agrícola
|
142 |
[en] COLLABORATIVE FILTERING APPLIED TO TARGETED ADVERTISING / [pt] FILTRAGEM COLABORATIVA APLICADA A PUBLICIDADE DIRECIONADAROBERTO PEREIRA CAVALCANTE 27 October 2008 (has links)
[pt] O surgimento da World Wide Web representou uma nova
oportunidade de
publicidade, disponível para qualquer empresa:
A possibilidade de exposição
global para uma grande audiência a um custo extremamente
pequeno. Como
conseqüência disso, surgiu toda uma nova indústria
oferecendo serviços
relacionados à publicidade de busca, na qual uma empresa
anunciante paga por
uma posição de destaque em listas de anúncios. A fim de
manter a credibilidade e
a participação de mercado do serviço que os veicula - por
exemplo, uma máquina
de busca - os anúncios devem ser exibidos apenas para os
usuários que se
interessem por eles, no que se chama de Publicidade
Direcionada. Em virtude
disso, surge a necessidade de se utilizar um sistema de
recomendação que seja
capaz de escolher que anúncios exibir para quais usuários.
Nos sistemas de
recomendação baseados em filtragem colaborativa, as
preferências de outros
usuários são utilizadas como atributos para um sistema de
aprendizado, pois estas
podem ser bastante detalhadas, gerando recomendações não só
para os itens mais
populares como também para nichos de itens. Neste trabalho,
é desenvolvido um
sistema de recomendação de anúncios que aplica Filtragem
Colaborativa baseada
em fatoração de matrizes ao problema de predição do Click-
Through Rate, uma
métrica em Publicidade Direcionada que expressa a
relevância de um anúncio
para os usuários que buscam por uma determinada palavra-
chave. A fim de
validar o método proposto de predição do Click-Through
Rate, realizamos vários
experimentos em um conjunto de dados sintéticos.
Adicionalmente, o trabalho
contribui para o projeto do LearnAds, um framework de
recomendação de
anúncios baseado em Aprendizado de Máquina. / [en] The emergence of the World Wide Web represented a new
advertising
opportunity available to any company: The possibility of
global exposure to a large
audience at a very small cost. As a result, a whole new
industry has emerged by
offering services related to search advertising, in which
an advertiser pays for a
prominent position in lists of ads. In order to maintain
the credibility and market
share of the service that conveys them - for example, a
search engine - such ads
must be displayed only to users who are interested in them,
on what is called
Targeted Advertising. Therefore, those services need to use
a recommendation
system that can choose which ads show to which users.
Recommendation systems
based on collaborative filtering use the preferences of
other users as features to a
learning system, since such preferences can be quite
detailed, generating
recommendations not only for the most popular items but
also to item niches. In
this work, we develop an ads recommendation system that
applies Collaborative
Filtering based on matrix factorization to the problem of
predicting the
Click-Through Rate, a Targeted Advertising metric that
expresses the relevance of
a particular ad for the users searching for a specific
keyword. In order to validate
the proposed method of Click-Through Rate prediction, we
carry out several
experiments on a synthetic data set. Additionally, the work
contributes to the
design of LearnAds, a framework for ads recommendation
systems based on
Machine Learning.
|
143 |
[en] BOOSTING FOR RECOMMENDATION SYSTEMS / [pt] BOOSTING PARA SISTEMAS DE RECOMENDAÇÃOTULIO JORGE DE A N DE S ANIBOLETE 02 April 2009 (has links)
[pt] Com a quantidade de informação e sua disponibilidade facilitada pelo uso da Internet, diversas opções são oferecidas às pessoas e estas, normalmente, possuem pouca ou quase nenhuma experiência para decidir dentre as alternativas existentes. Neste âmbito, os Sistemas de Recomendação surgem para organizar e recomendar automaticamente, através de Aprendizado de Máquina, itens interessantes aos usuários. Um dos grandes desafios deste tipo de sistema é realizar o casamento correto entre o que está sendo recomendado e aqueles que estão recebendo a recomendação. Este trabalho aborda um Sistema de Recomendação baseado em Filtragem Colaborativa, técnica cuja essência está na troca de experiências entre usuários com interesses comuns. Na Filtragem Colaborativa, os usuários pontuam cada item experimentado de forma a indicar sua relevância, permitindo que outros do mesmo grupo se beneficiem destas pontuações. Nosso objetivo é utilizar um algoritmo de Boosting para otimizar a performance dos Sistemas de Recomendação. Para isto, utilizamos uma base de dados de anúncios com fins de validação e uma base de dados de filmes com fins de teste. Após adaptações nas estratégias convencionais de Boosting, alcançamos melhorias de até 3% sobre a performance do algoritmo original. / [en] With the amount of information and its easy availability on the Internet, many options are offered to the people and they, normally, have little or almost no experience to decide between the existing alternatives. In this scene, the Recommendation Systems appear to organize and recommend automatically, through Machine Learning, the interesting items. One of the great recommendation challenges is to match correctly what is being recommended and who are receiving the recommendation. This work presents a Recommendation System based on Collaborative Filtering, technique whose essence is the exchange of experiences between users with common interests. In Collaborative Filtering, users rate each experimented item indicating its relevance allowing the use of ratings by other users of the same group. Our objective is to implement a Boosting algorithm in order to optimize a Recommendation System performance. For this, we use a database of advertisements with validation purposes and a database of movies with testing purposes. After adaptations in the conventional Boosting strategies, improvements of 3% were reached over the original algorithm.
|
144 |
[en] RECOMMENDER SYSTEMS USING RESTRICTED BOLTZMANN MACHINES / [pt] SISTEMAS DE RECOMENDAÇÃO UTILIZANDO MÁQUINAS DE BOLTZMANN RESTRITASFELIPE JOAO PONTES DA CRUZ 13 June 2017 (has links)
[pt] Sistemas de recomendação aparecem em diversos domínios do mundo real. Vários modelos foram propostos para o problema de predição de entradas faltantes em um conjunto de dados. Duas das abordagens mais
comuns são filtragem colaborativa baseada em similaridade e modelos de fatores latentes. Uma alternativa, mais recente, foi proposta por Salakhutdinov em 2007, usando máquinas de Boltzmann restritas, ou RBMs. Esse modelo se encaixa na família de modelos de fatores latentes, no qual, modelamos fatores latentes dos dados usando unidades binárias na camada escondida das RBMs. Esses modelos se mostraram capazes de aproximar
resultados obtidos com modelos de fatoração de matrizes. Nesse trabalho vamos revisitar esse modelo e detalhar cuidadosamente como modelar e treinar RBMs para o problema de predição de entradas vazias em dados
tabulares. / [en] Recommender systems can be used in many problems in the real world. Many models were proposed to solve the problem of predicting missing entries in a specific dataset. Two of the most common approaches are neighborhood-based collaborative filtering and latent factor models. A more recent alternative was proposed on 2007 by Salakhutdinov, using Restricted Boltzmann Machines. This models belongs to the family of latent
factor models, in which, we model latent factors over the data using hidden binary units. RBMs have shown that they can approximate solutions trained with a traditional matrix factorization model. In this work we ll revisit this proposed model and carefully detail how to model and train RBMs for the problem of missing ratings prediction.
|
145 |
Exploring ensemble learning techniques to optimize the reverse engineering of gene regulatory networks / Explorando técnicas de ensemble learning para otimizar a engenharia reversa de redes regulatórias genéticasRecamonde-Mendoza, Mariana January 2014 (has links)
Nesta tese estamos especificamente interessados no problema de engenharia re- versa de redes regulatórias genéticas a partir de dados de pós-genômicos, um grande desafio na área de Bioinformática. Redes regulatórias genéticas são complexos cir- cuitos biológicos responsáveis pela regulação do nível de expressão dos genes, desem- penhando assim um papel fundamental no controle de inúmeros processos celulares, incluindo diferenciação celular, ciclo celular e metabolismo. Decifrar a estrutura destas redes é crucial para possibilitar uma maior compreensão à nível de sistema do desenvolvimento e comportamento dos organismos, e eventualmente esclarecer os mecanismos de doenças causados pela desregulação dos processos acima mencio- nados. Devido ao expressivo aumento da disponibilidade de dados experimentais de larga escala e da grande dimensão e complexidade dos sistemas biológicos, métodos computacionais têm sido ferramentas essenciais para viabilizar esta investigação. No entanto, seu desempenho ainda é bastante deteriorado por importantes desafios com- putacionais e biológicos impostos pelo cenário. Em particular, o ruído e esparsidade inerentes aos dados biológicos torna este problema de inferência de redes um difícil problema de otimização combinatória, para o qual métodos computacionais dispo- níveis falham em relação à exatidão e robustez das predições. Esta tese tem como objetivo investigar o uso de técnicas de ensemble learning como forma de superar as limitações existentes e otimizar o processo de inferência, explorando a diversidade entre um conjunto de modelos. Com este intuito, desenvolvemos métodos computa- cionais tanto para gerar redes diversificadas, como para combinar estas predições em uma solução única (solução ensemble ), e aplicamos esta abordagem a uma série de cenários com diferentes fontes de diversidade a fim de compreender o seu potencial neste contexto específico. Mostramos que as soluções propostas são competitivas com algoritmos tradicionais deste campo de pesquisa e que melhoram nossa capa- cidade de reconstruir com precisão as redes regulatórias genéticas. Os resultados obtidos para a inferência de redes de regulação transcricional e pós-transcricional, duas camadas adjacentes e complementares que compõem a rede de regulação glo- bal, tornam evidente a eficiência e robustez da nossa abordagem, encorajando a consolidação de ensemble learning como uma metodologia promissora para decifrar a estrutura de redes regulatórias genéticas. / In this thesis we are concerned about the reverse engineering of gene regulatory networks from post-genomic data, a major challenge in Bioinformatics research. Gene regulatory networks are intricate biological circuits responsible for govern- ing the expression levels (activity) of genes, thereby playing an important role in the control of many cellular processes, including cell differentiation, cell cycle and metabolism. Unveiling the structure of these networks is crucial to gain a systems- level understanding of organisms development and behavior, and eventually shed light on the mechanisms of diseases caused by the deregulation of these cellular pro- cesses. Due to the increasing availability of high-throughput experimental data and the large dimension and complexity of biological systems, computational methods have been essential tools in enabling this investigation. Nonetheless, their perfor- mance is much deteriorated by important computational and biological challenges posed by the scenario. In particular, the noisy and sparse features of biological data turn the network inference into a challenging combinatorial optimization prob- lem, to which current methods fail in respect to the accuracy and robustness of predictions. This thesis aims at investigating the use of ensemble learning tech- niques as means to overcome current limitations and enhance the inference process by exploiting the diversity among multiple inferred models. To this end, we develop computational methods both to generate diverse network predictions and to combine multiple predictions into an ensemble solution, and apply this approach to a number of scenarios with different sources of diversity in order to understand its potential in this specific context. We show that the proposed solutions are competitive with tra- ditional algorithms in the field and improve our capacity to accurately reconstruct gene regulatory networks. Results obtained for the inference of transcriptional and post-transcriptional regulatory networks, two adjacent and complementary layers of the overall gene regulatory network, evidence the efficiency and robustness of our approach, encouraging the consolidation of ensemble systems as a promising methodology to decipher the structure of gene regulatory networks.
|
146 |
Aplicação de máquinas de vetores de suporte para desenvolvimento de modelos de classificação e calibração multivariada em espectroscopia no infravermelho / Application of support vector machines in development of classification and multivariate calibration models in infrared spectroscopyMaretto, Danilo Althmann 18 August 2018 (has links)
Orientador: Ronei Jesus Popi / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Química / Made available in DSpace on 2018-08-18T17:27:36Z (GMT). No. of bitstreams: 1
Maretto_DaniloAlthmann_D.pdf: 2617064 bytes, checksum: 1ebea2b6ab73ef552155cd9b79b6fd1b (MD5)
Previous issue date: 2011 / Resumo: O objetivo desta tese de doutorado foi de utilizar o algoritmo Máquinas de Vetores de Suporte (SVM) em problemas de classificação e calibração, onde algoritmos mais tradicionais (SIMCA e PLS, respectivamente) encontram problemas. Foram realizadas quatro aplicações utilizando dados de espectroscopia no infravermelho. Na primeira o SVM se mostrou ser uma ferramenta mais indicada para a determinação de Carbono e Nitrogênio em solo por NIR, quando estes elementos estão em solos sem que se saiba se há ou não a presença do mineral gipsita, obtendo concentrações desses elementos com erros consideravelmente menores do que a previsão feita pelo PLS. Na determinação da concentração de um mineral em polímero por NIR, que foi a segunda aplicação, o PLS conseguiu previsões com erros aceitáveis, entretanto, através da análise do teste F e o gráfico de erros absolutos das previsões, foi possível concluir que o modelo SVM conseguiu chegar a um modelo mais ajustado. Na terceira aplicação, que consistiu na classificação de bactérias quanto às condições de crescimento (temperaturas 30 ou 40°C e na presença ou ausência de fosfato) por MIR, o SIMCA não foi capaz de classificar corretamente a grande maioria das amostras enquanto o SVM produziu apenas uma previsão errada. E por fim, na última aplicação, que foi a diferenciação de nódulos cirróticos e de hepatocarcinoma por microespectroscopia MIR, a taxa das previsões corretas para os conjuntos de validação do SVM foram maiores do que do SIMCA. Nas quatro aplicações o SVM produziu resultados melhores do que o SIMCA e o PLS, mostrando que pode ser uma alternativa aos métodos mais tradicionais de classificação e calibração multivariada / Abstract: The objective of this thesis was to use the algorithm Support Vector Machines (SVM) in problems of classification and calibration, where more traditional algorithms (SIMCA and PLS, respectively) present problems. Four applications were developed using data for infrared spectra. In the first one, the SVM proved to be a most suitable tool for determination of carbon and nitrogen in soil by NIR, when these elements are in soils without knowledge whether or not the presence of the gypsum mineral, obtaining concentrations of these elements with errors considerably smaller than the estimated by the PLS. In the determination of the concentration of a mineral in a polymer by NIR, which was the second application, the PLS presented predictions with acceptable errors, however, by examining the F test and observing absolute errors of predictions, it was concluded that the SVM was able to reach a more adjusted model. In the third application, classification of bacteria on the different growth conditions (temperatures 30 or 40 ° C and in the presence or absence of phosphate) by MIR, the SIMCA was not able to correctly classify the majority of the samples while the SVM produced only one false prediction. Finally, in the last application, which was the differentiation of cirrhotic nodules and Hepatocellular carcinoma by infrared microspectroscopy, the rate of correct predictions for the validation of sets of SVM was higher than the SIMCA. In the four applications SVM produced better results than SIMCA and PLS, showing that it can be an alternative to the traditional algorithms for classification and multivariate calibration / Doutorado / Quimica Analitica / Doutor em Ciências
|
147 |
[pt] APRENDIZADO EM DOIS ESTÁGIOS PARA MÉTODOS DE COMITÉ DE ÁRVORES DE DECISÃO / [en] TWO-STAGE LEARNING FOR TREE ENSEMBLE METHODSALEXANDRE WERNECK ANDREZA 23 November 2020 (has links)
[pt] Tree ensemble methods são reconhecidamente métodos de sucesso em problemas de aprendizado supervisionado, bem como são comumente descritos como métodos resistentes ao overfitting. A proposta deste trabalho é investigar essa característica a partir de modelos que extrapolem essa resistência. Ao prever uma instância de exemplo, os métodos de conjuntos são capazes de identificar a folha onde essa instância ocorre em cada uma das árvores. Nosso método então procura identificar uma nova função sobre todas as folhas deste conjunto, minimizando uma função de perda no conjunto de treino. Uma das maneiras de definir conceitualmente essa proposta é interpretar nosso modelo como um gerador automático de features ou um otimizador de predição. / [en] In supervised learning, tree ensemble methods have been recognized for their high level performance in a wide range of applications. Moreover, several references report such methods to present a resistance of to overfitting. This work investigates this observed resistance by proposing a method that explores it. When predicting an instance, tree ensemble methods determines the leaf of each tree where the instance falls. The prediction is then obtained by a function of these leaves, minimizing a loss function or an error estimator for the training set, overfitting in the learning phase in some sense. This method can be interpreted either as an Automated Feature Engineering or a Predictor Optimization.
|
148 |
[pt] AGRUPAMENTO DE AÇÕES POR EMBEDDINGS TEXTUAIS NA PREVISÃO DE PREÇOS / [en] STOCK CLUSTERING BASED ON TEXTUAL EMBEDDINGS APPLIED TO PRICE PREDICTIONANDRE DAVYS CARVALHO MELO DE OLIVEIRA 17 August 2020 (has links)
[pt] Realizar previsões de preços no mercado de ações é uma tarefa difícil devido ao fato de o mercado financeiro ser um ambiente altamente dinâmico, complexo e caótico. Para algumas teorias financeiras, usar as informações disponíveis para tentar prever o preço de uma ação a curto prazo é um esforço em vão já que ele sofre a influência de diversos fatores externos e, em decorrência, sua variação assemelha-se à de um passeio aleatório. Estudos recentes, como (37) e (51), abordam o problema com modelos de predição específicos para o comportamento do preço de uma ação isolada. Neste trabalho, apresenta-se uma proposta para prever variações de preço tendo como base conjuntos de ações consideradas similares. O objetivo é criar um modelo capaz de prever se o preço de diferentes ações tendem a subir ou não a curto prazo, considerando informações de ações pertencentes a conjuntos similares com base em duas fontes de informações: os dados históricos das ações e as notícias do Google Trends. No estudo proposto, primeiramente é aplicado um método para identificar conjuntos de ações similares para então criar um modelo de predição baseado em redes neurais LSTM (long shortterm memory) para esses conjuntos. Mais especificamente, foram conduzidos dois experimentos: (1) aplicação do algoritmo K-Means para a identificação dos conjuntos de ações similares, seguida da utilização de uma rede neural LSTM para realizar as previsões, e (2) aplicação do algoritmo DBSCAN para a criação dos conjuntos seguida da mesma rede LSTM para prever as variações de preço. O estudo foi realizado em um conjunto com 51 ações do mercado acionário brasileiro, e os experimentos sugeriram que utilizar um método para criar conjuntos de ações similares melhora os resultados em aproximadamente 7 porcento de acurácia e f1-score, e 8 porcento de recall e precision quando comparados a modelos para ações isoladas. / [en] Predicting stock market prices is a hard task. The main reason for that is due to the fact its environment is highly dynamic, intrinsically complex and chaotic. The traditional economic theories tell us that trying to predict short-term stock price movements is a wasted effort because the market is influenced by several external events and its behavior approximates a random walk. Recent studies, such as (37) and (51), address this problem and create specific prediction models for the price behavior of an isolated stock. This work presents a proposal to predict price movements based on stock sets considered similar. Our goal is building a model to identify whether the price tends to bullishness or bearishness in the (near) future, considering stock information from similar sets based on two sources of information: historical stock data and Google Trends news. Firstly, the proposed study applies a method to identify similar stock sets and then creates a predictive model based on LSTM (long short-term memory) for these sets. More specifically, two experiments were conducted: (1) using the K-Means algorithm to identify similar stock sets and then using a LSTM neural network to predict stock price movements for these stock sets; (2) using the DBSCAN algorithm to identify similar stock sets and then using the same LSTM neural network to forecast stock price movements. The study was conducted over 51 stocks of the brazilian stock market. The results suggested that using an algorithm to identify similar stock clusters yields an improvement of approximately 7 percent in accuracy and f1-score and 8 percent in recall and precision when compared to specific models for isolated stocks.
|
149 |
[pt] SEGMENTAÇÃO SEMÂNTICA DE VAGAS DE EMPREGO: ESTUDO COMPARATIVO DE ALGORITMOS CLÁSSICOS DE APRENDIZADO DE MÁQUINA / [en] SEMANTIC JOB VACANCY SEGMENTATION: COMPARATIVE STUDY OF CLASSICAL MACHINE LEARNING ALGORITHMSDAVID EVANDRO AMORIM MARTINS 18 August 2020 (has links)
[pt] Este trabalho demonstra como web mining, processamento de linguagem natural e aprendizado de máquina podem ser combinados para melhorar a compreensão de vagas de emprego segmentando semanticamente os textos de suas descrições. Para atingir essa finalidade, foram coletados dados textuais de três grandes sites de vagas de emprego: Catho, LinkedIn e VAGAS.com.br. Baseado na literatura, este trabalho propôe uma estrutura semântica simplificada em que cada sentença da descrição da vaga de emprego pode pertencer a uma dessas classes: Responsabilidades, Requisitos, Benefícios e Outros. De posse dessa ideia, a tarefa de segmentação semântica pode ser repensada como uma segmentação de sentenças seguida de uma classificação. Usando o Python como ferramenta, são experimentadas algumas formas de construção de atributos a partir de textos, tanto léxicas quanto semânticas, e quatro algoritmos clássicos de aprendizado de máquina: Naive Bayes, Regressão Logística, Máquina de Vetores de Suporte e Floresta Aleatória. Como resultados, este trabalho traz um classificador (Regressão Logística com representação binária) com 95.58 porcento de acurácia, sem sobreajuste de modelo e sem degenerar as classificações por desbalanceio de classes, que é comparável ao estado da arte para Classificação de Texto. Esse classificador foi treinado e validado usando dados do Catho, mas foi testado também nos dados do VAGAS.com.br (88.60 porcento) e do LinkedIn (91.14 porcento), apresentando uma evidência de que seu aprendizado é generalizável para dados de outros sites. Além disso, o classificador foi usado para segmentação semântica das vagas de emprego e obteve uma métrica Pk de 3.67 porcento e uma métrica WindowDiff de 4.78 porcento, que é comparável ao estado da arte de Segmentação de Texto. Por fim, vale salientar duas contribuições indiretas deste trabalho: 1) uma estrutura para pensar e analisar vagas de emprego e 2) uma indicação de que algoritmos clássicos também podem alcançar o estado da arte e, portanto, sempre devem experimentados. / [en] This dissertation demonstrates how web mining, natural language processing, and machine learning can be combined to improve understanding of job openings by semantically segmenting the texts of their descriptions. To achieve this purpose, textual data were collected from three major job sites: Catho, LinkedIn and VAGAS.com.br. Based on the literature, this work proposes a simplified semantic structure in which each sentence of the job description can belong to one of these classes: Responsibilities, Requirements, Benefits and Others. With this idea, the semantic segmentation task can be rethought as a sentence segmentation followed by a classification. Using Python as a tool, some ways of constructing features from texts are tried out, both lexical and semantic, and four classic machine learning algorithms: Naïve Bayes, Logistic Regression, Support Vector Machine, and Random Forest. As a result, this work presents a classifier (Logistic Regression with binary representation) with 95.58 percent accuracy, without model overfitting and without degeneration by class unbalance, which is comparable to state-of-the-art for Text Classification. This classifier was trained and validated using Catho data, but was also tested on VAGAS.com.br (88.60 percent) and LinkedIn (91.14 percent) data, providing evidence that its learning is generalizable to data from other sites. In addition, the classifier was used for semantic segmentation of job openings and obtained a Pk metric equals to 3.67 percent and a WindowDiff metric equals to 4.78 percent, which is comparable to state-of-the-art for Text Segmentation. Finally, it is worth highlighting two indirect contributions of this work: 1) a structure for thinking and analyzing job openings and 2) an indication that classical algorithms can also reach the state of the art and therefore should always be tried.
|
150 |
[en] LIMITED TIME MACHINE TEACHING FOR REGRESSION PROBLEMS / [pt] MACHINE TEACHING COM TEMPO LIMITADO PARA PROBLEMAS DE REGRESSÃOPEDRO LAZERA CARDOSO 02 December 2021 (has links)
[pt] Este trabalho considera o problema de Regressão com Tempo Limitado.
Dados um dataset, um algoritmo de aprendizado (Learner) a ser treinado e
um tempo limitado, não sabemos se seria possível treinar o modelo com todo
o dataset dentro deste tempo. Queremos então elaborar a estratégia que
extraia o melhor modelo possível deste algoritmo de aprendizado respeitando
o limite de tempo. Uma estratégia consiste em interagir com o Learner de
duas formas: enviando exemplos para o Learner treinar e enviando exemplos
para o Learner rotular. Nós definimos o que é o problema de Regressão
com Tempo Limitado, decompomos o problema de elaborar uma estratégia
em subproblemas mais simples e bem definidos, elaboramos uma estratégia
natural baseada em escolha aleatória de exemplos e finalmente apresentamos
uma estratégia, TW+BH, que supera a estratégia natural em experimentos
que realizamos com diversos datasets reais. / [en] This work considers the Time-Limited Regression problem. Given a dataset,
a learning algorithm (Learner) to be trained and a limited time, we do not
know if it s going to be possible to train the model with the entire dataset
within this time constraint. We then want to elaborate the strategy that
extracts the best possible model from this learning algorithm respecting the
time limit. A strategy consists of a series of interactions with the Learner,
in two possible ways: sending labeled examples for the Learner to train
and sending unlabeled examples for the Learner to classify. We define what
the Time-Limited Regression problem is, we decompose the problem of
elaborating a strategy into simpler and more well-defined sub-problems, we
elaborate a natural strategy based on random choice of examples and finally
we present a strategy, TW+BH, that performs better than the natural strategy
in experiments we have done with several real datasets.
|
Page generated in 0.0437 seconds