• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 63
  • 63
  • Tagged with
  • 126
  • 126
  • 125
  • 125
  • 122
  • 19
  • 19
  • 19
  • 19
  • 19
  • 18
  • 18
  • 16
  • 13
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

[en] LIMITED TIME MACHINE TEACHING FOR REGRESSION PROBLEMS / [pt] MACHINE TEACHING COM TEMPO LIMITADO PARA PROBLEMAS DE REGRESSÃO

PEDRO LAZERA CARDOSO 02 December 2021 (has links)
[pt] Este trabalho considera o problema de Regressão com Tempo Limitado. Dados um dataset, um algoritmo de aprendizado (Learner) a ser treinado e um tempo limitado, não sabemos se seria possível treinar o modelo com todo o dataset dentro deste tempo. Queremos então elaborar a estratégia que extraia o melhor modelo possível deste algoritmo de aprendizado respeitando o limite de tempo. Uma estratégia consiste em interagir com o Learner de duas formas: enviando exemplos para o Learner treinar e enviando exemplos para o Learner rotular. Nós definimos o que é o problema de Regressão com Tempo Limitado, decompomos o problema de elaborar uma estratégia em subproblemas mais simples e bem definidos, elaboramos uma estratégia natural baseada em escolha aleatória de exemplos e finalmente apresentamos uma estratégia, TW+BH, que supera a estratégia natural em experimentos que realizamos com diversos datasets reais. / [en] This work considers the Time-Limited Regression problem. Given a dataset, a learning algorithm (Learner) to be trained and a limited time, we do not know if it s going to be possible to train the model with the entire dataset within this time constraint. We then want to elaborate the strategy that extracts the best possible model from this learning algorithm respecting the time limit. A strategy consists of a series of interactions with the Learner, in two possible ways: sending labeled examples for the Learner to train and sending unlabeled examples for the Learner to classify. We define what the Time-Limited Regression problem is, we decompose the problem of elaborating a strategy into simpler and more well-defined sub-problems, we elaborate a natural strategy based on random choice of examples and finally we present a strategy, TW+BH, that performs better than the natural strategy in experiments we have done with several real datasets.
42

[pt] MODELAGEM DE EVENTOS DE TRÂNSITO COM BASE EM CLIPPING DE GRANDES MASSAS DE DADOS DA WEB / [en] TRAFFIC EVENTS MODELING BASED ON CLIPPING OF HUGE QUANTITY OF DATA FROM THE WEB

LUCIANA ROSA REDLICH 28 January 2015 (has links)
[pt] Este trabalho consiste no desenvolvimento de um modelo que auxilie na análise de eventos ocorridos no trânsito das grandes cidades. Utilizando uma grande massa de dados publicados na Internet, em especial no twitter, por usuários comuns, este trabalho fornece uma ontologia para eventos do trânsito publicados em notícias da internet e uma aplicação que use o modelo proposto para realizar consultas aos eventos modelados. Para isso, as notícias publicadas em linguagem natural são processadas, isto é, as entidades relevantes no texto são identificadas e depois estruturadas de tal forma que seja feita uma analise semântica da notícia publicada. As notícias publicadas são estruturadas no modelo proposto de eventos e com isso é possível que sejam feitas consultas sobre suas propriedades e relacionamentos, facilitando assim a análise do processo do trânsito e dos eventos ocorridos nele. / [en] This work proposes a traffic event model to assist the analysis of traffic events on big cities. This paper aims to provide not only an ontology for traffic events considering published news over the Internet, but also a prototype of a software architecture that uses the proposed model to perform queries on the events, using a huge quantity of published data on the Internet by regular users, especially on twitter. To do so, the news published in natural language is processed, and the relevant entities in the text are identified and structured in order to make a semantic analysis of them. The news reported is structured in the proposed model of events and thus the queries about their properties and relationships could be answered. As a consequence, the result of this work facilitates the analysis of the events occurred on the traffic process.
43

[en] DECISION DIAGRAMS FOR CLASSIFICATION: NEW CONSTRUCTIVE APPROACHES / [pt] DIAGRAMAS DE DECISÃO PARA CLASSIFICAÇÃO: NOVAS ABORDAGENS CONSTRUTIVAS

PEDRO SARMENTO BARBOSA MARTINS 16 October 2023 (has links)
[pt] Diagramas de decisão são uma generalização de árvores de decisão, já propostos como um modelo de aprendizado de máquina para classificação supervisionada mas não largamente adotados. A razão é a dificuldade em treinar o modelo, já que o requerimento de decidir splits (partições) e merges (uniões de nós) em conjunto pode levar a problemas difíceis de otimização combinatória. Um diagrama de decisão tem importantes vantagens sobre árvores de decisão, pois melhor expressa conceitos binários disjuntos, evitando o problema de duplicação de subárvores e, portanto, apresentando menos fragmentação em nós internos. Por esse motivo, desenvolver algoritmos efetivos de construção é um esforço importante. Nesse contexto, o algoritmo Optimal Decision Diagram (ODD) foi recentemente proposto, formulando a construção do diagrama com programação inteira mista (MILP na sigla em inglês), com um warm start proveniente de uma heurística construtiva gulosa. Experimentos mostraram que essa heurística poderia ser aperfeiçoada, a fim de encontrar soluções próximas do ótimo de maneira mais efetiva, e por sua vez prover um warm start melhor. Nesse estudo, reportamos aperfeiçoamentos para essa heurística construtiva, sendo eles a randomização das decisões de split, a poda de fluxos puros (ou seja, fluxos de exemplos pertencentes a uma única classe), e aplicando uma poda bottom-up (de baixo para cima), que considera a complexidade do modelo além da sua acurácia. Todos os aperfeiçoamentos propostos têm efeitos positivos na acurácia e generalização, assim como no valor objetivo do algoritmo ODD. A poda bottom-up, em especial, tem impacto significativo no valor objetivo, e portanto na capacidade da formulação MILP de encontrar soluções ótimas. Ademais, provemos experimentos sobre a expressividade de diagramas de decisão em comparação a árvores no contexto de pequenas funções booleanas em Forma Normal Disjuntiva (DNF na sigla em inglês), assim como uma aplicação web para a exploração visual dos métodos construtivos propostos. / [en] Decision diagrams are a generalization of decision trees. They have been repeatedly proposed as a supervised classification model for machine learning but have not been widely adopted. The reason appears to be the difficulty of training the model, as the requirement of deciding splits and merging nodes can lead to difficult combinatorial optimization problems. A decision diagram has marked advantages over decision trees because it better models disjoint binary concepts, avoiding the replication of subtrees and thus has less sample fragmentation in internal nodes. Because of this, devising an effective construction algorithm is important. In this context, the Optimal Decision Diagram (ODD) algorithm was recently proposed, which formulates the problem of building a diagram as a mixed-integer linear program (MILP), with a warm start provided by a greedy constructive heuristic. Initial experiments have shown that this heuristic can be improved upon, in order to find close-to-optimal solutions more effectively and in turn provide the MILP with a better warm start. In this study, we report improvements to this constructive heuristic, by randomizing the split decisions, pruning pure flows (i.e. flows with samples from a single class), and applying bottom-up pruning, which considers the complexity of the model in addition to its accuracy. All proposed improvements have positive effects on accuracy and generalization, as well as the objective value of the ODD algorithm. The bottom-up pruning strategy, in particular, has a substantial impact on the objective value, and thus on the ability of the MILP solver to find optimal solutions. In addition, we provide experiments on the expressiveness of decision diagrams when compared to trees in the context of small boolean functions in Disjoint Normal Form (DNF), as well as a web application for the visual exploration of the proposed constructive approaches.
44

[en] PREDICTION OF PLASTIC STRAIN ACCUMULATION AT GRAIN BOUNDARIES OF POLYCRYSTALLINE METALS BASED ON MACHINE LEARNING / [pt] PREVISÃO DO ACÚMULO DE DEFORMAÇÕES PLÁSTICAS EM CONTORNOS DE GRÃOS DE METAIS POLICRISTALINOS BASEADO EM APRENDIZADO DE MÁQUINA

LARA CRISTINA PEREIRA DE ARAUJO 30 November 2023 (has links)
[pt] Métodos de aprendizado de máquina vêm sendo bastante utilizados na área de mecânica dos sólidos devido ao grande volume de dados disponíveis na literatura. A motivação deste trabalho foi o estudo do acúmulo de deformação plástica na escala de grãos, pois o uso do aprendizado de máquina pode ser uma significativa contribuição para criar modelos capazes de prever o acúmulo de deformações. O objetivo deste trabalho foi aprimorar a previsão do acúmulo de deformação plástica propondo um novo método de previsão de acúmulo de deformações plásticas em contornos de grãos de um material policristalino, usando modelos de aprendizado de máquina. Este trabalho utilizou-se de dados experimentais da literatura para estruturar três bancos de dados, os que consideraram somente os contornos de grãos. Nas previsões foram utilizados os seguintes métodos: Decision Tree, Random Forest, Stochastic Gradient Descent, K-Nearest Neighbors, Gradient Boosting Regressor e Análise de Componentes Principais (PCA). Na avaliação dos modelos foram empregados os métodos de validação cruzada e reamostragem de Monte Carlo. As métricas de erro aplicadas foram o coeficiente de determinação (R2) e o coeficiente de correlação de Pearson (R). Os resultados apontaram que as previsões foram coerentes e de boa qualidade, melhorando os valores médios do coeficiente de Pearson em aproximadamente 30 por cento comparados aos valores da literatura. Para o R(2) a média de valores alcançada foi de 0.85. Conclui-se que o uso do método de aprendizado de máquina se mostra confiável na previsão do acúmulo de deformação plástica no contorno do grão de um material policristalino. / [en] Machine learning methods have been widely used in the area of solid mechanics due to the large volume of data available in the literature. The motivation for this work was the study of the accumulation of plastic strain at the grain scale. Because the use of machine learning can be a significant contribution to creating models capable of predicting the accumulation of deformation. The objective of this work was to improve the prediction of plastic strain accumulation by proposing a new method for predicting the accumulation of plastic strains in grain boundaries of a polycrystalline material, using machine learning models. This work uses experimental data from the literature to structure three databases, which only consider grain boundaries. The following methods were used in the predictions: Decision Tree, Random Forest, Stochastic Gradient Descent, K-Nearest Neighbors, Gradient Boosting Regressor, and Principal Component Analysis (PCA). Monte Carlo crossvalidation and resampling methods were used to evaluate the models. The error metrics applied were the coefficient of determination (R2) and the Pearson correlation coefficient (R). The results indicate that the predictions were coherent and of good quality, improving the average Pearson coefficient values by approximately 30 percent compared to literature values. For R(2), the average value achieved was 0.85. It is concluded that the use of the machine learning method proves to be reliable in predicting the accumulation of plastic strain at the grain boundary of a polycrystalline material.
45

[en] DATA ENRICHMENT BASED ON SIMILARITY GRAPH STATISTICS TO IMPROVE PERFORMANCE IN CLASSIFICATION SUPERVISED ML MODELS / [pt] ENRIQUECIMENTO DE DADOS COM BASE EM ESTATÍSTICAS DE GRAFO DE SIMILARIDADE PARA MELHORAR O DESEMPENHO EM MODELOS DE ML SUPERVISIONADOS DE CLASSIFICAÇÃO

NEY BARCHILON 19 September 2024 (has links)
[pt] A otimização do desempenho dos modelos de aprendizado de máquina supervisionados representa um desafio constante, especialmente em contextos com conjuntos de dados de alta dimensionalidade ou com numerosos atributos correlacionados. Neste estudo, é proposto um método para o enriquecimento de conjuntos de dados tabulares, fundamentado na utilização de estatísticas provenientes de um grafo construído a partir da similaridade entre as instâncias presentes neste conjunto de dados, buscando capturar correlações estruturais entre esses dados. As instâncias assumem o papel de vértices no grafo, enquanto as conexões entre elas refletem sua similaridade. O conjunto de características originais (FO) é enriquecido com as estatísticas extraídas do grafo (FG) na busca pela melhora do poder preditivo dos modelos de aprendizado de máquina. O método foi avaliado em dez conjuntos de dados públicos de distintas áreas de conhecimento, em dois cenários distintos, sobre sete modelos de aprendizado de máquina, comparando a predição sobre o conjunto de dados inicial (FO) com o conjunto de dados enriquecido com as estatísticas extraídas do seu grafo (FO+FG). Os resultados revelaram melhorias significativas na métrica de acurácia, com um aprimoramento médio de aproximadamente 4,9 por cento. Além de sua flexibilidade para integração com outras técnicas de enriquecimento existentes, o método se apresenta como uma alternativa eficaz, sobretudo em situações em que os conjuntos de dados originais carecem das características necessárias para as abordagens tradicionais de enriquecimento com a utilização de grafo. / [en] The optimization of supervised machine learning models performancerepresents a constant challenge, especially in contexts with high-dimensionaldatasets or numerous correlated attributes. In this study, we propose a methodfor enriching tabular datasets, based on the use of statistics derived from agraph constructed from the similarity between instances in the dataset, aimingto capture structural correlations among the data. Instances take on the role ofvertices in the graph, while connections between them reflect their similarity.The original feature set (FO) is enriched with statistics extracted from thegraph (FG) to enhance the predictive power of machine learning models. Themethod was evaluated on ten public datasets from different domains, in twodistinct scenarios, across seven machine learning models, comparing predictionon the initial dataset (FO) with the dataset enriched with statistics extractedfrom its graph (FO+FG). The results revealed significant improvements inaccuracy metrics, with an average enhancement of approximately 4.9 percent. Inaddition to its flexibility for integration with existing enrichment techniques,the method presents itself as a effective alternative, particularly in situationswhere original datasets lack the necessary characteristics for traditional graph-based enrichment approaches.
46

[pt] MEDIDAS DE SIMILARIDADE ENTRE SÉRIES TEMPORAIS / [en] TIME SERIES SYMILARITY MEASURES

JOSE LUIZ DO NASCIMENTO DE AGUIAR 27 October 2016 (has links)
[pt] Atualmente, uma tarefa muito importante na mineração de dados é compreender como extrair os dados mais informativos dentre um número muito grande de dados. Uma vez que todos os campos de conhecimento apresentam uma grande quantidade de dados que precisam ser reduzidas até as informações mais representativas, a abordagem das séries temporais é definitivamente um método muito forte para representar e extrair estas informações. No entanto nós precisamos ter uma ferramenta apropriada para inferir os dados mais significativos destas séries temporais, e para nos ajudar, podemos utilizar alguns métodos de medida de similaridade para saber o grau de igualdade entre duas séries temporais, e nesta pesquisa nós vamos realizar um estudo utilizando alguns métodos de similaridade baseados em medidas de distância e aplicar estes métodos em alguns algoritmos de clusterização para fazer uma avaliação de se existe uma combinação (método de similaridade baseado em distância / algoritmo de clusterização) que apresenta uma performance melhor em relação a todos os outros utilizados neste estudo, ou se existe um método de similaridade baseado em distância que mostra um desempenho melhor que os demais. / [en] Nowadays a very important task in data mining is to understand how to collect the most informative data in a very amount of data. Once every single field of knowledge have lots of data to summarize in the most representative information, the time series approach is definitely a very strong way to represent and collect this information from it (12, 22). On other hand we need to have an appropriate tool to extract the most significant data from this time series. To help us we can use some similarity methods to know how similar is one time series from another In this work we will perform a research using some distance-based similarity methods and apply it in some clustering algorithms to do an assessment to see if there is a combination (distance-based similarity methods / clustering algorithm) that present a better performance in relation with all the others used in this work or if there exists one distancebased similarity method that shows a better performance between the others.
47

[en] A DATA SCIENCE APPROACH TO ANALYZING THE IMPACT OF COGNITIVE RISK-SEEKING BIAS ON INDIVIDUAL DECISION-MAKING INVOLVING FINANCIAL LOSSES / [pt] UMA ABORDAGEM DE CIÊNCIA DE DADOS PARA ANÁLISE DO IMPACTO DO VIÉS COGNITIVO DE BUSCA DE RISCO EM TOMADAS DE DECISÃO INDIVIDUAIS ENVOLVENDO PERDAS FINANCEIRAS

LEONARDO FREITAS SAYAO 12 August 2024 (has links)
[pt] O estudo da tomada de decisões tem ganhado cada vez mais importância, desde as concepções clássicas do homem econômico até os mais recentes conceitos da racionalidade limitada e dos vieses cognitivos. Ao longo do tempo, a crescente complexidade das decisões impulsionou o desenvolvimento de tecnologias como os Sistemas de Apoio à Decisão e Modelos Preditivos, destacando-se mais recentemente a incorporação de técnicas do campo da Inteligência Artificial, e mais precisamente de Aprendizado de Máquina, para melhorar a precisão e a eficiência das tomadas de decisão. Entretanto, por maior que tenham sido os benefícios proporcionados pelos avanços no apoio computacional, as decisões são, em última análise, tomadas por humanos. E, sendo uma tarefa essencialmente humana, a influência dos vieses cognitivos em tomadas de decisão são um desafio relevante e pouco explorado. Esses vieses podem ser decorrentes de diversos fatores, incluindo preferências individuais, influências externas e derivações cognitivas inconscientes. Apesar dos esforços da área da Economia Comportamental em identificar e modelar esses vieses, seu impacto em contextos de decisões monetárias ainda é limitado. Portanto, este trabalho propõe uma arquitetura baseada em fundamentos ontológicos para identificar e analisar o impacto de vieses cognitivos em cenários de alto risco de perdas monetárias. Através da aplicação de técnicas de Ciência de Dados e Aprendizado de Máquina, o objetivo é propor uma metodologia implementada em um artefato computacional, capaz de automaticamente identificar padrões de vieses cognitivos a partir de um histórico de registros de decisões, gerando conhecimento sobre as preferências de risco dos tomadores de decisão e seus ganhos e perdas diante das suas escolhas. O viés específico explorado neste estudo é a Busca de Risco no domínio de perdas, conforme definido no Padrão Quádruplo do Kahneman. A avaliação da eficácia dessa proposta será realizada por meio de um estudo de caso utilizando um benchmark disponível na literatura, fornecendo insights sobre a aplicabilidade e os benefícios práticos da arquitetura proposta. / [en] The study of decision-making has gained more and more importance, from the classical conceptions of the economic man to the more recent concepts of bounded rationality and cognitive biases. Over time, the increasing complexity of decisions has driven the development of technologies such as Decision Support Systems and Predictive Models, highlighting more recently the incorporation of techniques from the field of Artificial Intelligence, and more precisely Machine Learning, to improve the accuracy and efficiency of decision-making. However, as great as the benefits provided by advances in computer support have been, humans are ultimately the ones to make decisions. And, being an essentially human task, the influence of cognitive biases on decision-making is a relevant and underexplored challenge. These biases can be due to various factors, including individual preferences, external influences, and unconscious cognitive derivations. Despite the efforts of the field of Behavioral Economics to identify and model these biases, their impact in contexts of monetary decisions is still limited. Therefore, this work proposes an architecture based on ontological foundations to identify and analyze cognitive biases in scenarios of high risk of monetary losses. Through the application of Data Science and Machine Learning techniques, we propose a methodology - implemented in a computational artifact - capable of automatically identifying patterns of cognitive biases from a history of decision records, generating knowledge about the risk preferences of decision makers and their gains and losses caused by their choices. The specific bias explored in this study is Risk Seeking in the loss domain, as defined in the Kahneman Quadruple Pattern. The evaluation of the effectiveness of this proposal will be carried out through a case study using a benchmark available in the literature, providing insights into the applicability and practical benefits of the proposed architecture.
48

[en] HYBRID SYSTEM IDENTIFICATION TECHNIQUES: BLACK BOX ALGORITHMS AND GREY BOX APPROACHES FOR REAL DATA SIMULATIONS IN OIL PRODUCTION AND DRILLING SPEED ANALYSIS / [pt] TÉCNICAS DE IDENTIFICAÇÃO DE SISTEMAS HÍBRIDOS: ALGORITMOS BLACK BOX E ABORDAGENS GREY BOX PARA SIMULAÇÕES COM DADOS REAIS NA PRODUÇÃO DE PETRÓLEO E ANÁLISE DA VELOCIDADE DE PERFURAÇÃO

DANIEL BOECHAT DE MARINS 03 October 2024 (has links)
[pt] Ambientes industriais, especialmente no setor de petróleo e gás, apresentam desafios únicos para técnicas de identificação de sistemas. Apesar dos avanços, ainda existe uma lacuna em nossa compreensão da integração de algoritmos black box, abordagens grey box e aprendizado de máquina para simulação de dados reais. Com o objetivo de otimizar a compreensão e previsão em ambientes industriais complexos, foram explorados a simulação de dados do mundo real na produção de petróleo e análise da velocidade de perfuração. Este estudo propõe uma análise da integração de algoritmos black box, abordagens grey box e aprendizado de máquina na simulação de dados reais, com ênfase na produção de petróleo e o estudo da interação broca rocha no processo de perfuração de poços de petróleo. Neste trabalho foram empregados técnicas de aprendizado de máquina, como redes neurais e métodos clássicos de identificação de sistemas, como modelos lineares como ARX (AutoRegressive with eXogenous inputs) e não lineares como o NARX (Nonlinear AutoRegressive with eXogenous inputs), para capturar os comportamentos dinâmicos dos processos em estudo utilizando dados reais da produção de petróleo e de perfuração, levando em consideração as características específicas e desafios operacionais desses ambientes. Com base nos resultados obtidos, as técnicas utilizadas demonstraram viabilidade de aplicação, na qual a utilização desses modelos híbridos, que combinam conhecimentos físicos com abordagens de múltiplos modelos formados por algoritmos de identificação de sistemas e aprendizado de máquina, demonstrou potencial para aprimorar as simulações. Esses resultados ressaltam a eficácia desses métodos, indicando que pesquisas futuras podem se dedicar à implementação dessa técnica na identificação de sistemas complexos. / [en] Industrial environments, especially in the oil and gas sector, presentunique challenges for system identification techniques. Despite advancements,there still exists a gap in our understanding of integrating black box algorithms,grey box approaches, and machine learning for simulating real-world data.With the aim of optimizing understanding and prediction in complex industrialenvironments, real-world data simulation in oil production and drilling speedanalysis was explored. This study proposes an analysis of the integration ofblack box algorithms, grey box approaches, and machine learning in simulatingreal-world data, with an emphasis on oil production and the study of the drill-rock interaction in the oil well drilling process. In this work, machine learningtechniques such as neural networks and classical system identification methods,such as linear models like ARX (AutoRegressive with eXogenous inputs) andnonlinear ones like NARX (Nonlinear AutoRegressive with eXogenous inputs),were employed to capture the dynamic behaviors of the processes understudy. Additionally, real data from oil production and drilling were utilized,considering the specific characteristics and operational challenges of theseenvironments. Based on the results obtained, the techniques used demonstratedapplicability and yielded satisfactory outcomes. Specifically, the use of hybridmodels, combining physical knowledge with multiple model approaches formedby system identification algorithms and machine learning, showed potentialfor enhancing simulation. These findings underscore the effectiveness of thesemethods, suggesting that future research could focus on implementing thistechnique in identifying complex systems.
49

[en] DISTANT SUPERVISION FOR RELATION EXTRACTION USING ONTOLOGY CLASS HIERARCHY-BASED FEATURES / [pt] SUPERVISÃO À DISTÂNCIA EM EXTRAÇÃO DE RELACIONAMENTOS USANDO CARACTERÍSTICAS BASEADAS EM HIERARQUIA DE CLASSES EM ONTOLOGIAS

PEDRO HENRIQUE RIBEIRO DE ASSIS 18 March 2015 (has links)
[pt] Extração de relacionamentos é uma etapa chave para o problema de identificação de uma estrutura em um texto em formato de linguagem natural. Em geral, estruturas são compostas por entidades e relacionamentos entre elas. As propostas de solução com maior sucesso aplicam aprendizado de máquina supervisionado a corpus anotados à mão para a criação de classificadores de alta precisão. Embora alcancem boa robustez, corpus criados à mão não são escaláveis por serem uma alternativa de grande custo. Neste trabalho, nós aplicamos um paradigma alternativo para a criação de um número considerável de exemplos de instâncias para classificação. Tal método é chamado de supervisão à distância. Em conjunto com essa alternativa, usamos ontologias da Web semântica para propor e usar novas características para treinar classificadores. Elas são baseadas na estrutura e semântica descrita por ontologias onde recursos da Web semântica são definidos. O uso de tais características tiveram grande impacto na precisão e recall dos nossos classificadores finais. Neste trabalho, aplicamos nossa teoria em um corpus extraído da Wikipedia. Alcançamos uma alta precisão e recall para um número considerável de relacionamentos. / [en] Relation extraction is a key step for the problem of rendering a structure from natural language text format. In general, structures are composed by entities and relationships among them. The most successful approaches on relation extraction apply supervised machine learning on hand-labeled corpus for creating highly accurate classifiers. Although good robustness is achieved, hand-labeled corpus are not scalable due to the expensive cost of its creation. In this work we apply an alternative paradigm for creating a considerable number of examples of instances for classification. Such method is called distant supervision. Along with this alternative approach we adopt Semantic Web ontologies to propose and use new features for training classifiers. Those features are based on the structure and semantics described by ontologies where Semantic Web resources are defined. The use of such features has a great impact on the precision and recall of our final classifiers. In this work, we apply our theory on corpus extracted from Wikipedia. We achieve a high precision and recall for a considerable number of relations.
50

[en] WEIGHTED INTERVAL SCHEDULING RESOLUTION FOR BUILDING FINANCIAL MARKET TRADING STRATEGIES / [pt] ESTRATÉGIAS DE NEGOCIAÇÃO DE ATIVOS FINANCEIROS UTILIZANDO AGENDAMENTO POR INTERVALOS PONDERADOS

LEANDRO GUIMARAES MARQUES ALVIM 03 September 2013 (has links)
[pt] Há diferentes tipos de investidores que compõem o mercado financeiro e produzem oportunidades de mercado em diferentes escalas de tempo. Isto evidencia uma estrutura heterogênea de mercado. Nesta tese conjecturamos que podem haver oportunidades mais preditivas do que outras, o que motiva a investigação e a construção de estratégias multirresolução. Para estratégias multirresolução há abordagens que utilizam a decomposição de séries temporais para a operação em resoluções distintas ou propostas para a construção de conjuntos de dados de acordo com decisões de negociação multirresolução. As demais estratégias, em sua maioria, são de resolução única. Nesta tese, abordamos dois problemas, maximização de retorno acumulado e maximização de retorno acumulado com o risco controlado, e propomos uma abordagem computacionalmente eficiente para a construção de estratégias multirresolução, a partir da resolução do problema de Agendamento de Intervalos Ponderados. Nossa metodologia consiste em dividir o dia de mercado em intervalos, especializar traders por intervalo e associar um prêmio a cada trader. Para o problema de maximização de retorno acumulado, o prêmio de cada trader corresponde ao retorno acumulado entre dias para o intervalo de operação associado. Para o problema de maximização de retorno acumulado com controle do risco, o prêmio de cada trader corresponde ao retorno acumulado dividido pelo risco para o intervalo de operação associado. Diferentemente do problema anterior, empregamos um conjunto de traders por intervalo e utilizamos o método de Média-Variância, de Markowitz, para encontrar pesos ótimos para conjunto de traders de forma a controlar o risco. Conjecturamos aqui que o controle do risco por intervalo acarreta no controle do risco global da estratégia para o dia. Para a sinalização das ordens de compra e venda, nossos traders utilizam detectores de oportunidades. Estes detectores utilizam algoritmos de Aprendizado de Máquina que processam informações de indicadores de análise técnica e dados de preço e volume. Realizamos experimentos para dez ativos de maior liquidez da BMF&Bovespa para um período de um ano. Nossa estratégia de Composição de um Time de Traders (CTT) apresenta 0, 24 por cento de lucro médio diário e 77, 24 por cento de lucro anual, superando em 300 por cento e 380 por cento, respectivamente, uma estratégia de resolução única. Para os custos adotados, a estratégia CTT é viável a partir de 50.000,00 dólares. Para o problema de maximização do retorno acumulado com risco controlado, a estratégia de Composição de Carteiras por Intervalos (CCI) apresenta em média 0, 179 por cento de lucro diário e 55, 85 por cento de lucro anual, superando o método de Média-Variância de Markowitz. Para os custos adotados, a estratégia CCI é viável a partir de 2.000.000,00 dólares. As principais contribuições desta tese são: abordagem por Agendamentos de Intervalos Ponderados para a construção de estratégias e o emprego do modelo de Média-Variância para compor uma carteira de traders ao invés da tradicional abordagem por ativos. / [en] There are different types of investors who make up the financial market and produce market opportunities at different time scales. This indicates a heterogeneous market structure. In this thesis, we conjecture that may have more predictive opportunities than others, what motivates research and construction of we denominate multirresolution optimal strategies. For multirresolution strategies there are time series decomposition approaches for operating at different resolutions or proposals for dataset construction according to multirresolution trading optimal decisions. The other approaches, are single resolution. Thus, we address two problems, maximizing cumulative returns and maximizing cumulative returns with risk control. Here, we propose solving the Weighted Interval Scheduling problem to build multirresolution strategies. Our methodology consists of dividing the market day into time intervals, specialize traders by interval and associate a prize to each trader. For the cumulative return maximization problem, the prize corresponds to cumulative returns between days for the associated trader operation interval. For the cumulative return maximization problem with risk control each trader prize corresponds to cumulative return divided by risk with associated operation interval. In order to control the risk, we employ a set of traders by interval and apply the Markowitz Mean-Variance method to find optimal weight for set of traders. Here, we conjecture that controlling each interval risk leads to the overall risk control of the day. For signaling buy and sell orders, our traders use opportunity detectors. These detectors correspond to Machine Learning algorithms that process technical analysis indicators, price and volume data. We conducted experiments for ten of the most liquid BMF&Bovespa stocks to a one year span. Our Trading Team Composition strategy results indicates an average of 0.24 per cent daily profit and a 77.24 per cent anual profit, exceeding by 300 per cent and 380 per cent, respectively, a single resolution strategy. Regarding operational costs, CTT strategy is viable from 50,000 dollars. For the cumulative return maximization problem under risk control, our Portfolio Composition by Intervals strategy results indicates an average of 0.179 per cent daily profit and a 55.85 per cent anual profit, exceeding a Markowitz Mean- Variance method. Regarding operational costs, CCI strategy is viable from 2,000,000 dollars. Our main contributions are: the Weighted Interval Scheduling approach for building multirresolution strategies and a portfolio composition of traders instead of stocks performances.

Page generated in 0.1237 seconds