Global ETD Search

81	Detecção de fraudes em cartões: um classificador baseado em regras de associação e regressão logística / Card fraud detection: a classifier based on association rules and logistic regression Oliveira, Paulo Henrique Maestrello Assad 11 December 2015 (has links) Os cartões, sejam de crédito ou débito, são meios de pagamento altamente utilizados. Esse fato desperta o interesse de fraudadores. O mercado de cartões enxerga as fraudes como custos operacionais, que são repassados para os consumidores e para a sociedade em geral. Ainda, o alto volume de transações e a necessidade de combater as fraudes abrem espaço para a aplicação de técnicas de Aprendizagem de Máquina; entre elas, os classificadores. Um tipo de classificador largamente utilizado nesse domínio é o classificador baseado em regras. Entretanto, um ponto de atenção dessa categoria de classificadores é que, na prática, eles são altamente dependentes dos especialistas no domínio, ou seja, profissionais que detectam os padrões das transações fraudulentas, os transformam em regras e implementam essas regras nos sistemas de classificação. Ao reconhecer esse cenário, o objetivo desse trabalho é propor a uma arquitetura baseada em regras de associação e regressão logística - técnicas estudadas em Aprendizagem de Máquina - para minerar regras nos dados e produzir, como resultado, conjuntos de regras de detecção de transações fraudulentas e disponibilizá-los para os especialistas no domínio. Com isso, esses profissionais terão o auxílio dos computadores para descobrir e gerar as regras que embasam o classificador, diminuindo, então, a chance de haver padrões fraudulentos ainda não reconhecidos e tornando as atividades de gerar e manter as regras mais eficientes. Com a finalidade de testar a proposta, a parte experimental do trabalho contou com cerca de 7,7 milhões de transações reais de cartões fornecidas por uma empresa participante do mercado de cartões. A partir daí, dado que o classificador pode cometer erros (falso-positivo e falso-negativo), a técnica de análise sensível ao custo foi aplicada para que a maior parte desses erros tenha um menor custo. Além disso, após um longo trabalho de análise do banco de dados, 141 características foram combinadas para, com o uso do algoritmo FP-Growth, gerar 38.003 regras que, após um processo de filtragem e seleção, foram agrupadas em cinco conjuntos de regras, sendo que o maior deles tem 1.285 regras. Cada um desses cinco conjuntos foi submetido a uma modelagem de regressão logística para que suas regras fossem validadas e ponderadas por critérios estatísticos. Ao final do processo, as métricas de ajuste estatístico dos modelos revelaram conjuntos bem ajustados e os indicadores de desempenho dos classificadores também indicaram, num geral, poderes de classificação muito bons (AROC entre 0,788 e 0,820). Como conclusão, a aplicação combinada das técnicas estatísticas - análise sensível ao custo, regras de associação e regressão logística - se mostrou conceitual e teoricamente coesa e coerente. Por fim, o experimento e seus resultados demonstraram a viabilidade técnica e prática da proposta. / Credit and debit cards are two methods of payments highly utilized. This awakens the interest of fraudsters. Businesses see fraudulent transactions as operating costs, which are passed on to consumers. Thus, the high number of transactions and the necessity to combat fraud stimulate the use of machine learning algorithms; among them, rule-based classifiers. However, a weakness of these classifiers is that, in practice, they are highly dependent on professionals who detect patterns of fraudulent transactions, transform them into rules and implement these rules in the classifier. Knowing this scenario, the aim of this thesis is to propose an architecture based on association rules and logistic regression - techniques studied in Machine Learning - for mining rules on data and produce rule sets to detect fraudulent transactions and make them available to experts. As a result, these professionals will have the aid of computers to discover the rules that support the classifier, decreasing the chance of having non-discovered fraudulent patterns and increasing the efficiency of generate and maintain these rules. In order to test the proposal, the experimental part of the thesis has used almost 7.7 million transactions provided by a real company. Moreover, after a long process of analysis of the database, 141 characteristics were combined using the algorithm FP-Growth, generating 38,003 rules. After a process of filtering and selection, they were grouped into five sets of rules which the biggest one has 1,285 rules. Each of the five sets was subjected to logistic regression, so their rules have been validated and weighted by statistical criteria. At the end of the process, the goodness of fit tests were satisfied and the performance indicators have shown very good classification powers (AUC between 0.788 and 0.820). In conclusion, the combined application of statistical techniques - cost sensitive learning, association rules and logistic regression - proved being conceptually and theoretically cohesive and coherent. Finally, the experiment and its results have demonstrated the technical and practical feasibilities of the proposal. Análise sensível ao custo Aprendizagem de máquina Association rule learning Cost sensitive learning Detecção e prevenção de fraudes Fraud detection and prevention Logistic regression Machine learning Mineração de regras de associação Regressão logística
82	Processamento de informação em redes neurais sensoriais / Information processing in sensory neural networks Thiago Schiavo Mosqueiro 26 August 2015 (has links) Com os avanços em eletrônica analógica e digital dos últimos 50 anos, a neurociência ganhou grande momentum e nasceu uma de suas áreas que atualmente mais recebe financiamento: neurociência computacional. Estudos nessa área, ainda considerada recente, vão desde estudos moleculares de trocas iônicas por canais iônicos (escala nanométrica), até influências de populações neurais no comportamento de grandes mamíferos (escala de até metros). O coração da neurociência computacional compreende técnicas inter- e multidisciplinares, envolvendo biologia de sistemas, bioquímica, modelagem matemática, estatística, termodinâmica, física estatística, etc. O impacto em áreas de grande interesse, como o desenvolvimento de fármacos e dispositivos militares, é a grande força motriz desta área. Especificamente para este último, a compreensão do código neural e como informação sensorial é trabalhada por populações de neurônios é essencial. E ainda estamos num estágio muito inicial de desvendar todo o funcionamento de muitos dos sistemas sensoriais mais complexos. Um exemplo é de um dos sentidos que parece existir desde as formas mais primitivas de vida: o olfato. Em mamíferos, o número de estudos parece sempre crescer com os anos. Ainda estamos, no entanto, longe de um consenso sobre o funcionamento de muitos dos mecanismos básicos do olfato. A literatura é extensa em termos bioquímicos e comportamental, mas reunir tudo em um único modelo é talvez o grande desafio atual. Nesta tese discuto, em duas partes, sistemas sensoriais seguindo uma linha bastante ligada ao sistema olfativo. Na primeira parte, um modelo formal que lembra o bulbo olfativo (de mamíferos) é considerado para investigar a relação entre a performance da codificação neural e a existência de uma dinâmica crítica. Em especial, discuto sobre últimos experimentos baseados em observações de leis de potência como evidências da existência de criticalidade e ótima performance em populações neurais. Mostro que, apesar de a performance das redes estar, sim, ligada ao ponto crítico do sistema, a existência de leis de potência não está ligada nem com tal ponto crítico, nem com a ótima performance. Experimentos recentes confirmam estas observações. Na segunda parte, discuto e proponho uma modelagem inicial para o órgão central do sentido olfativo em insetos: o Corpo Cogumelar. A novidade deste modelo está na integração temporal, além de conseguir tanto fazer reconhecimento de padrões (qual odor) e estimativa de concentrações de odores. Com este modelo, proponho uma explicação para uma recente observação de antecipação neural no Corpo Cogumelar, em que sua última camada paradoxalmente parece antecipar a primeira camada. Proponho a existência de um balanço entre agilidade do código neural contra acurácia no reconhecimento de padrões. Este balanço pode ser empiricamente testado. Também proponho a existência de um controle de ganho no Corpo Cogumelar que seria responsável pela manutenção dos ingredientes principais para reconhecimento de padrões e aprendizado. Ambas estas partes contribuem para o compreendimento de como sistemas sensoriais operam e quais os mecanismos fundamentais que os fornecem performance invejável. / With the advances in digital and analogical electronics in the last 50 years, neuroscience gained great momentum and one of its most well-financed sub-areas was born: computational neuroscience. Studies in this area, still considered recent by many, range from the ionic balance in the molecular level (scale of few nanometers), up to how neural populations influence behavior of large mammalians (scale of meters). The computational neuroscience core is highly based on inter- and multi-disciplinary techniques, involving systems biology, biochemistry, mathematical modeling, thermodynamics, statistical physics, etc. The impact in areas of current great interest, like in pharmaceutical drugs development and military devices, is its major flagship. Specifically for the later, deep understanding of neural code and how sensory information is filtered by neural populations is essential. And we are still grasping at the surface of really understanding many of the complex sensory systems we know. An example of such sensory modality that coexisted among all kinds of life forms is olfaction. In mammalians, the number of studies in this area seems to be growing steadily. However, we are still far from a complete agreement on how the basic mechanisms in olfaction work. There is a large literature of biochemical and behavioral studies, yet there is not a single model that comprises all this information and reproduces any olfactory system completely. In this thesis, I discuss in two parts sensory systems following a general line of argument based on olfaction. In the first part, a formal model that resembles the olfactory bulb (mammalians) is considered to investigate the relationship between performance in information coding and the existence of a critical dynamics. I show that, while the performance of neural networks may be intrinsically linked to a critical point, power laws are not exactly linked to neither critical points or performance optimization. Recent experiments corroborate this observation. In the second part, I discuss and propose a first dynamical model to the central organ responsible for olfactory learning in insects: the Mushroom Bodies. The novelty in this model is in the time integration, besides being able of pattern recognition (which odor) and concentration estimation at the same time. With this model, I propose an explanation for a seemingly paradoxical observation of coding anticipation in the Mushroom Bodies, where the last neural layer seems to trail the input layer. I propose the existence of a balance between accuracy and speed of pattern recognition in the Mushroom Bodies based on its fundamental morphological structure. I also propose the existence of a robust gain-control structure that sustain the key ingredients for pattern recognition and learning. This balance can be empirically tested. Both parts contribute to the understanding of the basic mechanisms behind sensory systems. Aprendizagem de máquina Fenômenos críticos Leis de potência Neurociência computacional Olfato em insetos Computational neuroscience Critical phenomena Machine learning Olfaction in insects Power laws
83	Mineração de dados para classificação e caracterização de alguns vinhos Vitis Vinífera da América do Sul / Data mining for classification and characterization of some Vitis Vinífera wines from South America Costa, Nattane Luíza da 21 December 2016 (has links) Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2017-01-18T10:20:56Z No. of bitstreams: 2 Dissertação - Nattane Luíza da Costa - 2016.pdf: 2231787 bytes, checksum: b10e4af9cf8ed903a9f79f0e53ddd55e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-01-18T10:21:13Z (GMT) No. of bitstreams: 2 Dissertação - Nattane Luíza da Costa - 2016.pdf: 2231787 bytes, checksum: b10e4af9cf8ed903a9f79f0e53ddd55e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-01-18T10:21:13Z (GMT). No. of bitstreams: 2 Dissertação - Nattane Luíza da Costa - 2016.pdf: 2231787 bytes, checksum: b10e4af9cf8ed903a9f79f0e53ddd55e (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-12-21 / One concern regarding the production and marketing of wines is to ensure that the product is not adulterated in relation to the origin and type of grape used in its production. This is due to the high cost involved in production and due to interest of consumers in obtaining legitimate products. In this context, the techniques of data mining allow us to verify the relationship between the chemical properties of wines and their label regarding origin or type of grape. This study presents a method for classification and characterization of wines with the application of data mining to the chemical properties that describe the functionality of wines. Five applications were carried out involving Cabernet Sauvignon, Carménère, Syrah, Tannat and Merlot varieties produced in Argentina, Brazil, Chile and Uruguay: the classification of Cabernet Sauvignon according to geographic region of production, Brazil and Chile; the classification of Tannat wines from the southern regions of Uruguay and southern Brazil, regions in close proximity and relevant to the production of Tannat wines; the classification of Syrah wines from Argentina and Chile, which are close regions and have a significant production in the countries covered; the classification of Merlot wines associated with the four countries to draw a profile of the relevant variables for the classification of wines for each set of two countries; and the classification of wines of the Chilean Carménère and Merlot varieties, which aim to investigate a profile of discrimination between varieties. The results obtained in all applications are promising, with a high predictive performance of 88%. The combination of variable selection associated with the classifiers Support Vector Machines and Artificial Neural Networks made it possible to define classification models capable of predicting new samples in addition to identifying groups of variables responsible for the classification. / Uma preocupação à respeito da produção e comercialização de vinhos é assegurar que este produto não seja adulterado em relação à origem e ao tipo de uva utilizado em sua produção. Isto ocorre devido aos altos custos envolvendo a produção e devido ao interesse dos consumidores em obter produtos legítimos. Neste contexto, as técnicas de mineração de dados permitem verificar as relações existentes entre as propriedades químicas dos vinhos e seu rótulo: origem ou tipo de uva. Este trabalho apresenta um método para classificação e caracterização de vinhos a partir da aplicação de mineração de dados às propriedades químicas que descrevem a funcionalidade dos vinhos. Cinco aplicações foram realizadas envolvendo as variedades Cabernet Sauvignon, Carménère, Syrah, Tannat e Merlot, produzidos na Argentina, Brasil, Chile e Uruguai, definidas por: classificação de vinhos Cabernet Sauvignon de acordo com a região geográfica de produção, Brasil e Chile; classificação de vinhos Tannat das regiões sul do Uruguai e sul do Brasil, regiões próximas e importantes na produção de vinhos Tannat; classificação de vinhos Syrah das regiões da Argentina e Chile, regiões próximas e que possuem uma produção significativa nos países abordados; classificação de vinhos Merlot associado aos quatro países para traçar um perfil das variáveis relevantes para a classificação dos vinhos a cada dois países; e a classificação de vinhos das variedades Chilenas Carménère e Merlot. Os resultados obtidos em todas as aplicações propostas neste trabalho demonstram-se promissores, com uma capacidade de classificação acima de 88%. A combinação de seletores de variáveis associados aos classificadores Máquinas de Vetores de Suporte e Redes Neurais Artificiais possibilitou modelos de classificação capazes de predizer novas amostras além de identificar grupos de variáveis responsáveis pelas classificações. Mineração de dados Classificação de vinhos Seleção de variáveis Aprendizagem de máquina Data mining Wine classification Feature selection Machine learning
84	Detecção de opiniões e análise de polaridade em documentos financeiros com múltiplas entidades. Silva, Josiane Rodrigues da 05 March 2015 (has links) Submitted by Kamila Costa (kamilavasconceloscosta@gmail.com) on 2015-06-11T19:07:15Z No. of bitstreams: 1 Dissertação-Josiane R da Silva.pdf: 885828 bytes, checksum: c1b7c04345db68585285d33349f9677f (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-15T18:03:40Z (GMT) No. of bitstreams: 1 Dissertação-Josiane R da Silva.pdf: 885828 bytes, checksum: c1b7c04345db68585285d33349f9677f (MD5) / Approved for entry into archive by Divisão de Documentação/BC Biblioteca Central (ddbc@ufam.edu.br) on 2015-06-15T18:06:18Z (GMT) No. of bitstreams: 1 Dissertação-Josiane R da Silva.pdf: 885828 bytes, checksum: c1b7c04345db68585285d33349f9677f (MD5) / Made available in DSpace on 2015-06-15T18:06:18Z (GMT). No. of bitstreams: 1 Dissertação-Josiane R da Silva.pdf: 885828 bytes, checksum: c1b7c04345db68585285d33349f9677f (MD5) Previous issue date: 2015-03-05 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Polarity analysis aims at classifying the author’s opinion into positive, negative, or neutral. However, given the sheer volume of information available on the web, manually carrying out such task is unfeasible. In particular, in the financial domain this type of analysis is useful for companies in making decisions related to the financial market which is particularly prone to changes according to shifting of opinions. Most studies in literature deal with this problem by considering that documents have a global polarity. However, in general, documents cite several entities with possibly different polarities. This suggests that the classification should be performed in an entity level. Besides this problem, we also noted that many financial documents do not always emit opinion. Thus, a first task of interest in this research field is to identify documents on which opinions are expressed, that is, the subjective ones. Therefore, in this paper we propose a supervised polarity classification method based on multiple models to deal with financial documents with multiple entities. In particular, we study text segmentation strategies that use heuristics such as string matching and anaphora resolution and we propose a hierarchical classification method based on subjectivity detection. Our results showed that the multiple-models approach significantly outperformed the global-model baseline. The segmentation of the documents restricted to sentences that mention entities and the adoption of a hierarchical strategy also achieved gains, although modest. / Análise de polaridade consiste em classificar a opinião do autor em positiva, negativa e neutra. No entanto, dado o grande volume de informações disponíveis na Web, esta análise manual torna-se inviável. Em particular, no domínio financeiro este tipo de análise é útil para empresas na tomada de decisões relacionadas ao mercado financeiro que parece ser particularmente propenso a mudanças de acordo com opiniões. Os trabalhos disponíveis na literatura propõem abordagens globais para esta tarefa, ou seja, consideram que o texto tem apenas uma polaridade. No entanto, verifica-se que os documentos, em sua grande maioria, citam várias entidades e as polaridades para estas entidades, em geral, são diferentes. Isto sugere que a classificação de polaridade deve ser feita em nível de entidade. Contudo, a maioria das abordagens tradicionais não concentram-se na tarefa de classificar polaridade por entidade. Além disso, observamos que muitos dos documentos no domínio financeiro nem sempre emitem opinião. Assim, uma primeira tarefa de interesse nesse domínio é identificar os documentos em que opiniões são expressas, isto é, documentos subjetivos. Portanto, neste trabalho propomos um método supervisionado para classificação de polaridade baseado em múltiplos modelos com o intuito de classificar documentos financeiros com múltiplas entidades. Em particular, estudamos estratégias de segmentação em texto que usam heurísticas de casamento de string e resolução de anáfora e propomos um método de classificação hierárquica baseada em detecção de subjetividade. Nossos resultados mostraram que uma abordagem baseada em múltiplos modelos é capaz de obter ganhos significativos sobre uma abordagem baseada em modelo global na tarefa de classificação de polaridade com múltiplas entidades. A segmentação do documento em sentenças que mencionam as entidades e a adoção de uma estratégia hierárquica também obtiveram ganhos, embora modestos. Análise de Polaridade Detecção de Subjetividade Aprendizagem de Máquina Resolução de Anáfora. Polarity Analysis Detection of Subjectivity Machine Learning Anaphora Resolution
85	Técnicas de transferência de aprendizagem aplicadas a modelos QSAR para regressão / Transfer learning techniques applied to QSAR models for regression Rodolfo da Silva Simões 10 April 2018 (has links) Para desenvolver um novo medicamento, pesquisadores devem analisar os alvos biológicos de uma dada doença, descobrir e desenvolver candidatos a fármacos para este alvo biológico, realizando em paralelo, testes em laboratório para validar a eficiência e os efeitos colaterais da substância química. O estudo quantitativo da relação estrutura-atividade (QSAR) envolve a construção de modelos de regressão que relacionam um conjunto de descritores de um composto químico e a sua atividade biológica com relação a um ou mais alvos no organismo. Os conjuntos de dados manipulados pelos pesquisadores para análise QSAR são caracterizados geralmente por um número pequeno de instâncias e isso torna mais complexa a construção de modelos preditivos. Nesse contexto, a transferência de conhecimento utilizando informações de outros modelos QSAR\'s com mais dados disponíveis para o mesmo alvo biológico seria desejável, diminuindo o esforço e o custo do processo para gerar novos modelos de descritores de compostos químicos. Este trabalho apresenta uma abordagem de transferência de aprendizagem indutiva (por parâmetros), tal proposta baseia-se em uma variação do método de Regressão por Vetores Suporte adaptado para transferência de aprendizagem, a qual é alcançada ao aproximar os modelos gerados separadamente para cada tarefa em questão. Considera-se também um método de transferência de aprendizagem por instâncias, denominado de TrAdaBoost. Resultados experimentais mostram que as abordagens de transferência de aprendizagem apresentam bom desempenho quando aplicadas a conjuntos de dados de benchmark e a conjuntos de dados químicos / To develop a new medicament, researches must analyze the biological targets of a given disease, discover and develop drug candidates for this biological target, performing in parallel, biological tests in laboratory to validate the effectiveness and side effects of the chemical substance. The quantitative study of structure-activity relationship (QSAR) involves building regression models that relate a set of descriptors of a chemical compound and its biological activity with respect to one or more targets in the organism. Datasets manipulated by researchers to QSAR analysis are generally characterized by a small number of instances and this makes it more complex to build predictive models. In this context, the transfer of knowledge using information other\'s QSAR models with more data available to the same biological target would be desirable, nince its reduces the effort and cost to generate models of chemical descriptors. This work presents an inductive learning transfer approach (by parameters), such proposal is based on a variation of the Vector Regression method Adapted support for learning transfer, which is achieved by approaching the separately generated models for each task. It is also considered a method of learning transfer by instances, called TrAdaBoost. Experimental results show that learning transfer approaches perform well when applied to some datasets of benchmark and dataset chemical Aprendizagem de máquina Modelos QSAR Quimioinformática Regressão por vetores suporte Transferência de aprendizagem Chemoinformatics Machine learning QSAR models Support vector regression Transfer learning
86	Uma solução efetiva para aprendizagem de relacionamentos não taxonômicos de ontologias / An effective solution for learning non taxonomic relationships of ontologies SERRA, Ivo José da Cunha Serra 28 March 2014 (has links) Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-08-15T20:12:06Z No. of bitstreams: 1 IvoJoseCunha.pdf: 14173001 bytes, checksum: 931d704f4e5fdefacca2b8ab283f31c4 (MD5) / Made available in DSpace on 2017-08-15T20:12:06Z (GMT). No. of bitstreams: 1 IvoJoseCunha.pdf: 14173001 bytes, checksum: 931d704f4e5fdefacca2b8ab283f31c4 (MD5) Previous issue date: 2014-03-28 / Learngin Non-Taxonomic Relationship is a sub-field of ontology learning and is an approach to automate the extraction of these relationships from textual information sources. Techniques for learning non-taxonomic relationships just like others in the area of Ontology Learning are subject to a great amount of noise since the source of information from which the relationships are extract is unstructured. Therefore, customizable solutions are needed for theses techniques to be applicable to the wideste variety of situations. This Thesis presents TARNT, a Techinique for Learning for Non-Taxonomic Relationship of ontologies from texts in English that employs techniques from Natural Language Processing and statistics to structure text and to select relationship that should be recommended. The control over the execution of its extraction rules and consequently on the recall and precision in the phase "Extraction of candidate relationships", the "apostrophe rule", which gives particular treatment to extractions that have greater probability to be valid ones and "Bag of labels", a refinement technique that has the potential to achieve greater effectiveness than those that operate on relationships consisting of a pair of concepts and a label, are among its positive aspects. Experimental evaluations of TARNT were performed according to two procedures based on the principle of comparing the learned relationship consisting of a pair of concepts and a label, are among its positive aspects. Experimental evaluations of TARNT were performed according to two procedures based on the principle of comparing the learned relationships with reference ones. These experiments consisted in measuring with recall and precision, the effectiveness of the technique in learning non-taxonomic relationships from two corpora in the domains of biology and family law. The results were compared to thet of another approach that uses and algorithm for the extraction of association rules in the Refinement phase. This Thesis also demonstrate the hypothesis that solutions to the Refinement phase that use relationships composed of two ontology concepts and a label are less effective than those that refine relationships composed of only two concepts, since they tend to have lower values for the evaluation measures when considering the same corpus and reference ontology. The demonstration was conducted by a theoretical exposition that consisted of the generalization of the observations made on the results obtained by two techniques that refine relationships of the two types considered. / A Aprendizagem de Relacionamentos Não-Taxonômicos é um sub-campo da Aprendizagem de ontologia e constitui uma abordagem para automatizar a extração desses relacionamentos a partir de fontes de informações textuais. As técnicas de aprendizagem de relacionamentos não taxonômicos, da mesma forma que outras na área de Aprendizagem de Ontologias estão sujeitas a uma grande quantidade de ruído uma vez que a fonte de informação da qual extraem os relacionamentos ser desestruturada. Portanto, soluções customizáveis são necessárias para que essas técnicas sejam aplicáveis a maior variedade possível de situações. O presente trabalho apresentou TARNT, uma Técnica para a Aprendizagem de Relacionamentos Não-Taxonômicos de ontologias a partir de textos na língua inglesa que emprega técnicas de Processamento de Linguagem Natural e estatísticas para etiquetar o texto e selecionar os relacionamentos a serem recomendados. o controle sobre execução de suas regras de extração e consequentemente sobre o recall e precisão na fase "Extração de relacionamentos candidatos"; a "regra de apóstrofo", que confere tratamento particular às extrações que tem maior probabilidade de serem relacionamentos válidos e Bag of labels, solução para a fase de "Refinamento" que apresenta o potencial de obter maior efetividade que as que operam sore relacionamentos compostos por um par de conceitos e um rótulo, estão entre seus aspectos positivos. Avaliações experimentais de TARNT foram realizadas conforme dois procedimentos baseados no princípio de comparação dos relacionamentos aprendidos com os de referência. Esses experimentos consistiram em mensurar com as medidas de avaliação recall e precisão, a efetividade da técnica na aprendizagem de relacionamentos não-taxonômicos a partir de dois corpora nos domínio da biologia e o direito da família. Os resultados obtidos foram ainda comparados aos de outra abordagem que utiliza o algoritmo de extração de regras de associação na fase de "Refinamento". Esse trabalho demostrou ainda a hipótese de pesquisa de que: soluções para a fase de "Refinamento" que utilizam relacionamentos compostos por dois conceitos de uma ontologia e um rótulo são menos efetivas que as que refinam relacionamentos compostos apenas pro dois conceitos, uma vez que esses tendem a apresentar menores valores para as medidas de avaliação quando considerados os mesmos corpus e ontologia de referência. A demonstração foi realizada por meio de uma exposição teórica que consistiu na generalização das observações realizadas sobre os resultados obtidos por duas técnicas que refinam relacionamentos dos dois tipos considerados. Ontologias Processamento da linguagem natural Aprendizagem de máquina Ontology Natural language processing Machine Learning Ciência da Computação
87	PersonalTVware: uma infraestrutura de suporte a sistemas de recomendação sensíveis ao contexto para TV Digital Personalizada. / PersonalTVware: an infrastructure to support the context-aware recommender systems for Personalized Digital TV. Silva, Fábio Santos da 18 March 2011 (has links) O processo de digitalização da TV em diversos países do mundo tem contribuído para o aumento do volume de programas de TV, o que gera uma sobrecarga de informação. Consequentemente, o usuário está enfrentando dificuldade para encontrar os programas de TV favoritos dentre as várias opções disponíveis. Diante deste cenário, os sistemas de recomendação destacam-se como uma possível solução. Tais sistemas são capazes de filtrar itens relevantes de acordo com as preferências do usuário ou de um grupo de usuários que possuem perfis similares. Entretanto, em diversas recomendações o interesse do usuário pode depender do seu contexto. Assim, torna-se importante estender as abordagens tradicionais de recomendação personalizada por meio da exploração do contexto do usuário, o que poderá melhorar a qualidade das recomendações. Para isso, este trabalho descreve uma infraestrutura de software de suporte ao desenvolvimento e execução de sistemas de recomendação sensíveis ao contexto para TV Digital Interativa - intitulada de PersonalTVware. A solução proposta fornece componentes que implementam técnicas avançadas para recomendação de conteúdo e processamento de contexto. Com isso, os desenvolvedores de sistemas de recomendação concentram esforços na lógica de apresentação de seus sistemas, deixando questões de baixo nível para o PersonalTVware gerenciar. As modelagens de usuário, e do contexto, essenciais para o desenvolvimento do PersonalTVware, são representadas por padrões de metadados flexíveis usados na TV Digital Interativa (MPEG-7 e TV-Anytime), e suas devidas extensões. A arquitetura do PersonalTVware é composta por dois subsistemas: dispositivo do usuário e provedor de serviços. A tarefa de predição de preferências contextuais é baseada em métodos de aprendizagem de máquina, e a filtragem de informação sensível ao contexto tem como base a técnica de filtragem baseada em conteúdo. O conceito de perfil contextual também é apresentado e discutido. Para demonstrar e validar as funcionalidades do PersonalTVware em um cenário de uso, foi desenvolvido um sistema de recomendação sensível ao contexto como estudo de caso. / The process of digitalization of TV in several countries around the world has, contributed to increase the volume of TV programs offered and it leads, to information overload problem. Consequently, the user facing the difficulty to find their favorite TV programs in view of various available options. Within this scenario, the recommender systems stand out as a possible solution. These systems are capable of filtering relevant items according to the user preferences or the group of users who have similar profiles. However, the most of the recommender systems for Interactive Digital TV has rarely take into consideration the users contextual information in carrying out the recommendation. However, in many recommendations the user interest may depend on the context. Thus, it becomes important to extend the traditional approaches to personalized recommendation of TV programs by exploiting the context of user, which may improve the quality of the recommendations. Therefore, this work presents a software infrastructure in an Interactive Digital TV environment to support context-aware personalized recommendation of TV programs entitled PersonalTVware. The proposed solution provides components which implement advanced techniques to recommendation of content and context management. Thus, developers of recommender systems can concentrate efforts on the presentation logic of their systems, leaving low-level questions for the PersonalTVware managing. The modeling of user and context, essential for the development of PersonalTVware, are represented by granular metadata standards used in the Interactive Digital TV field (MPEG-7 and TV-Anytime), and its extensions required. The PersonalTVware architecture is composed by two subsystems: the users device and the service provider. The task of inferring contextual preferences is based on machine learning methods, and context-aware information filtering is based on content-based filtering technique. The concept of contextual user profile is presented and discussed. To demonstrate the functionalities in a usage scenario a context-aware recommender system was developed as a case study applying the PersonalTVware. Aprendizagem de máquina Computação sensível ao contexto Context-aware computing Interactive Digital TV Machine learning Metadados Metadata Recommender systems Sistemas de recomendação TV Digital Interativa
88	Análise preditiva de Churn com ênfase em técnicas de Machine Learning: uma revisão Schneider, Pedro Henrique 27 July 2016 (has links) Submitted by Pedro Henrique Schneider (pedro.hesch@gmail.com) on 2016-09-09T15:00:58Z No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) / Approved for entry into archive by Janete de Oliveira Feitosa (janete.feitosa@fgv.br) on 2016-09-26T12:55:03Z (GMT) No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) / Approved for entry into archive by Maria Almeida (maria.socorro@fgv.br) on 2016-10-17T16:18:06Z (GMT) No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) / Made available in DSpace on 2016-10-17T16:18:27Z (GMT). No. of bitstreams: 1 Dissertação de Mestrado versB - Pedro Schneider.pdf: 3405337 bytes, checksum: f452667b92fb078d3ef982a694d30db3 (MD5) Previous issue date: 2016-07-27 / In the last two decades, the growth of the Internet and its associated technologies, are transforming the way of the relationship between companies and their clients. In general, the acquisition of a new customer is much more expensive for a company than the retention of a current one. Thus, customer retention studies or Churn management has become more important for companies. This study represents the review and classi cation of literature on applications of Machine Learning techniques to build predictive models of customers loss, also called Churn. The objective of this study was collecting the largest possible number of documents on the subject within the proposed methodology and classi es them as per application areas, year of publication, Machine Learning techniques applied, journals and repositories used and in uence level of the documents. And thus, bringing to the light the existing studies in this eld of activity, consolidating what is the state of the art of research in this area, and signi cantly contribute as a reference for future applications and researches in this area. Although, the study has not been the rst in the literature of Machine Learning related to the loss of customer or customer retention in the way of literature review, it was the rst, among the ones we have found, with focus on documents studying, not exclusively, loss or retention of customers by Machine Learning techniques, and without any kind of restriction. Furthermore it was the rst to classify documents by in uence, through the quotations from each document. As a nal database was collected and analyzed 80 documents, from which were found as main application areas: Telecommunications, Financial, Newspapers, Retail, among others. As per Machine Learning techniques applied, the most applied techniques founded related to the problem, were the following: Logistic Regression, Decision Tree and Neural Networks, among others. And based on the results, this kind of study is dated since 2000. / Nas últimas duas décadas, o crescimento da internet e suas tecnologias associadas, vêm transformando a forma de relacionamento entre as empresas e seus clientes. Em geral, a aquisição de um novo cliente custa muito mais caro para uma empresa que a retenção do mesmo. Desta forma, estudos de retenção de clientes, ou gerenciamento do Churn, se tornaram mais importantes para as empresas. O presente trabalho consiste na revisão e classificação da literatura sobre aplicações de técnicas com ênfase em Machine Learning para construir modelos preditivos de perda de clientes, também chamada de Churn. O objetivo do trabalho foi reunir o maior número possível de documentos sobre o assunto, dentro da metodologia proposta, e classificá-los quanto às áreas de aplicação, ano de publicação, técnicas de Machine Learning aplicadas, periódicos e repositórios utilizados, nível de influência dos documentos e desta forma trazer à luz os estudos já existentes nesse campo de atuação, consolidando o que há do estado da arte em pesquisas desta área, e de forma significativa contribuir como uma referência para futuras aplicações e pesquisas nesta área. Embora o trabalho não tenha sido o primeiro na literatura de Machine Learning relacionado a perda ou retenção de clientes na linha de revisão literária, foi o primeiro encontrado com foco em documentos que estudam, não exclusivamente, a perda ou retenção de clientes por técnicas de Machine Learning e sem nenhum tipo de restrições. Da mesma forma foi o primeiro a classificar os documentos por influência através das citações entre os documentos. Assim, como base final para o trabalho, analisou-se 80 documentos, onde foram encontradas como principais áreas de aplicação: Telecomunicações, Financeiras, Jornais, Varejo entre outras. Constataram-se como técnicas de Machine Learning mais utilizadas para o problema em questão: Regressão Logística, Árvores de Decisão e Redes Neurais, entre outras. E ainda, de acordo com os resultados obtidos, notou-se que ano 2000 tende a ser um marco para esta pesquisa, pois foi a data mais antiga para a qual foi encontrado um artigo nesse trabalho. Churn Análise Preditiva de Churn Retenção de clientes Machine learning Aprendizagem de máquina Data mining Mineração de dados Revisão Matemática Mineração de dados (Computação) Aprendizado do computador
89	Um modelo para a detecção das mudanças de posicionamento dos deputados federais Baptista, Vítor Márcio Paiva de Sousa 27 August 2015 (has links) Submitted by Viviane Lima da Cunha (viviane@biblioteca.ufpb.br) on 2016-02-17T11:30:52Z No. of bitstreams: 1 arquivototal.pdf: 945699 bytes, checksum: 9ac1d0e7217344776f8b0044d94ad1cc (MD5) / Made available in DSpace on 2016-02-17T11:30:52Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 945699 bytes, checksum: 9ac1d0e7217344776f8b0044d94ad1cc (MD5) Previous issue date: 2015-08-27 / In Brazil, there are tools for monitoring the behaviour of legislators in rollcalls, such as O Estado de São Paulo’s Basômetro and Radar Parlamentar. These tools are used both by journalists and political scientists for analysis. Although they are great analysis tools, their usefulness for monitoring is limited because they require a manual follow-up, which makes it a lot of work when we consider the volume of data. Only in the Chamber of Deputies, 513 legislators participate on average over than 400 rollcalls by legislature. It is possible to decrease the amount of data analyzing the parties as a whole, but in contrast we lose the ability to detect individuals’ drives or intra-party groups such as factions. In order to mitigate this problem, I developed a statistical model that detects when a legislator changes his or her position, joining or leaving the governmental coalition, through ideal points estimates using theW-NOMINATE. It can be used individually or integrated to tools such as Basômetro, providing a filter for researchers find the deputies who changed their behaviour most significantly. The universe of study is composed of legislators from the Chamber of Deputies from the 50th to the 54th legislatures, starting in the first term of Fernando Henrique Cardoso in 1995 until the beginning of the second term of Dilma Rousseff in 2015. / No Brasil, existem ferramentas para o acompanhamento do comportamento dos parlamentares em votações nominais, tais como o Basômetro do jornal O Estado de São Paulo e o Radar Parlamentar. Essas ferramentas são usadas para análises tanto por jornalistas, quanto por cientistas políticos. Apesar de serem ótimas ferramentas de análise, sua utilidade para monitoramento é limitada por exigir um acompanhamento manual, o que se torna muito trabalhoso quando consideramos o volume de dados. Somente na Câmara dos Deputados, 513 parlamentares participam em média de mais de 400 votações nominais por legislatura. É possível diminuir a quantidade de dados analisando os partidos como um todo, mas em contrapartida perdemos a capacidade de detectar movimentações de indivíduos ou grupos intrapartidários como as bancadas. Para diminuir esse problema, desenvolvi neste trabalho um modelo estatístico que detecta quando um parlamentar muda de posicionamento, entrando ou saindo da coalizão governamental, através de estimativas de pontos ideais usando oW-NOMINATE. Ele pode ser usado individualmente ou integrado a ferramentas como o Basômetro, oferecendo um filtro para os pesquisadores encontrarem os parlamentares que mudaram mais significativamente de comportamento. O universo de estudo é composto pelos parlamentares da Câmara dos Deputados no período da 50ª até a 54ª legislaturas, iniciando no primeiro mandato de Fernando Henrique Cardoso em 1995 até o início do segundo mandato de Dilma Rousseff em 2015. Análise legislativa Ciência política Ciência de dados Modelos preditivos Aprendizagem de máquina Political science Data science Predictive models Machine learning Legislative analysis
90	CollectMed: Extração e Reuso de Conhecimento Coletivo para o Registro Eletrônico em Saúde. / CollectMed: Extração e Reuso de Conhecimento Coletivo para o Registro Eletrônico em Saúde Serafim, Eduardo Paz 07 February 2011 (has links) Made available in DSpace on 2015-05-14T12:36:26Z (GMT). No. of bitstreams: 1 parte1.pdf: 1614982 bytes, checksum: 20a76dbb04a57c702c64e525119a04ec (MD5) Previous issue date: 2011-02-07 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Several technological advances during recent years provided that the Electronic Health Record systems (EHR) became a solidified and viable alternative to replace progres-sively and efficiently, the use of health records on paper. The benefits found are associated with the use of methods for clinical decision support (CDS), data availability, ease in finding information, among other advantages inherent in computerized systems use. However, there are still many challenges and research to get the full potential of such systems. For example, the amounts of clinical data for EHR storage are very high. Several interests might benefit if there was a tool capable of performing an automated analysis, or more commonly found, semi-automated, useful for search patterns in the data set stored in the system. Several studies indicate that efforts in the field of machine learning achieve great results in various areas including clinical information. However, the effort required is still high, increasing the time spent with planning and processing, with high costs and large amounts of data needed for processing. This work, in association with the OpenCTI's CDS seeks to significantly reduce the amount of effort necessary to promote both the reuse of clin-ical information from the automatic learning, and the development of mechanisms for clini-cal decision support with low cost. This study seeks to offer those benefits to users of EHR systems, through a simple mechanism, but extensive, for analysis of clinical data stored in clinical databases. This anal-ysis is performed using a methodology of knowledge extraction algorithms using collective intelligence or data mining, through steps of search, selection, preprocessing, modeling, evaluation and application of the information extracted from these systems. From this, me-chanisms for clinical decision support of EHR, may use the framework offered by CollectMed to promote with greater ease and precision, more accurate information regarding specific medical conditions on their patients, according to what has already been registered by health professionals in similar cases using the EHR. / Diversos avanços tecnológicos ocorridos nos últimos anos fizeram com que os Sis-temas de Registro Eletrônico em Saúde (RES) se consolidassem como uma alternativa viável para substituir, progressivamente e com eficiência, o uso dos registros de saúde em papel. Os benefícios encontrados são associados ao uso de métodos de apoio à decisão clínica, disponi-bilidade dos dados, facilidade na busca por informações, entre outras vantagens inerentes ao uso de sistemas computadorizados. Entretanto, existem ainda, muitos desafios e pesquisas para fazer com que todo o potencial desses sistemas seja utilizado. Por exemplo, a quantida-de de dados clínicos que os sistemas de RES armazenam, é muito elevado. Diversos interes-ses poderiam ser beneficiados, caso houvesse uma ferramenta capaz de realizar uma análise automatizada, ou semi-automatizada (como é mais comumente encontrada), para buscar padrões úteis no conjunto de dados armazenados no sistema. Diversos trabalhos apontam que os esforços realizados no campo de aprendizado automático alcançam ótimos resultados em diversas áreas, inclusive para informações clíni-cas. Porém, o esforço necessário ainda é elevado, aumentando o tempo dedicado ao planeja-mento e execução, assim como altos custos e necessidade de grande volume de dados para o processamento. Este trabalho, associado ao sistema de apoio à decisão do OpenCTI busca reduzir, significativamente,o esforço necessário para promover tanto o reuso de informações clínicas a partir do aprendizado automático, quanto o desenvolvimento de mecanismos de apoio à decisão clínica a um baixo custo. O presente trabalho, busca oferecer tal benefício aos usuários de sistemas de RES, por meio de um mecanismo simples, porém amplo, de análise dos dados clínicos armazena-dos nos bancos de dados dos RES. Essa análise será realizada por meio de uma metodologia de extração de conhecimento, utilizando algoritmos de inteligência coletiva ou data mining, passando por etapas de busca, seleção, pré-processamento, modelagem, avaliação e aplicação destas informações extraídas dos sistemas. A partir disso, mecanismos de apoio à decisão clínica dos RES, poderão utilizar o arcabouço oferecido pelo CollectMed para promover, com mais facilidade e precisão, recuperação de informações mais apuradas a respeito das condi-ções clínicas específicas sobre seus pacientes, de acordo com o que já foi registrado por pro-fissionais de saúde em casos clínicos semelhantes persistidos no RES. Inteligência Coletiva Extração de Informação Aprendizagem de Máquina Medical Records Systems Ontologies Collective Intelligence Information Extrac-tion Machine Learning

Search results