• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 193
  • 13
  • 2
  • Tagged with
  • 208
  • 128
  • 111
  • 102
  • 62
  • 52
  • 52
  • 51
  • 45
  • 37
  • 36
  • 32
  • 28
  • 24
  • 23
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
201

Soluções aproximadas para algoritmos escaláveis de mineração de dados em domínios de dados complexos usando GPGPU / On approximate solutions to scalable data mining algorithms for complex data problems using GPGPU

Alexander Victor Ocsa Mamani 22 September 2011 (has links)
A crescente disponibilidade de dados em diferentes domínios tem motivado o desenvolvimento de técnicas para descoberta de conhecimento em grandes volumes de dados complexos. Trabalhos recentes mostram que a busca em dados complexos é um campo de pesquisa importante, já que muitas tarefas de mineração de dados, como classificação, detecção de agrupamentos e descoberta de motifs, dependem de algoritmos de busca ao vizinho mais próximo. Para resolver o problema da busca dos vizinhos mais próximos em domínios complexos muitas abordagens determinísticas têm sido propostas com o objetivo de reduzir os efeitos da maldição da alta dimensionalidade. Por outro lado, algoritmos probabilísticos têm sido pouco explorados. Técnicas recentes relaxam a precisão dos resultados a fim de reduzir o custo computacional da busca. Além disso, em problemas de grande escala, uma solução aproximada com uma análise teórica sólida mostra-se mais adequada que uma solução exata com um modelo teórico fraco. Por outro lado, apesar de muitas soluções exatas e aproximadas de busca e mineração terem sido propostas, o modelo de programação em CPU impõe restrições de desempenho para esses tipos de solução. Uma abordagem para melhorar o tempo de execução de técnicas de recuperação e mineração de dados em várias ordens de magnitude é empregar arquiteturas emergentes de programação paralela, como a arquitetura CUDA. Neste contexto, este trabalho apresenta uma proposta para buscas kNN de alto desempenho baseada numa técnica de hashing e implementações paralelas em CUDA. A técnica proposta é baseada no esquema LSH, ou seja, usa-se projeções em subespac¸os. O LSH é uma solução aproximada e tem a vantagem de permitir consultas de custo sublinear para dados em altas dimensões. Usando implementações massivamente paralelas melhora-se tarefas de mineração de dados. Especificamente, foram desenvolvidos soluções de alto desempenho para algoritmos de descoberta de motifs baseados em implementações paralelas de consultas kNN. As implementações massivamente paralelas em CUDA permitem executar estudos experimentais sobre grandes conjuntos de dados reais e sintéticos. A avaliação de desempenho realizada neste trabalho usando GeForce GTX470 GPU resultou em um aumento de desempenho de até 7 vezes, em média sobre o estado da arte em buscas por similaridade e descoberta de motifs / The increasing availability of data in diverse domains has created a necessity to develop techniques and methods to discover knowledge from huge volumes of complex data, motivating many research works in databases, data mining and information retrieval communities. Recent studies have suggested that searching in complex data is an interesting research field because many data mining tasks such as classification, clustering and motif discovery depend on nearest neighbor search algorithms. Thus, many deterministic approaches have been proposed to solve the nearest neighbor search problem in complex domains, aiming to reduce the effects of the well-known curse of dimensionality. On the other hand, probabilistic algorithms have been slightly explored. Recently, new techniques aim to reduce the computational cost relaxing the quality of the query results. Moreover, in large-scale problems, an approximate solution with a solid theoretical analysis seems to be more appropriate than an exact solution with a weak theoretical model. On the other hand, even though several exact and approximate solutions have been proposed, single CPU architectures impose limits on performance to deliver these kinds of solution. An approach to improve the runtime of data mining and information retrieval techniques by an order-of-magnitude is to employ emerging many-core architectures such as CUDA-enabled GPUs. In this work we present a massively parallel kNN query algorithm based on hashing and CUDA implementation. Our method, based on the LSH scheme, is an approximate method which queries high-dimensional datasets with sub-linear computational time. By using the massively parallel implementation we improve data mining tasks, specifically we create solutions for (soft) realtime time series motif discovery. Experimental studies on large real and synthetic datasets were carried out thanks to the highly CUDA parallel implementation. Our performance evaluation on GeForce GTX 470 GPU resulted in average runtime speedups of up to 7x on the state-of-art of similarity search and motif discovery solutions
202

Uso de informação linguística e análise de conceitos formais no aprendizado de ontologias / Use of linguistic information and formal concept analysis for ontology learning.

Carlos Eduardo Atencio Torres 08 October 2012 (has links)
Na atualidade, o interesse pelo uso de ontologias tem sido incrementado. No entanto, o processo de construção pode ser custoso em termos de tempo. Para uma ontologia ser construída, precisa-se de um especialista com conhecimentos de um editor de ontologias. Com a finalidade de reduzir tal processo de construção pelo especialista, analisamos e propomos um método para realizar aprendizado de ontologias (AO) de forma supervisionada. O presente trabalho consiste em uma abordagem combinada de diferentes técnicas no AO. Primeiro, usamos uma técnica estatística chamada C/NC-values, acompanhada da ferramenta Cogroo, para extrair os termos mais representativos do texto. Esses termos são considerados por sua vez como conceitos. Projetamos também uma gramática de restrições (GR), com base na informação linguística do Português, com o objetivo de reconhecer e estabelecer relações entre conceitos. Para poder enriquecer a informação na ontologia, usamos a análise de conceitos formais (ACF) com o objetivo de identificar possíveis superconceitos entre dois conceitos. Finalmente, extraímos ontologias para os textos de três temas, submetendo-as à avaliação dos especialistas na área. Um web site foi feito para tornar o processo de avaliação mais amigável para os avaliadores e usamos o questionário de marcos de características proposto pelo método OntoMetrics. Os resultados mostram que nosso método provê um ponto de partida aceitável para a construção de ontologias. / Nowadays, the interest in the use of ontologies has increased, nevertheless, the process of ontology construction can be very time consuming. To build an ontology, we need a domain expert with knowledge in an ontology editor. In order to reduce the time needed by the expert, we propose and analyse a supervised ontology learning (OL) method. The present work consists of a combined approach of different techniques in OL. First, we use a statistic technique called C/NC-values, with the help of the Cogroo tool, to extract the most significant terms. These terms are considered as concepts consequently. We also design a constraint grammar (CG) based in linguistic information of Portuguese to recognize relations between concepts. To enrich the ontology information, we use the formal concept analysis (FCA) in order to discover a parent for a set of concepts. In order to evaluate the method, we have extracted ontologies from text on three different domains and tested them with corresponding experts. A web site was built to make the evaluation process friendlier for the experts and we used an evaluation framework proposed in the OntoMetrics method. The results show that our method provides an acceptable starting point for the construction of ontologies.
203

An?lise dos indicadores de qualidade versus taxa de abandono utilizando m?todo de regress?o m?ltipla para servi?o de banda larga

Fernandes Neto, Andr? Pedro 20 June 2008 (has links)
Made available in DSpace on 2014-12-17T14:52:36Z (GMT). No. of bitstreams: 1 AndrePFN.pdf: 1525936 bytes, checksum: edb576494fd35f42e78d512df4fc02df (MD5) Previous issue date: 2008-06-20 / Telecommunication is one of the most dynamic and strategic areas in the world. Many technological innovations has modified the way information is exchanged. Information and knowledge are now shared in networks. Broadband Internet is the new way of sharing contents and information. This dissertation deals with performance indicators related to maintenance services of telecommunications networks and uses models of multivariate regression to estimate churn, which is the loss of customers to other companies. In a competitive environment, telecommunications companies have devised strategies to minimize the loss of customers. Loosing customers presents a higher cost than obtaining new ones. Corporations have plenty of data stored in a diversity of databases. Usually the data are not explored properly. This work uses the Knowledge Discovery in Databases (KDD) to establish rules and new models to explain how churn, as a dependent variable, are related to a diversity of service indicators, such as time to deploy the service (in hours), time to repair (in hours), and so on. Extraction of meaningful knowledge is, in many cases, a challenge. Models were tested and statistically analyzed. The work also shows results that allows the analysis and identification of which quality services indicators influence the churn. Actions are also proposed to solve, at least in part, this problem / A ?rea de telecomunica??es ? uma das mais estrat?gicas e din?micas do mundo atual. Esse fato se deve a in?meras inova??es tecnol?gicas que afetaram a forma como as informa??es trafegam. O conhecimento deixou de ser percebido como um ac?mulo linear, l?gico e cronol?gico de informa??es e passou a ser visto como uma constru??o em rede, consequentemente a massifica??o da Internet banda larga em alta velocidade teve grande influ?ncia sobre esse fen?meno. Essa disserta??o aborda um estudo sobre medi??o de desempenho e servi?os de manuten??o em telecomunica??es, com o uso de ferramentas de descoberta de conhecimento em base de dados (KDD). Objetiva-se transformar informa??es, armazenadas nas bases de dados de uma grande empresa de telecomunica??es do pa?s, em conhecimento ?til. A metodologia de pesquisa utilizada focou no uso de an?lise de regress?o m?ltipla como ferramenta para estimar a taxa de abandono de clientes em servi?os de Internet de banda larga, como vari?vel dependente, e indicadores de qualidade de servi?o como vari?veis independentes. Modelos foram testados e analisados estatisticamente. O trabalho apresenta resultados que permitem analisar e identificar quais os indicadores de qualidade que exercem maior influ?ncia na taxa de abandono dos clientes. S?o propostas sugest?es que possam ser aplicadas para melhoria de qualidade do servi?o percebido e consequentemente diminui??es das perdas com a taxa de abandono
204

[en] DATA MINING APPLIED TO DIRECT MARKETING AND MARKET SEGMENTATION / [es] MINERACIÓN DE DATOS PARA LA SOLUCIÓN DE PROBLEMAS DE MARKETING DIRECTO Y SEGMENTACIÓN DE MERCADO / [pt] MINERAÇÃO DE DADOS APLICADA NA SOLUÇÃO DE PROBLEMAS DE MARKETING DIRETO E SEGMENTAÇÃO DE MERCADO

HUGO LEONARDO COSTA DE AZEVEDO 28 August 2001 (has links)
[pt] Devido à quantidade cada vez maior de dados armazenada pelas instituições, a área de mineração de dados tem se tornado cada vez mais relevante e vários métodos e métodos têm sido propostos de maneira a aumentar sua aplicabilidade e desempenho. Esta dissertação investiga o uso de diversos métodos e técnicas de mineração de dados na modelagem e solução de problemas de Marketing. O objetivo do trabalho foi fazer um levantamento de alguns métodos e técnicas de mineração, avaliar seus desempenhos e procurar integrá-los na solução de problemas de marketing que envolvessem tarefas de agrupamento ou classificação. O trabalho consistiu de quatro etapas principais: estudo sobre o processo de descoberta de conhecimento em bancos de dados (KDD - Knowledge Discovery in Databases); estudo sobre Marketing e alguns problemas de Marketing de Banco de Dados (DBM - Database Marketing) que envolvessem tarefas de agrupamento e classificação; levantamento e estudo de métodos e técnicas de Inteligência Computacional e Estatística que pudessem ser empregados na solução de alguns desses problemas; e estudos de caso. A primeira etapa do trabalho envolveu um estudo detalhado das diversas fases do processo de KDD: limpeza dos dados; seleção; codificação e transformação; redução de dimensionalidade; mineração; e pós-processamento. Na segunda etapa foram estudados os principais conceitos de Marketing e de DBM e a relação entre eles e o processo de KDD. Pesquisaram-se alguns dos tipos de problemas comuns na área e escolheram- se para análise dois que fossem suficientemente complexos e tivessem a possibilidade de se ter acesso a alguma empresa que fornecesse os dados e validasse a solução posteriormente. Os casos selecionados foram um de marketing direto e outro de segmentação de mercado. Na terceira etapa, foram estudados os métodos de Inteligência Computacional e Estatística usualmente empregados em tarefas de agrupamento e classificação de dados. Foram estudados: Redes Perceptron Multi-Camadas, Mapas Auto- Organizáveis, Fuzzy C-Means, K-means, sistemas Neuro-Fuzzy, Árvores de Decisão, métodos Hierárquicos de agrupamento, Regressão Logística, Fuções Discriminantes de Fisher, entre outros. Por fim, na última etapa, procurou-se integrar todos os métodos e técnicas estudados na solução de dois estudos de caso, propostos inicialmente na segunda etapa do trabalho. Uma vez proposta a solução para os estudos de caso, elas foram levadas aos especialistas em Marketing das empresas para serem validadas no âmbito do negócio. Os estudos de caso mostraram a grande utilidade e aplicabilidade dos métodos e técnicas estudadas em problemas de marketing direto e segmentação de mercado. Sem o emprego dos mesmos, a solução para muitos desses problemas tornar-se-ia extremamente imprecisa ou até mesmo inviável. Mostraram também a grande importância das fases iniciais de pré-processamento dos dados no processo de KDD. Muitos desafios persistem ainda na área de mineração de dados, como a dificuldade de modelar dados não lineares e de manipular quantidades muito grande de dados, o que garante um vasto campo para pesquisa nos próximos anos. / [en] The Data Mining field has received great attention lately, due to the increasing amount of data stored by companies and institutions. A great number of Data Mining methods have been proposed so far, which is good but sometimes leads to confusion. This dissertation investigates the performance of many different methods and techniques of Data Mining used to model and solve Marketing problems. The goal of this research was to look for and study some data mining methods, compare them, and try to integrate them to solve Marketing problems involving clustering and classification tasks. This research can be divided in four stages: a study of the process of Knowledge Discovery in Databases (KDD); a study about Marketing problems involving clustering and classification; a study of some methods and techniques of Statistics and Computational Intelligence that could be used to solve some of those problems; and case studies. On the first stage of the research, the different tasks (clustering, classification, modeling, etc) and phases (data cleansing, data selection, data transformation, Data Mining, etc) of a KDD process were studied in detail. The second stage involved a study of the main concepts of Marketing and Database Marketing and their relation to the KDD process. The most common types of problems in the field were studied and, among them, two were selected to be furthered analyzed as case studies. One case was related to Direct Marketing and the other to Market Segmentation. These two cases were chosen because they were complex enough and it was possible to find a company to provide data to the problem and access to their marketing department. On the third stage, many different methods for clustering and classification were studied and compared. Among those methods, there were: Multilayer Perceptrons, Self Organizing Maps, Fuzzy C-Means, K-Means, Neuro-Fuzzy systems, Decision Trees, Hierarquical Clustering Methods, Logistic Regression, Fisher`s Linear Discriminants, etc Finally, on the last stage, all the methods and techniques studied were put together to solve the two case studies proposed earlier. Once they were solved, their solutions were submitted to the Marketing Department of the company who provided the data, so that they could validate the results in the context of their business. The case studies were able to show the large potential of applicability of the methods and techniques studied on problems of Market Segmentation and Direct Marketing. Without employing those methods, it would be very hard or even impossible to solve those problems. The case studies also helped verify the very important role of the data pre-processing phase on the KDD process. Many challenges persist in the data mining field. One could mention, for example, the difficulty to model non-linear data and to manipulate larges amounts of data. These and many other challenges provide a vast field of research to be done in the next years. / [es] Debido a la cantidad cada vez mayor de datos almacenados por las instituiciones, el área de mineración de datos há ganado relevancia y varios métodos han sido propuestos para aumentar su aplicabilidad y desempeño. Esta disertación investiga el uso de diversos métodos y técnicas de mineración de datos en la modelación y solución de problemas de Marketing. EL objetivo del trabajo fue hacer un levantamiento de algunos métodos y técnicas de mineración, evaluar su desempeño e integrarlos en la solución de problemas de marketing que involucran tareas de agrupamiento y clasificación. EL trabajo consta de cuatro etapas principales: estudio sobre el proceso de descubrimiento de conocimientos en bancos de datos (KDD - Knowledge Discovery in Databases); estudio sobre Marketing y algunos problemas de Marketing de Banco de Datos (DBM - Database Marketing) que incluyen tareas de agrupamientoy clasificación; levantamiento y estudio de métodos y técnicas de Inteligencia Computacional y Estadística que pueden ser empleados en la solución de algunos problemas; y por último, estudios de casos. La primera etapa del trabajo contiene un estudio detallado de las diversas fases del proceso de KDD: limpeza de datos; selección; codificación y transformación; reducción de dimensionalidad; mineración; y posprocesamento. En la segunda etapa fueron estudados los principales conceptos de Marketing y de DBM y la relación entre ellos y el proceso de KDD. Algunos de los tipos de problemas comunes en la área fueron investigados, seleccionando dos de ellos, por ser suficientemente complejos y tener posibilidad de acceso a alguna empresa que suministrase los datos y evaluase posteriormente la solución. Los casos selecionados fueron uno de marketing directo y otro de segmentación de mercado. En la tercera etapa, se estudiaron los métodos de Inteligencia Computacional y Estadística que son empleados usualmente en tareas de agrupamiento y clasificación de datos. Éstos fueron: Redes Perceptron Multicamada, Mapas Autoorganizables, Fuzzy C-Means, K-means, sistemas Neuro- Fuzzy, Árboles de Decisión, métodos Jerárquicos de agrupamiento, Regresión Logística, Fuciones Discriminantes de Fisher, entre otros. En la última etapa, se integraron todos los métodos y técnicas estudiados en la solución de dos estudios de casos, propuestos inicialmente en la segunda etapa del trabajo. Una vez proposta la solución para el estudios de casos, éstas fueron evaluadas por los especialistas en Marketing de las empresas. Los estudios de casos mostraron la grande utilidad y aplicabilidad de los métodos y técnicas estudiadas en problemas de marketing directo y segmentación de mercado. Sin el empleo de dichos métodos, la solución para muchos de esos problemas sería extremadamente imprecisa o hasta incluso inviáble. Se comprobó también la gran importancia de las fases iniciales de preprocesamiento de datos en el proceso de KDD. Existen todavía muchos desafíos en el área de mineración de datos, como la dificuldad de modelar datos no lineales y de manipular cantidades muy grandes de datos, lo que garantiza un vasto campo de investigación
205

Contemporary electromagnetic spectrum reuse techniques: tv white spaces and D2D communications / TÃcnicas contemporÃneas de reuso do espectro electromagnÃtico: tv de espaÃos branco e comunicaÃÃes D2D

Carlos Filipe Moreira e Silva 15 December 2015 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / Over the last years, the wireless broadband access has achieved a tremendous success. With that, the telecommunications industry has faced very important changes in terms of technology, heterogeneity, kind of applications, and massive usage (virtual data tsunami) derived from the introduction of smartphones and tablets; or even in terms of market structure and its main players/actors. Nonetheless, it is well-known that the electromagnetic spectrum is a scarce resource, being already fully occupied (or at least reserved for certain applications). Tra- ditional spectrum markets (where big monopolies dominate) and static spectrum management originated a paradoxal situation: the spectrum is occupied without actually being used! In one hand, with the global transition from analog to digital Television (TV), part of the spectrum previously licensed for TV is freed and geographically interleaved, originating the consequent Television White Spaces (TVWS); on the other hand, the direct communications between devices, commonly referred as Device-to-Device (D2D) communications, are attracting crescent attention by the scientific community and industry in order to overcome the scarcity problem and satisfy the increasing demand for extra capacity. As such, this thesis is divided in two main parts: (a) Spectrum market for TVWS: where a SWOT analysis for the use of TVWS is performed giving some highlights in the directions/actions that shall be followed so that its adoption becomes effective; and a tecno-economic evaluation study is done considering as a use-case a typical European city, showing the potential money savings that operators may reach if they adopt by the use of TVWS in a flexible market manner; (b) D2D communications: where a neighbor discovery technique for D2D communications is proposed in the single-cell scenario and further extended for the multi-cell case; and an interference mitigation algorithm based on the intelligent selection of Downlink (DL) or Uplink (UL) band for D2D communications underlaying cellular networks. A summary of the principal conclusions is as follows: (a) The TVWS defenders shall focus on the promotion of a real-time secondary spectrum market, where through the correct implementation of policies for protection ratios in the spectrum broker and geo-location database, incumbents are protected against interference; (b) It became evident that an operator would recover its investment around one year earlier if it chooses to deploy the network following a flexible spectrum market approach with an additional TVWS carrier, instead of the traditional market; (c) With the proposed neighbor discovery technique the time to detect all neighbors per Mobile Station (MS) is significantly reduced, letting more time for the actual data transmission; and the power of MS consumed during the discovery process is also reduced because the main processing is done at the Base Station (BS), while the MS needs to ensure that D2D communication is possible just before the session establishment; (d) Despite being a simple concept, band selection improves the gains of cellular communications and limits the gains of D2D communications, regardless the position within the cell where D2D communications happen, providing a trade-off between system performance and interference mitigation. / Nos Ãltimos anos, o acesso de banda larga atingiu um grande sucesso. Com isso, a indÃstria das telecomunicaÃÃes passou por importantes transformaÃÃes em termos de tecnologia, heterogeneidade, tipo de aplicaÃÃes e uso massivo (tsunami virtual de dados) em consequÃncia da introduÃÃo dos smartphones e tablets; ou atà mesmo na estrutura de mercado e os seus principais jogadores/atores. PorÃm, à sabido que o espectro electromagnÃtico à um recurso limitado, estando jà ocupado (ou pelo menos reservado para alguma aplicaÃÃo). O mercado tradicional de espectro (onde os grandes monopÃlios dominam) e o seu gerenciamento estÃtico contribuÃram para essa situaÃÃo paradoxal: o espectro està ocupado mas nÃo està sendo usado! Por um lado, com a transiÃÃo mundial da TelevisÃo (TV) analÃgica para a digital, parte do espectro anteriormente licenciado para a TV à libertado e geograficamente multiplexado para evitar a interferÃncia entre sinais de torres vizinhas, dando origem a ÂespaÃos em branco na frequÃncia da TV ou Television White Spaces (TVWS); por outro lado, as comunicaÃÃes diretas entre usuÃrios, designadas por comunicaÃÃes diretas Dispositivo-a-Dispositivo (D2D), està gerando um crescente interesse da comunidade cientÃfica e indÃstria, com vista a ultrapassar o problema da escassez de espectro e satisfazer a crescente demanda por capacidade extra. Assim, a tese està dividida em duas partes principais: (a) Mercado de espectro eletromagnÃtico para TVWS: onde à feita uma anÃlise SWOT para o uso dos TVWS, dando direÃÃes/aÃÃes a serem seguidas para que o seu uso se torne efetivo; e um estudo tecno-econÃmico considerando como cenÃrio uma tÃpica cidade Europeia, onde se mostram as possÃveis poupanÃas monetÃrias que os operadores conseguem obter ao optarem pelo uso dos TVWS num mercado flexÃvel; (b) ComunicaÃÃes D2D: onde uma tÃcnica de descoberta de vizinhos para comunicaÃÃes D2D à proposta, primeiro para uma Ãnica cÃlula e mais tarde estendida para o cenÃrio multi-celular; e um algoritmo de mitigaÃÃo de interferÃncia baseado na seleÃÃo inteligente da banda Ascendente (DL) ou Descendente (UL) a ser reusada pelas comunicaÃÃes D2D que acontecem na rede celular. Um sumÃrio das principais conclusÃes à o seguinte: (a) Os defensores dos TVWS devem-se focar na promoÃÃo do mercado secundÃrio de espectro electromagnÃtico, onde atravÃs da correta implementaÃÃo de politicas de proteÃÃo contra a interferÃncia no broker de espectro e na base de dados, os usuÃrios primÃrio sÃo protegidos contra a interferÃncia; (b) Um operador consegue recuperar o seu investimento aproximadamente um ano antes se ele optar pelo desenvolvimento da rede seguindo um mercado secundÃrio de espectro com a banda adicional de TVWS, em vez do mercado tradicional; (c) Com a tÃcnica proposta de descoberta de vizinhos, o tempo de descoberta por usuÃrio à significativamente reduzido; e a potÃncia consumida nesse processo à tambÃm ela reduzida porque o maior processamento à feito na EstaÃÃo RÃdio Base (BS), enquanto que o usuÃrio sà precisa de se certificar que a comunicaÃÃo direta à possÃvel; (d) A seleÃÃo de banda, embora seja um conceito simples, melhora os ganhos das comunicaÃÃes celulares e limita os das comunicaÃÃes D2D, providenciando um compromisso entre a performance do sistema e a mitigaÃÃo de interferÃncia.
206

[en] TEXT CATEGORIZATION: CASE STUDY: PATENT S APPLICATION DOCUMENTS IN PORTUGUESE / [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS

NEIDE DE OLIVEIRA GOMES 08 January 2015 (has links)
[pt] Atualmente os categorizadores de textos construídos por técnicas de aprendizagem de máquina têm alcançado bons resultados, tornando viável a categorização automática de textos. A proposição desse estudo foi a definição de vários modelos direcionados à categorização de pedidos de patente, no idioma português. Para esse ambiente foi proposto um comitê composto de 6 (seis) modelos, onde foram usadas várias técnicas. A base de dados foi constituída de 1157 (hum mil cento e cinquenta e sete) resumos de pedidos de patente, depositados no INPI, por depositantes nacionais, distribuídos em várias categorias. Dentre os vários modelos propostos para a etapa de processamento da categorização de textos, destacamos o desenvolvido para o Método 01, ou seja, o k-Nearest-Neighbor (k-NN), modelo também usado no ambiente de patentes, para o idioma inglês. Para os outros modelos, foram selecionados métodos que não os tradicionais para ambiente de patentes. Para quatro modelos, optou-se por algoritmos, onde as categorias são representadas por vetores centróides. Para um dos modelos, foi explorada a técnica do High Order Bit junto com o algoritmo k- NN, sendo o k todos os documentos de treinamento. Para a etapa de préprocessamento foram implementadas duas técnicas: os algoritmos de stemização de Porter; e o StemmerPortuguese; ambos com modificações do original. Foram também utilizados na etapa do pré-processamento: a retirada de stopwords; e o tratamento dos termos compostos. Para a etapa de indexação foi utilizada principalmente a técnica de pesagem dos termos intitulada: frequência de termos modificada versus frequência de documentos inversa TF -IDF . Para as medidas de similaridade ou medidas de distância destacamos: cosseno; Jaccard; DICE; Medida de Similaridade; HOB. Para a obtenção dos resultados foram usadas as técnicas de predição da relevância e do rank. Dos métodos implementados nesse trabalho, destacamos o k-NN tradicional, o qual apresentou bons resultados embora demande muito tempo computacional. / [en] Nowadays, the text s categorizers constructed based on learning techniques, had obtained good results and the automatic text categorization became viable. The purpose of this study was the definition of various models directed to text categorization of patent s application in Portuguese language. For this environment was proposed a committee composed of 6 (six) models, where were used various techniques. The text base was constituted of 1157 (one thousand one hundred fifty seven) abstracts of patent s applications, deposited in INPI, by national applicants, distributed in various categories. Among the various models proposed for the step of text categorization s processing, we emphasized the one devellopped for the 01 Method, the k-Nearest-Neighbor (k-NN), model also used in the English language patent s categorization environment. For the others models were selected methods, that are not traditional in the English language patent s environment. For four models, there were chosen for the algorithms, centroid vectors representing the categories. For one of the models, was explored the High Order Bit technique together with the k-NN algorithm, being the k all the training documents. For the pre-processing step, there were implemented two techniques: the Porter s stemization algorithm; and the StemmerPortuguese algorithm; both with modifications of the original. There were also used in the pre-processing step: the removal of the stopwards; and the treatment of the compound terms. For the indexing step there was used specially the modified documents term frequency versus documents term inverse frequency TF-IDF . For the similarity or distance measures there were used: cosine; Jaccard; DICE; Similarity Measure; HOB. For the results, there were used the relevance and the rank technique. Among the methods implemented in this work it was emphasized the traditional k-NN, which had obtained good results, although demands much computational time.
207

Structure learning of Bayesian networks via data perturbation / Aprendizagem estrutural de Redes Bayesianas via perturbação de dados

Gross, Tadeu Junior 29 November 2018 (has links)
Structure learning of Bayesian Networks (BNs) is an NP-hard problem, and the use of sub-optimal strategies is essential in domains involving many variables. One of them is to generate multiple approximate structures and then to reduce the ensemble to a representative structure. It is possible to use the occurrence frequency (on the structures ensemble) as the criteria for accepting a dominant directed edge between two nodes and thus obtaining the single structure. In this doctoral research, it was made an analogy with an adapted one-dimensional random-walk for analytically deducing an appropriate decision threshold to such occurrence frequency. The obtained closed-form expression has been validated across benchmark datasets applying the Matthews Correlation Coefficient as the performance metric. In the experiments using a recent medical dataset, the BN resulting from the analytical cutoff-frequency captured the expected associations among nodes and also achieved better prediction performance than the BNs learned with neighbours thresholds to the computed. In literature, the feature accounted along of the perturbed structures has been the edges and not the directed edges (arcs) as in this thesis. That modified strategy still was applied to an elderly dataset to identify potential relationships between variables of medical interest but using an increased threshold instead of the predict by the proposed formula - such prudence is due to the possible social implications of the finding. The motivation behind such an application is that in spite of the proportion of elderly individuals in the population has increased substantially in the last few decades, the risk factors that should be managed in advance to ensure a natural process of mental decline due to ageing remain unknown. In the learned structural model, it was graphically investigated the probabilistic dependence mechanism between two variables of medical interest: the suspected risk factor known as Metabolic Syndrome and the indicator of mental decline referred to as Cognitive Impairment. In this investigation, the concept known in the context of BNs as D-separation has been employed. Results of the carried out study revealed that the dependence between Metabolic Syndrome and Cognitive Variables indeed exists and depends on both Body Mass Index and age. / O aprendizado da estrutura de uma Rede Bayesiana (BN) é um problema NP-difícil, e o uso de estratégias sub-ótimas é essencial em domínios que envolvem muitas variáveis. Uma delas consiste em gerar várias estruturas aproximadas e depois reduzir o conjunto a uma estrutura representativa. É possível usar a frequência de ocorrência (no conjunto de estruturas) como critério para aceitar um arco dominante entre dois nós e assim obter essa estrutura única. Nesta pesquisa de doutorado, foi feita uma analogia com um passeio aleatório unidimensional adaptado para deduzir analiticamente um limiar de decisão apropriado para essa frequência de ocorrência. A expressão de forma fechada obtida foi validada usando bases de dados de referência e aplicando o Coeficiente de Correlação de Matthews como métrica de desempenho. Nos experimentos utilizando dados médicos recentes, a BN resultante da frequência de corte analítica capturou as associações esperadas entre os nós e também obteve melhor desempenho de predição do que as BNs aprendidas com limiares vizinhos ao calculado. Na literatura, a característica contabilizada ao longo das estruturas perturbadas tem sido as arestas e não as arestas direcionadas (arcos) como nesta tese. Essa estratégia modificada ainda foi aplicada a um conjunto de dados de idosos para identificar potenciais relações entre variáveis de interesse médico, mas usando um limiar aumentado em vez do previsto pela fórmula proposta - essa cautela deve-se às possíveis implicações sociais do achado. A motivação por trás dessa aplicação é que, apesar da proporção de idosos na população ter aumentado substancialmente nas últimas décadas, os fatores de risco que devem ser controlados com antecedência para garantir um processo natural de declínio mental devido ao envelhecimento permanecem desconhecidos. No modelo estrutural aprendido, investigou-se graficamente o mecanismo de dependência probabilística entre duas variáveis de interesse médico: o fator de risco suspeito conhecido como Síndrome Metabólica e o indicador de declínio mental denominado Comprometimento Cognitivo. Nessa investigação, empregou-se o conceito conhecido no contexto de BNs como D-separação. Esse estudo revelou que a dependência entre Síndrome Metabólica e Variáveis Cognitivas de fato existe e depende tanto do Índice de Massa Corporal quanto da idade.
208

Structure learning of Bayesian networks via data perturbation / Aprendizagem estrutural de Redes Bayesianas via perturbação de dados

Tadeu Junior Gross 29 November 2018 (has links)
Structure learning of Bayesian Networks (BNs) is an NP-hard problem, and the use of sub-optimal strategies is essential in domains involving many variables. One of them is to generate multiple approximate structures and then to reduce the ensemble to a representative structure. It is possible to use the occurrence frequency (on the structures ensemble) as the criteria for accepting a dominant directed edge between two nodes and thus obtaining the single structure. In this doctoral research, it was made an analogy with an adapted one-dimensional random-walk for analytically deducing an appropriate decision threshold to such occurrence frequency. The obtained closed-form expression has been validated across benchmark datasets applying the Matthews Correlation Coefficient as the performance metric. In the experiments using a recent medical dataset, the BN resulting from the analytical cutoff-frequency captured the expected associations among nodes and also achieved better prediction performance than the BNs learned with neighbours thresholds to the computed. In literature, the feature accounted along of the perturbed structures has been the edges and not the directed edges (arcs) as in this thesis. That modified strategy still was applied to an elderly dataset to identify potential relationships between variables of medical interest but using an increased threshold instead of the predict by the proposed formula - such prudence is due to the possible social implications of the finding. The motivation behind such an application is that in spite of the proportion of elderly individuals in the population has increased substantially in the last few decades, the risk factors that should be managed in advance to ensure a natural process of mental decline due to ageing remain unknown. In the learned structural model, it was graphically investigated the probabilistic dependence mechanism between two variables of medical interest: the suspected risk factor known as Metabolic Syndrome and the indicator of mental decline referred to as Cognitive Impairment. In this investigation, the concept known in the context of BNs as D-separation has been employed. Results of the carried out study revealed that the dependence between Metabolic Syndrome and Cognitive Variables indeed exists and depends on both Body Mass Index and age. / O aprendizado da estrutura de uma Rede Bayesiana (BN) é um problema NP-difícil, e o uso de estratégias sub-ótimas é essencial em domínios que envolvem muitas variáveis. Uma delas consiste em gerar várias estruturas aproximadas e depois reduzir o conjunto a uma estrutura representativa. É possível usar a frequência de ocorrência (no conjunto de estruturas) como critério para aceitar um arco dominante entre dois nós e assim obter essa estrutura única. Nesta pesquisa de doutorado, foi feita uma analogia com um passeio aleatório unidimensional adaptado para deduzir analiticamente um limiar de decisão apropriado para essa frequência de ocorrência. A expressão de forma fechada obtida foi validada usando bases de dados de referência e aplicando o Coeficiente de Correlação de Matthews como métrica de desempenho. Nos experimentos utilizando dados médicos recentes, a BN resultante da frequência de corte analítica capturou as associações esperadas entre os nós e também obteve melhor desempenho de predição do que as BNs aprendidas com limiares vizinhos ao calculado. Na literatura, a característica contabilizada ao longo das estruturas perturbadas tem sido as arestas e não as arestas direcionadas (arcos) como nesta tese. Essa estratégia modificada ainda foi aplicada a um conjunto de dados de idosos para identificar potenciais relações entre variáveis de interesse médico, mas usando um limiar aumentado em vez do previsto pela fórmula proposta - essa cautela deve-se às possíveis implicações sociais do achado. A motivação por trás dessa aplicação é que, apesar da proporção de idosos na população ter aumentado substancialmente nas últimas décadas, os fatores de risco que devem ser controlados com antecedência para garantir um processo natural de declínio mental devido ao envelhecimento permanecem desconhecidos. No modelo estrutural aprendido, investigou-se graficamente o mecanismo de dependência probabilística entre duas variáveis de interesse médico: o fator de risco suspeito conhecido como Síndrome Metabólica e o indicador de declínio mental denominado Comprometimento Cognitivo. Nessa investigação, empregou-se o conceito conhecido no contexto de BNs como D-separação. Esse estudo revelou que a dependência entre Síndrome Metabólica e Variáveis Cognitivas de fato existe e depende tanto do Índice de Massa Corporal quanto da idade.

Page generated in 0.0307 seconds