Global ETD Search

1	UMA INTERFACE ROBÓTICA BASEADA EM LINGUAGEM NATURAL REIS, RICARDO ANDRE OLIVEIRA DOS 06 September 2006 (has links) Submitted by Diogo Barreiros (diogo.barreiros@ufba.br) on 2017-02-17T16:34:22Z No. of bitstreams: 1 RicardoDissertacaoVersaoBiblioteca.pdf: 1164295 bytes, checksum: 7304acbc48549376d9ad9f44b57df96a (MD5) / Approved for entry into archive by Vanessa Reis (vanessa.jamile@ufba.br) on 2017-02-21T11:49:32Z (GMT) No. of bitstreams: 1 RicardoDissertacaoVersaoBiblioteca.pdf: 1164295 bytes, checksum: 7304acbc48549376d9ad9f44b57df96a (MD5) / Made available in DSpace on 2017-02-21T11:49:32Z (GMT). No. of bitstreams: 1 RicardoDissertacaoVersaoBiblioteca.pdf: 1164295 bytes, checksum: 7304acbc48549376d9ad9f44b57df96a (MD5) / As interfaces entre os seres humanos e as máquinas tornam-se mais amigáveis a cada dia. A evolução tecnológica destas interfaces tende para formas mais humanas de comunicação. Máaquinas com interfaces mais amigáveis têm o intuito de facilitar a sua utilização por usuários sem treinamentos técnicos específicos. / O objetivo deste trabalho ´e a proposi¸c˜ao de uma interface entre seres humanos e robˆos utilizando a linguagem natural escrita no idioma portuguˆes como protocolo de comunica¸c˜ao. Neste contexto, enfatizou-se uma abordagem para a utiliza¸c˜ao de t´ecnicas da Descoberta de Conhecimento em Textos baseada em Conceitos, cujo processo visa extrair padr˜oes interessantes e n˜ao triviais ou conhecimento de documentos textuais. Apesar dos recentes avan¸cos e da diversidade de artigos e pesquisas na ´area, aplica¸c˜oes das t´ecnicas de processamento de linguagem natural ainda se encontram em est´agio incipiente de desenvolvimento. O m´etodo proposto neste trabalho tem por objetivo interpretar o texto escrito e associar comandos de execu¸c˜ao de tarefas a serem realizadas, caracter´ıstica que diferencia a t´ecnica apresentada das t´ecnicas usuais. Exemplos reais de aplica¸c˜ao est˜ao ilustrados neste trabalho e um estudo de caso ´e enfatizado com aplica¸c˜ao em uma interface rob´otica Processamento de Linguagem Natural Descoberta de Conhecimento em Textos Interface Robótica
2	Descoberta de conhecimento aplicado à base de dados textual de saúde Barbosa, Alexandre Nunes 26 March 2012 (has links) Submitted by William Justo Figueiro (williamjf) on 2015-07-18T12:21:33Z No. of bitstreams: 1 42c.pdf: 1016491 bytes, checksum: 407619e0114b592531ee5a68ca0fd0f9 (MD5) / Made available in DSpace on 2015-07-18T12:21:33Z (GMT). No. of bitstreams: 1 42c.pdf: 1016491 bytes, checksum: 407619e0114b592531ee5a68ca0fd0f9 (MD5) Previous issue date: 2012 / UNISINOS - Universidade do Vale do Rio dos Sinos / Este trabalho propõe um processo de investigação do conteúdo de uma base de dados, composta por dados descritivos e pré-estruturados do domínio da saúde, mais especificamente da área da Reumatologia. Para a investigação da base de dados, foram compostos 3 conjuntos de interesse. O primeiro composto por uma classe com conteúdo descritivo relativo somente a área da Reumatologia em geral, e outra cujo seu conteúdo pertence a outras áreas da medicina. O segundo e o terceiro conjunto, foram constituídos após análises estatísticas na base de dados. Um formado pelo conteúdo descritivo associado as 5 maiores frequências de códigos CID, e outro formado por conteúdo descritivo associado as 3 maiores frequências de códigos CID relacionados exclusivamente à área da Reumatologia. Estes conjuntos foram pré-processados com técnicas clássicas de Pré-processamento tais como remoção de Stopwords e Stemmer. Com o objetivo de extrair padrões que através de sua interpretação resultem na produção de conhecimento, foram aplicados aos conjuntos de interesse técnicas de classificação e associação, visando à relação entre o conteúdo textual que descreve sintomas de doenças com o conteúdo pré-estruturado, que define o diagnóstico destas doenças. A execução destas técnicas foi realizada através da aplicação do algoritmo de classificação Support Vector Machines e do algoritmo para extração de Regras de Associação Apriori. Para o desenvolvimento deste processo foi pesquisado referencial teórico relativo à mineração de dados, bem como levantamento e estudo de trabalhos científicos produzidos no domínio da mineração textual e relacionados a Prontuário Médico Eletrônico, focando o conteúdo das bases de dados utilizadas, técnicas de pré-processamento e mineração empregados na literatura, bem como os resultados relatados. A técnica de classificação empregada neste trabalho obteve resultados acima de 80% de Acurácia, demonstrando capacidade do algoritmo de rotular dados da saúde relacionados ao domínio de interesse corretamente. Também foram descobertas associações entre conteúdo textual e conteúdo pré-estruturado, que segundo a análise de especialistas, podem conduzir a questionamentos quanto à utilização de determinados CIDs no local de origem dos dados. / This study suggests a process of investigation of the content of a database, comprising descriptive and pre-structured data related to the health domain, more particularly in the area of Rheumatology. For the investigation of the database, three sets of interest were composed. The first one formed by a class of descriptive content related only to the area of Rheumatology in general, and another whose content belongs to other areas of medicine. The second and third sets were constituted after statistical analysis in the database. One of them formed by the descriptive content associated to the five highest frequencies of ICD codes, and another formed by descriptive content associated with the three highest frequencies of ICD codes related exclusively to the area of Rheumatology. These sets were pre-processed with classic Pre-processing techniques such as Stopword Removal and Stemming. In order to extract patterns that, through their interpretation, result in knowledge production, association and classification techniques were applied to the sets of interest, aiming at to relate the textual content that describes symptoms of diseases with pre-structured content, which defines the diagnosis of these diseases. The implementation of these techniques was carried out by applying the classification algorithm Support Vector Machines and the Association Rules Apriori Algorithm. For the development of this process, theoretical references concerning data mining were researched, including selection and review of scientific publications produced on text mining and related to Electronic Medical Record, focusing on the content of the databases used, techniques for pre-processing and mining used in the literature, as well as the reported results. The classification technique used in this study reached over 80% accurate results, demonstrating the capacity the algorithm has to correctly label health data related to the field of interest. Associations between text content and pre-structured content were also found, which, according to expert analysis, may be questioned as for the use of certain ICDs in the place of origin of the data. Prontuário médico eletrônico Mineração textual Descoberta de conhecimento em textos Classificação Associação Electronic medical record Text mining Knowledge discovery in texts Classification Association
3	[en] TEXT CATEGORIZATION: CASE STUDY: PATENT S APPLICATION DOCUMENTS IN PORTUGUESE / [pt] CATEGORIZAÇÃO DE TEXTOS: ESTUDO DE CASO: DOCUMENTOS DE PEDIDOS DE PATENTE NO IDIOMA PORTUGUÊS NEIDE DE OLIVEIRA GOMES 08 January 2015 (has links) [pt] Atualmente os categorizadores de textos construídos por técnicas de aprendizagem de máquina têm alcançado bons resultados, tornando viável a categorização automática de textos. A proposição desse estudo foi a definição de vários modelos direcionados à categorização de pedidos de patente, no idioma português. Para esse ambiente foi proposto um comitê composto de 6 (seis) modelos, onde foram usadas várias técnicas. A base de dados foi constituída de 1157 (hum mil cento e cinquenta e sete) resumos de pedidos de patente, depositados no INPI, por depositantes nacionais, distribuídos em várias categorias. Dentre os vários modelos propostos para a etapa de processamento da categorização de textos, destacamos o desenvolvido para o Método 01, ou seja, o k-Nearest-Neighbor (k-NN), modelo também usado no ambiente de patentes, para o idioma inglês. Para os outros modelos, foram selecionados métodos que não os tradicionais para ambiente de patentes. Para quatro modelos, optou-se por algoritmos, onde as categorias são representadas por vetores centróides. Para um dos modelos, foi explorada a técnica do High Order Bit junto com o algoritmo k- NN, sendo o k todos os documentos de treinamento. Para a etapa de préprocessamento foram implementadas duas técnicas: os algoritmos de stemização de Porter; e o StemmerPortuguese; ambos com modificações do original. Foram também utilizados na etapa do pré-processamento: a retirada de stopwords; e o tratamento dos termos compostos. Para a etapa de indexação foi utilizada principalmente a técnica de pesagem dos termos intitulada: frequência de termos modificada versus frequência de documentos inversa TF -IDF . Para as medidas de similaridade ou medidas de distância destacamos: cosseno; Jaccard; DICE; Medida de Similaridade; HOB. Para a obtenção dos resultados foram usadas as técnicas de predição da relevância e do rank. Dos métodos implementados nesse trabalho, destacamos o k-NN tradicional, o qual apresentou bons resultados embora demande muito tempo computacional. / [en] Nowadays, the text s categorizers constructed based on learning techniques, had obtained good results and the automatic text categorization became viable. The purpose of this study was the definition of various models directed to text categorization of patent s application in Portuguese language. For this environment was proposed a committee composed of 6 (six) models, where were used various techniques. The text base was constituted of 1157 (one thousand one hundred fifty seven) abstracts of patent s applications, deposited in INPI, by national applicants, distributed in various categories. Among the various models proposed for the step of text categorization s processing, we emphasized the one devellopped for the 01 Method, the k-Nearest-Neighbor (k-NN), model also used in the English language patent s categorization environment. For the others models were selected methods, that are not traditional in the English language patent s environment. For four models, there were chosen for the algorithms, centroid vectors representing the categories. For one of the models, was explored the High Order Bit technique together with the k-NN algorithm, being the k all the training documents. For the pre-processing step, there were implemented two techniques: the Porter s stemization algorithm; and the StemmerPortuguese algorithm; both with modifications of the original. There were also used in the pre-processing step: the removal of the stopwards; and the treatment of the compound terms. For the indexing step there was used specially the modified documents term frequency versus documents term inverse frequency TF-IDF . For the similarity or distance measures there were used: cosine; Jaccard; DICE; Similarity Measure; HOB. For the results, there were used the relevance and the rank technique. Among the methods implemented in this work it was emphasized the traditional k-NN, which had obtained good results, although demands much computational time. [pt] CATEGORIZACAO DE TEXTOS [en] TEXT CATEGORIZATION [pt] CLASSIFICACAO DE TEXTOS [en] TEXT CLASSIFICATION [pt] STEMIZACAO [en] STEMMING [en] CENTROID OR PROTOTYPE ALGORITHM

1

Page generated in 0.1299 seconds