Global ETD Search

1	Aplicação de técnicas de mineração de textos para classificação de documentos : um estudo da automatização da triagem de denúncias na CGU Andrade, Patrícia Helena Maia Alves de 29 September 2015 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2016-06-21T16:35:22Z No. of bitstreams: 1 2015_PatríciaHelenaMaiaAlvesdeAndrade.pdf: 1873437 bytes, checksum: a2adfff14b4d48fc3555bc507bfd23ed (MD5) / Approved for entry into archive by Marília Freitas(marilia@bce.unb.br) on 2016-07-26T11:22:23Z (GMT) No. of bitstreams: 1 2015_PatríciaHelenaMaiaAlvesdeAndrade.pdf: 1873437 bytes, checksum: a2adfff14b4d48fc3555bc507bfd23ed (MD5) / Made available in DSpace on 2016-07-26T11:22:23Z (GMT). No. of bitstreams: 1 2015_PatríciaHelenaMaiaAlvesdeAndrade.pdf: 1873437 bytes, checksum: a2adfff14b4d48fc3555bc507bfd23ed (MD5) / A Controladoria Geral da União é o órgão do Poder Executivo responsável pelas atividadesde controle interno, auditoria pública, correição, prevenção e combate à corrupçãoe ouvidoria dos gastos públicos do Poder Executivo. Por meio do menu “Denuncias eManifestações“, no portal da CGU, se tem acesso a um formulário para apresentaçãode denúncias por parte da sociedade. Após cadastradas pelo cidadão as mesmas devemser triadas e encaminhadas para a coordenação temática da CGU com competência pararealizar a apuração. Atualmente essa triagem é feita de forma manual e a denúnciaencaminhada para uma dentre as 91 opções de destino pré-determinadas. Essa grandequantidade de categorias é um fator que dificulta a classificação automática de textos.Considerando o acúmulo de denúncias existentes na base atualmente e a chegada de novasdenúncias, aliadas ao tempo gasto com a triagem manual, torna-se cada vez maisdifícil a análise tempestiva das ocorrências reportadas. Esse contexto pode causar prejuízosfinanceiros para a Administração Pública Federal além de desmotivar a utilizaçãodo canal pelo cidadão. As denúncias cadastradas são provenientes de municípios presentesem todas as Unidades da Federação gerando assim um grande impacto em todoo território nacional. Esta pesquisa tem como objetivo elaborar uma prova de conceitopara um modelo para a triagem automática de denúncias na CGU, utilizando mineração de textos. Os melhores resultados foram alcançados utilizando classificação por rankingbaseada em Árvore de Huffman. Esta prova de conceito demonstrou a viabilidade deuma triagem de denúncias de forma automática na CGU, sem perda de qualidade emcomparação à triagem manual. / The Office of the Comptroller General (CGU) is the agency of the Federal Governmentin charge of assisting the President of the Republic in matters related to internal controlactivities, public audits, corrective and disciplinary measures, corruption prevention andcombating and coordinating ombudsman’s activities. Through a complaints link of theCGU site, citizens have access to a form to file their complaints. These complaints must bescreened and delivered to the coordination of CGU by subject. Nowadays the complaintsscreening is done manually and they are delivered to one of the 91 coordinating units ofCGU. This large amount of categories is more complex in automatic text classification.Considering the complaints storage on the database now and the arrival of new complaints,combined with the time spent on manual sorting, the timely analysis of the reportedoccurrences it becomes increasingly difficult. This context can cause financial losses toFederal Public Administration as well as discouraging the use of the channel by the citizen.Complaints registered origins are municipalities present in all Brazilian states, generatinga great impact on the entire national territory. This research intends to develop a proofof concept for an automatic model of complaints screening, using text mining. The bestresults were achieved using ranking based on the Huffman Tree algorithm. This proofof concept demonstrated the feasibility of automatical sorting without the loss of qualitycompared to manual sorting. Mineração de texto Triagem Codificação de Huffman
2	Modelo Assistente para Classificação de Dados Provenientes de Redes Sociais: Um Estudo de Caso com Dados do Twitter BASONI, H. G. 14 April 2015 (has links) Made available in DSpace on 2016-08-29T15:33:21Z (GMT). No. of bitstreams: 1 tese_8868_HENRIQUE-DISSERTAÇÃO-FINAL20150710-134005.pdf: 857469 bytes, checksum: 4f5d70e5670ed471fc2f22a88ae1201e (MD5) Previous issue date: 2015-04-14 / Desde seu surgimento as redes sociais virtuais como Twitter têm alcançado exorbitante quantidade de usuários em todo o mundo, tornando-se um ambiente de imensurável potencial para pesquisas sociais, econômicas, culturais e etc. Cada vez mais pesquisadores têm voltado sua atenção para a grande massa de dados gerada diariamente nesse meio. Entretanto, lidar com grandes quantidades de dados é uma tarefa custosa quando realizada manualmente. O objetivo desta pesquisa é propor um conjunto de ferramentas e metodologia tal que possa diminuir o esforço humano gasto na organização de grandes massas de dados provenientes de redes sociais. Para atingir tal objetivo é proposto um modelo de trabalho iterativo, que explora ao máximo o conhecimento existente em uma pequena porção de dados manualmente analisada por especialistas. O modelo de trabalho combina técnicas de recuperação de informação como algoritmos de classificação e agrupamento com objetivo de tornar o resultado do processo mais parecido ao que o especialista obteria caso o realiza-se completamente manualmente. O modelo proposto foi colocado a prova com uso de dois conjuntos de dados extraídos do Twitter e manualmente classificado muito antes da realização desta pesquisa. Os resultados mostraram-se promissores. Classificação clustering mineração de texto redes sociais
3	The personality lexicon in Brazilian Portuguese : studies with natural language Peres, Alexandre José de Souza 26 January 2018 (has links) Tese (doutorado)—Universidade de Brasília, Instituto de Psicologia, Programa de Pós-graduação em Psicologia Social, do Trabalho e das Organizações, 2018. / Submitted by Robson Amaral (robsonamaral@bce.unb.br) on 2018-05-09T19:47:34Z No. of bitstreams: 1 2018_AlexandreJosédeSouzaPeres.pdf: 2634160 bytes, checksum: 2a90b7874ae1f1fc817b8ea7c643d5ee (MD5) / Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2018-06-06T21:37:18Z (GMT) No. of bitstreams: 1 2018_AlexandreJosédeSouzaPeres.pdf: 2634160 bytes, checksum: 2a90b7874ae1f1fc817b8ea7c643d5ee (MD5) / Made available in DSpace on 2018-06-06T21:37:18Z (GMT). No. of bitstreams: 1 2018_AlexandreJosédeSouzaPeres.pdf: 2634160 bytes, checksum: 2a90b7874ae1f1fc817b8ea7c643d5ee (MD5) Previous issue date: 2018-06-06 / Esta tese é composta por três estudos relacionados à abordagem léxica na pesquisa em personalidade, com foco na cultura brasileira e no estudo da linguagem natural. No primeiro estudo, de caráter teórico, exploramos algumas das críticas relacionadas à hipótese léxica a partir das perspectivas do estudo psicológico da linguagem natural e da psicologia transcultural, bem como propostas metodológicas oriundas desses dois campos. Uma revisão histórica do desenvolvimento da hipótese léxica também é apresentada nesse manuscrito. Já no segundo manuscrito, relatamos um estudo que objetivou gerar uma lista de descritores da personalidade para o português brasileiro utilizando a rede social Twitter como fonte. Como resultado, obtivemos uma lista com 1.454 adjetivos, seis nomes, 10 pronomes e 383 substantivos, potenciais descritores para a construção de uma taxonomia brasileira da personalidade. No terceiro manuscrito relatamos um estudo relacionado à análise da dimensionalidade de um corpus também obtido no Twitter, com 172 adjetivos e 86.899 sujeitos. Os resultados sugeriram dois promissores modelos a serem utilizados em futuras pesquisas, um com sete e outro com 14 dimensões. Também são discutidas questões metodológicas e teóricas, além das potenciais contribuições desses estudos para a pesquisa futura em personalidade. / This dissertation consists of three studies concerning the lexical approach of research in the field of personality, with a focus on Brazilian culture and natural language. The first study is of a theoretical nature and explores some of the criticisms regarding the lexical approach to personality research with its origin in the psychological study of natural language and cross- cultural psychology, as well as methodological propositions coming from these fields. A historical review of the development of the lexical approach is also presented. The second manuscript reports a study that aimed to generate a set of Brazilian Portuguese personality descriptors using the social network Twitter as a trait source. As a result, we obtained a list of potentially relevant descriptors for the construction of a Brazilian personality taxonomy, with 1,454 adjectives, six names, 10 pronouns, and 383 nouns. The third manuscript reports dimensional analyses of a corpus recovered from Twitter regarding 172 adjectives and 86,899 subjects. The results suggest two suitable candidate models for future research, one with seven and another with 14 dimensions. Methodological and theoretical issues and the potential contributions from these studies for future research in the field of personality are also discussed. Personalidade Mineração de texto Língua portuguesa - Brasil Léxico Cultura brasileira
4	Descoberta de conhecimento no acervo documental do Prêmio Professor Samuel Benchimol : prospecção e análise de informações sobre a Região Amazônica de 2004 a 2015 Lima, Carlos Jacobino 28 July 2016 (has links) Dissertação (mestrado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2016. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2016-08-18T13:06:52Z No. of bitstreams: 1 2016_CarlosJacobinoLima.pdf: 3755672 bytes, checksum: 6718f7e8fecba70ba4806fadc2ec4b69 (MD5) / Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2016-09-05T19:43:45Z (GMT) No. of bitstreams: 1 2016_CarlosJacobinoLima.pdf: 3755672 bytes, checksum: 6718f7e8fecba70ba4806fadc2ec4b69 (MD5) / Made available in DSpace on 2016-09-05T19:43:45Z (GMT). No. of bitstreams: 1 2016_CarlosJacobinoLima.pdf: 3755672 bytes, checksum: 6718f7e8fecba70ba4806fadc2ec4b69 (MD5) / A Região Amazônica tem sofrido com a desatenção da sociedade. Há décadas os problemas sociais, econômicos e ambientais são resolvidos de maneira assistemática, reativa e sem soluções definitivas. Na tentativa de reverter a situação, o Ministério do Desenvolvimento, Indústria e Comércio Exterior instituiu em 2003 o Prêmio Professor Samuel Benchimol, um certame que chama a sociedade a pensar os problemas da Amazônia sob suas perspectivas ambiental, econômica-tecnológica e social. Somaram-se, nos últimos doze anos, através deste prêmio, centenas de projetos, ideias e propostas que refletem as necessidades de desenvolvimento da Região. Este trabalho teve por objetivo identificar, classificar e organizar as propostas apresentadas, por meio da análise do acervo documental do Prêmio Professor Samuel Benchimol. Como metodologia deste estudo, foram aplicados processos de recuperação da informação em bases de dados não estruturadas, com a utilização de técnicas da Bibliometria e da Análise de Conteúdo, automatizadas em software de mineração de texto. Na perspectiva ambiental, as principais questões encontradas foram correlacionadas à implantação de alternativas para a educação ambiental nas comunidades locais e na escola, a valorização do meio ambiente, a preservação e conservação do ecossistema e da biodiversidade e a recuperação das áreas degradadas, em especial das matas ciliares. Na perspectiva econômico-tecnológica, os pontos principais estão atrelados ao desenvolvimento da Amazônia pelo empreendedorismo consciente, as propostas para uso de tecnologias sustentáveis para aumento da qualidade e da quantidade da produção, além da necessidade de promoção e ampliação da indústria sustentável da região. Já para a natureza “Social”, as questões-chave consistem nas propostas de iniciativas para inclusão social, nos problemas de vulnerabilidade social das famílias, em especial as crianças e os idosos, nos projetos e nos programas para geração de empregos e renda para os jovens, nos projetos de prevenção e controle de doenças e morbidades frequentes na Amazônia; e nos problemas de saneamento básico e baixa qualidade da água. _________________________________________________________________________________________________ ABSTRACT / The Amazon region has suffered from the lack of society attention. For decades, social, economic and environmental problems are solved so unsystematic, reactive and no definitive solutions. In an attempt to reverse the situation, the Brazilian government established in 2003 the Professor Samuel Benchimol Award, an exhibition that calls society to think the Amazon problems in their environmental, economic, technological and social perspectives. The award received in the last 12 years hundreds of projects, ideas and proposals that reflect the region's development needs. This study aimed to identify, classify and organize the proposals submitted by the collection of Professor Samuel Benchimol Award. As methodology of this study, were used information retrieval processes in databases unstructured, using techniques of bibliometrics and content analysis automated in text mining software. On environmental perspective, the main issues found were related to the implementation of alternatives for environmental education in local communities and school, appreciation of the environment, preservation and conservation of ecosystems and biodiversity, and the recovery of degraded areas, especially of riparian forests. The economic and technological perspective, the main points are correlated to the development of the Amazon by conscious entrepreneurship, proposals for the use of sustainable technologies to increase the quality and quantity of production and the need for promotion and expansion of sustainable industry in the region. In social perspective, the key issues are the proposed initiatives for social inclusion. The social problems of vulnerability of families, especially children and the elderly, in projects and programs to generate jobs and income for young people in the projects prevention and control of common diseases and morbidities in the Amazon and sanitation problems and poor water quality. Amazônia Análise de conteúdo Bibliometria Mineração de texto Recuperação da informação
5	Avaliação semântica da integração da gestão de riscos de segurança em documentos de software da administração pública Peclat, Rodrigo Nunes 09 July 2015 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência Da Computação, 2015. / Submitted by Raquel Viana (raquelviana@bce.unb.br) on 2015-10-20T20:47:11Z No. of bitstreams: 1 2015_RodrigoNunesPeclat.pdf: 2464217 bytes, checksum: e46d7bb49dc43bfc693c6a4eafc4dc6e (MD5) / Approved for entry into archive by Patrícia Nunes da Silva(patricia@bce.unb.br) on 2015-12-01T20:46:58Z (GMT) No. of bitstreams: 1 2015_RodrigoNunesPeclat.pdf: 2464217 bytes, checksum: e46d7bb49dc43bfc693c6a4eafc4dc6e (MD5) / Made available in DSpace on 2015-12-01T20:46:58Z (GMT). No. of bitstreams: 1 2015_RodrigoNunesPeclat.pdf: 2464217 bytes, checksum: e46d7bb49dc43bfc693c6a4eafc4dc6e (MD5) / Software seguro é aquele que tem seus riscos de segurança adequadamente geridos. Por recomendação legal, sua produção é um objetivo a ser alcançado pelos seus gestores de tecnologia da informação da Administração Pública Federal (APF). Entretanto, não apenas o governo brasileiro, como também o mercado nacional enfrentam uma escassez de especialistas nesse domínio, que possam fomentar tecnicamente iniciativas obtenção desse tipo de software em suas organizações. Esse fato aliado ao estado atual das técnicas de mineração de texto, particularmente às relacionadas ao processamento de linguagem natural e à classificação multirrótulo, motivam este trabalho no estudo de uma solução que compreenda a semântica de períodos textuais escritos em português e os associe a riscos de segurança previamente definidos, como os do OWASP Top Ten. Busca-se contribuir para a melhoria de editais de licitação de fábricas de software na APF por prover uma opção computacional, às equipes de elaboração e revisão desses documentos, que permita realizar automaticamente avaliações da integração da gestão de riscos de segurança aos métodos descritos nessas especificações. Após estudar essa solução diante de cerca de 120 mil sentenças extraídas de repositórios como OWASP ASVS e termos de referência de aquisições da Administração Pública brasileira, realizouse um survey junto a grupos de engenharia de software e de segurança da informação coletando a avaliação deles sobre uma amostra desses períodos, permitindo a comparação do seu desempenho em relação à opinião especializada por meio de métricas como Precisão, Recall, Perda de Hamming e Previsão de Valores Negativos. Após uma série de modificações sobre essa solução, chega-se uma versão com uma Perda de Hamming significativamente melhor do que a provida pela opinião especializada, bem como com uma capacidade de previsão da ausência de tratamento de risco em sentenças presentes em editais e termos de referência estatisticamente tão boa quanto à dos especialistas envolvidos nesse survey, trazendo assim novas perspectivas para trabalhos futuros no desenvolvimento de uma solução computacional a ser utilizada para a obtenção de software seguro em contratações de fábricas de software. ______________________________________________________________________________________________ ABSTRACT / Secure software has its security risks well managed regarding vulnerabilities. IT managers in the Brazilian Federal Public Sector (APF) are legally required to strive for software security. However, only a small number of software security professionals are employed in the technical support for development, maintenance and acquisition of such software in their public organizations. This problem, combined with recent advances in text mining, especially in natural language processing and multi-label classification, motivate this work on research for a computational solution that can understand the semantics of sentences in documents written in Portuguese and connect them to previously defined software security risks, such as OWASP Top Ten. This solution (A2E) can improve the software factories bidding process of the APF by providing the authors and reviewers of technical specifications with a computational tool which can automatically evaluate the integration between security risks management and software processes described in these documents. After applying A2E to more than 120 thousand sentences extracted from OWASP ASVS and past APF specifications, a survey was conducted to compare its performance with the opinion of software engineers and security specialists through objective metrics like Precision, Recall, Hamming Loss and Negative Predictive Values (NPV). A2E’s final version, after a series of improvements in the development process, obtained a significantly better Hamming Loss measure when compared to the specialists’ assessments. Additionally, experiments showed that its NPV is statistically as good as the NPV from the surveyed experts. These results bring interesting new perspectives to future of software security in APF biddings. Software - desenvolvimento Mineração de texto Administração pública Segurança da informação
6	Proposta de melhoria de processo de implementação de software : estudo de caso de um sistema de dados de operações do mercado monetário Silveira, Lázara Aline de Oliveira Sousa 14 August 2015 (has links) Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. / Submitted by Raquel Viana (raquelviana@bce.unb.br) on 2015-11-06T17:16:09Z No. of bitstreams: 1 2015_EdgardCostaOliveira.pdf: 2690721 bytes, checksum: cc7fa1d3f8dab63759fc81bf848dd82d (MD5) / Approved for entry into archive by Marília Freitas(marilia@bce.unb.br) on 2015-12-20T15:36:47Z (GMT) No. of bitstreams: 1 2015_EdgardCostaOliveira.pdf: 2690721 bytes, checksum: cc7fa1d3f8dab63759fc81bf848dd82d (MD5) / Made available in DSpace on 2015-12-20T15:36:47Z (GMT). No. of bitstreams: 1 2015_EdgardCostaOliveira.pdf: 2690721 bytes, checksum: cc7fa1d3f8dab63759fc81bf848dd82d (MD5) / A gestão de riscos constitui-se em uma importante área do conhecimento para a eficiência do processo de desenvolvimento de software, pois permite que vulnerabilidades encontradas sejam tratadas adequadamente, possibilitando maior segurança e precisão na tomada de decisão. Um fator relevante para o sucesso da gestão de risco é o estabelecimento do contexto do que se pretende avaliar e melhorar dentro da organização. Portanto, para realização desse estudo, utilizou-se da norma ABNT NBR ISO 31000:2009 de gestão de riscos, para propor melhorias no processo de implementação de software de uma instituição financeira, a partir da visão e análise dos desenvolvedores de um sistema de dados de operações do mercado monetário. Para monitoramento e tratamento dos riscos identificados, foi proposto um modelo de classificação automática de códigos-fonte Cobol, e também um processo de especificação de componentes e funcionalidades de software, a fim de proporcionar maior agilidade e segurança ao processo de implementação. A metodologia adotada para a realização desse estudo, foi de natureza exploratória e descritiva, com a utilização do estudo de caso como estratégia de pesquisa e abordagens de pesquisa qualitativa (com a aplicação de questionários e entrevistas para a coletas de dados) e quantitativa (com a aplicação do método multicritério Analytic Hierarchy Process - AHP). Ao final é proposto um redesenho do processo de desenvolvimento, por meio do mapeamento de processos TO BE e BPM, em que são definidas 11 novas atividades para melhoria do processo de implementação a partir da elaboração de fonte confiável, atualizada e acessível de informação para as áreas técnicas e de negócio da instituição. ______________________________________________________________________________________________ ABSTRACT / Risk management constitutes an important area of knowledge for efficient software development process, as it allows found vulnerabilities is properly treated, enabling greater security and accuracy in decision making. An important factor in the success of risk management is the context of the establishment of what is to evaluate and improve within the organization. Therefore, to conduct this study, we used the standard ISO 31000: 2009 risk management, to propose improvements in the software implementation process of a financial institution, from the vision and analysis of the developers of a data system money market operations. For monitoring and treatment of identified risks, it proposed a automatic classification model of COBOL source code, and also a process of components and software features specification in order to provide greater flexibility and security to the implementation process. The methodology used to conduct this study was exploratory and descriptive, using the case study as a research strategy and qualitative research approaches (with the use of questionnaires and interviews for data collection) and quantitative (with the application of multi-criteria method Analytic Hierarchy Process - AHP). At the end it proposes a redesign of the development process, through process mapping TO BE and BPM, which are set 11 new activities to improve the implementation process from the preparation of reliable source, updated and accessible information for the technical areas and the institution’s business. Software - desenvolvimento Gestão de riscos Normas ABNT Mineração de texto
7	B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária Afonso, Alexandre Ribeiro 11 November 2013 (has links) Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013. / Submitted by Alaíde Gonçalves dos Santos (alaide@unb.br) on 2014-04-08T12:57:37Z No. of bitstreams: 1 2013_AlexandreRibeiroAfonso.pdf: 2162448 bytes, checksum: 65e0879f67cfb9f2deb91c9642e5d9ac (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-04-23T13:20:38Z (GMT) No. of bitstreams: 1 2013_AlexandreRibeiroAfonso.pdf: 2162448 bytes, checksum: 65e0879f67cfb9f2deb91c9642e5d9ac (MD5) / Made available in DSpace on 2014-04-23T13:20:38Z (GMT). No. of bitstreams: 1 2013_AlexandreRibeiroAfonso.pdf: 2162448 bytes, checksum: 65e0879f67cfb9f2deb91c9642e5d9ac (MD5) / Nesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior. ______________________________________________________________________________________ ABSTRACT / This thesis presents an empirical study about automated text clustering for scientific articles written in Brazilian Portuguese. We tested three already known classes of simple terms for representing (or indexing) the input texts: (nouns), (nouns and adjectives) and (nouns, adjectives and verbs); we also developed three new classes of composed terms for text representation (or indexing): the new classes consist of more complex terms, where a complex term could be composed by the joint of nouns, adjectives and prepositions. Our final goal is to develop new software for text indexing and clustering. During the clustering stage of the experiments we tested the Expectation-Maximization (EM) Clustering Algorithm, the X-Means Clustering Algorithm, the Conventional Clustering Evolutionary Algorithm and, finally, we also proposed a new Two Phase Clustering Evolutionary Algorithm which works in two phases, the first phase finds the sub-optimal text clustering and the second one improves the result found by the first phase. The Two Phase Clustering Evolutionary Algorithm also permits the user to define whether the system should create a high number or a low number of clusters. The new indexing and clustering algorithmic strategies presented were implemented in a prototype named B2, but for testing the EM and X-Means algorithms we used the known WEKA data mining package. Four different scientific corpora having different sets of scientific topics were assembled and applied for testing the combinations of indexing and clustering methods. Although considerable better results were achieved when indexing with the classes of composed terms combined with the new Two Phase Clustering Evolutionary Algorithm, a considerable higher number of clusters was generated and a considerable additional time was consumed when running the new system over a 2012 conventional personal computer. We conclude that the problem of clustering scientific articles in their original topics is a complex task. Good results of clustering correctness were achieved by the new methods but producing many fragmented additional clusters as output, so, in the future, the methods can be improved and applied in specific situations where the fragmentation and additional production of clusters are not a major problem. Indexação automática Linguística - processamento de dados Algoritmos Mineração de texto Artigo científico
8	A solution to extractive summarization based on document type and a new measure for sentence similarity MELLO, Rafael Ferreira Leite de 20 March 2015 (has links) Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-02-19T18:25:04Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) TESE Rafael Ferreira Leite de Mello.pdf: 1860839 bytes, checksum: 4d54a6ef5e3c40f8bce57e3cc957a8f4 (MD5) / Made available in DSpace on 2016-02-19T18:25:04Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) TESE Rafael Ferreira Leite de Mello.pdf: 1860839 bytes, checksum: 4d54a6ef5e3c40f8bce57e3cc957a8f4 (MD5) Previous issue date: 2015-03-20 / The Internet is a enormous and fast growing digital repository encompassing billions of documents in a diversity of subjects, quality, reliability, etc. It is increasingly difficult to scavenge useful information from it. Thus, it is necessary to provide automatically techniques that allowing users to save time and resources. Automatic text summarization techniques may offer a way out to this problem. Text summarization (TS) aims at automatically compress one or more documents to present their main ideas in less space. TS platforms receive one or more documents as input to generate a summary. In recent years, a variety of text summarization methods has been proposed. However, due to the different document types (such as news, blogs, and scientific articles) it became difficult to create a general TS application to create expressive summaries for each type. Another related relevant problem is measuring the degree of similarity between sentences, which is used in applications, such as: text summarization, information retrieval, image retrieval, text categorization, and machine translation. Recent works report several efforts to evaluate sentence similarity by representing sentences using vectors of bag of words or a tree of the syntactic information among words. However, most of these approaches do not take in consideration the sentence meaning and the words order. This thesis proposes: (i) a new text summarization solution which identifies the document type before perform the summarization, (ii) the creation of a new sentence similarity measure based on lexical, syntactic and semantic evaluation to deal with meaning and word order problems. The previous identification of the document types allows the summarization solution to select the methods that is more suitable to each type of text. This thesis also perform a detailed assessment with the most used text summarization methods to selects which create more informative summaries for news, blogs and scientific articles contexts.The sentence similarity measure proposed is completely unsupervised and reaches results similar to humans annotator using the dataset proposed by Li et al. The proposed measure was satisfactorily applied to evaluate the similarity between summaries and to eliminate redundancy in multi-document summarization. / Atualmente a quantidade de documentos de texto aumentou consideravelmente principalmente com o grande crescimento da internet. Existem milhares de artigos de notícias, livros eletrônicos, artigos científicos, blog, etc. Com isso é necessário aplicar técnicas automáticas para extrair informações dessa grande massa de dados. Sumarização de texto pode ser usada para lidar com esse problema. Sumarização de texto (ST) cria versões comprimidas de um ou mais documentos de texto. Em outras palavras, palataformas de ST recebem um ou mais documentos como entrada e gera um sumário deles. Nos últimos anos, uma grande quantidade de técnicas de sumarização foram propostas. Contudo, dado a grande quantidade de tipos de documentos (por exemplo, notícias, blogs e artigos científicos) é difícil encontrar uma técnica seja genérica suficiente para criar sumários para todos os tipos de forma eficiente. Além disto, outro tópico bastante trabalhado na área de mineração de texto é a análise de similaridade entre sentenças. Essa similaridade pode ser usada em aplicações como: sumarização de texto, recuperação de infromação, recuperação de imagem, categorização de texto e tradução. Em geral, as técnicas propostas são baseados em vetores de palavras ou árvores sintáticas, com isso dois problemas não são abordados: o problema de significado e de ordem das palavras. Essa tese propõe: (i) Uma nova solução em sumarização de texto que identifica o tipo de documento antes de realizar a sumarização. (ii) A criação de uma nova medida de similaridade entre sentenças baseada nas análises léxica, sintática e semântica. A identificação de tipo de documento permite que a solução de sumarização selecione os melhores métodos para cada tipo de texto. Essa tese também realizar um estudo detalhado sobre os métodos de sumarização para selecinoar os que criam sumários mais informativos nos contextos de notícias blogs e artigos científicos. A medida de similaridade entre sentences é completamente não supervisionada e alcança resultados similarires dos anotadores humanos usando o dataset proposed por Li et al. A medida proposta também foi satisfatoriamente aplicada na avaliação de similaridade entre resumos e para eliminar redundância em sumarização multi-documento. Ciência da computação Inteligência artificial Mineração de texto Processamento de linguagem natural
9	Análise do conteúdo de um sistema de informação destinado à microempresa brasileira por meio de aplicação da descoberta de conhecimento em textos Ramos, Hélia de Sousa Chaves 28 February 2008 (has links) Dissertação (mestrado)—Universidade de Brasília, Faculdade de Economia, Administração, Contabilidade e Ciência da Informação e Documentação, Departamento de Ciência da Informação e Documentação, 2008. / Submitted by Jaqueline Oliveira (jaqueoliveiram@gmail.com) on 2008-12-02T15:17:53Z No. of bitstreams: 1 DISSERTACAO_2008_HeliaDeSousaCRamos.pdf: 2175025 bytes, checksum: befb78b55511f15b89dd404aa64c76f4 (MD5) / Approved for entry into archive by Georgia Fernandes(georgia@bce.unb.br) on 2009-02-16T14:01:35Z (GMT) No. of bitstreams: 1 DISSERTACAO_2008_HeliaDeSousaCRamos.pdf: 2175025 bytes, checksum: befb78b55511f15b89dd404aa64c76f4 (MD5) / Made available in DSpace on 2009-02-16T14:01:35Z (GMT). No. of bitstreams: 1 DISSERTACAO_2008_HeliaDeSousaCRamos.pdf: 2175025 bytes, checksum: befb78b55511f15b89dd404aa64c76f4 (MD5) / Esta pesquisa aborda a aplicação da técnica de Descoberta de Conhecimento em Texto (DCT) em bases de dados textuais (de conteúdos não-estruturados), repositórios de informações não evidentes, as quais podem se revelar importantes fontes de informação para aplicações diversas, envolvendo processos de tomada de decisão. O objetivo central da pesquisa é verificar a eficácia da DCT na descoberta de informações que possam apoiar a construção de indicadores úteis à tomada de decisão estratégica, assim como a definição de políticas públicas para a microempresa. O estudo de caso foi o conteúdo textual do Serviço Brasileiro de Respostas Técnicas (SBRT), um sistema de informação tecnológica na Web destinado ao setor produtivo, notadamente empreendedores, micro e pequenas empresas, fruto de um esforço compartilhado entre governo, instituições de pesquisa, universidades e iniciativa privada. A metodologia adotada contempla a aplicação da DCT em 6.041 documentos extraídos do sistema de informação SBRT, para a qual foi utilizado o pacote de software SAS Data Mining Solution. A técnica utilizada foi a geração de agrupamentos de documentos a partir dos termos minerados na base de dados. Foram realizadas análises comparativas entre agrupamentos semelhantes e foi selecionado um dos agrupamentos para análise mais aprofundada. Os resultados dessas análises demonstram a eficácia do uso da DCT para extrair informações ocultas em documentos textuais, as quais não poderiam ser visualizadas a partir de recursos tradicionais de recuperação da informação. Uma importante descoberta foi a de que a preocupação com o meio ambiente é um forte componente nas demandas feitas pelos usuários do serviço SBRT. Observou-se a possibilidade de se extraírem informações úteis para apoio à construção de indicadores e à orientação de políticas internas à rede SBRT, assim como para o setor de pequenas e médias empresas. Evidenciou-se, ainda, o potencial da DCT para subsidiar a tomada de decisão, podendo, inclusive, ser utilizada para fins de inteligência competitiva nas organizações. _______________________________________________________________________________________ ABSTRACT / This research addresses the application of Knowledge Discovery in Texts (KDT) in textual databases (of non-structural contents), repositories of non-evident information that can reveal to be important sources of information for several purposes involving decision-making processes. The main objective of the research is to verify the effectiveness of KDT for discovering information that may support the construction of ST&I indicators useful for the strategic decision-making process, as well as for the definition of public policies destined to microenterprises. The case study of the research was the textual content of the Brazilian Service for Technical Answers (Serviço Brasileiro de Respostas Técnicas – SBRT), a technological information database, available in the Web, geared to the Brazilian production sector, specially micro and small enterprises or entrepreneurs. SBRT is a shared effort accomplished by government, research institutions, universities and the private sector. The methodology adopted encompasses the application of KDT in 6.041 documents extracted from SBRT database by using the SAS Data Mining Solution software package. The technique adopted was document clustering from terms mined in the database. A comparative analysis of similar clusters was carried out and one of the clusters was selected to be subject of more profound investigation. The results of these analyses demonstrate the efficacy of using KDT to extract hidden information – that could not be found by using the traditional information retrieval – from textual documents. An important discovery was that environmental concerns are strongly present in the demands posted by SBRT’s users. It was observed the possibility to extract useful information to construct ST&I indicators and to orient policies for SBRT network and for the microenterprise sector as a whole. It was also evidenced the potential of KDT to support decision-making processes in organizations, and, in addition, to be used for competitive intelligence purposes. Mineração de texto Serviços de informação Pequenas e médias empresas Empreendedorismo Integração social
10	Descoberta de conhecimento em texto aplicada a um sistema de atendimento ao consumidor Schiessl, José Marcelo 12 April 2007 (has links) Dissertação (mestrado)—Universidade de Brasília, Faculdade de Economia, Administração, Contabilidade e Ciência da Informação e Documentação, Departamento de Ciência da Informação e Documentação, 2007. / Submitted by Luis Felipe Souza (luis_felas@globo.com) on 2009-01-12T11:44:00Z No. of bitstreams: 1 Dissertacao_2007_JoseSchiessl.pdf: 1688737 bytes, checksum: 8cde16615a96a2427a9cdfb62c3f48cc (MD5) / Approved for entry into archive by Georgia Fernandes(georgia@bce.unb.br) on 2009-03-04T14:33:25Z (GMT) No. of bitstreams: 1 Dissertacao_2007_JoseSchiessl.pdf: 1688737 bytes, checksum: 8cde16615a96a2427a9cdfb62c3f48cc (MD5) / Made available in DSpace on 2009-03-04T14:33:25Z (GMT). No. of bitstreams: 1 Dissertacao_2007_JoseSchiessl.pdf: 1688737 bytes, checksum: 8cde16615a96a2427a9cdfb62c3f48cc (MD5) / Analisa um Serviço de Atendimento ao Consumidor de uma instituição financeira que centraliza, em forma textual, os questionamentos, as reclamações, os elogios e as sugestões, verbais ou escritas, de clientes. Discute a complexidade da informação armazenada em linguagem natural para esse tipo de sistema. Visa apresentar alternativa para extração de conhecimento de bases textuais com a criação de agrupamentos e modelo de classificação automática de textos para agilizar a tarefa realizada atualmente por pessoas. Apresenta uma revisão de literatura que mostra a Descoberta de Conhecimento em Texto como uma extensão da Descoberta de Conhecimento em Dados que utiliza técnicas do Processamento de Linguagem Natural para adequar o texto a um formato apropriado para a mineração de dados e destaca a importância do processo dentro da Ciência da Informação. Aplica a Descoberta de Conhecimento em Texto em uma base do Serviço de Atendimento ao Cliente com objetivo de criar automaticamente agrupamentos de documentos para posterior criação de um modelo categorizador automático dos novos documentos recebidos diariamente. Essas etapas contam com a validação de especialistas de domínio que atestam a qualidade dos agrupamentos e do modelo. Cria indicadores de desempenho que avaliam o grau de satisfação do cliente em relação aos produtos e serviços oferecidos para fornecer subsídio à gestão na política de atendimento. _______________________________________________________________________________________________________________ ABSTRACT / It analyses a Help Desk System of a federal institution that centralizes customer answers, complains, compliments, and suggestions, spoken or written. It argues about information complexity stored in natural language. It intends to present an alternative for knowledge extraction from textual databases by creating clusters and automatic classification model of texts in order to improve the current tasks made by employees. It presents a literature revision that shows the Knowledge Discovery in Text as an extension of Knowledge Discovery in Data that utilizes the Natural Language Processing in order to adequate the text into an appropriated format to data mining and enhances the importance of the process in the Information Science field. It applies the Knowledge Discovery in Text techniques in the Help Desk Database in order to create cluster of documents and, after that, to build an automatic classification model to new documents received every day. These steps need to be validated by specialist in the area to verify the model and clusters quality. It creates performance indexes in order to measure the customer satisfaction related to products and services to provide information for decision makers. Mineração de texto Exploração de dados Descoberta de conhecimento em dado

Search results