Global ETD Search

21	Identificação de padrões em textos de mídias sociais utilizando redes neurais e visualização de dados Sargiani, Vagner 05 February 2018 (has links) Submitted by Marta Toyoda (1144061@mackenzie.br) on 2018-03-09T18:05:09Z No. of bitstreams: 2 VAGNER SARGIANI.pdf: 6454336 bytes, checksum: eb90db7727173a58788e07a792f1a2e7 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Paola Damato (repositorio@mackenzie.br) on 2018-04-28T17:31:19Z (GMT) No. of bitstreams: 2 VAGNER SARGIANI.pdf: 6454336 bytes, checksum: eb90db7727173a58788e07a792f1a2e7 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-04-28T17:31:19Z (GMT). No. of bitstreams: 2 VAGNER SARGIANI.pdf: 6454336 bytes, checksum: eb90db7727173a58788e07a792f1a2e7 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-02-05 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Fundo Mackenzie de Pesquisa / At present there is the generation of a large volume of textual data, and part of this volume is generated by so-called social media, where people connect, exchange information and experiences.These data contains valuable implicit knowledge, which can be extracted and analyzed according to the media selected and the type of knowledge wanted. The objective of this work is to demonstrate how to use data mining resources, analytical tools and neural networks of the type Self Organizing Maps (SOM) to perform analysis on textual data and knowledge generation. There will be two approaches: knowledge for the educational area (with data from Question and Answer sites, or simply (Q&A))) and trend identi_cation (with posts in microblog Twitter). Both sources are similar in that they have an unstructured text format. Based on an array of terms generated through Text Mining techniques, originated in a base composed by unstructured text, the posts were the basis for training a SOM network, and with this trained network it was possible to generate visualizations that allow to perform semantic analysis of the terms and questions grouped together and use them to identify the desired knowledge. The results obtained were: to demonstrate that questions about similar subjects can be grouped by their similarity of terms, and to visualize these groupings in the form of word clouds, allowing the semantic analysis on the grouped questions. / Na atualidade existe a geração de um grande volume de dados textuais, sendo que parte deste volume é gerado pelas chamadas mídias sociais, no qual pessoas se conectam, trocam informações e experiências. Estes dados contém conhecimento implícito valioso, que pode ser extraído e analisado de acordo com a mídia selecionada e o tipo de conhecimento procurado. O objetivo deste trabalho é demonstrar como utilizar recursos de mineração de dados, ferramentas analíticas e redes neurais do tipo Self Organized Maps (SOM) para efetuar análise sobre dados textuais e geração de conhecimento. Serão duas as abordagens: conhecimentos voltados para a área educacional (com dados de sites de Perguntas e Respostas (Question and Answers, ou simplesmente Q&A)) e identificação de tendências (com postagens no microblog Twitter). Ambas as fontes são similares em possuirem um formato de texto não estruturado. Com base em uma matriz de termos gerada através de técnicas de Mineração de Textos, originada em uma base composta por texto não estruturado, as postagens foram a base para treinamento de uma rede SOM, e com esta rede treinada foi possível gerar visualizações que permitem efetuar análises semânticas dos termos e questões agrupados e utilizá-las para identificação do conhecimento desejado. Os resultados obtidos foram: demonstrar que questões sobre assuntos similares podem ser agrupadas pela sua similaridade de termos, e visualizar estes agrupamentos em forma de nuvens de palavras, permitindo a análise semântica sobre as questões agrupadas. mineração de texto mapas auto organizáveis visualização semântica CNPQ::CIENCIAS EXATAS E DA TERRA
22	Selecionando candidatos a descritores para agrupamentos hierárquicos de documentos utilizando regras de associação / Selecting candidate labels for hierarchical document clusters using association rules Santos, Fabiano Fernandes dos 17 September 2010 (has links) Uma forma de extrair e organizar o conhecimento, que tem recebido muita atenção nos últimos anos, é por meio de uma representação estrutural dividida por tópicos hierarquicamente relacionados. Uma vez construída a estrutura hierárquica, é necessário encontrar descritores para cada um dos grupos obtidos pois a interpretação destes grupos é uma tarefa complexa para o usuário, já que normalmente os algoritmos não apresentam descrições conceituais simples. Os métodos encontrados na literatura consideram cada documento como uma bag-of-words e não exploram explicitamente o relacionamento existente entre os termos dos documento do grupo. No entanto, essas relações podem trazer informações importantes para a decisão dos termos que devem ser escolhidos como descritores dos nós, e poderiam ser representadas por regras de associação. Assim, o objetivo deste trabalho é avaliar a utilização de regras de associação para apoiar a identificação de descritores para agrupamentos hierárquicos. Para isto, foi proposto o método SeCLAR (Selecting Candidate Labels using Association Rules), que explora o uso de regras de associação para a seleção de descritores para agrupamentos hierárquicos de documentos. Este método gera regras de associação baseadas em transações construídas à partir de cada documento da coleção, e utiliza a informação de relacionamento existente entre os grupos do agrupamento hierárquico para selecionar candidatos a descritores. Os resultados da avaliação experimental indicam que é possível obter uma melhora significativa com relação a precisão e a cobertura dos métodos tradicionais / One way to organize knowledge, that has received much attention in recent years, is to create a structural representation divided by hierarchically related topics. Once this structure is built, it is necessary to find labels for each of the obtained clusters, since most algorithms do not produce simple descriptions and the interpretation of these clusters is a difficult task for users. The related works consider each document as a bag-of-words and do not explore explicitly the relationship between the terms of the documents. However, these relationships can provide important information to the decision of the terms that must be chosen as descriptors of the nodes, and could be represented by rass. This works aims to evaluate the use of association rules to support the identification of labels for hierarchical document clusters. Thus, this paper presents the SeCLAR (Selecting Candidate Labels using Association Rules) method, which explores the use of association rules for the selection of good candidates for labels of hierarchical clusters of documents. This method generates association rules based on transactions built from each document in the collection, and uses the information relationship between the nodes of hierarchical clustering to select candidates for labels. The experimental results show that it is possible to obtain a significant improvement with respect to precision and recall of traditional methods Agrupamento hierárquico de documantos Association rules Hierarchical document clustering Label hierarchical clustering Mineração de texto Regras de associação Text mining
23	Topological stability and textual differentiation in human interaction networks: statistical analysis, visualization and linked data / Estabilidade topológica e diferenciação textual em redes de interação humana: análise estatística, visualização e dados ligados Fabbri, Renato 08 May 2017 (has links) This work reports on stable (or invariant) topological properties and textual differentiation in human interaction networks, with benchmarks derived from public email lists. Activity along time and topology were observed in snapshots in a timeline, and at different scales. Our analysis shows that activity is practically the same for all networks across timescales ranging from seconds to months. The principal components of the participants in the topological metrics space remain practically unchanged as different sets of messages are considered. The activity of participants follows the expected scale-free outline, thus yielding the hub, intermediary and peripheral classes of vertices by comparison against the Erdös-Rényi model. The relative sizes of these three sectors are essentially the same for all email lists and the same along time. Typically, 3-12% of the vertices are hubs, 15-45% are intermediary and 44-81% are peripheral vertices. Texts from each of such sectors are shown to be very different through direct measurements and through an adaptation of the Kolmogorov-Smirnov test. These properties are consistent with the literature and may be general for human interaction networks, which has important implications for establishing a typology of participants based on quantitative criteria. For guiding and supporting this research, we also developed a visualization method of dynamic networks through animations. To facilitate verification and further steps in the analyses, we supply a linked data representation of data related to our results. / Este trabalho relata propriedades topológicas estáveis (ou invariantes) e diferenciação textual em redes de interação humana, com referências derivadas de listas públicas de e-mail. A atividade ao longo do tempo e a topologia foram observadas em instantâneos ao longo de uma linha do tempo e em diferentes escalas. A análise mostra que a atividade é praticamente a mesma para todas as redes em escalas temporais de segundos a meses. As componentes principais dos participantes no espaço das métricas topológicas mantêm-se praticamente inalteradas quando diferentes conjuntos de mensagens são considerados. A atividade dos participantes segue o esperado perfil livre de escala, produzindo, assim, as classes de vértices dos hubs, dos intermediários e dos periféricos em comparação com o modelo Erdös-Rényi. Os tamanhos relativos destes três setores são essencialmente os mesmos para todas as listas de e-mail e ao longo do tempo. Normalmente, 3-12% dos vértices são hubs, 15-45% são intermediários e 44-81% são vértices periféricos. Os textos de cada um destes setores são considerados muito diferentes através de uma adaptação dos testes de Kolmogorov-Smirnov. Estas propriedades são consistentes com a literatura e podem ser gerais para redes de interação humana, o que tem implicações importantes para o estabelecimento de uma tipologia dos participantes com base em critérios quantitativos. De modo a guiar e apoiar esta pesquisa, também desenvolvemos um método de visualização para redes dinâmicas através de animações. Para facilitar a verificação e passos seguintes nas análises, fornecemos uma representação em dados ligados dos dados relacionados aos nossos resultados. Análise de redes sociais Complex networks Dados ligados Linked data Mineração de texto Pattern recognition Reconhecimento de padrões Redes complexas Social network analysis Text mining
24	Uma arquitetura de pré-processamento para análise de sentimento em mídias sociais em português brasileiro / A pre-processing architecture for feeling in social media in Brazilian Portuguese CIRQUEIRA, Douglas da Rocha 23 August 2018 (has links) Submitted by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:22:50Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) / Approved for entry into archive by Luciclea Silva (luci@ufpa.br) on 2018-10-31T16:23:19Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) / Made available in DSpace on 2018-10-31T16:23:20Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_Arquiteturapreprocessamentoanalise.pdf: 2201314 bytes, checksum: b0a349ed6a153c4ed20626b65076c0ad (MD5) Previous issue date: 2018-08-23 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / A Web 2.0 e a evolução nas Tecnologias da Informação e Comunicação, têm impulsionado novos meios de interação e relacionamento. Neste contexto, as Redes Sociais Online (RSO) são um exemplo, como plataformas que permitem a interação e o compartilhamento de informações entre pessoas. Além disso, é possível observar que RSO passaram a ser adotadas como canal de desabafo de consumidores, por meio de opiniões sobre produtos e experiências. Este cenário apresenta uma ótima oportunidade para que empresas possam melhorar produtos, serviços e estratégias de mercado, já que as RSO são poderosas fontes massivas de dados não-estruturados gerados pelo consumidor (do inglês, User- Generated Content - UGC), com opiniões e avaliações sobre ofertas em plataformas tais como Facebook, Twitter e Instagram. O Brasil é um grande exemplo onde esse fenômeno pode ser observado e apresenta potencial oportunidade de exploração de mercado, dado que a população brasileira é uma das nações que mais utiliza RSO no mundo. Neste âmbito, técnicas computacionais de Mineração de Opinião (MO) ou Análise de Sentimento (AS) são aplicadas com o intuito de inferir a polaridade dominante (positivo, negativo, neutro) quanto ao sentimento associado a textos, e, podem ser aplicadas em dados de RSO a fim de avaliar o feedback do público-alvo. Apesar das diversas estratégias de AS reportadas na literatura, ainda há vários desafios enfrentados na aplicação de AS em textos oriundos de RSO, devido às características da linguagem utilizada em tais plataformas. O estado da arte de AS é voltado para a língua inglesa e as propostas existentes para Português Brasileiro (PT_Br) não apresentam uma metodologia padronizada nas tarefas de pré-processamento. Neste âmbito, esta pesquisa investiga uma metodologia sem tradução e propõe uma nova arquitetura expandida de pré-processamento de AS voltada para o PT_Br, a fim de prover atributos enriquecidos para os algoritmos de AS. A proposta foi comparada com modelos bem estabelecidos na literatura, e resultados obtidos indicam que esta pode superar o estado da arte em até 3% de revocação, para 6 de 7 bases de dados avaliadas. / The Web 2.0 and the evolution of Information Technologies have brought novel interaction and relationship channels. In this context, the Online Social Networks (OSN) are an example as platforms which allow interactions and sharing of information between people. In this scenario, it is possible to observe the adoption of OSN as a channel for posting opinions regarding products and experience. This scene presents an excellent opportunity for companies that aim to improve products, services and marketing strategies, given OSNs are powerful sources of massive unstructured data generated by consumers (UGC), with opinions and reviews concerning offers, in platforms such as Facebook, Twitter and Instagram. Brazil is a highlight in this scenario, where this phenomenon can be observed, as the Brazilian population is one of the most active in social media platforms in the world. This makes it a country full of opportunities to market exploitation. In this context, computational techniques of Opinion Mining and Sentiment Analysis (SA) are applied aiming to infer the polarity (positive, negative, neutral) regarding a sentiment associated to texts, and can also be applied in data from OSN to evaluate the feedback from a target audience. Although the existing diversity of SA strategies reported in the literature, there are still challenges faced in the application of SA in text data from OSN, given the characteristics of the language adopted in such platforms. The state of art is focused on SA towards the English language, and the existing proposals for Brazilian Portuguese do not have a standardized methodology for preprocessing steps. In this context, this research investigates an approach with no translation, and proposes a novel preprocessing architecture for SA towards Brazilian Portuguese, aiming to provide enriched features to SA algorithms. The proposal was compared with well-established baselines from the literature, and the obtained results indicate that this architecture can overcome the state of art recall in at least 3% , for 6 out of 7 datasets evaluated. CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Análise de Sentimento pré-processamento; processamento de Linguagem Natural mineração de Texto mineração de opinião mineração de dados redes sociais on line midias sociais INTELIGÊNCIA COMPUTACIONAL COMPUTAÇÃO APLICADA
25	Tecnologias de codificação assistida para uma classificação internacional de doenças Abreu, Carla Filipa Moura January 2013 (has links) Estágio realizado na Fraunhofer - e orientado pela Dra. Liliana Ferreira / Tese de Mestrado Integrado. Engenharia Informática e Computação. Faculdade de Engenharia. Universidade do Porto. 2013 Tecnologias de codificação Mineração de texto Estração de informação Reconhecimento de entidades mencionadas Processamento de linguagem natural Codificação assistida por computador Codificação automática
26	Abordagem avaliativa multidimensional para previsão da evasão do discente em cursos online. MORAIS, Alana Marques de. 13 September 2018 (has links) Submitted by Lucienne Costa (lucienneferreira@ufcg.edu.br) on 2018-09-13T20:25:53Z No. of bitstreams: 1 ALANA MARQUES DE MORAIS – TESE (PPGCC) 2018.pdf: 2316851 bytes, checksum: 52b3ebbbd6f1053b4978446f0a18d143 (MD5) / Made available in DSpace on 2018-09-13T20:25:53Z (GMT). No. of bitstreams: 1 ALANA MARQUES DE MORAIS – TESE (PPGCC) 2018.pdf: 2316851 bytes, checksum: 52b3ebbbd6f1053b4978446f0a18d143 (MD5) Previous issue date: 2018-04-20 / Capes / A evasão discente foi apontada, por grande parte das instituições brasileiras de Educação a Distância (EaD), como um dos maiores obstáculos enfrentados pelos cursos online da atualidade. Reflexo disto, foram as taxas de evasão elevadas, entre 25 e 50% em todos os tipos de curso online, em relação à educação presencial em 2015 no Brasil. Além disto, a problemática não se restringe ao contexto brasileiro, pois diversas organizações internacionais relataram índices tão alarmantes quando os nacionais. É possível afirmar, de acordo com a literatura, que as estratégias adotadas na minimização dos índices de desistência do discente muitas vezes se limitam à avaliação pontual de um recurso pedagógico (fórum, bate-papo, etc). Há ainda uma carência de estudos que discutam sobre as interações educacionais do aluno evadido e considerem as incertezas avaliativas envolvidas no processo. Diversas metodologias podem ser utilizadas pelo docente para lidar com a subjetividade e incerteza associadas ao processo avaliativo, tais como: lógica fuzzy, redes bayesianas, etc. O presente estudo destacou a lógica fuzzy (ou difusa), pois esta técnica lida com a ambiguidade encontrada na avaliação presente na EaD. Esta modelagem permite que estados indeterminados possam ser tratados por dispositivos de controle e conceitos não quantificáveis possam ser avaliados pelo especialista. Assim, o presente estudo propôs uma abordagem avaliativa (FuzzySD) voltada ao docente para monitorar as turmas virtuais na predição e combate à evasão discente em cursos online. Para tanto, a pesquisa se subsidiou nas informações relacionadas às ações dos alunos durante o processo de ensino-aprendizagem. A análise realizada envolve fatores comportamentais do estudante com base em múltiplos critérios. Estes critérios comportamentais foram fundamentais na descrição das três métricas principais ao entendimento da evasão do aluno no contexto estudado, a saber: Autorregulação, Interação e Motivação do aluno. A avaliação com a FuzzySD foi realizada por meio da análise de precisão em recortes da amostra com base em dados de cursos online do IFPB Virtual. A precisão da abordagem, analisando as amostras teste, proporciona valores entre 65% e 95% de acertos. Por fim, a partir dos resultados, foram discutidos os desafios da aplicação de um módulo avaliativo multidimensional diante do contexto de cursos online brasileiros. / The student’s dropout in online courses was pointed out as one of the biggest issue in the area according to the educational organizations. The main result was the high dropout rates in these courses compared to face-to-face courses in 2015 in Brazil (between 25% and 50%). Moreover, this challenge belongs to the virtual learning worldwide. In this sense, the literature review showed that several approaches are adopted to minimize the student’s dropout rates. However, they limited their focus on a learning unique resource (forum, chat, upload, download, submissions). Regarding these approaches, the current research detected an insufficiency of studies about the educational interactions of the dropout student and uncertainties in the assessment. Many methodologies are used by teachers to manage a subjectivity and uncertainty associated to the evaluation process, such as: fuzzy logic, Bayesian networks, Markov chains, etc. This thesis emphasized the fuzzy logic, because this technique solves the ambiguity found in the learning evaluation by the expert. We present an assessment framework (FuzzySD) to track the virtual classroom and to support the teacher to make a prediction of students’ dropout in online courses. In this sense, we analyzed the information related to the students’ actions during the teaching-learning process in online courses. It can be denominated as multidimensional analysis because we assessed multiple variables related to the student’s behavior. Such behavioral variables were fundamental in the definition of three main metrics to the understanding of student avoidance, they are: Self-regulation, Interaction and Motivation. It is important to consider a presence of fuzzy logic to deal with the input metrics of the FuzzySD framework. The evaluation of FuzzySD was performed by means of precision analysis on sample cut-outs based on dataset from courses of “IFPB Virtual”. The accuracy of the approach is analyzed as results of its own indicators between 65% and 95% of hits. Finally, the results discussed about the challenges of applying a multidimensional evaluative module to the context of Brazilian online courses. Ciência da Computação Inteligência Artificial Avaliação Multidimensional Educação à Distância - Evasão Mineração de Texto Lógica Fuzzy FuzzySD Artificial Intelligence Fuzzy System Student Multidimensional Assessment Distance Learning - Dropout Online Courses
27	Topological stability and textual differentiation in human interaction networks: statistical analysis, visualization and linked data / Estabilidade topológica e diferenciação textual em redes de interação humana: análise estatística, visualização e dados ligados Renato Fabbri 08 May 2017 (has links) This work reports on stable (or invariant) topological properties and textual differentiation in human interaction networks, with benchmarks derived from public email lists. Activity along time and topology were observed in snapshots in a timeline, and at different scales. Our analysis shows that activity is practically the same for all networks across timescales ranging from seconds to months. The principal components of the participants in the topological metrics space remain practically unchanged as different sets of messages are considered. The activity of participants follows the expected scale-free outline, thus yielding the hub, intermediary and peripheral classes of vertices by comparison against the Erdös-Rényi model. The relative sizes of these three sectors are essentially the same for all email lists and the same along time. Typically, 3-12% of the vertices are hubs, 15-45% are intermediary and 44-81% are peripheral vertices. Texts from each of such sectors are shown to be very different through direct measurements and through an adaptation of the Kolmogorov-Smirnov test. These properties are consistent with the literature and may be general for human interaction networks, which has important implications for establishing a typology of participants based on quantitative criteria. For guiding and supporting this research, we also developed a visualization method of dynamic networks through animations. To facilitate verification and further steps in the analyses, we supply a linked data representation of data related to our results. / Este trabalho relata propriedades topológicas estáveis (ou invariantes) e diferenciação textual em redes de interação humana, com referências derivadas de listas públicas de e-mail. A atividade ao longo do tempo e a topologia foram observadas em instantâneos ao longo de uma linha do tempo e em diferentes escalas. A análise mostra que a atividade é praticamente a mesma para todas as redes em escalas temporais de segundos a meses. As componentes principais dos participantes no espaço das métricas topológicas mantêm-se praticamente inalteradas quando diferentes conjuntos de mensagens são considerados. A atividade dos participantes segue o esperado perfil livre de escala, produzindo, assim, as classes de vértices dos hubs, dos intermediários e dos periféricos em comparação com o modelo Erdös-Rényi. Os tamanhos relativos destes três setores são essencialmente os mesmos para todas as listas de e-mail e ao longo do tempo. Normalmente, 3-12% dos vértices são hubs, 15-45% são intermediários e 44-81% são vértices periféricos. Os textos de cada um destes setores são considerados muito diferentes através de uma adaptação dos testes de Kolmogorov-Smirnov. Estas propriedades são consistentes com a literatura e podem ser gerais para redes de interação humana, o que tem implicações importantes para o estabelecimento de uma tipologia dos participantes com base em critérios quantitativos. De modo a guiar e apoiar esta pesquisa, também desenvolvemos um método de visualização para redes dinâmicas através de animações. Para facilitar a verificação e passos seguintes nas análises, fornecemos uma representação em dados ligados dos dados relacionados aos nossos resultados. Análise de redes sociais Dados ligados Mineração de texto Reconhecimento de padrões Redes complexas Complex networks Linked data Pattern recognition Social network analysis Text mining
28	Selecionando candidatos a descritores para agrupamentos hierárquicos de documentos utilizando regras de associação / Selecting candidate labels for hierarchical document clusters using association rules Fabiano Fernandes dos Santos 17 September 2010 (has links) Uma forma de extrair e organizar o conhecimento, que tem recebido muita atenção nos últimos anos, é por meio de uma representação estrutural dividida por tópicos hierarquicamente relacionados. Uma vez construída a estrutura hierárquica, é necessário encontrar descritores para cada um dos grupos obtidos pois a interpretação destes grupos é uma tarefa complexa para o usuário, já que normalmente os algoritmos não apresentam descrições conceituais simples. Os métodos encontrados na literatura consideram cada documento como uma bag-of-words e não exploram explicitamente o relacionamento existente entre os termos dos documento do grupo. No entanto, essas relações podem trazer informações importantes para a decisão dos termos que devem ser escolhidos como descritores dos nós, e poderiam ser representadas por regras de associação. Assim, o objetivo deste trabalho é avaliar a utilização de regras de associação para apoiar a identificação de descritores para agrupamentos hierárquicos. Para isto, foi proposto o método SeCLAR (Selecting Candidate Labels using Association Rules), que explora o uso de regras de associação para a seleção de descritores para agrupamentos hierárquicos de documentos. Este método gera regras de associação baseadas em transações construídas à partir de cada documento da coleção, e utiliza a informação de relacionamento existente entre os grupos do agrupamento hierárquico para selecionar candidatos a descritores. Os resultados da avaliação experimental indicam que é possível obter uma melhora significativa com relação a precisão e a cobertura dos métodos tradicionais / One way to organize knowledge, that has received much attention in recent years, is to create a structural representation divided by hierarchically related topics. Once this structure is built, it is necessary to find labels for each of the obtained clusters, since most algorithms do not produce simple descriptions and the interpretation of these clusters is a difficult task for users. The related works consider each document as a bag-of-words and do not explore explicitly the relationship between the terms of the documents. However, these relationships can provide important information to the decision of the terms that must be chosen as descriptors of the nodes, and could be represented by rass. This works aims to evaluate the use of association rules to support the identification of labels for hierarchical document clusters. Thus, this paper presents the SeCLAR (Selecting Candidate Labels using Association Rules) method, which explores the use of association rules for the selection of good candidates for labels of hierarchical clusters of documents. This method generates association rules based on transactions built from each document in the collection, and uses the information relationship between the nodes of hierarchical clustering to select candidates for labels. The experimental results show that it is possible to obtain a significant improvement with respect to precision and recall of traditional methods Agrupamento hierárquico de documantos Mineração de texto Regras de associação Association rules Hierarchical document clustering Label hierarchical clustering Text mining
29	Suporte às micro e pequenas empresas a partir da gestão baseada em evidências: construção de ferramenta computacional baseada em inteligência artificial Santos, Andrey Schmidt dos 26 February 2018 (has links) Submitted by JOSIANE SANTOS DE OLIVEIRA (josianeso) on 2018-04-26T13:33:37Z No. of bitstreams: 1 Andrey Schmidt dos Santos_.pdf: 3821784 bytes, checksum: 3ec0002a0c8656aa8110f2ae6166b117 (MD5) / Made available in DSpace on 2018-04-26T13:33:37Z (GMT). No. of bitstreams: 1 Andrey Schmidt dos Santos_.pdf: 3821784 bytes, checksum: 3ec0002a0c8656aa8110f2ae6166b117 (MD5) Previous issue date: 2018-02-26 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / As micro e pequenas empresas (MPEs) constituem 99% das empresas no Brasil, sendo responsáveis por 70% dos empregos formais e 27% do produto interno bruto. Apesar dessa representatividade, o grau de instrução nas MPEs ainda é baixo. Esse baixo nível de instrução dificulta a tomada de decisão. Uma alternativa para melhorar a tomada de decisão é utilizar a gestão baseada em evidências (EBM). A EBM é uma abordagem que ajuda a encontrar evidências e a avaliá-las criticamente. Uma organização que ajuda as MPEs na busca de evidências e na tomada de decisão é o Serviço Brasileiro de Apoio às Micro e Pequenas Empresas (SEBRAE). O SEBRAE possui uma central de atendimentos com capacidade limitada de suporte a MPEs. Essa capacidade pode ser aumentada utilizando tecnologias da inteligência artificial (IA). Uma revisão de literatura demonstrou a ausência de referências na utilização da IA para aplicação da EBM em MPEs. Diante desse contexto, a pesquisa responde como seria uma ferramenta computacional para suportar as demandas técnicas no contexto de MPEs. Para responder ao problema de pesquisa, construiu-se uma ferramenta computacional que suporta as demandas técnicas de MPEs a partir da EBM. Para tanto, desenvolveu-se um método de trabalho baseado na Design Science Research (DSR). Com base na DSR, construiu-se um artefato com um módulo de pergunta e resposta e um módulo de aprendizado. Após quatro rodadas de aprendizado, o artefato apresentou uma acurácia de 90,70%. Realizou-se, ainda, um experimento para comparar o desempenho do artefato com a performance da central de atendimento do SEBRAE. Na dimensão qualidade, o artefato apresentou um desempenho, correspondente a 53,59% do atendimento da central do SEBRAE. Na dimensão tempo, o artefato apresentou resultados superiores aos da central de atendimentos. O trabalho contribui para a literatura ao desenvolver um artefato que aplique a EBM. O SEBRAE beneficia-se com uma alternativa que possibilita aumentar a capacidade de atendimento. O artefato pode ser utilizado para complementar e agilizar o atendimento a MPEs. / Small and Medium Enterprises (SMEs) compose 99% of companies in Brazil, 70% of formal jobs and 27% of gross domestic product. Despite this representativeness, the level of education in SMEs is low. This education level difficult decision-making. One alternative to improve SMEs decision making is evidence-based management (EBM). EBM is an approach that helps to acquire and appraise evidence. One organization that helps SMEs find evidence and make decisions is the Brazilian Small and Medium Enterprises Support Service (SEBRAE). SEBRAE has a SMEs call center with limited service capacity. This capacity can be increased with artificial intelligence technologies (AI). A literature review has demonstrated the lack of literature in the use of IA for the application of EBM in SMEs. In this context, what would be a computational tool to support the technical demands in the context of SMEs? To answer this problem, the research goal was create a computational tool that supports the SMEs technical demands from EBM. To create this tool, a working method based on design science research (DSR) was developed. Using the DSR, an artifact with ask-answer module and learning module was created. After four learning rounds, the artifact presented an accuracy of 90,70%. An experiment was carried out to compare the artifact with the SEBRAE call center. In the quality dimension, the artifact presented a performance similar to 53,59% of the call center. In the time dimension, the artifact presented better results than call center. The work contributes to the literature by developing an artifact that applies EBM. SEBRAE benefited from an alternative to increase its service capacity. The artifact can be used to complement and expedite the SMEs call center service. Gestão baseada em evidências Micro e pequenas empresas MEI Mineração de dados Mineração de texto Classificação Evidence-based management Small and medium enterprises MEI Data mining Text mining Classification
30	A interpretação semântica de textos científicos em português na perspectiva da Ciência da Informação: procedimentos e aplicação à área de Ciências Agrárias / A interpretação semântica de textos científicos em português: procedimentos e aplicações à área de Ciências Agrárias na perspectiva da Ciência da Informação CORRÊA, Dominique de Lira Vieira 29 February 2016 (has links) Submitted by Irene Nascimento (irene.kessia@ufpe.br) on 2016-08-04T18:54:26Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) DissertacaoFinalDominiqueDigital.pdf: 1809626 bytes, checksum: 0394869923ec4dde774f79a5ec5290de (MD5) / Made available in DSpace on 2016-08-04T18:54:26Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) DissertacaoFinalDominiqueDigital.pdf: 1809626 bytes, checksum: 0394869923ec4dde774f79a5ec5290de (MD5) Previous issue date: 2016-02-29 / Facepe / A presente pesquisa se desenvolveu no âmbito do Observatório Temático e Laboratório – Ensino, Tecnologia, Ciência e Informação (OtletCI) com a intensão de avançar na questão de como extrair informação relevante e de como representá-la para fins de recuperação semântica da informação, em particular no caso de textos de publicações científicas em português. Para tanto, como metodologia, investigou-se a tecnologia da busca semântica quanto aos fundamentos teóricos, sua utilidade no contexto do OtletCI e requisitos para aplicação em textos científicos em português. Como experimento, buscou-se explicitar os requisitos da busca semântica para a aplicação em textos científicos, através da análise da extração de relacionamentos semânticos do tipo “causa e efeito” em 60 resumos, em português, de artigos científicos da área de Ciências Agrárias. O estudo apresentou, por meio de considerações de ordem qualitativa e quantitativa, uma comparação entre o processo manual e automático de extração de sentenças de causa e efeito. Esses documentos foram previamente analisados de forma manual, e as sentenças de causa e efeito foram extraídas através da leitura dos resumos. Para o processo automático, com os dados transferidos do software PALAVRAS para a planilha do Excel, foi possível realizar uma programação para localizar sentenças de causa e efeito automaticamente. O objetivo foi comparar as sentenças identificadas diretamente pelo pesquisador e as sentenças reconstruídas automaticamente a partir do conjunto de células programadas. Conclui-se enfatizando que a possibilidade de usar técnicas automáticas acelera o processo de criação e extração de relações de causa e efeito e pode ser usada como alternativa ao processo custoso de identificação manual de informações semânticas. Porém, mais importante que propor uma estrutura de relações de causa e efeito para a construção de sistemas de busca, o que pode-se apontar como o resultado mais expressivo da presente pesquisa é o estabelecimento preliminar de rotinas para a versão automatizada. / This research is developed within the Thematic Observatory and Laboratory - Education, Technology, Science and Information (OtletCI) with the intention to move forward on the question of how to extract relevant information and how to represent it for purposes of semantic retrieval of information, particularly in the case of texts of scientific publications in Portuguese. Therefore, as a methodology, we investigated the semantic search technology based on the theoretical foundations, its usefulness in the context of OtletCI and requirements for application in scientific texts in Portuguese. As an experiment, we tried to clarify the semantic search requirements for the application of scientific texts by analyzing the extraction of semantic relationships such as "cause and effect" in 60 abstracts, in Portuguese, of scientific articles in the area of Agricultural Sciences. The study shows, through qualitative and quantitative considerations, a comparison between manual and automatic extraction process of cause and effect sentences. These documents were previously analyzed manually, and the sentences of cause and effect were extracted by reading the summaries. For automatic process, with data transferred from PALAVRAS software to the Excel spreadsheet, it was possible to carry out a program to find cause and effect sentences automatically. The goal was to buy the sentences identified directly by the researcher and sentences automatically reconstructed from the set of programmed cells. The research concludes emphasizing that the possibility of using automatic techniques accelerates the process of creating and extracting of cause and effect relationship and may be used as an alternative to costly manual process of identifying semantic information. However, more important than to propose a structure of cause and effect relationships for building search engines, we can point out as the most significant result of this research the preliminary establishment of routines for automated version.

Search results