Global ETD Search

1	Documentação de software : integração de ferramentas de modelação e processamento de texto Rocha, Nuno António da Silva January 2008 (has links) Estágio realizado na Critical Software, S. A. e orientado pelo Eng.º Miguel Barroso / Tese de mestrado integrado. Engenharia Informática e Computação. Faculdade de Engenharia. Universidade do Porto. 2008 Documentação Programas de computador Processamento de texto Programação de computadores
2	Classificação de textos com redes complexas / Using complex networks to classify texts Amancio, Diego Raphael 29 October 2013 (has links) A classificação automática de textos em categorias pré-estabelecidas tem despertado grande interesse nos últimos anos devido à necessidade de organização do número crescente de documentos. A abordagem dominante para classificação é baseada na análise de conteúdo dos textos. Nesta tese, investigamos a aplicabilidade de atributos de estilo em tarefas tradicionais de classificação, usando a modelagem de textos como redes complexas, em que os vértices representam palavras e arestas representam relações de adjacência. Estudamos como métricas topológicas podem ser úteis no processamento de línguas naturais, sendo a tarefa de classificação apoiada por métodos de aprendizado de máquina, supervisionado e não supervisionado. Um estudo detalhado das métricas topológicas revelou que várias delas são informativas, por permitirem distinguir textos escritos em língua natural de textos com palavras distribuídas aleatoriamente. Mostramos também que a maioria das medidas de rede depende de fatores sintáticos, enquanto medidas de intermitência são mais sensíveis à semântica. Com relação à aplicabilidade da modelagem de textos como redes complexas, mostramos que existe uma dependência significativa entre estilo de autores e topologia da rede. Para a tarefa de reconhecimento de autoria de 40 romances escritos por 8 autores, uma taxa de acerto de 65% foi obtida com métricas de rede e intermitência de palavras. Ainda na análise de estilo, descobrimos que livros pertencentes ao mesmo estilo literário tendem a possuir estruturas topológicas similares. A modelagem de textos como redes também foi útil para discriminar sentidos de palavras ambíguas, a partir apenas de informação topológica dos vértices, evidenciando uma relação não trivial entre sintaxe e semântica. Para algumas palavras, a discriminação com redes complexas foi ainda melhor que a estratégia baseada em padrões de recorrência contextual de palavras polissêmicas. Os estudos desenvolvidos nesta tese confirmam que aspectos de estilo e semânticos influenciam na organização estrutural de conceitos em textos modelados como rede. Assim, a modelagem de textos como redes de adjacência de palavras pode ser útil não apenas para entender mecanismos fundamentais da linguagem, mas também para aperfeiçoar aplicações reais quando combinada com métodos tradicionais de processamento de texto. / The automatic classification of texts in pre-established categories is drawing increasing interest owing to the need to organize the ever growing number of electronic documents. The prevailing approach for classification is based on analysis of textual contents. In this thesis, we investigate the applicability of attributes based on textual style using the complex network (CN) representation, where nodes represent words and edges are adjacency relations. We studied the suitability of CN measurements for natural language processing tasks, with classification being assisted by supervised and unsupervised machine learning methods. A detailed study of topological measurements in texts revealed that several measurements are informative in the sense that they are able to distinguish meaningful from shuffled texts. Moreover, most measurements depend on syntactic factors, while intermittency measurements are more sensitive to semantic factors. As for the use of the CN model in practical scenarios, there is significant correlation between authors style and network topology. We achieved an accuracy rate of 65% in discriminating eight authors of novels with the use of network and intermittency measurements. During the stylistic analysis, we also found that books belonging to the same literary movement could be identified from their similar topological features. The network model also proved useful for disambiguating word senses. Upon employing only topological information to characterize nodes representing polysemous words, we found a strong relationship between syntax and semantics. For several words, the CN approach performed surprisingly better than the method based on recurrence patterns of neighboring words. The studies carried out in this thesis confirm that stylistic and semantic aspects play a crucial role in the structural organization of word adjacency networks. The word adjacency model investigated here might be useful not only to provide insight into the underlying mechanisms of the language, but also to enhance the performance of real applications implementing both CN and traditional approaches. Classificação textual Complex networks Pattern recognition Processamento de texto Reconhecimento de padrões Redes complexas Text classification Text processing
3	Classificação de textos com redes complexas / Using complex networks to classify texts Diego Raphael Amancio 29 October 2013 (has links) A classificação automática de textos em categorias pré-estabelecidas tem despertado grande interesse nos últimos anos devido à necessidade de organização do número crescente de documentos. A abordagem dominante para classificação é baseada na análise de conteúdo dos textos. Nesta tese, investigamos a aplicabilidade de atributos de estilo em tarefas tradicionais de classificação, usando a modelagem de textos como redes complexas, em que os vértices representam palavras e arestas representam relações de adjacência. Estudamos como métricas topológicas podem ser úteis no processamento de línguas naturais, sendo a tarefa de classificação apoiada por métodos de aprendizado de máquina, supervisionado e não supervisionado. Um estudo detalhado das métricas topológicas revelou que várias delas são informativas, por permitirem distinguir textos escritos em língua natural de textos com palavras distribuídas aleatoriamente. Mostramos também que a maioria das medidas de rede depende de fatores sintáticos, enquanto medidas de intermitência são mais sensíveis à semântica. Com relação à aplicabilidade da modelagem de textos como redes complexas, mostramos que existe uma dependência significativa entre estilo de autores e topologia da rede. Para a tarefa de reconhecimento de autoria de 40 romances escritos por 8 autores, uma taxa de acerto de 65% foi obtida com métricas de rede e intermitência de palavras. Ainda na análise de estilo, descobrimos que livros pertencentes ao mesmo estilo literário tendem a possuir estruturas topológicas similares. A modelagem de textos como redes também foi útil para discriminar sentidos de palavras ambíguas, a partir apenas de informação topológica dos vértices, evidenciando uma relação não trivial entre sintaxe e semântica. Para algumas palavras, a discriminação com redes complexas foi ainda melhor que a estratégia baseada em padrões de recorrência contextual de palavras polissêmicas. Os estudos desenvolvidos nesta tese confirmam que aspectos de estilo e semânticos influenciam na organização estrutural de conceitos em textos modelados como rede. Assim, a modelagem de textos como redes de adjacência de palavras pode ser útil não apenas para entender mecanismos fundamentais da linguagem, mas também para aperfeiçoar aplicações reais quando combinada com métodos tradicionais de processamento de texto. / The automatic classification of texts in pre-established categories is drawing increasing interest owing to the need to organize the ever growing number of electronic documents. The prevailing approach for classification is based on analysis of textual contents. In this thesis, we investigate the applicability of attributes based on textual style using the complex network (CN) representation, where nodes represent words and edges are adjacency relations. We studied the suitability of CN measurements for natural language processing tasks, with classification being assisted by supervised and unsupervised machine learning methods. A detailed study of topological measurements in texts revealed that several measurements are informative in the sense that they are able to distinguish meaningful from shuffled texts. Moreover, most measurements depend on syntactic factors, while intermittency measurements are more sensitive to semantic factors. As for the use of the CN model in practical scenarios, there is significant correlation between authors style and network topology. We achieved an accuracy rate of 65% in discriminating eight authors of novels with the use of network and intermittency measurements. During the stylistic analysis, we also found that books belonging to the same literary movement could be identified from their similar topological features. The network model also proved useful for disambiguating word senses. Upon employing only topological information to characterize nodes representing polysemous words, we found a strong relationship between syntax and semantics. For several words, the CN approach performed surprisingly better than the method based on recurrence patterns of neighboring words. The studies carried out in this thesis confirm that stylistic and semantic aspects play a crucial role in the structural organization of word adjacency networks. The word adjacency model investigated here might be useful not only to provide insight into the underlying mechanisms of the language, but also to enhance the performance of real applications implementing both CN and traditional approaches. Classificação textual Processamento de texto Reconhecimento de padrões Redes complexas Complex networks Pattern recognition Text classification Text processing
4	Modelos de tópicos na classificação automática de resenhas de usuários. / Topic models in user review automatic classification. Mauá, Denis Deratani 14 August 2009 (has links) Existe um grande número de resenhas de usuário na internet contendo valiosas informações sobre serviços, produtos, política e tendências. A compreensão automática dessas opiniões é não somente cientificamente interessante, mas potencialmente lucrativa. A tarefa de classificação de sentimentos visa a extração automática das opiniões expressas em documentos de texto. Diferentemente da tarefa mais tradicional de categorização de textos, na qual documentos são classificados em assuntos como esportes, economia e turismo, a classificação de sentimentos consiste em anotar documentos com os sentimentos expressos no texto. Se comparados aos classificadores tradicionais, os classificadores de sentimentos possuem um desempenho insatisfatório. Uma das possíveis causas do baixo desempenho é a ausência de representações adequadas que permitam a discriminação das opiniões expressas de uma forma concisa e própria para o processamento de máquina. Modelos de tópicos são modelos estatísticos que buscam extrair informações semânticas ocultas na grande quantidade de dados presente em coleções de texto. Eles representam um documento como uma mistura de tópicos, onde cada tópico é uma distribuição de probabilidades sobre palavras. Cada distribuição representa um conceito semântico implícito nos dados. Modelos de tópicos, as palavras são substituídas por tópicos que representam seu significado de forma sucinta. De fato, os modelos de tópicos realizam uma redução de dimensionalidade nos dados que pode levar a um aumento do desempenho das técnicas de categorização de texto e recuperação de informação. Na classificação de sentimentos, eles podem fornecer a representação necessária através da extração de tópicos que representem os sentimentos expressos no texto. Este trabalho dedica-se ao estudo da aplicação de modelos de tópicos na representação e classificação de sentimentos de resenhas de usuário. Em particular, o modelo Latent Dirichlet Allocation (LDA) e quatro extensões (duas delas desenvolvidas pelo autor) são avaliados na tarefa de classificação de sentimentos baseada em múltiplos aspectos. As extensões ao modelo LDA permitem uma investigação dos efeitos da incorporação de informações adicionais como contexto, avaliações de aspecto e avaliações de múltiplos aspectos no modelo original. / There is a large number of user reviews on the internet with valuable information on services, products, politics and trends. There is both scientific and economic interest in the automatic understanding of such data. Sentiment classification is concerned with automatic extraction of opinions expressed in user reviews. Unlike standard text categorization tasks that deal with the classification of documents into subjects such as sports, economics and tourism, sentiment classification attempts to tag documents with respect to the feelings they express. Compared to the accuracy of standard methods, sentiment classifiers have shown poor performance. One possible cause of such a poor performance is the lack of adequate representations that lead to opinion discrimination in a concise and machine-readable form. Topic Models are statistical models concerned with the extraction of semantic information hidden in the large number of data available in text collections. They represent a document as a mixture of topics, probability distributions over words that represent a semantic concept. According to Topic Model representation, words can be substituted by topics able to represent concisely its meaning. Indeed, Topic Models perform a data dimensionality reduction that can improve the performance of text classification and information retrieval techniques. In sentiment classification, they can provide the necessary representation by extracting topics that represent the general feelings expressed in text. This work presents a study of the use of Topic Models for representing and classifying user reviews with respect to their feelings. In particular, the Latent Dirichlet Allocation (LDA) model and four extensions (two of them developed by the author) are evaluated on the task of aspect-based sentiment classification. The extensions to the LDA model enables us to investigate the effects of the incorporation of additional information such as context, aspect rating and multiple aspect rating into the original model. Aprendizado computacional Aprendizado de máquina Artificial intelligence Categorização de texto Classificação de sentimento Computational learning Inteligência artificial Machine learning Processamento de texto Sentiment classification Text categorization Text processing
5	Modelos de tópicos na classificação automática de resenhas de usuários. / Topic models in user review automatic classification. Denis Deratani Mauá 14 August 2009 (has links) Existe um grande número de resenhas de usuário na internet contendo valiosas informações sobre serviços, produtos, política e tendências. A compreensão automática dessas opiniões é não somente cientificamente interessante, mas potencialmente lucrativa. A tarefa de classificação de sentimentos visa a extração automática das opiniões expressas em documentos de texto. Diferentemente da tarefa mais tradicional de categorização de textos, na qual documentos são classificados em assuntos como esportes, economia e turismo, a classificação de sentimentos consiste em anotar documentos com os sentimentos expressos no texto. Se comparados aos classificadores tradicionais, os classificadores de sentimentos possuem um desempenho insatisfatório. Uma das possíveis causas do baixo desempenho é a ausência de representações adequadas que permitam a discriminação das opiniões expressas de uma forma concisa e própria para o processamento de máquina. Modelos de tópicos são modelos estatísticos que buscam extrair informações semânticas ocultas na grande quantidade de dados presente em coleções de texto. Eles representam um documento como uma mistura de tópicos, onde cada tópico é uma distribuição de probabilidades sobre palavras. Cada distribuição representa um conceito semântico implícito nos dados. Modelos de tópicos, as palavras são substituídas por tópicos que representam seu significado de forma sucinta. De fato, os modelos de tópicos realizam uma redução de dimensionalidade nos dados que pode levar a um aumento do desempenho das técnicas de categorização de texto e recuperação de informação. Na classificação de sentimentos, eles podem fornecer a representação necessária através da extração de tópicos que representem os sentimentos expressos no texto. Este trabalho dedica-se ao estudo da aplicação de modelos de tópicos na representação e classificação de sentimentos de resenhas de usuário. Em particular, o modelo Latent Dirichlet Allocation (LDA) e quatro extensões (duas delas desenvolvidas pelo autor) são avaliados na tarefa de classificação de sentimentos baseada em múltiplos aspectos. As extensões ao modelo LDA permitem uma investigação dos efeitos da incorporação de informações adicionais como contexto, avaliações de aspecto e avaliações de múltiplos aspectos no modelo original. / There is a large number of user reviews on the internet with valuable information on services, products, politics and trends. There is both scientific and economic interest in the automatic understanding of such data. Sentiment classification is concerned with automatic extraction of opinions expressed in user reviews. Unlike standard text categorization tasks that deal with the classification of documents into subjects such as sports, economics and tourism, sentiment classification attempts to tag documents with respect to the feelings they express. Compared to the accuracy of standard methods, sentiment classifiers have shown poor performance. One possible cause of such a poor performance is the lack of adequate representations that lead to opinion discrimination in a concise and machine-readable form. Topic Models are statistical models concerned with the extraction of semantic information hidden in the large number of data available in text collections. They represent a document as a mixture of topics, probability distributions over words that represent a semantic concept. According to Topic Model representation, words can be substituted by topics able to represent concisely its meaning. Indeed, Topic Models perform a data dimensionality reduction that can improve the performance of text classification and information retrieval techniques. In sentiment classification, they can provide the necessary representation by extracting topics that represent the general feelings expressed in text. This work presents a study of the use of Topic Models for representing and classifying user reviews with respect to their feelings. In particular, the Latent Dirichlet Allocation (LDA) model and four extensions (two of them developed by the author) are evaluated on the task of aspect-based sentiment classification. The extensions to the LDA model enables us to investigate the effects of the incorporation of additional information such as context, aspect rating and multiple aspect rating into the original model. Aprendizado computacional Aprendizado de máquina Categorização de texto Classificação de sentimento Inteligência artificial Processamento de texto Artificial intelligence Computational learning Machine learning Sentiment classification Text categorization Text processing
6	"O texto de crianças e adolescentes com depressão maior unipolar" / The text of children and adolescents with unipolar major depression Pantano, Telma 11 March 2005 (has links) O objetivo deste estudo foi verificar a elaboração e a recontagem de histórias de crianças com o diagnóstico de depressão maior unipolar (DSM-IV, 1997), bem como a influência da terapia medicamentosa com fluoxetina em um estudo duplo-cego longitudinal controlado com placebo. Fizeram parte do estudo trinta sujeitos com idades entre 10 e 14 anos e diagnosticados com depressão, randomizados para o uso de fluoxetina ou placebo. Ambos os grupos foram avaliados quanto à elaboração livre de textos orais e escritos e à recontagem de textos (fábulas de Êsopo ou La Fontaine) na etapa 0 (sem o uso de medicação) e na etapa 3 (três meses após a introdução de medicação ou placebo). Os textos foram analisados de acordo com o modelo de Kintsch e Van Dijk (1978), baseado no número de macro e microestruturas produzidas e/ou recordadas e nos componentes relativos à superestrutura textual. A este modelo foi acrescida a análise do conteúdo proposicional (positivo, negativo ou neutro), com o intuito de observar o fenômeno da memória condizente com o humor". Não foram observadas diferenças significativas com relação a esses critérios entre os grupos ou períodos analisados, nem quanto à produção e/ou recontagem de textos orais ou escritos, mesmo com a melhora da sintomatologia clínica observada por meio da escala CDRS (Poznanski & Mokros, 1996). / The aim of this study was to evaluate the textual production and recontagem of children with unipolar major depression (DSM-IV, 1997), and the influence of drug therapy with fluoxetine in a longitudinal, double-blinded, placebo-controlled study. Thirty subjects with depression, aged between 10 and 14 years, were selected and randomized for the use of fluoxetine or placebo. Both groups were analyzed regarding to spontaneous oral and written production and to the recontagem of the texts (Esopos or La Fontaines fables) in the period zero (without medication) and period 3 (three months after starting placebo or fluoxetine). The texts were analyzed according to Kintsch and Van Dijks model (1978), taking in account the number of macro and microstructures elaborated and/or recalled and the textual superstructure. We added to this model the proposition-content analysis (positive, negative or neutral), in order to observe the mood-congruent memory" phenomenon. Regarding these criteria, no differences were found amongst the groups or periods analyzed, neither amongst the oral and written elaborated or recontados texts, even after the improvement of clinical symptoms evaluated by CDRS scale (Poznanski and Mokros, 1996). ADOLESCENT ADOLESCENTE CHILD CRIANÇA DEPRESSIVE DISORDES DOUBLE BLIND METHOD ESTUDOS LONGITUDINAIS FLUOXETIN/therapeutic use FLUOXETINA/uso terapêutico LONGITUDINAL STUDIES MÉTODO DUPLO-CEGO PROCESSAMENTO DE TEXTO/métodos TRANSTORNO DEPRESSIVO WORD PROCESSING/methods
7	"O texto de crianças e adolescentes com depressão maior unipolar" / The text of children and adolescents with unipolar major depression Telma Pantano 11 March 2005 (has links) O objetivo deste estudo foi verificar a elaboração e a recontagem de histórias de crianças com o diagnóstico de depressão maior unipolar (DSM-IV, 1997), bem como a influência da terapia medicamentosa com fluoxetina em um estudo duplo-cego longitudinal controlado com placebo. Fizeram parte do estudo trinta sujeitos com idades entre 10 e 14 anos e diagnosticados com depressão, randomizados para o uso de fluoxetina ou placebo. Ambos os grupos foram avaliados quanto à elaboração livre de textos orais e escritos e à recontagem de textos (fábulas de Êsopo ou La Fontaine) na etapa 0 (sem o uso de medicação) e na etapa 3 (três meses após a introdução de medicação ou placebo). Os textos foram analisados de acordo com o modelo de Kintsch e Van Dijk (1978), baseado no número de macro e microestruturas produzidas e/ou recordadas e nos componentes relativos à superestrutura textual. A este modelo foi acrescida a análise do conteúdo proposicional (positivo, negativo ou neutro), com o intuito de observar o fenômeno da memória condizente com o humor. Não foram observadas diferenças significativas com relação a esses critérios entre os grupos ou períodos analisados, nem quanto à produção e/ou recontagem de textos orais ou escritos, mesmo com a melhora da sintomatologia clínica observada por meio da escala CDRS (Poznanski & Mokros, 1996). / The aim of this study was to evaluate the textual production and recontagem of children with unipolar major depression (DSM-IV, 1997), and the influence of drug therapy with fluoxetine in a longitudinal, double-blinded, placebo-controlled study. Thirty subjects with depression, aged between 10 and 14 years, were selected and randomized for the use of fluoxetine or placebo. Both groups were analyzed regarding to spontaneous oral and written production and to the recontagem of the texts (Esopos or La Fontaines fables) in the period zero (without medication) and period 3 (three months after starting placebo or fluoxetine). The texts were analyzed according to Kintsch and Van Dijks model (1978), taking in account the number of macro and microstructures elaborated and/or recalled and the textual superstructure. We added to this model the proposition-content analysis (positive, negative or neutral), in order to observe the mood-congruent memory phenomenon. Regarding these criteria, no differences were found amongst the groups or periods analyzed, neither amongst the oral and written elaborated or recontados texts, even after the improvement of clinical symptoms evaluated by CDRS scale (Poznanski and Mokros, 1996). ADOLESCENTE CRIANÇA ESTUDOS LONGITUDINAIS FLUOXETINA/uso terapêutico MÉTODO DUPLO-CEGO PROCESSAMENTO DE TEXTO/métodos TRANSTORNO DEPRESSIVO ADOLESCENT CHILD DEPRESSIVE DISORDES DOUBLE BLIND METHOD FLUOXETIN/therapeutic use LONGITUDINAL STUDIES WORD PROCESSING/methods

1

Page generated in 0.0706 seconds