Global ETD Search

261	Reconhecimento de expressões de emoções na interação mediada por computador Pasqualotti, Paulo Roberto 29 February 2008 (has links) Made available in DSpace on 2015-03-05T13:59:43Z (GMT). No. of bitstreams: 0 Previous issue date: 29 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / No Processamento da Linguagem Natural (PLN) os avanços recentes na análise automática de texto conduziram ao surgimento de uma nova área que é o tratamento e reconhecimento dos aspectos subjetivos no texto, considerando fatores como opiniões, sentimentos, emoções e afetividade. Entre as aplicações dessa área podemos citar: medir o nível de satisfação de clientes, reconhecer a diferença entre emissão de opiniões e descrição de fatos, reconhecer perfil empreendedor e posturas interpessoais, identificar possibilidades de estados depressivos em pessoas, entre outras possibilidades, envolvendo a subjetividade. A pesquisa na área requer o desenvolvimento de métodos, recursos e técnicas, que, integrados, possibilitarão a sistemas computacionais serem capazes de manipular significado afetivo no discurso. Porém, por tratar-se de estudos recentes, os recursos ainda são bastante escassos para a língua portuguesa. Dessa forma, essa dissertação propõe o desenvolvimento de um léxico afetivo para a língua portuguesa, den / In the area of Natural Language Processing (NLP) the recent advances in text automatic analysis have led to the emergence of a new area which is the management and recognition subjective aspects in texts, considering factors such as opinion, sentiments, emotions and affection. Among the applications of this area we enumerate: to determine the client satisfaction level, to recognize the difference between opinion emission and description of facts, to recognize entrepreneur profile and interpersonal posture, to identify the possibility of depressive states in people, among other possibilities related to subjectivity. The research in this area requires the development of methods, resources and techniques, that, integrated, can make computational systems able to manage the affective meaning in discourse. However, since these studies are recent, the resources are scarce for the portuguese language. In this way, this dissertation proposes the development of an affective lexicon for the portuguese language, named W Ciências Exatas e da Terra análise automática léxico afetivo língua portuguesa sistemas computacionais textos linguagem natural
262	Análise de sentimentos baseada em aspectos e atribuições de polaridade / Aspect-based sentiment analysis and polarity assignment Kauer, Anderson Uilian January 2016 (has links) Com a crescente expansão da Web, cada vez mais usuários compartilham suas opiniões sobre experiências vividas. Essas opiniões estão, na maioria das vezes, representadas sob a forma de texto não estruturado. A Análise de Sentimentos (ou Mineração de Opinião) é a área dedicada ao estudo computacional das opiniões e sentimentos expressos em textos, tipicamente classificando-os de acordo com a sua polaridade (i.e., como positivos ou negativos). Ao mesmo tempo em que sites de vendas e redes sociais tornam-se grandes fontes de opiniões, cresce a busca por ferramentas que, de forma automática, classifiquem as opiniões e identifiquem a qual aspecto da entidade avaliada elas se referem. Neste trabalho, propomos métodos direcionados a dois pontos fundamentais para o tratamento dessas opiniões: (i) análise de sentimentos baseada em aspectos e (ii) atribuição de polaridade. Para a análise de sentimentos baseada em aspectos, desenvolvemos um método que identifica expressões que mencionem aspectos e entidades em um texto, utilizando ferramentas de processamento de linguagem natural combinadas com algoritmos de aprendizagem de máquina. Para a atribuição de polaridade, desenvolvemos um método que utiliza 24 atributos extraídos a partir do ranking gerado por um motor de busca e para gerar modelos de aprendizagem de máquina. Além disso, o método não depende de recursos linguísticos e pode ser aplicado sobre dados com ruídos. Experimentos realizados sobre datasets reais demonstram que, em ambas as contribuições, conseguimos resultados próximos aos dos baselines mesmo com um número pequeno de atributos. Ainda, para a atribuição de polaridade, os resultados são comparáveis aos de métodos do estado da arte que utilizam técnicas mais complexas. / With the growing expansion of the Web, more and more users share their views on experiences they have had. These views are, in most cases, represented in the form of unstructured text. The Sentiment Analysis (or Opinion Mining) is a research area dedicated to the computational study of the opinions and feelings expressed in texts, typically categorizing them according to their polarity (i.e., as positive or negative). As on-line sales and social networking sites become great sources of opinions, there is a growing need for tools that classify opinions and identify to which aspect of the evaluated entity they refer to. In this work, we propose methods aimed at two key points for the treatment of such opinions: (i) aspect-based sentiment analysis and (ii) polarity assignment. For aspect-based sentiment analysis, we developed a method that identifies expressions mentioning aspects and entities in text, using natural language processing tools combined with machine learning algorithms. For the identification of polarity, we developed a method that uses 24 attributes extracted from the ranking generated by a search engine to generate machine learning models. Furthermore, the method does not rely on linguistic resources and can be applied to noisy data. Experiments on real datasets show that, in both contributions, our results using a small number of attributes were similar to the baselines. Still, for assigning polarity, the results are comparable to prior art methods that use more complex techniques. Textos : Análise Mineracao : Dados Emoções Opinion mining Sentiment analysis Aspect extraction Text classification
263	Por um saber sobre a escrita na interdependência entre atos enunciativos na universidade : a (re)escrita em voz alta Juchem, Aline January 2017 (has links) Cette thèse vise à discuter la question de recherche suivante : qu’est-ce que c’est l’écriture, si l’on considère l’interdépendance énonciative entre les actes de parler, d’écouter, d’écrire et de lire ? Pour répondre à ce problème, nous proposons d’abord la contextualisation de notre objet d’étude, circonscrit au domaine de l’enseignement, pour réfléchir sur la manière dont les vestiges d’une histoire constituée dans et par le langage produisent des effets dans l’enseignement-apprentissage de langue maternelle et dans la production de textes écrits par l’apprenant, une fois qu’il est le résultat de la relation personne-espace-temps qui fonde l’expérience humaine dans le langage. Dans cette ligne, nous nous inspirons de la théorie énonciative d’Émile Benveniste, en considérant, comme présupposé théorique fondamental, que les actes énonciatifs de parole, d’écoute, d’écriture et de lecture constituent, en complémentarité, la condition humaine dans la société, spécifiquement dans l’université, puisque le langage suppose l’interdépendance entre ces modalités d’emploi de la langue par l’homme dans sa constitution en tant que parlant. À partir de ce présupposé, nous tirons, de la réflexion de Benveniste, trois notions structurantes, qui s’inter-relationnent dans cette recherche : l’intersubjectivité, qui rend possible la communication linguistique et son actualisation dans le discours ; la temporalité de la langue, qui permet, à l’homme, de s’historiciser dans la langue-discours ; et la relation d’interprétance, dont la faculté métalinguistique, qui la fonde, permet, à l’homme, de devenir un interprète de sa langue pour se (ré)inventer dans la société avec sa culture. De ces notions, respectivement, nous dérivons nos propres notions, qui convergent vers l’approche de notre problématique quant à la (ré)signification d’une connaissance dans/de l’écriture en vue de l’interdépendance énonciative, de l’instance d’historicisation et de la réflexivité énonciative. De la base théorique circonscrite à la linguistique, nous passons à la base méthodologique, qui prévoit l’articulation de principes et de mécanismes d’analyse de trois faits énonciatifs de langage d’une étudiante participante de l’atelier de Langue Portugaise du Programme d’Appui à la Licence de l’Université Fédérale du Rio Grande do Sul, articulés à trois instances analytiques : l’écriture, liée au texte écrit ; la voix, liée à la vocalisation de l’écrit ; et l’écoute, liée aux discours sur la vocalisation de l’écrit. Sous cette articulation, basée sur des notions théoriques, nous passons à l’analyse translinguistique de l’interdépendance énonciative entre les faits de langage dans la constitution de notre objet d’étude, une fois qu’il est un point d’arrivée de cette thèse : la (ré)écriture à haute voix. Comme effet de la vocalisation de l’écrit, qui réorganise les relations entre les actes énonciatifs en lire/parler et écrire/écouter en raison de l’interdépendance énonciative qui s’établie en salle de classe dans l’axe méthodologique écriture-lecture/vocalisation-écoute-(ré)écriture, la (ré)écriture à haute voix marque l’embryon d’une (ré)écriture qui naît au moment même où le texte écrit est vocalisé. La réalisation vocale de l’écriture est entendue ; donc, l’écoute devient aussi le critère de l’écriture, puisqu’elle est vocalisée. La (ré)écriture à haute voix commence bien là où la voix (re)produit les sens graphiques, inscrite dans un mouvement de rétrospection et de prospection, qui (re)fait, par la vocalisation, les sens du texte écrit et, en même temps, projette la ré-écriture graphique. Voici la place de l’écriture dans la (ré)signification de l’élève dans le langage. / Esta tese visa a discutir a seguinte questão de pesquisa: o que é a escrita se considerada a interdependência enunciativa entre os atos de falar, ouvir, escrever e ler? Para responder a essa problemática, propomos inicialmente a contextualização do nosso objeto de estudo, circunscrita ao âmbito do ensino, de modo a refletir sobre como os vestígios de uma história constituída na e pela linguagem produzem efeitos no ensino-aprendizagem de língua materna e na produção de textos escritos pelo aluno, uma vez que ele é resultado da relação pessoa-espaço-tempo que funda a experiência humana na linguagem. Nessa linha, inspiramo-nos no construto enunciativo de Émile Benveniste, considerando como pressuposto teórico fundamental que os atos enunciativos de fala, escuta, escrita e leitura constituem em complementaridade a condição humana na sociedade, especificamente na universidade, visto que a linguagem supõe a interdependência entre essas modalidades de emprego da língua pelo homem em sua constituição como falante. A partir de tal pressuposto, derivamos da reflexão benvenistiana três noções estruturantes, que se inter-relacionam nesta pesquisa: a intersubjetividade, que torna possível a comunicação linguística e sua atualização no discurso; a temporalidade da língua, que possibilita ao homem se historicizar na língua-discurso; e a relação de interpretância, cuja faculdade metalinguística, que a fundamenta, permite ao homem se tornar intérprete de sua língua para (re)inventar-se na sociedade com sua cultura. Dessas noções, respectivamente, derivamos noções próprias, que convergem para a abordagem de nossa problemática quanto à (re)significação de um saber na/da escrita em vista da interdependência enunciativa, da instância de historicização e da reflexividade enunciativa. Da base teórica circunscrita à linguística, passamos à base metodológica, que prevê a articulação de princípios e mecanismos de análise de três fatos enunciativos de linguagem de uma aluna universitária, coletados no Programa de Apoio à Graduação da Universidade Federal do Rio Grande do Sul e articulados a três instâncias analíticas: a escrita, relacionada ao texto escrito; a voz, atrelada à vocalização do escrito; e a escuta, vinculada aos discursos sobre a vocalização do escrito. Sob essa articulação, fundamentada pelas noções teóricas, passamos à análise translinguística da interdependência enunciativa entre os fatos de linguagem na constituição do nosso objeto de estudo, uma vez que ele é um ponto de chegada desta tese: a (re)escrita em voz alta. Como efeito da vocalização do escrito, que reorganiza as relações entre os atos enunciativos em ler/falar e escrever/ouvir em virtude da interdependência enunciativa que se instaura em sala de aula no eixo metodológico escrita-leitura/vocalização-escuta-(re)escrita, a (re)escrita em voz alta demarca o embrião de uma (re)escrita que nasce no instante mesmo em que o texto escrito é vocalizado. A realização vocal da escrita é ouvida; logo, a escuta se torna também critério da escrita, posto que esta é vocalizada. A (re)escrita em voz alta começa bem ali onde a voz (re)produz os sentidos gráficos, inscrita num movimento de retrospecção e prospecção, que (re)faz, pela vocalização, os sentidos do texto escrito e, ao mesmo tempo, projeta a re-escrita gráfica. Eis o lugar da escrita na (re)significação do aluno na linguagem. Écriture Énonciation Enseignement Interdépendance énonciative Voix Enunciação Ensino Produção de textos Vocalização Escrita : Ensino
264	O processo criativo do livro T?o distante quanto o ch?o Nogueira, Marcelo Sim?es 05 January 2011 (has links) Made available in DSpace on 2015-04-14T13:38:31Z (GMT). No. of bitstreams: 1 436287 - Anexo A.pdf: 15904692 bytes, checksum: 6dfb5d1033e2ec5c78c6f2d478cea870 (MD5) Previous issue date: 2011-01-05 / This work addresses issues relating to the creative process in producing a poetic and artistic writing, in its verbal and physical aspects in the composition of a book-object. Consisting of an essay followed by the original typewritten piece of literary work, here are exposed some of the heuristic processes of creation today, as well as an analysis on the current status of strictly editorial matters. The work also accompanies extensive documentation regarding the different stages of writing, as well as an audio recording featuring selected passages from the work read in the author's own voice. / Este trabalho aborda quest?es relativas ao processo criativo na produ??o de um texto po?tico e art?stico, tanto acerca de sua escrita verbal, quanto aos aspectos f?sicos na composi??o de um objeto-livro. Composto de um ensaio seguido dos originais datiloscritos de uma obra liter?ria, encontram-se aqui expostos alguns dos processos heur?sticos da cria??o hodierna, bem como uma an?lise do atual estatuto das quest?es propriamente editoriais. Acompanha tamb?m extensa documenta??o, em imagens, das etapas de sua escritura, assim como o registro, em ?udio, de passagens selecionadas da obra na voz do pr?prio autor. LITERATURA TEORIA LITER?RIA ARTE CONTEMPOR?NEA LINGU?STICA DO TEXTO TEXTOS
265	Compreens?o leitora e aten??o seletiva : um estudo com alunos do ensino m?dio Fonseca, Lu?sa Mocelin 08 January 2013 (has links) Made available in DSpace on 2015-04-14T13:38:47Z (GMT). No. of bitstreams: 1 446022.pdf: 1265104 bytes, checksum: 3d831b166c1ff629b8338a1f3f5c0018 (MD5) Previous issue date: 2013-01-08 / The theme of this work, developed in the field of Psycholinguistics, is the relationship between reading comprehension and selective attention. The relevance of the research is the search for understanding - that besides educational, is social - of the national framework the students low reading comprehension levels, having been chosen the selective attention as an element of possible interference Thus, this research aims to identify the levels of reading comprehension and selective attention of 61 high school students from a public school located in Rio Grande do Sul state, in order to examine the correlation between these levels. The students reading comprehension level was verified by the Cloze procedure, while for the selective attention, we administered the AC Test. The results pointed to a moderate correlation between reading comprehension and selective attention. Based on the results, it is suggested to do same verification of the present study with a more heterogeneous sample in relation to age and educational level separately. / O tema deste trabalho ? a rela??o entre compreens?o leitora e aten??o seletiva, inserindo-se na ?rea da Psicolingu?stica. A relev?ncia da pesquisa est? na busca de entendimento que, al?m de educacional, ? social do quadro nacional de baixa compreens?o em leitura dos estudantes, tendo sido escolhida a aten??o seletiva como um elemento de poss?vel interfer?ncia. Assim, a pesquisa objetiva identificar os n?veis de compreens?o leitora e de aten??o seletiva de 61 alunos do 3? ano do Ensino M?dio de uma escola p?blica do estado do Rio Grande do Sul para, ent?o, verificar a correla??o existente entre tais n?veis. A compreens?o leitora dos sujeitos foi verificada atrav?s do procedimento Cloze, enquanto que, para avaliar a aten??o seletiva, aplicou-se o Teste AC. Os resultados apontaram para uma correla??o moderada entre a compreens?o leitora e aten??o seletiva. Com base nos resultados, cabe sugerir fazer a mesma verifica??o do presente estudo com outros grupos comparativos no que diz respeito ? idade e ao n?vel escolar, separadamente. LINGU?STICA PSICOLINGU?STICA LEITURA - COMPREENS?O COMPREENS?O DE TEXTOS
266	Consci?ncia lingu?stica no emprego de tempos verbais e compreens?o leitora Santos, Tha?s Vargas dos 11 January 2013 (has links) Made available in DSpace on 2015-04-14T13:38:54Z (GMT). No. of bitstreams: 1 446283.pdf: 2263790 bytes, checksum: add1e851a427c79727d602eea405cf15 (MD5) Previous issue date: 2013-01-11 / The study aims to evaluate the performance of students in the 6th grade of elementary school on the use of verb tenses, the level of linguistic awareness in this task and reading comprehension scores. To achieve this goal, three survey instruments were applied: a) investigative instrument to the use of tenses and linguistic awareness, b) reading comprehension instrument, and c) characterizing instrument of the research s subjects. Theoretically and methodologically, constitute the axis of this research reading comprehension, linguistic awareness and the use of verb tenses. The appliance situation involves the use of survey instruments in two different formats: one answered in a written format and the other answered as an interview format. The subjects who answer the first format constitute group 1, while subjects who respond the second format constitute group 2. The results achieved by group 1 show that: these subjects have good performance in the use of verb tenses; they demonstrate linguistic consciousness, although not plenary to perform this task; they have low performance in reading comprehension. The performance of group 2 is good on the use of the verb tenses, on linguistics awareness and on reading comprehension. Considering the correlations between the topics use of verb tenses, linguistic awareness and reading comprehension, the results achieved by group 1 show a lower correlation than the results achieved by group 2. This research provides recommendations for teaching reading in school. / O estudo tem como objetivo verificar o desempenho de alunos da 6? s?rie do Ensino Fundamental no emprego dos tempos verbais, o n?vel de consci?ncia lingu?stica na realiza??o dessa tarefa e os escores de compreens?o leitora. Considera-se, para isso, os dados obtidos na aplica??o de tr?s instrumentos de pesquisa: a) instrumento de investiga??o do emprego dos tempos verbais e consci?ncia lingu?stica; b) instrumento de investiga??o da compreens?o leitora; e c) instrumento de caracteriza??o dos sujeitos da pesquisa. Te?rica e metodologicamente, constituem-se em eixos fundamentais da pesquisa a compreens?o leitora, a consci?ncia lingu?stica e o emprego dos tempos verbais. A situa??o de aplica??o envolve o uso de instrumentos de pesquisa em dois formatos diferentes: um respondido por escrito individualmente e outro em formato de entrevista. Os sujeitos que respondem ao primeiro formato constituem o grupo 1, enquanto os sujeitos que respondem ao segundo formato constituem o grupo 2. Os resultados alcan?ados pelo grupo 1 revelam: que os sujeitos t?m bom desempenho no emprego dos tempos verbais; que demonstram ter consci?ncia lingu?stica, apesar de n?o ser plena, para a realiza??o dessa tarefa; que apresentam baixo desempenho na compreens?o leitora. O desempenho do grupo 2 ? bom no emprego dos tempos verbais, na consci?ncia lingu?stica e na compreens?o leitora. Em rela??o ?s correla??es entre as vari?veis emprego dos tempos verbais, consci?ncia lingu?stica e compreens?o leitora, os dados do grupo 1 apresentam um ?ndice menor de correla??o, do que os dados do grupo 2. Esses resultados permitem recomenda??es para o ensino da leitura na escola. LEITURA - APRENDIZAGEM COMPREENS?O DE TEXTOS VERBOS CONSCI?NCIA LINGU?STICA
267	A rela??o entre compreens?o leitora e consci?ncia textual : um estudo com alunos de 2? e 3? anos do ensino fundamental Barboza, Let?cia da Silva 07 January 2014 (has links) Made available in DSpace on 2015-04-14T13:39:09Z (GMT). No. of bitstreams: 1 457063.pdf: 1455316 bytes, checksum: 50027115177be59a0da6766ce166c508 (MD5) Previous issue date: 2014-01-07 / This study is inserted in the area of Psycholinguistics. Its goal is to verify the relationship between the textual awareness and reading comprehension. The survey includes 30 children, students of 2nd and 3rd grade of elementary school, from a public school in the metropolitan region of Porto Alegre. The performance of reading comprehension is evaluated through a questionnaire with eight questions relating to a story read by the subjects. The textual awareness development is verified by two instruments involving pictures. The participants need to remove the ones that do not belong to the story and then they have to organize the story s pictures according to the narrative sequence, justifying respectively. The research instruments are applied at two different moments, alternating the order of presentation for the subjects. First, after reading the narrative story, the subjects answer the questions about the text and then they do the textual awareness tasks. In another meeting, the subjects perform the tasks of textual awareness and after answering comprehension questions based on another narrative. In this study, the evidence of environment literacy in the family context is considered. This variable is checked by individual interviews with the participants. Also the schooling of the subjects is analyzed. The results for both groups indicate that subjects with better performance on the instrument reading comprehension also presents a significant degree of awareness of textual development , resulting in a positive correlation. / Este estudo est? inserido na ?rea da Psicolingu?stica. Seu objetivo ? verificar a rela??o entre a consci?ncia textual e a compreens?o leitora. A pesquisa abrange 30 crian?as, alunos do 2? e 3? anos do Ensino Fundamental, de uma escola p?blica municipal, na regi?o metropolitana de Porto Alegre. Para avalia??o do desempenho de compreens?o, ? utilizado um instrumento que consiste em um question?rio com oito perguntas referentes a uma hist?ria lida pelos pr?prios sujeitos. Para verificar o grau de desenvolvimento da consci?ncia textual, s?o realizadas duas tarefas envolvendo figuras. Cabe aos participantes retirar as gravuras n?o pertencentes ? hist?ria e, posteriormente, organizar as pertences de acordo com a sequ?ncia narrativa, justificando respectivamente. Os instrumentos de pesquisa s?o aplicados em dois momentos distintos, alternando-se a ordem de apresenta??o dos mesmos para os sujeitos. Primeiramente, ap?s a leitura da hist?ria narrativa, os sujeitos respondem ?s quest?es para averiguar a compreens?o do texto seguido dos instrumentos de avalia??o da consci?ncia textual. Em outro encontro, os sujeitos realizam as tarefas de consci?ncia textual para, ap?s, responderem ?s perguntas de compreens?o baseados em outra narrativa. Neste estudo, ? considerada como vari?vel a evid?ncia de um ambiente de letramento no contexto familiar. Essa vari?vel ? verificada mediante entrevista individual com os participantes. Ainda, ? analisada a escolaridade dos sujeitos de pesquisa. Os resultados atingidos por ambos os grupos revelam que os sujeitos com melhor desempenho no instrumento de compreens?o leitora demonstram tamb?m um grau de desenvolvimento significativo da consci?ncia textual, obtendo-se uma correla??o positiva. LINGU?STICA APLICADA PSICOLINGU?STICA LEITURA - COMPREENS?O COMPREENS?O DE TEXTOS
268	Aprendizado de máquina com informação privilegiada: abordagens para agrupamento hierárquico de textos / Machine learning with privileged information: approaches for hierarchical text clustering Marcacini, Ricardo Marcondes 14 October 2014 (has links) Métodos de agrupamento hierárquico de textos são muito úteis para analisar o conhecimento embutido em coleções textuais, organizando os documentos textuais em grupos e subgrupos para facilitar a exploração do conhecimento em diversos níveis de granularidade. Tais métodos pertencem à área de aprendizado não supervisionado de máquina, uma que vez obtêm modelos de agrupamento apenas pela observação de regularidades existentes na coleção textual, sem supervisão humana. Os métodos tradicionais de agrupamento assumem que a coleção textual é representada apenas pela informação técnica, ou seja, palavras e frases extraídas diretamente dos textos. Por outro lado, em muitas tarefas de agrupamento existe conhecimento adicional e valioso a respeito dos dados, geralmente extraído por um processo avançado com apoio de usuários especialistas do domínio do problema. Devido ao alto custo para obtenção desses dados, esta informação adicional é definida como privilegiada e usualmente está disponível para representar apenas um subconjunto dos documentos textuais. Recentemente, um novo paradigma de aprendizado de máquina denominado LUPI (Learning Using Privileged Information) foi proposto por Vapnik para incorporar informação privilegiada em métodos aprendizado supervisionado. Neste trabalho de doutorado, o paradigma LUPI foi estendido para aprendizado não supervisionado, em especial, para agrupamento hierárquico de textos. Foram propostas e avaliadas abordagens para lidar com diferentes desafios existentes em tarefas de agrupamento, envolvendo a extração e estruturação da informação privilegiada e seu uso para refinar ou corrigir modelos de agrupamento. As abordagens propostas se mostraram eficazes em (i) consenso de agrupamentos, permitindo combinar diferentes representações e soluções de agrupamento; (ii) aprendizado de métricas, em que medidas de proximidades mais robustas foram obtidas com base na informação privilegiada; e (iii) seleção de modelos, em que a informação privilegiada é explorada para identificar relevantes estruturas de agrupamento hierárquico. Todas as abordagens apresentadas foram investigadas em um cenário de agrupamento incremental, permitindo seu uso em aplicações práticas caracterizadas pela necessidade de eficiência computacional e alta frequência de publicação de novo conhecimento textual. / Hierarchical text clustering methods are very useful to analyze the implicit knowledge in textual collections, enabling the organization of textual documents into clusters and subclusters to facilitate the knowledge browsing at various levels of granularity. Such methods are classified as unsupervised machine learning, since the clustering models are obtained only by observing regularities of textual data without human supervision. Traditional clustering methods assume that the text collection is represented only by the technical information, i.e., words and phrases extracted directly from the texts. On the other hand, in many text clustering tasks there is an additional and valuable knowledge about the problem domain, usually extracted by an advanced process with support of the domain experts. Due to the high cost of obtaining such expert knowledge, this additional information is defined as privileged and is usually available to represent only a subset of the textual documents. Recently, a new machine learning paradigm called LUPI (Learning Using Privileged Information) was proposed by Vapnik to incorporate privileged information into supervised learning methods. In this thesis, the LUPI paradigm was extended to unsupervised learning setting, in particular for hierarchical text clustering. We propose and evaluate approaches to deal with different challenges for clustering tasks, involving the extraction and structuring of privileged information and using this additional information to refine or correct clustering models. The proposed approaches were effective in (i) consensus clustering, allowing to combine different clustering solutions and textual representations; (ii) metric learning, in which more robust proximity measures are obtained from privileged information; and (iii) model selection, in which the privileged information is exploited to identify the relevant structures of hierarchical clustering. All the approaches presented in this thesis were investigated in an incremental clustering scenario, allowing its use in practical applications that require computational efficiency as well as deal with high frequency of publication of new textual knowledge. Agrupamento hierárquico de textos Aprendizado de máquina Hierarchical text clustering Informação privilegiada Machine learning Privileged information
269	Na estrada dos enigmas, leituras e linguagens - imagem e palavra em cena. / On the enigma, reading and language road - images and words os stage. Braga, Patricia Colavitti 18 December 2006 (has links) A tese Na Estrada dos Enigmas, Leituras e Linguagens - Imagem e Palavra em Cena propõe uma reflexão sobre a formação de professores de leitura e produção textual e relata uma prática de ensino que utiliza a arte como mediadora e, para isso, atenta que é preciso que o educador transite pelo universo da arte; assim, pretendemos mostrar como isso foi possível em nossa dimensão pedagógica, a partir de experiências intelectuais, artísticas, pedagógicas, emocionais que nos constituíram enquanto educadora. Retomando as palavras de Jean Lauand, ela serve \"no sentido daquela felicíssima confusão que a língua espanhola faz com a palavra enseñar: ensinar não só como ensinar, mas como mostrar\". Sendo assim, o primeiro capítulo se destinou a delinear, por meio das formas poéticas da vida, recriadas pela arte, uma reflexão acerca da formação do educador na sociedade contemporânea. Nosso intento foi descrever como mediamos um processo pedagógico com vistas à formação do educador contemporâneo, capaz de encontrar os arregalados olhos grandes que há dentro de cada alma formada e vertida pelo céu e pela ciência, e ver a realidade além da imagem e, a partir da sua contemplação, encontrar vias possíveis para a solução de seus próprios enigmas. E isso se justificou pelo fato de que na sociedade contemporânea, verificamos a emergência de nos constituirmos enquanto educadores que exerçam uma função social, que articulem seus saberes, planejem e concretizem o fazer pedagógico de forma realmente profissional, conscientes da responsabilidade perante o aprendiz que nos foi confiado, bem como perante aos outros integrantes do tecido social, e que alcancem com o objetivo de possibilitar a constituição de uma educação estética e, consequentemente, pela educação de seres humanos autônomos e melhores. No segundo capítulo, apresentamos um estudo que fundamenta a concepção de leitura do educador leitor e produtor de textos, apto a mediar a construção do conhecimento de seus alunos, no que concerne à leitura e à produção de textos. Partirmos da constatação de que não é possível extrair do vazio, a leitura e a produção textual. Por esse motivo, entendemos que é papel do educador despertar no aluno a consciência de que a leitura e a reflexão sobre o processo de composição textual desenvolvido por outros autores são elementos primordiais e fundamentais do processo de construção do seu (do aluno) texto, pois, leitura e conhecimento técnico são propulsores da compreensão e da interpretação, bem como contribuem para o fluir da criação. No terceiro capítulo, relatamos algumas práticas de leitura e produção de textos que desenvolvemos com nossos aprendizes, a fim de ilustrar que ensinar a produzir textos, longe da crença comum, não é simplesmente transmitir conhecimentos sobre definição de gêneros, modalidades e estrutura formal de produções discursivas; é sim um ato de extrema complexidade, pois exige que o leitor e, posteriormente, o produtor de textos, primeiramente, se emaranhe no tecido e na estrutura textual alheia para desvendá-los e, depois possa, finalmente, criar o próprio texto. E, além disso, possa também eleger destinos e dá-los a esses textos. E, finalmente concluímos, certos de que para a epifania da escrita ocorra, é preciso que a leitura salte para dentro da vida. / On the Enigma, Reading and Language Road - Images and Words on Stage is a study that proposes a reflection on the education of reading and text production teachers and reports on a teaching practice that uses art as medium, thus, calling attention to the need of educators to pass through the world of art. We intend to show how this is possible within our pedagogical dimension, and through the use of the intellectual, artistic, pedagogical, and emotional experiences we acquired as teachers. In Jean Lauand\'s words, it is used \"in the way that Spanish very delightfully confuses the word enseñar: enseñar means not only teach, but also show\". Therefore, the objective of the first chapter was to outline, through the poetic forms of life, recreated through art, a reflection on the education of the teacher in today\'s contemporary society. Our aim was to describe how we mediated the educational process in the development of today\'s teachers, capable of seeking deep inside their souls for the awareness of looking beyond the image, and through this contemplation, find possible solutions for their own enigmas. This was justified by the fact that in contemporary society we note the urgency of developing educators who actually perform a social function. These are educators who articulate knowledge, plan pedagogical activities and carry them out in a truly professional manner, conscious of their responsibilities to the learner who was entrusted to them, as well as to other participants in the social fabric and whose objectives are to provide an aesthetic education which will consequently result in the education of better and independent human beings. In the second chapter, we present a study based on the educator\'s concept of reading, on his/her capacity of acting as a medium in the building of knowledge in his/her students, in reference to reading and text production. We begin with the verification that it is not possible to extract reading or text production from empty space. For this reason, we understand that the role of the educator is to awaken the student\'s awareness to the fact that reading and reflecting on texts written by other authors are basic and fundamental principals for the student\'s own text production, because, reading and technical skills are the driving force to comprehension and interpretation, as well as contributors to the creative flow. In the third chapter we report some reading and text production practices that we developed along with our learners, to illustrate that teaching to produce texts, far from common belief, is not simply transmitting knowledge and defining genres, modes and formal discursive structures. Text production is an extremely complex activity, because it requires that the reader, who later will become a text producer him/herself, first be enmeshed in the texture and structure of someone else\'s text, to unveil it, so he/she may later create his/her own text, as well as determine the purpose and fate of these texts. We finally conclude that for a writer\'s epiphany to occur, reading must take a leap into life. Art Arte Education of the teacher Escrita Formação do professor Produção de textos Produce texts Read reflection Reflexão
270	Classificação automática de textos por meio de aprendizado de máquina baseado em redes / Text automatic classification through machine learning based on networks Rossi, Rafael Geraldeli 26 October 2015 (has links) Nos dias atuais há uma quantidade massiva de dados textuais sendo produzida e armazenada diariamente na forma de e-mails, relatórios, artigos e postagens em redes sociais ou blogs. Processar, organizar ou gerenciar essa grande quantidade de dados textuais manualmente exige um grande esforço humano, sendo muitas vezes impossível de ser realizado. Além disso, há conhecimento embutido nos dados textuais, e analisar e extrair conhecimento de forma manual também torna-se inviável devido à grande quantidade de textos. Com isso, técnicas computacionais que requerem pouca intervenção humana e que permitem a organização, gerenciamento e extração de conhecimento de grandes quantidades de textos têm ganhado destaque nos últimos anos e vêm sendo aplicadas tanto na academia quanto em empresas e organizações. Dentre as técnicas, destaca-se a classificação automática de textos, cujo objetivo é atribuir rótulos (identificadores de categorias pré-definidos) à documentos textuais ou porções de texto. Uma forma viável de realizar a classificação automática de textos é por meio de algoritmos de aprendizado de máquina, que são capazes de aprender, generalizar, ou ainda extrair padrões das classes das coleções com base no conteúdo e rótulos de documentos textuais. O aprendizado de máquina para a tarefa de classificação automática pode ser de 3 tipos: (i) indutivo supervisionado, que considera apenas documentos rotulados para induzir um modelo de classificação e classificar novos documentos; (ii) transdutivo semissupervisionado, que classifica documentos não rotulados de uma coleção com base em documentos rotulados; e (iii) indutivo semissupervisionado, que considera documentos rotulados e não rotulados para induzir um modelo de classificação e utiliza esse modelo para classificar novos documentos. Independente do tipo, é necessário que as coleções de documentos textuais estejam representadas em um formato estruturado para os algoritmos de aprendizado de máquina. Normalmente os documentos são representados em um modelo espaço-vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a um termo ou atributo da coleção de documentos. Algoritmos baseados no modelo espaço-vetorial consideram que tanto os documentos quanto os termos ou atributos são independentes, o que pode degradar a qualidade da classificação. Uma alternativa à representação no modelo espaço-vetorial é a representação em redes, que permite modelar relações entre entidades de uma coleção de textos, como documento e termos. Esse tipo de representação permite extrair padrões das classes que dificilmente são extraídos por algoritmos baseados no modelo espaço-vetorial, permitindo assim aumentar a performance de classificação. Além disso, a representação em redes permite representar coleções de textos utilizando diferentes tipos de objetos bem como diferentes tipos de relações, o que permite capturar diferentes características das coleções. Entretanto, observa-se na literatura alguns desafios para que se possam combinar algoritmos de aprendizado de máquina e representações de coleções de textos em redes para realizar efetivamente a classificação automática de textos. Os principais desafios abordados neste projeto de doutorado são (i) o desenvolvimento de representações em redes que possam ser geradas eficientemente e que também permitam realizar um aprendizado de maneira eficiente; (ii) redes que considerem diferentes tipos de objetos e relações; (iii) representações em redes de coleções de textos de diferentes línguas e domínios; e (iv) algoritmos de aprendizado de máquina eficientes e que façam um melhor uso das representações em redes para aumentar a qualidade da classificação automática. Neste projeto de doutorado foram propostos e desenvolvidos métodos para gerar redes que representem coleções de textos, independente de domínio e idioma, considerando diferentes tipos de objetos e relações entre esses objetos. Também foram propostos e desenvolvidos algoritmos de aprendizado de máquina indutivo supervisionado, indutivo semissupervisionado e transdutivo semissupervisionado, uma vez que não foram encontrados na literatura algoritmos para lidar com determinados tipos de relações, além de sanar a deficiência dos algoritmos existentes em relação à performance e/ou tempo de classificação. É apresentado nesta tese (i) uma extensa avaliação empírica demonstrando o benefício do uso das representações em redes para a classificação de textos em relação ao modelo espaço-vetorial, (ii) o impacto da combinação de diferentes tipos de relações em uma única rede e (iii) que os algoritmos propostos baseados em redes são capazes de superar a performance de classificação de algoritmos tradicionais e estado da arte tanto considerando algoritmos de aprendizado supervisionado quanto semissupervisionado. As soluções propostas nesta tese demonstraram ser úteis e aconselháveis para serem utilizadas em diversas aplicações que envolvam classificação de textos de diferentes domínios, diferentes características ou para diferentes quantidades de documentos rotulados. / A massive amount of textual data, such as e-mails, reports, articles and posts in social networks or blogs, has been generated and stored on a daily basis. The manual processing, organization and management of this huge amount of texts require a considerable human effort and sometimes these tasks are impossible to carry out in practice. Besides, the manual extraction of knowledge embedded in textual data is also unfeasible due to the large amount of texts. Thus, computational techniques which require little human intervention and allow the organization, management and knowledge extraction from large amounts of texts have gained attention in the last years and have been applied in academia, companies and organizations. The tasks mentioned above can be carried out through text automatic classification, in which labels (identifiers of predefined categories) are assigned to texts or portions of texts. A viable way to perform text automatic classification is through machine learning algorithms, which are able to learn, generalize or extract patterns from classes of text collections based on the content and labels of the texts. There are three types of machine learning algorithms for automatic classification: (i) inductive supervised, in which only labeled documents are considered to induce a classification model and this model are used to classify new documents; (ii) transductive semi-supervised, in which all known unlabeled documents are classified based on some labeled documents; and (iii) inductive semi-supervised, in which labeled and unlabeled documents are considered to induce a classification model in order to classify new documents. Regardless of the learning algorithm type, the texts of a collection must be represented in a structured format to be interpreted by the algorithms. Usually, the texts are represented in a vector space model, in which each text is represented by a vector and each dimension of the vector corresponds to a term or feature of the text collection. Algorithms based on vector space model consider that texts, terms or features are independent and this assumption can degrade the classification performance. Networks can be used as an alternative to vector space model representations. Networks allow the representations of relations among the entities of a text collection, such as documents and terms. This type of representation allows the extraction patterns which are not extracted by algorithms based on vector-space model. Moreover, text collections can be represented by networks composed of different types of entities and relations, which provide the extraction of different patterns from the texts. However, there are some challenges to be solved in order to allow the combination of machine learning algorithms and network-based representations to perform text automatic classification in an efficient way. The main challenges addressed in this doctoral project are (i) the development of network-based representations efficiently generated which also allows an efficient learning; (ii) the development of networks which represent different types of entities and relations; (iii) the development of networks which can represent texts written in different languages and about different domains; and (iv) the development of efficient learning algorithms which make a better use of the network-based representations and increase the classification performance. In this doctoral project we proposed and developed methods to represent text collections into networks considering different types of entities and relations and also allowing the representation of texts written in any language or from any domain. We also proposed and developed supervised inductive, semi-supervised transductive and semi-supervised inductive learning algorithms to interpret and learn from the proposed network-based representations since there were no algorithms to handle certain types of relations considered in this thesis. Besides, the proposed algorithms also attempt to obtain a higher classification performance and a faster classification than the existing network-based algorithms. In this doctoral thesis we present (i) an extensive empirical evaluation demonstrating the benefits about the use of network-based representations for text classification, (ii) the impact of the combination of different types of relations in a single network and (iii) that the proposed network-based algorithms are able to surpass the classification performance of traditional and state-of-the-art algorithms considering both supervised and semi-supervised learning. The solutions proposed in this doctoral project have proved to be advisable to be used in many applications involving classification of texts from different domains, areas, characteristics or considering different numbers of labeled documents. Aprendizado de máquina Classificação de textos Heterogeneous networks Label propagation Machine learning Propagação de rótulos Redes heterogêneas Text classification

Search results