Spelling suggestions: "subject:"linguagem batural"" "subject:"linguagem datural""
161 |
Em favor do comum : estudo sobre a formação da 'filosofia da linguagem comum'Rocha, Ronai Pires da January 2013 (has links)
Este trabalho aborda o surgimento do movimento filosófico conhecido como “filosofia da linguagem comum”. O objetivo é oferecer uma nova perspectiva sobre as origens e a formação desse movimento, a partir das críticas de Wittgenstein a alguns divulgadores da ciência no Livro Azul. Apresento a seguir, as principais polêmicas ocorridas entre os que simpatizavam com as ideias de Wittgenstein, nos anos quarenta, e alguns críticos que denunciavam as aparentes fragilidades conceituais dos filósofos que defendiam usos comuns da língua. Nessas polêmicas um dos pontos mais complexos diz respeito às possíveis relações entre uma atitude de consideração à língua natural, a linguagem comum, e uma “defesa do senso comum”. O tema é examinado na convergência de ideias entre Wittgenstein, Norman Malcolm e G. E. Moore. Finalmente, apresentado a polêmica entre Benson Mates e Stanley Cavell sobre o status dos enunciados filosóficos feitos a partir de um apelo à linguagem comum; os dois filósofos preservam na polêmica que mantiveram alguns vestígios da querela iniciada no Livro Azul e com isso fecham um ciclo de discussões. / This study addresses the emergence of the philosophical movement known as "ordinary language philosophy". The aim here is to offer a new perspective on the origins and formation of the movement, considering some criticisms that Wittgenstein adressed to science communicators in the Blue Book. The main controversy occurred among those who sympathized with the ideas of Wittgenstein, in the forties, and critics who denounced the apparent conceptual weaknesses of philosophers who advocated common uses of language. In these controversies one of the most complex subjects concerns the possible relationship between an attitude of consideration to natural language, and a "defense of common sense." The subject is examined in the convergence of ideas among Wittgenstein, Norman Malcolm and G. E. Moore. Finally, I present the controversy between Benson Mates and Stanley Cavell on the status of philosophical statements made from an appeal to ordinary language; the two philosophers preserve the controversy that kept some traces of the quarrel started in the Blue Book and it closes a cycle of discussions.
|
162 |
Redução de dimensionalidade aplicada à diarização de locutor / Dimensionality reduction applied to speaker diarizationSilva, Sérgio Montazzolli January 2013 (has links)
Atualmente existe uma grande quantidade de dados multimídia sendo geradas todos os dias. Estes dados são oriundos de diversas fontes, como transmissões de rádio ou televisão, gravações de palestras, encontros, conversas telefônicas, vídeos e fotos capturados por celular, entre outros. Com isto, nos últimos anos o interesse pela transcrição de dados multimídia tem crescido, onde, no processamento de voz, podemos destacar as áreas de Reconhecimento de Locutor, Reconhecimento de Fala, Diarização de Locutor e Rastreamento de Locutores. O desenvolvimento destas áreas vem sendo impulsionado e direcionado pelo NIST, que periodicamente realiza avaliações sobre o estado-da-arte. Desde 2000, a tarefa de Diarização de Locutor tem se destacado como uma das principáis frentes de pesquisa em transcrição de dados de voz, tendo sido avaliada pelo NIST por diversas vezes na última década. O objetivo desta tarefa é encontrar o número de locutores presentes em um áudio, e rotular seus respectivos trechos de fala, sem que nenhuma informação tenha sido previamente fornecida. Em outras palavras, costuma-se dizer que o objetivo é responder a questão "Quem falou e quando?". Um dos grandes problemas nesta área é se conseguir obter um bom modelo para cada locutor presente no áudio, dada a pouca quantidade de informações e a alta dimensionalidade dos dados. Neste trabalho, além da criação de um Sistema de Diarização de Locutor, iremos tratar este problema mediante à redução de dimensionalidade através de análises estatísticas. Usaremos a Análise de Componentes Principáis, a Análise de Discriminantes Lineares e a recém apresentada Análise de Semi-Discriminantes Lineares. Esta última utiliza um método de inicialização estático, iremos propor o uso de um método dinâmico, através da detecção de pontos de troca de locutor. Também investigaremos o comportamento destas análises sob o uso simultâneo de múltiplas parametrizações de curto prazo do sinal acústico. Os resultados obtidos mostram que é possível preservar - ou até melhorar - o desempenho do sistema, mesmo reduzindo substâncialmente o número de dimensões. Isto torna mais rápida a execução de algoritmos de Aprendizagem de Máquina e reduz a quantidade de memória necessária para armezenar os dados. / Currently, there is a large amount of multimedia data being generated everyday. These data come from various sources, such as radio or television, recordings of lectures and meetings, telephone conversations, videos and photos captured by mobile phone, among others. Because of this, interest in automatic multimedia data transcription has grown in recent years, where, for voice processing, we can highlight the areas of Speaker Recognition, Speech Recognition, Speaker Diarization and Speaker Tracking. The development of such areas is being conducted by NIST, which periodically promotes state-of-the-art evaluations. Since 2000, the task of Speaker Diarization has emerged as one of the main research fields in voice data transcription, having been evaluated by NIST several times in the last decade. The objective of this task is to find the number of speakers in an audio recording, and properly label their speech segments without the use of any training information. In other words , it is said that the goal of Speaker Diarization is to answer the question "Who spoke when?". A major problem in this area is to obtain a good speaker model from the audio, given the limited amount of information available and the high dimensionality of the data. In the current work, we will describe how our Speaker Diarization System was built, and we will address the problem mentioned by lowering the dimensionality of the data through statistical analysis. We will use the Principal Component Analysis, the Linear Discriminant Analysis and the newly presented Fisher Linear Semi-Discriminant Analysis. The latter uses a static method for initialization, and here we propose the use of a dynamic method by the use of a speaker change points detection algorithm. We also investigate the behavior of these data analysis techniques under the simultaneous use of multiple short term features. Our results show that it is possible to maintain - and even improve - the system performance, by substantially reducing the number of dimensions. As a consequence, the execution of Machine Learning algorithms is accelerated while reducing the amount of memory required to store the data.
|
163 |
Identificação e tratamento de expressões multipalavras aplicado à recuperação de informação / Identification and treatment of multiword expressions applied to information retrievalAcosta, Otavio Costa January 2011 (has links)
A vasta utilização de Expressões Multipalavras em textos de linguagem natural requer atenção para um estudo aprofundado neste assunto, para que posteriormente seja possível a manipulação e o tratamento, de forma robusta, deste tipo de expressão. Uma Expressão Multipalavra costuma transmitir precisamente conceitos e ideias que geralmente não podem ser expressos por apenas uma palavra e estima-se que sua frequência, em um léxico de um falante nativo, seja semelhante à quantidade de palavras simples. A maioria das aplicações reais simplesmente ignora ou lista possíveis termos compostos, porém os identifica e trata seus itens lexicais individualmente e não como uma unidade de conceito. Para o sucesso de uma aplicação de Processamento de Linguagem Natural, que envolva processamento semântico, é necessário um tratamento diferenciado para essas expressões. Com o devido tratamento, é investigada a hipótese das Expressões Multipalavras possibilitarem uma melhora nos resultados de uma aplicação, tal como os sistemas de Recuperação de Informação. Os objetivos desse trabalho estão voltados ao estudo de técnicas de descoberta automática de Expressões Multipalavras, permitindo a criação de dicionários, para fins de indexação, em um mecanismo de Recuperação de Informação. Resultados experimentais apontaram melhorias na recuperação de documentos relevantes, ao identificar Expressões Multipalavras e tratá-las como uma unidade de indexação única. / The use of Multiword Expressions (MWE) in natural language texts requires a detailed study, to further support in manipulating and processing, robustly, these kinds of expression. A MWE typically gives concepts and ideas that usually cannot be expressed by a single word and it is estimated that the number of MWEs in the lexicon of a native speaker is similar to the number of single words. Most real applications simply ignore them or create a list of compounds, treating and identifying them as isolated lexical items and not as an individual unit. For the success of a Natural Language Processing (NLP) application, involving semantic processing, adequate treatment for these expressions is required. In this work we investigate the hypothesis that an appropriate identification of Multiword Expressions provide better results in an application, such as Information Retrieval (IR). The objectives of this work are to compare techniques of MWE extraction for creating MWE dictionaries, to be used for indexing purposes in IR. Experimental results show qualitative improvements on the retrieval of relevant documents when identifying MWEs and treating them as a single indexing unit.
|
164 |
Extração multilíngue de termos multipalavra em corpora comparáveisPrestes, Kassius Vargas January 2015 (has links)
Este trabalho investiga técnicas de extração de termos multipalavra a partir de corpora comparáveis, que são conjuntos de textos em duas (ou mais) línguas sobre o mesmo domínio. A extração de termos, especialmente termos multipalavra é muito importante para auxiliar a criação de terminologias, ontologias e o aperfeiçoamento de tradutores automáticos. Neste trabalho utilizamos um corpus comparável português/inglês e queremos encontrar termos e seus equivalentes em ambas as línguas. Para isso começamos com a extração dos termos separadamente em cada língua, utilizando padrões morfossintáticos para identificar os n-gramas (sequências de n palavras) mais prováveis de serem termos importantes para o domínio. A partir dos termos de cada língua, utilizamos o contexto, isto é, as palavras que ocorrem no entorno dos termos para comparar os termos das diferentes línguas e encontrar os equivalentes bilíngues. Tínhamos como objetivos principais neste trabalho fazer a identificação monolíngue de termos, aplicar as técnicas de alinhamento para o português e avaliar os diferentes parâmetros de tamanho e tipo (PoS utilizados) de janela para a extração de contexto. Esse é o primeiro trabalho a aplicar essa metodologia para o Português e apesar da falta de alguns recursos léxicos e computacionais (como dicionários bilíngues e parsers) para essa língua, conseguimos alcançar resultados comparáveis com o estado da arte para trabalhos em Francês/Inglês. / This work investigates techniques for multiword term extraction from comparable corpora, which are sets of texts in two (or more) languages about the same topic. Term extraction, specially multiword terms is very important to help the creation of terminologies, ontologies and the improvement of machine translation. In this work we use a comparable corpora Portuguese/ English and want to find terms and their equivalents in both languages. To do this we start with separate term extraction for each language. Using morphossintatic patterns to identify n-grams (sequences of n words) most likely to be important terms of the domain. From the terms of each language, we use their context, i. e., the words that occurr around the term to compare the terms of different languages and to find the bilingual equivalents. We had as main goals in this work identificate monolingual terms, apply alignment techniques for Portuguese and evaluate the different parameters of size and type (used PoS) of window to the context extraction. This is the first work to apply this methodology to Portuguese and in spite of the lack of lexical and computational resources (like bilingual dictionaries and parsers) for this language, we achieved results comparable to state of the art in French/English.
|
165 |
Uma filosofia do 'qualquer' : a gênese da primeira teoria da denotação de Bertrand RussellCorrêa, Cleber de Souza January 2010 (has links)
Esta dissertação tem um duplo objetivo. O primeiro deles — e o principal — é a tentativa de verificar uma hipótese acerca das razões de Bertrand Russell para conceber a sua primeira teoria da denotação, apresentada em The Principies of Mathematics (PoM). A teoria da denotação é urna explicação excepcional (no contexto da semântica de Russell) do significado de expressões denotativas da linguagem natural, expressões constituídas por alguma das seguintes seis palavras: "todo", "qualquer", "cada", "algum", "um"e "o"(ou suas declinações). Trata-se de apresentar a teoria de Russell como solução para um problema, e a hipótese que proponho é uma segundo a qual esse problema deriva da conjunção de três teses que Russell sustentava à época da publicação de PoM. Argumento que as ideias de Russell acerca da relação entre as expressões da linguagem natural e aquilo que lhes confere significado, da natureza dos constituintes do mundo e da relação entre mente e mundo no intercurso epistêmico formam um conjunto incompatível com a constatação trivial de que sentenças da linguagem natural que contêm expressões denotativas são inteligíveis. As ideias de Russell aludidas acima implicam que a inteligibilidade de uma expressão denotativa — e, de modo geral, de qualquer menor item semanticamente ativo de uma sentença da linguagem natural — requer a satisfação de duas condições: a existência de uma entidade no mundo que tal expressão representa e o vínculo epistêmico de contato entre o sujeito e tal entidade. A satisfação dessa dupla condição acarreta que, ao apreender o signifcado de uma expressão denotativa como, por exemplo, "todos os homens", eu estou em contato com todos os homens, o que, evidentemente, é impossível. Se o contato com aquilo que é o significado de um certo número de expressões denotativas é impossível (como no caso anterior), há que se postular um elemento semântico que não aquelas entidades no mundo, de modo que a inteligibilidade de tais expressões seja preservada. A teoria da denotação é esse postulado, e o elemento que medeia o vínculo entre a expressão denotativa e os objetos no mundo é o conceito denotativo. Pretendo também demonstrar que as ideias de Russell que conduzem ao problema acima noticiado sobrevivem ao abandono da teoria da denotação. Se é verdade que, a partir da publicação de On Denoting (OD), Russell adota uma perspectiva mais "desconfiada" acerca da transparência semântica da linguagem natural — o que implica a recusa da análise proposta em PoM, onde expressões denotativas são expressões às quais se pode legitimamente atribuir significado isoladamente —, também é verdade que Russell (i) continuará a pensar no funcionamento de linguagens logicamente mais nítidas à maneira antiga, segundo a qual o significado das expressões dessas linguagens reduz-se, em última análise, à satisfação das duas condições mencionadas no parágrafo anterior; (ii) permanecerá concebendo os constituintes do mundo, que conferem significado às expressões da linguagem, como entidades objetivas, no sentido de não serem constituídas pela atividade mental; e (iii) que continuará dentro de uma perspectiva epistemológica segundo a qual o vínculo epistêmico entre sujeito e mundo é de contato ou direto, isto é, não-mediado por ideias ou representações. / This thesis has two aims: the first and the main one is to try to verify an hypothesis concerning Bertrand Russell's reasons to frame his first theory of denoting, which he presents in The Principies of Mathematics (PoM). The theory of denoting is an anomalous (within Russell's semantics) account of the meaning of denoting expressions of natural language, expressions formed by any one of the six following words: "all", "any", "every", "some", "a"and "the". I present Russell's theory as a solution to a problem, and according to my hypothesis the problem arises from the conjunction of three theses Russell held at the time he wrote PoM. I argue that Russell's theses concerning (i) the relation between the expressions of natural language and their meanings, (ii) the nature of the constituents of the world and (iii) the epistemic relation between mind and world are incompatible with the statement that sentences containing denoting expressions are intelligible or meaningful. Russell's ideas imply that understanding the meaning of a denoting expression — and understanding the meaning of any of the shortest semantically active expressions of language — requires two conditions to be satisfied: there must exist some entity in the world that the expression stands for and there must be a direct epistemic relation between the mind and this entity. If both conditions are to be satisfied, it must be the case that as I apprehend the meaning of a denoting expression like "all men", for example, I am in a direct epistemic relation, acquaintance, with ali men, which is clearly impossible. If acquaintance with the meaning of a certain class of expressions is impossible (as in the example above), a propositional constituent other than the denoted entity must be posited, such that it will account for the expressions' meaningfulness. Russell's first theory of denoting is grounded in the postulate according to which there are such constituents, the "denoting concepts", bridging the gap between denoting expressions and entities in the world. The second aim of the thesis is to provide evidence of the preservation of the abovementioned ideas in Russell's thought after his abandonment of the theory of denoting. Although it is certainly true that after On Denoting (OD) Russell grows increasingly suspicious about the "transparency"of natural language — which implies the departure from the PoM style of semantic analysis, according to which denoting expressions have meaning in isolation it is nevertheless true that Russell keeps thinking that (i) the meaning of an expression in a logically adequate language is secured by the satisfaction of the two conditions mentioned in the preceding paragraph; (ii) the constituents of the world are objective, in the sense that they are not the outcome of the "work of the mind"; and (iii) the basic epistemic relation between mind and world is that of acquaintance, i. e., it is not mediated by ideas or representations.
|
166 |
Proposta de dicionário informatizado analógico de língua portuguesaVilarinho, Michelle Machado de Oliveira 17 December 2013 (has links)
Tese (doutorado)—Universidade de Brasília, Instituto de Letras, Departamento de Linguística, Português e Línguas Clássicas, Programa de Pós-Graduação em Linguística, 2013. / Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2014-02-11T14:34:39Z
No. of bitstreams: 1
2013_MichelleMachadoOliveiraVilarinho.pdf: 6148349 bytes, checksum: 038e20997471ee07fac071f2fdc69721 (MD5) / Approved for entry into archive by Guimaraes Jacqueline(jacqueline.guimaraes@bce.unb.br) on 2014-02-12T09:55:29Z (GMT) No. of bitstreams: 1
2013_MichelleMachadoOliveiraVilarinho.pdf: 6148349 bytes, checksum: 038e20997471ee07fac071f2fdc69721 (MD5) / Made available in DSpace on 2014-02-12T09:55:29Z (GMT). No. of bitstreams: 1
2013_MichelleMachadoOliveiraVilarinho.pdf: 6148349 bytes, checksum: 038e20997471ee07fac071f2fdc69721 (MD5) / O tema desta tese se insere na linha de pesquisa Léxico e Terminologia, desenvolvida no Centro de Estudos Lexicais e Terminológicos (Centro Lexterm), da Universidade de Brasília. O objeto de estudo é o dicionário analógico, entendido como um tipo de repertório
lexicográfico de caráter onomasiológico, no qual os lexemas são organizados partindo das ideias ou dos conceitos para chegar às unidades lexicais. Os lexemas são agrupados em um mesmo verbete por possuírem identidade de relações. A motivação para a realização deste trabalho é identificar como as analogias podem ser delimitadas no dicionário analógico, uma vez que constatamos que os dicionários analógicos não possuem critérios claros para o estabelecimento das relações analógicas na composição dos verbetes. O objetivo principal
desta pesquisa é a criação de uma proposta de Dicionário Informatizado Analógico de Língua
Portuguesa, por meio do uso de ferramentas de Processamento das Línguas Naturais (PLN). A metodologia que seguimos para a análise do Dicionário analógico da língua portuguesa de Azevedo (2010), Le nouveau Petit Robert: dictionnaire alphabétique et analogique de la
langue française de Robert (2010), Le Dictionnaire des Analogies de Pechoin (2009) e Dizionario Analogico della lingua italiana de Garzanti (2011) foi o preenchimento do roteiro para avaliação de dicionários de língua comum e de dicionários ou glossários científicos e
técnicos de Faulstich (1998, p. 234; 2011, p.183-185). Por meio das informações recolhidas, foi possível identificar a estrutura de organização dos dicionários analógicos e verificar que a falta de critérios desses dicionários levam as analogias a serem apresentadas com vagueza. A
aplicação da metodologia proporcionou a seleção de lexemas para compor os verbetes transporte e vestuário constituintes do modelo de Dicionário Informatizado Analógico de Língua Portuguesa postulado nesta pesquisa. Ademais, com aplicação dos conceitos da
Versão Ampliada da Teoria dos Protótipos de Kleiber (1990) e da Semântica de Frames de Fillmore (1977), mais lexemas foram inseridos nos verbetes propostos. Para elaborar o modelo de dicionário postulado, adotamos a proposta metodológica para elaboração de
léxicos, dicionários e glossários de Faulstich (2001). Como resultado desta pesquisa, o modelo de dicionário analógico proposto, constitui-se de parte analógica e alfabética. A parte analógica será organizada por campos lexicais e a parte alfabética será semelhante a um
dicionário de língua comum. O verbete da parte analógica possui definição e os demais lexemas são apresentados pelas relações semânticas: sinonímia, hiperonímia e hiponímia, holonímia e meronímia, e a relação associativa. O critério norteador da ligação associativa do dicionário analógico deve ter relação com, pelo menos, uma das entidades do significado: sentido, dimensão extensional, dimensão intencional e conceito. A relação associativa pode
ser dividida em subclasses, com a finalidade de agrupar os conceitos com mais proximidade semântica. Como a aquisição do léxico ocorre de modo associativo, o Dicionário Informatizado Analógico de Língua Portuguesa – DIALP– pode ser usado como uma estratégia para aprendizagem de língua com vistas à aquisição do léxico. Como não existe
modelo de dicionário analógico direcionado aos falantes de português como L2 ou como LE,
a proposta do DIALP preenche parte da lacuna da Lexicografia, já que pode ser usado como
ferramenta de aprendizagem. ______________________________________________________________________________ ABSTRACT / The topic of this dissertation is part of the research area known as Terminology and Lexical Studies, developed at the Center for Terminological and Lexical Studies (LexTerm Center), at the University of Brasília. The object of study is the analogical dictionary, understood as a kind of lexicographic inventory, onomasiological in nature, in which lexemes are organized from ideas or concepts to lexical units. Lexemes are grouped together in the same entry by
virtue of displaying identity relations. The motivation behind this work is to understand how analogies can be delimited in an analogical dictionary, once we observed that analogical dictionaries do not exhibit clear criteria for establishing analogical relations. The main aim of this research is to present a proposal for an Informatized Analogical Portuguese Dictionary, by using Natural Language Processing (NLP) tools. In analyzing the following dictionaries: Dicionário analógico da língua portuguesa de Azevedo (2010), Le nouveau Petit Robert:
dictionnaire alphabétique et analogique de la langue française de Robert (2010), Le Dictionnaire des Analogies de Pechoin (2009) and Dizionario Analogico della lingua italiana de Garzanti (2011), the methodology involved filling out a survey for the evaluation of both general language dictionaries and scientific and technical dictionaries and glossaries, as proposed by Faulstich (1998, p. 234; 2011, p.183-185). Based on the collected information, it
was possible to identify the analogical dictionaries’ organizational structure and to verify that the lack of criteria in these dictionaries lead to vagueness in the presentation of analogies. The application of this methodology enabled us to select lexemes to compose the entries for transportation and clothing, both parts of the model for the Informatized Analogical Portuguese Dictionary proposed in this research. Moreover, based on the application of concepts from Kleiber’s (1990) Extended Version of Prototype Theory and Fillmore’s Frame Semantics, further lexemes were added to the proposed entries. In order to formulate the
model for the proposed dictionary, we adopted the methodological proposal for the elaboration of lexicons, dictionaries and glossaries, as postulated by Faulstich (2001). As a
result of this research, the proposed model for the analogical dictionary consists of both an analogical and an alphabetical part. The analogical part is organized by lexical fields, and the
alphabetical part is similar to those of a general language dictionary. In the analogical part of the dictionary, the entry is comprised of a definition, and the other lexemes are presented based on the semantic relations they establish: synonyms, hyperonyms and hyponyms,
holonyms and meronyms, and associative relations. The main criterion for the associative relation in the analogical dictionary has to do with least one of the following meaning entities: sense, extensional dimension, intentional dimension and concept. The associative relation can
be divided into subclasses, in order to group together concepts with greater semantic relatedness. Assuming that lexical acquisition happens through association, the Informatized Analogical Portuguese Dictionary can be used as a strategy of language learning, aiming at
lexical acquisition. Since there are no models for an analogical dictionary for speakers of Portuguese as a second language or as a foreign language, the present proposal fills this gap in the Lexicography field, because it can be used as a learning tool.
|
167 |
Modelo para sumarização computacional de textos científicos. / Scientific text computational summarization model.Alejandro Tarafa Guzmán 07 March 2017 (has links)
Neste trabalho, propõe-se um modelo para a sumarização computacional extrativa de textos de artigos técnico-cientificos em inglês. A metodologia utilizada baseia-se em um módulo de avaliação de similaridade semântica textual entre sentenças, desenvolvido especialmente para integrar o modelo de sumarização. A aplicação deste módulo de similaridade à extração de sentenças é feita por intermédio do conceito de uma janela deslizante de comprimento variável, que facilita a detecção de equivalência semântica entre frases do artigo e aquelas de um léxico de frases típicas, atribuíveis a uma estrutura básica dos artigos. Os sumários obtidos em aplicações do modelo apresentam qualidade razoável e utilizável, para os efeitos de antecipar a informação contida nos artigos. / In this work a model is proposed for the computational extractive summarization of scientific papers in English. Its methodology is based on a semantic textual similarity module, for the evaluation of equivalence between sentences, specially developed to integrate the summarization model. A variable width window facilitates the application of this module to detect semantic similarity between phrases in the article and those in a basic structure, assignable to the articles. Practical summaries obtained with the model show usable quality to anticipate the information found in the papers.
|
168 |
Agrupamento semântico de aspectos para mineração de opinião / Semantic clustering of aspects for opinion miningFrancielle Alves Vargas 29 November 2017 (has links)
Com o rápido crescimento do volume de informações opinativas na web, extrair e sintetizar conteúdo subjetivo e relevante da rede é uma tarefa prioritária e que perpassa vários domínios da sociedade: político, social, econômico, etc. A organização semântica desse tipo de conteúdo, é uma tarefa importante no contexto atual, pois possibilita um melhor aproveitamento desses dados, além de benefícios diretos tanto para consumidores quanto para organizações privadas e governamentais. A área responsável pela extração, processamento e apresentação de conteúdo subjetivo é a mineração de opinião, também chamada de análise de sentimentos. A mineração de opinião é dividida em níveis de granularidade de análise: o nível do documento, o nível da sentença e o nível de aspectos. Neste trabalho, atuou-se no nível mais fino de granularidade, a mineração de opinião baseada em aspectos, que consiste de três principais tarefas: o reconhecimento e agrupamento de aspectos, a extração de polaridade e a sumarização. Aspectos são propriedades do alvo da opinião e podem ser implícitos e explícitos. Reconhecer e agrupar aspectos são tarefas críticas para mineração de opinião, no entanto, também são desafiadoras. Por exemplo, em textos opinativos, usuários utilizam termos distintos para se referir a uma mesma propriedade do objeto. Portanto, neste trabalho, atuamos no problema de agrupamento de aspectos para mineração de opinião. Para resolução deste problema, optamos por uma abordagem baseada em conhecimento linguístico. Investigou-se os principais fenômenos intrínsecos e extrínsecos em textos opinativos a fim de encontrar padrões linguísticos e insumos acionáveis para proposição de métodos automáticos de agrupamento de aspectos correlatos para mineração de opinião. Nós propomos, implementamos e comparamos seis métodos automáticos baseados em conhecimento linguístico para a tarefa de agrupamento de aspectos explícitos e implícitos. Um método inédito foi proposto para essa tarefa que superou os demais métodos implementados, especialmente o método baseado em léxico de sinônimos (baseline) e o modelo estatístico com base em word embeddings. O método proposto também não é dependente de uma língua ou de um domínio, no entanto, focamos no Português do Brasil e no domínio de produtos da web. / With the growing volume of opinion information on the web, extracting and synthesizing subjective and relevant content from the web has to be shown a priority task that passes through different society domains, such as political, social, economical, etc. The semantic organization of this type of content is very important nowadays since it allows a better use of those data, as well as it benefits customers and both private and governmental organizations. The area responsible for extracting, processing and presenting the subjective content is opinion mining, also known as sentiment analysis. Opinion mining is divided into granularity levels: document, sentence and aspect levels. In this research, the deepest level of granularity was studied, the opinion mining based on aspects, which consists of three main tasks: aspect recognition and clustering, polarity extracting, and summarization. Aspects are the properties and parts of the evaluated object and it may be implicit or explicit. Recognizing and clustering aspects are critical tasks for opinion mining; nonetheless, they are also challenging. For example, in reviews, users use distinct terms to refer to the same object property. Therefore, in this work, the aspect clustering task was the focus. To solve this problem, a linguistic approach was chosen. The main intrinsic and extrinsic phenomena in reviews were investigated in order to find linguistic standards and actionable inputs, so it was possible to propose automatic methods of aspect clustering for opinion mining. In addition, six automatic linguistic-based methods for explicit and implicit aspect clustering were proposed, implemented and compared. Besides that, a new method was suggested for this task, which surpassed the other implemented methods, specially the synonym lexicon-based method (baseline) and a word embeddings approach. This suggested method is also language and domain independent and, in this work, was tailored for Brazilian Portuguese and products domain.
|
169 |
Investigando a influência de fatores linguísticos na organização lexical de verbos / Investigating the influence of linguistic factors in the lexical organization of verbsGermann, Daniel Cerato January 2010 (has links)
Esta dissertação utiliza simulações computacionais visando investigar a influência de alguns fatores lingüísticos na organização lexical de verbos, analisando os processos de aquisição e uso. Os fatores testados são: freqüência de observação na linguagem, polissemia e complexidade sintática. Os dados utilizados foram obtidos por meio de tarefas psicolingüísticas de nomeação de ações, realizadas por crianças e adultos (falantes do Português brasileiro), posteriormente representados como grafos. Com base nos fatores lingüísticos, foram formuladas hipóteses relativas ao desenvolvimento da língua, testadas por meio de simulações computacionais denominadas ‘involuções’. Os testes incluem métricas da teoria dos grafos e medidas de similaridade de conjuntos (coeficiente de Jaccard e suas componentes). Os resultados obtidos apontam para uma confirmação das hipóteses formuladas. Adicionalmente, permitiram verificar algumas características do desenvolvimento lingüístico, como o aumento do vocabulário e uma progressiva especialização. / This dissertation uses computational simulations designed to investigate the influence of three linguistic factors in the lexical organization of verbs, analyzing the process of acquisition and use. The tested factors are: frequency of observation in the language, polysemy and syntactic complexity. The data used were obtained from psycholinguistic action naming tasks performed by children and adults (speakers of Brazilian Portuguese), and subsequently represented as graphs. Based on linguistic factors, hypotheses were formulated concerning the development of language, tested through simulations called ‘involutions’. Tests include graph theory metrics and set similarity measures (Jaccard’s coefficient and its components). Results suggest a confirmation of the given hypotheses. Additionally, allowed verification of some language development features, such as vocabulary growth and a progressive specialization.
|
170 |
Uma filosofia do 'qualquer' : a gênese da primeira teoria da denotação de Bertrand RussellCorrêa, Cleber de Souza January 2010 (has links)
Esta dissertação tem um duplo objetivo. O primeiro deles — e o principal — é a tentativa de verificar uma hipótese acerca das razões de Bertrand Russell para conceber a sua primeira teoria da denotação, apresentada em The Principies of Mathematics (PoM). A teoria da denotação é urna explicação excepcional (no contexto da semântica de Russell) do significado de expressões denotativas da linguagem natural, expressões constituídas por alguma das seguintes seis palavras: "todo", "qualquer", "cada", "algum", "um"e "o"(ou suas declinações). Trata-se de apresentar a teoria de Russell como solução para um problema, e a hipótese que proponho é uma segundo a qual esse problema deriva da conjunção de três teses que Russell sustentava à época da publicação de PoM. Argumento que as ideias de Russell acerca da relação entre as expressões da linguagem natural e aquilo que lhes confere significado, da natureza dos constituintes do mundo e da relação entre mente e mundo no intercurso epistêmico formam um conjunto incompatível com a constatação trivial de que sentenças da linguagem natural que contêm expressões denotativas são inteligíveis. As ideias de Russell aludidas acima implicam que a inteligibilidade de uma expressão denotativa — e, de modo geral, de qualquer menor item semanticamente ativo de uma sentença da linguagem natural — requer a satisfação de duas condições: a existência de uma entidade no mundo que tal expressão representa e o vínculo epistêmico de contato entre o sujeito e tal entidade. A satisfação dessa dupla condição acarreta que, ao apreender o signifcado de uma expressão denotativa como, por exemplo, "todos os homens", eu estou em contato com todos os homens, o que, evidentemente, é impossível. Se o contato com aquilo que é o significado de um certo número de expressões denotativas é impossível (como no caso anterior), há que se postular um elemento semântico que não aquelas entidades no mundo, de modo que a inteligibilidade de tais expressões seja preservada. A teoria da denotação é esse postulado, e o elemento que medeia o vínculo entre a expressão denotativa e os objetos no mundo é o conceito denotativo. Pretendo também demonstrar que as ideias de Russell que conduzem ao problema acima noticiado sobrevivem ao abandono da teoria da denotação. Se é verdade que, a partir da publicação de On Denoting (OD), Russell adota uma perspectiva mais "desconfiada" acerca da transparência semântica da linguagem natural — o que implica a recusa da análise proposta em PoM, onde expressões denotativas são expressões às quais se pode legitimamente atribuir significado isoladamente —, também é verdade que Russell (i) continuará a pensar no funcionamento de linguagens logicamente mais nítidas à maneira antiga, segundo a qual o significado das expressões dessas linguagens reduz-se, em última análise, à satisfação das duas condições mencionadas no parágrafo anterior; (ii) permanecerá concebendo os constituintes do mundo, que conferem significado às expressões da linguagem, como entidades objetivas, no sentido de não serem constituídas pela atividade mental; e (iii) que continuará dentro de uma perspectiva epistemológica segundo a qual o vínculo epistêmico entre sujeito e mundo é de contato ou direto, isto é, não-mediado por ideias ou representações. / This thesis has two aims: the first and the main one is to try to verify an hypothesis concerning Bertrand Russell's reasons to frame his first theory of denoting, which he presents in The Principies of Mathematics (PoM). The theory of denoting is an anomalous (within Russell's semantics) account of the meaning of denoting expressions of natural language, expressions formed by any one of the six following words: "all", "any", "every", "some", "a"and "the". I present Russell's theory as a solution to a problem, and according to my hypothesis the problem arises from the conjunction of three theses Russell held at the time he wrote PoM. I argue that Russell's theses concerning (i) the relation between the expressions of natural language and their meanings, (ii) the nature of the constituents of the world and (iii) the epistemic relation between mind and world are incompatible with the statement that sentences containing denoting expressions are intelligible or meaningful. Russell's ideas imply that understanding the meaning of a denoting expression — and understanding the meaning of any of the shortest semantically active expressions of language — requires two conditions to be satisfied: there must exist some entity in the world that the expression stands for and there must be a direct epistemic relation between the mind and this entity. If both conditions are to be satisfied, it must be the case that as I apprehend the meaning of a denoting expression like "all men", for example, I am in a direct epistemic relation, acquaintance, with ali men, which is clearly impossible. If acquaintance with the meaning of a certain class of expressions is impossible (as in the example above), a propositional constituent other than the denoted entity must be posited, such that it will account for the expressions' meaningfulness. Russell's first theory of denoting is grounded in the postulate according to which there are such constituents, the "denoting concepts", bridging the gap between denoting expressions and entities in the world. The second aim of the thesis is to provide evidence of the preservation of the abovementioned ideas in Russell's thought after his abandonment of the theory of denoting. Although it is certainly true that after On Denoting (OD) Russell grows increasingly suspicious about the "transparency"of natural language — which implies the departure from the PoM style of semantic analysis, according to which denoting expressions have meaning in isolation it is nevertheless true that Russell keeps thinking that (i) the meaning of an expression in a logically adequate language is secured by the satisfaction of the two conditions mentioned in the preceding paragraph; (ii) the constituents of the world are objective, in the sense that they are not the outcome of the "work of the mind"; and (iii) the basic epistemic relation between mind and world is that of acquaintance, i. e., it is not mediated by ideas or representations.
|
Page generated in 0.0731 seconds