Spelling suggestions: "subject:"semântico"" "subject:"semântica""
21 |
SlimRank: um modelo de seleção de respostas para perguntas de consumidores / SlimRank: an answer selection model for consumer questionsCriscuolo, Marcelo 16 November 2017 (has links)
A disponibilidade de conteúdo gerado por usuários em sites colaborativos de perguntas e respostas tem impulsionado o avanço de modelos de Question Answering (QA) baseados em reúso. Essa abordagem pode ser implementada por meio da tarefa de seleção de respostas (Answer Selection, AS), que consiste em encontrar a melhor resposta para uma dada pergunta em um conjunto pré-selecionado de respostas candidatas. Nos últimos anos, abordagens baseadas em vetores distribucionais e em redes neurais profundas, em particular em redes neurais convolutivas (CNNs), têm apresentado bons resultados na tarefa de AS. Contudo, a maioria dos modelos é avaliada sobre córpus de perguntas objetivas e bem formadas, contendo poucas palavras. Raramente estruturas textuais complexas são consideradas. Perguntas de consumidores, comuns em sites colaborativos, podem ser bastante complexas. Em geral, são representadas por múltiplas frases inter-relacionadas, que apresentam pouca objetividade, vocabulário leigo e, frequentemente, contêm informações em excesso. Essas características aumentam a dificuldade da tarefa de AS. Neste trabalho, propomos um modelo de seleção de respostas para perguntas de consumidores. São contribuições deste trabalho: (i) uma definição para o objeto de pesquisa perguntas de consumidores; (ii) um novo dataset desse tipo de pergunta, chamado MilkQA; e (iii) um modelo de seleção de respostas, chamado SlimRank. O MilkQA foi criado a partir de um arquivo de perguntas e respostas coletadas pelo serviço de atendimento de uma renomada instituição pública de pesquisa agropecuária (Embrapa). Anotadores guiados pela definição de perguntas de consumidores proposta neste trabalho selecionaram 2,6 mil pares de perguntas e respostas contidas nesse arquivo. A análise dessas perguntas levou ao desenvolvimento do modelo SlimRank, que combina representação de textos na forma de grafos semânticos com arquiteturas de CNNs. O SlimRank foi avaliado no dataset MilkQA e comparado com baselines e dois modelos do estado da arte. Os resultados alcançados pelo SlimRank foram bastante superiores aos resultados dos baselines, e compatíveis com resultados de modelos do estado da arte; porém, com uma significativa redução do tempo computacional. Acreditamos que a representação de textos na forma de grafos semânticos combinada com CNNs seja uma abordagem promissora para o tratamento dos desafios impostos pelas características singulares das perguntas de consumidores. / The increasing availability of user-generated content in community Q&A sites has led to the advancement of Question Answering (QA) models that relies on reuse. Such approach can be implemented by the task of Answer Selection (AS), which consists in finding the best answer for a given question in a pre-selected pool candidate answers. Recently, good results have been achieved by AS models based on distributed word vectors and deep neural networks that are used to rank answers for a given question. Convolutinal Neural Networks (CNNs) are particularly succesful in this task. Most of the AS models are built over datasets that contains only short and objective questions expressed as interrogative sentences containing few words. Complex text structures are rarely considered. However, consumer questions may be really complex. This kind of question is the main form of seeking information in community Q&A sites, forums and customer services. Consumer questions have characteristics that increase the difficulty of the answer selection task. In general, they are composed of multiple interrelated sentences that are usually subjective, and contains laymans terms and excess of details that may be not particulary relevant. In this work, we propose an answer selection model for consumer questions. Specifically the contributions of this work are: (i) a definition for the consumer questions research object; (ii) a new dataset of this kind of question, which we call MilkQA; and (iii) an answer selection model, named SlimRank. MilkQA was created from an archive of questions and answers collected by the customer service of a well-known public agricultural research institution (Embrapa). It contains 2.6 thousand question-answer pairs selected and anonymized by human annotators guided by the definition proposed in this work. The analysis of questions in MilkQA led to the development of SlimRank, which combines semantic textual graphs with CNN architectures. SlimRank was evaluated on MilkQA and compared to baselines and two state-of-the-art answer selection models. The results achieved by our model were much higher than the baselines and comparable to the state of the art, but with significant reduction of computational time. Our results suggest that combining semantic text graphs with convolutional neural networks are a promising approach for dealing with the challenges imposed by consumer questions unique characteristics.
|
22 |
Anotação automática semissupervisionada de papéis semânticos para o português do Brasil / Automatic semi-supervised semantic role labeling for Brazilian PortugueseManchego, Fernando Emilio Alva 22 January 2013 (has links)
A anotac~ao de papeis sem^anticos (APS) e uma tarefa do processamento de lngua natural (PLN) que permite analisar parte do signicado das sentencas atraves da detecc~ao dos participantes dos eventos (e dos eventos em si) que est~ao sendo descritos nelas, o que e essencial para que os computadores possam usar efetivamente a informac~ao codicada no texto. A maior parte das pesquisas desenvolvidas em APS tem sido feita para textos em ingl^es, considerando as particularidades gramaticais e sem^anticas dessa lngua, o que impede que essas ferramentas e resultados sejam diretamente transportaveis para outras lnguas como o portugu^es. A maioria dos sistemas de APS atuais emprega metodos de aprendizado de maquina supervisionado e, portanto, precisa de um corpus grande de senten cas anotadas com papeis sem^anticos para aprender corretamente a tarefa. No caso do portugu^es do Brasil, um recurso lexical que prov^e este tipo de informac~ao foi recentemente disponibilizado: o PropBank.Br. Contudo, em comparac~ao com os corpora para outras lnguas como o ingl^es, o corpus fornecido por este projeto e pequeno e, portanto, n~ao permitiria que um classicador treinado supervisionadamente realizasse a tarefa de anotac~ao com alto desempenho. Para tratar esta diculdade, neste trabalho emprega-se uma abordagem semissupervisionada capaz de extrair informac~ao relevante tanto dos dados anotados disponveis como de dados n~ao anotados, tornando-a menos dependente do corpus de treinamento. Implementa-se o algoritmo self-training com modelos de regress~ ao logstica (ou maxima entropia) como classicador base, para anotar o corpus Bosque (a sec~ao correspondente ao CETENFolha) da Floresta Sinta(c)tica com as etiquetas do PropBank.Br. Ao algoritmo original se incorpora balanceamento e medidas de similaridade entre os argumentos de um verbo especco para melhorar o desempenho na tarefa de classicac~ao de argumentos. Usando um benchmark de avaliac~ao implementado neste trabalho, a abordagem semissupervisonada proposta obteve um desempenho estatisticamente comparavel ao de um classicador treinado supervisionadamente com uma maior quantidade de dados anotados (80,5 vs. 82,3 de \'F IND. 1\', p > 0, 01) / Semantic role labeling (SRL) is a natural language processing (NLP) task able to analyze part of the meaning of sentences through the detection of the events they describe and the participants involved, which is essential for computers to eectively understand the information coded in text. Most of the research carried out in SRL has been done for texts in English, considering the grammatical and semantic particularities of that language, which prevents those tools and results to be directly transported to other languages such as Portuguese. Most current SRL systems use supervised machine learning methods and require a big corpus of sentences annotated with semantic roles in order to learn how to perform the task properly. For Brazilian Portuguese, a lexical resource that provides this type of information has recently become available: PropBank.Br. However, in comparison with corpora for other languages such as English, the corpus provided by that project is small and it wouldn\'t allow a supervised classier to perform the labeling task with good performance. To deal with this problem, in this dissertation we use a semi-supervised approach capable of extracting relevant information both from annotated and non-annotated data available, making it less dependent on the training corpus. We implemented the self-training algorithm with logistic regression (or maximum entropy) models as base classier to label the corpus Bosque (section CETENFolha) from the Floresta Sintá(c)tica with the PropBank.Br semantic role tags. To the original algorithm, we incorporated balancing and similarity measures between verb-specic arguments so as to improve the performance of the system in the argument classication task. Using an evaluation benchmark implemented in this research project, the proposed semi-supervised approach has a statistical comparable performance as the one of a supervised classier trained with more annotated data (80,5 vs. 82,3 de \'F IND. 1\', p > 0, 01).
|
23 |
Gramaticalização de combinação de orações: estruturas para + infinitivo no português / Grammaticalization of combined sentences: estructures with + infinitive in portugueseSartin, Elisangela Baptista de Godoy 29 August 2008 (has links)
Esta dissertação de mestrado apresenta a análise do grau de coesão entre as orações combinadas na estrutura com a seguinte composição: a subordinada é não-finita e tem a preposição para encabeçando a oração. Numa abordagem sincrônica, pesquisamos o comportamento funcional dessa estrutura na modalidade falada e escrita por meio de critérios formais de controle com o fim de apreender a motivação de cada interpretação. A estrutura para + infinitivo tem sido usada em outros contextos semânticos que não o de finalidade. Esses sentidos outros têm demonstrado um caráter mais abstratizado e, em alguns casos, um entrelaçamento sintático bastante acentuado com a oração-núcleo. Essa constatação fez com que fosse possível postular a instauração de um processo de intensa gramaticalização. Tendo em vista que nem todas as orações configuradas neste tipo de padrão estrutural sinalizam finalidade no português do Brasil, procedo à identificação dos padrões funcionais, que denunciam a língua em sua dinamicidade gerando funções inovadoras a fim de atender às necessidades comunicativas dos falantes. Esta dissertação apresenta-se como uma contribuição da ciência lingüística ao trabalho pedagógico, em um diálogo bastante interessante por envolver a percepção do aluno, a decisão pedagógica do professor e a discussão teórica da lingüística contemporânea. / This dissertation mastering work presents the analysis of the degree cohesion among combined sentences in their structure with the following composition: the subordinate is non-finite and it has the preposition para (to) heading it. In a synchronous approach, we search the functional behavior of this structure in the spoken and written modality by means of formal criteria of control in order to apprehend the motivation of each interpretation. The structure to + infinitive has been used in other semantic contexts with several different meanings from the purpose meaning (the initial one). These other meanings have demonstrated a more abstraticized feature and, in some cases, a syntactic blending sufficiently accented with the main sentence. This confirmation has given the possibility of claiming the instauration of an intense grammaticalization process. There is a view in which not all the sentences that are configured in this structural standard type sign to the purpose semantic feature in the Brazilian Portuguese. So I proceed to the identification of the functional standards that denounce the language in its dynamicity, it also generates innovative functions in order to embody the communicative needs of the speakers. This dissertation is presented as a contribution from the linguistic science to the pedagogical work, in a really interesting dialogue that involves the student perception, the pedagogical teacher decision and the linguistic contemporary theoretical discussion.
|
24 |
Detecção interprocedimental de clones semânticos / Interprocedural semantic clone detectionFelipe de Alencar Albuquerque 08 November 2013 (has links)
Fragmentos de código duplicado, ou clones, são inseridos em aplicativos por serem uma maneira simples de reúso, dentre outros motivos. Clones são, portanto, comuns em programas. No entanto, a atividade de manutenção pode ficar custosa se o código do programa analisado possuir muitos clones, principalmente os semânticos, os quais podem possuir códigos distintos, mas realizam tarefas similares. Nesse sentido, a utilização de ferramentas que automatizam a tarefa de detectar clones é desejável. Ferramentas atuais de detecção de clones semânticos são capazes de identificar esses clones com altas taxas de acerto. No entanto, elas não são capazes de identificar clones semânticos considerando também os fluxos dos procedimentos ou funções que são invocados dentro dos fragmentos de código comparados. Essa limitação pode levar as ferramentas a indicarem clones semânticos falso positivos. Este trabalho apresenta uma técnica de detecção de clones semânticos que considera as chamadas de procedimentos presentes nos programas. Essa técnica apresentou uma taxa de acertos 2,5% maior do que técnicas convencionais de acordo com um benchmark, também desenvolvido neste trabalho. Esse benchmark foi criado com base nas classificações de clones fornecidas por programadores da indústria e da academia. A técnica interprocedimental de detecção de clones semânticos pode ser utilizada para evolução, manutenção, refatoração e entendimento de programas. / Fragments of duplicated code, or clones, are embedded in applications as they are a simple way to reuse code, among other reasons. Clones are therefore common in programs. However, the maintenance activity may be costly if the program code has many clones to analyze, specially semantic clones, which are semantically similar but may have different syntax. In this regard, the use of tools that automate the task of detecting clones is desirable. Current tools for detecting semantic clones are able to identify those clones with high hit rates. However, they are not able to detect semantic clones also considering the flow of procedures or functions that are invoked within the compared code fragments. This limitation can lead the tools to indicate false positive semantic clones. This paper presents a technique that takes into account the procedure calls in programs to detect semantic clones. This technique showed a 2.5% higher hit rate than conventional techniques according to a benchmark also developed in this work. This benchmark was created based on evaluations provided by programmers from academic and industrial settings. The interprocedural semantic clone detection technique can be used for evolution, maintenance, refactoring and understanding of programs.
|
25 |
Detecção interprocedimental de clones semânticos / Interprocedural semantic clone detectionAlbuquerque, Felipe de Alencar 08 November 2013 (has links)
Fragmentos de código duplicado, ou clones, são inseridos em aplicativos por serem uma maneira simples de reúso, dentre outros motivos. Clones são, portanto, comuns em programas. No entanto, a atividade de manutenção pode ficar custosa se o código do programa analisado possuir muitos clones, principalmente os semânticos, os quais podem possuir códigos distintos, mas realizam tarefas similares. Nesse sentido, a utilização de ferramentas que automatizam a tarefa de detectar clones é desejável. Ferramentas atuais de detecção de clones semânticos são capazes de identificar esses clones com altas taxas de acerto. No entanto, elas não são capazes de identificar clones semânticos considerando também os fluxos dos procedimentos ou funções que são invocados dentro dos fragmentos de código comparados. Essa limitação pode levar as ferramentas a indicarem clones semânticos falso positivos. Este trabalho apresenta uma técnica de detecção de clones semânticos que considera as chamadas de procedimentos presentes nos programas. Essa técnica apresentou uma taxa de acertos 2,5% maior do que técnicas convencionais de acordo com um benchmark, também desenvolvido neste trabalho. Esse benchmark foi criado com base nas classificações de clones fornecidas por programadores da indústria e da academia. A técnica interprocedimental de detecção de clones semânticos pode ser utilizada para evolução, manutenção, refatoração e entendimento de programas. / Fragments of duplicated code, or clones, are embedded in applications as they are a simple way to reuse code, among other reasons. Clones are therefore common in programs. However, the maintenance activity may be costly if the program code has many clones to analyze, specially semantic clones, which are semantically similar but may have different syntax. In this regard, the use of tools that automate the task of detecting clones is desirable. Current tools for detecting semantic clones are able to identify those clones with high hit rates. However, they are not able to detect semantic clones also considering the flow of procedures or functions that are invoked within the compared code fragments. This limitation can lead the tools to indicate false positive semantic clones. This paper presents a technique that takes into account the procedure calls in programs to detect semantic clones. This technique showed a 2.5% higher hit rate than conventional techniques according to a benchmark also developed in this work. This benchmark was created based on evaluations provided by programmers from academic and industrial settings. The interprocedural semantic clone detection technique can be used for evolution, maintenance, refactoring and understanding of programs.
|
26 |
O comportamento sintático-semântico da categoria gramatical de sujeito em títulos jornalísticos: uma abordagem funcionalistaAtaíde, Cleber Alves de 08 September 2008 (has links)
Made available in DSpace on 2015-05-14T12:43:20Z (GMT). No. of bitstreams: 1
parte1.pdf: 3052797 bytes, checksum: 5da04d0969960baeaa2f87486c8c84e1 (MD5)
Previous issue date: 2008-09-08 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / This research proposes a study of the syntactic- semantic dimensions of the lexical items
that, syntactically, exercise a function of subject in journalistic titles. Still it investigates the
configuration of verbal constructions, observing its pragmatic- ideological motivations
subjacent to the journalistic context. Our investigation stars from the principle that, in the
titles sentence type ( SVO- SV), for example Justice limits liberty of the supporters, the
position of the subject is occupied by expressions that assume metonymically the paper of
controller of the dynamic process expressed by the verb, as in these enunciates there are a
kind of configuration of sense of the subject, as its main characteristic prototypical
characteristic of agentivity is frequently dissociated. To the realization of the analysis, we
constituted a corpus of 120 journalistic news published in two periodic from Pernambuco,
through the years 2006, 20007 and 2008 and analyzed the expressions from the left side of
the verb (process). To the discussion of the obtained results we proceeded,
methodologically, as follows: we presented the occurrences number of the processes, taking
into account the frequency of determined kind present in our corpus; we verified the
participants actor, beneficiary, experiencer and teller, to verify in which way these
participants represent the referred entity in the position of subject in a determined thematic
area: politics, economy and urban life and, to finish, we categorized the representation of
the first participant ( P1), that, syntactically, expresses the subject, according to Souza (
2006, p. 165), as nominal syntagmas (SN) of two kinds: the lexical SN, having as a centre a
noun, modified or not; the individualized SN ( SNi), subtype of SNL, that that has as a
centre a being. To evidence such position, we fundament in the pretext of Systemic-
Functional Linguistic of Halliday ( 1985), Halliday & Mathiessen ( 2004), Souza ( 2006)
and Furtado da Cunha & Souza ( 2007). We observed that the nominal syntagmas (SNs)
that occupy a position of subjects in the journalistic titles accomplish the most varied forms
of representativity and that these syntagmas represent semantic-pragmatic behaviours
determined by the thematic context. / Esta pesquisa propõe um estudo das dimensões sintático-semânticas dos itens lexicais que,
sintaticamente, exercem a função de sujeito em títulos jornalísticos. Ainda investiga a
configuração de construções verbais, observando suas motivações pragmático-ideológicas
subjacentes ao contexto jornalístico. Nossa investigação parte do princípio de que, nos
títulos do tipo oracional (SVO SV), por exemplo, Justiça limita liberdade dos torcedores,
a posição de sujeito é ocupada por expressões que assumem metonimicamente o papel de
controlador do processo dinâmico expresso pelo verbo, uma vez que nestes enunciados há
uma certa reconfiguração de sentido do sujeito, pois sua principal característica prototípica
de agentividade é freqüentemente desassociada. Para a realização das análises, constituímos
um corpus de 120 títulos de notícias jornalísticas publicados em dois periódicos
pernambucanos, ao longo dos anos 2006, 2007 e 2008 e analisamos as expressões
ocupantes do lado esquerdo do verbo (processo). Para discussão dos resultados obtidos
procedemos, metodologicamente, da seguinte forma: apresentamos o número de
ocorrências dos processos, levando em conta a freqüência de determinado tipo presente em
nosso corpus; verificamos os participantes ator, beneficiário, experienciador e dizente, a
fim de averiguar de que forma esses participantes representam a entidade referida na
posição de sujeito em determinada área temática: política, economia e vida urbana e, por
fim, categorizamos a representação do primeiro participante (P1) que, sintaticamente,
expressa o sujeito, conforme Souza (2006, p. 165), como sintagma nominal (SN) de dois
tipos: o SN lexical (SNL), tendo como núcleo um substantivo, modificado ou não; o SN
individualizado (SNi), subtipo do SNL, aquele que tem como núcleo um indivíduo. Para
evidenciar tal posicionamento, fundamentamo-nos em pressupostos da Lingüística
Sistêmico-Funcional de Halliday (1985), Halliday & Mathiessen (2004), Souza (2006) e
Furtado da Cunha & Souza (2007). Constatamos que os sintagmas nominais (SNs) que
ocupam a posição de sujeito nos títulos jornalísticos cumprem as mais variadas formas de
representatividade e que esses sintagmas representam comportamentos semânticopragmáticos
determinados pelo contexto temático.
|
27 |
Gramaticalização de combinação de orações: estruturas para + infinitivo no português / Grammaticalization of combined sentences: estructures with + infinitive in portugueseElisangela Baptista de Godoy Sartin 29 August 2008 (has links)
Esta dissertação de mestrado apresenta a análise do grau de coesão entre as orações combinadas na estrutura com a seguinte composição: a subordinada é não-finita e tem a preposição para encabeçando a oração. Numa abordagem sincrônica, pesquisamos o comportamento funcional dessa estrutura na modalidade falada e escrita por meio de critérios formais de controle com o fim de apreender a motivação de cada interpretação. A estrutura para + infinitivo tem sido usada em outros contextos semânticos que não o de finalidade. Esses sentidos outros têm demonstrado um caráter mais abstratizado e, em alguns casos, um entrelaçamento sintático bastante acentuado com a oração-núcleo. Essa constatação fez com que fosse possível postular a instauração de um processo de intensa gramaticalização. Tendo em vista que nem todas as orações configuradas neste tipo de padrão estrutural sinalizam finalidade no português do Brasil, procedo à identificação dos padrões funcionais, que denunciam a língua em sua dinamicidade gerando funções inovadoras a fim de atender às necessidades comunicativas dos falantes. Esta dissertação apresenta-se como uma contribuição da ciência lingüística ao trabalho pedagógico, em um diálogo bastante interessante por envolver a percepção do aluno, a decisão pedagógica do professor e a discussão teórica da lingüística contemporânea. / This dissertation mastering work presents the analysis of the degree cohesion among combined sentences in their structure with the following composition: the subordinate is non-finite and it has the preposition para (to) heading it. In a synchronous approach, we search the functional behavior of this structure in the spoken and written modality by means of formal criteria of control in order to apprehend the motivation of each interpretation. The structure to + infinitive has been used in other semantic contexts with several different meanings from the purpose meaning (the initial one). These other meanings have demonstrated a more abstraticized feature and, in some cases, a syntactic blending sufficiently accented with the main sentence. This confirmation has given the possibility of claiming the instauration of an intense grammaticalization process. There is a view in which not all the sentences that are configured in this structural standard type sign to the purpose semantic feature in the Brazilian Portuguese. So I proceed to the identification of the functional standards that denounce the language in its dynamicity, it also generates innovative functions in order to embody the communicative needs of the speakers. This dissertation is presented as a contribution from the linguistic science to the pedagogical work, in a really interesting dialogue that involves the student perception, the pedagogical teacher decision and the linguistic contemporary theoretical discussion.
|
28 |
SlimRank: um modelo de seleção de respostas para perguntas de consumidores / SlimRank: an answer selection model for consumer questionsMarcelo Criscuolo 16 November 2017 (has links)
A disponibilidade de conteúdo gerado por usuários em sites colaborativos de perguntas e respostas tem impulsionado o avanço de modelos de Question Answering (QA) baseados em reúso. Essa abordagem pode ser implementada por meio da tarefa de seleção de respostas (Answer Selection, AS), que consiste em encontrar a melhor resposta para uma dada pergunta em um conjunto pré-selecionado de respostas candidatas. Nos últimos anos, abordagens baseadas em vetores distribucionais e em redes neurais profundas, em particular em redes neurais convolutivas (CNNs), têm apresentado bons resultados na tarefa de AS. Contudo, a maioria dos modelos é avaliada sobre córpus de perguntas objetivas e bem formadas, contendo poucas palavras. Raramente estruturas textuais complexas são consideradas. Perguntas de consumidores, comuns em sites colaborativos, podem ser bastante complexas. Em geral, são representadas por múltiplas frases inter-relacionadas, que apresentam pouca objetividade, vocabulário leigo e, frequentemente, contêm informações em excesso. Essas características aumentam a dificuldade da tarefa de AS. Neste trabalho, propomos um modelo de seleção de respostas para perguntas de consumidores. São contribuições deste trabalho: (i) uma definição para o objeto de pesquisa perguntas de consumidores; (ii) um novo dataset desse tipo de pergunta, chamado MilkQA; e (iii) um modelo de seleção de respostas, chamado SlimRank. O MilkQA foi criado a partir de um arquivo de perguntas e respostas coletadas pelo serviço de atendimento de uma renomada instituição pública de pesquisa agropecuária (Embrapa). Anotadores guiados pela definição de perguntas de consumidores proposta neste trabalho selecionaram 2,6 mil pares de perguntas e respostas contidas nesse arquivo. A análise dessas perguntas levou ao desenvolvimento do modelo SlimRank, que combina representação de textos na forma de grafos semânticos com arquiteturas de CNNs. O SlimRank foi avaliado no dataset MilkQA e comparado com baselines e dois modelos do estado da arte. Os resultados alcançados pelo SlimRank foram bastante superiores aos resultados dos baselines, e compatíveis com resultados de modelos do estado da arte; porém, com uma significativa redução do tempo computacional. Acreditamos que a representação de textos na forma de grafos semânticos combinada com CNNs seja uma abordagem promissora para o tratamento dos desafios impostos pelas características singulares das perguntas de consumidores. / The increasing availability of user-generated content in community Q&A sites has led to the advancement of Question Answering (QA) models that relies on reuse. Such approach can be implemented by the task of Answer Selection (AS), which consists in finding the best answer for a given question in a pre-selected pool candidate answers. Recently, good results have been achieved by AS models based on distributed word vectors and deep neural networks that are used to rank answers for a given question. Convolutinal Neural Networks (CNNs) are particularly succesful in this task. Most of the AS models are built over datasets that contains only short and objective questions expressed as interrogative sentences containing few words. Complex text structures are rarely considered. However, consumer questions may be really complex. This kind of question is the main form of seeking information in community Q&A sites, forums and customer services. Consumer questions have characteristics that increase the difficulty of the answer selection task. In general, they are composed of multiple interrelated sentences that are usually subjective, and contains laymans terms and excess of details that may be not particulary relevant. In this work, we propose an answer selection model for consumer questions. Specifically the contributions of this work are: (i) a definition for the consumer questions research object; (ii) a new dataset of this kind of question, which we call MilkQA; and (iii) an answer selection model, named SlimRank. MilkQA was created from an archive of questions and answers collected by the customer service of a well-known public agricultural research institution (Embrapa). It contains 2.6 thousand question-answer pairs selected and anonymized by human annotators guided by the definition proposed in this work. The analysis of questions in MilkQA led to the development of SlimRank, which combines semantic textual graphs with CNN architectures. SlimRank was evaluated on MilkQA and compared to baselines and two state-of-the-art answer selection models. The results achieved by our model were much higher than the baselines and comparable to the state of the art, but with significant reduction of computational time. Our results suggest that combining semantic text graphs with convolutional neural networks are a promising approach for dealing with the challenges imposed by consumer questions unique characteristics.
|
29 |
DOS SENTIDOS DA PAIXÃO E DA ESPERANÇA NO ENGANO: CARTAS PORTUGUESAS / The passion´s senses and the hope in delusion: CARTAS PORTUGUESASPrado, Priscila Finger do 30 June 2010 (has links)
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / This work aims to analyze the semantic movements in Cartas portuguesas, assigned to Mariana Alcoforado. After the authorial problematic´s presentation in the book, at the introduccion, there is a study´s division in two moments. In the first, it finds to situate the book between the produccion of the baroque period, as well as to delimit aspects of its main theme (the love) and its genre (letter). In the second, it starts with a panoramic lecture of the axis semantics movement in the Cartas, to
verify how its appears in each letter. With the sense´s displacement, dominated by Passion and Mistake´s axis, as well as to suggest this work´s title, it realizes a
change in writing´s focus, that begins in the loved object, passes to the felling, until arrives in the writing´s recuse, to the peace´s search. With this, it notes that passion moves the writing, in this book. / Este trabalho tem como objetivo analisar os movimentos semânticos das Cartas portuguesas, atribuídas a Mariana Alcoforado. Após a apresentação da problemática autoral que perpassa a obra, ainda na introdução, tem-se a divisão do
estudo em dois momentos. No primeiro, procura-se situar a obra dentre a produção do período barroco, bem como delimitar aspectos de seu tema principal (o amor) e do gênero em que é escrita (epístola). No segundo, parte-se de uma leitura panorâmica do movimento dos eixos semânticos das Cartas, para verificar como eles aparecem em cada carta. Pelo deslocamento dos sentidos, dominados pelos eixos da Paixão e do Engano, tal como sugere o título deste trabalho, percebe-se uma mudança no foco da escrita, que começa no objeto amado, passa para o sentimento, até chegar na recusa da escrita pela busca da paz. Com isso, nota-se que a paixão funciona como o motivo propulsor da escrita, na obra.
|
30 |
Anotação automática semissupervisionada de papéis semânticos para o português do Brasil / Automatic semi-supervised semantic role labeling for Brazilian PortugueseFernando Emilio Alva Manchego 22 January 2013 (has links)
A anotac~ao de papeis sem^anticos (APS) e uma tarefa do processamento de lngua natural (PLN) que permite analisar parte do signicado das sentencas atraves da detecc~ao dos participantes dos eventos (e dos eventos em si) que est~ao sendo descritos nelas, o que e essencial para que os computadores possam usar efetivamente a informac~ao codicada no texto. A maior parte das pesquisas desenvolvidas em APS tem sido feita para textos em ingl^es, considerando as particularidades gramaticais e sem^anticas dessa lngua, o que impede que essas ferramentas e resultados sejam diretamente transportaveis para outras lnguas como o portugu^es. A maioria dos sistemas de APS atuais emprega metodos de aprendizado de maquina supervisionado e, portanto, precisa de um corpus grande de senten cas anotadas com papeis sem^anticos para aprender corretamente a tarefa. No caso do portugu^es do Brasil, um recurso lexical que prov^e este tipo de informac~ao foi recentemente disponibilizado: o PropBank.Br. Contudo, em comparac~ao com os corpora para outras lnguas como o ingl^es, o corpus fornecido por este projeto e pequeno e, portanto, n~ao permitiria que um classicador treinado supervisionadamente realizasse a tarefa de anotac~ao com alto desempenho. Para tratar esta diculdade, neste trabalho emprega-se uma abordagem semissupervisionada capaz de extrair informac~ao relevante tanto dos dados anotados disponveis como de dados n~ao anotados, tornando-a menos dependente do corpus de treinamento. Implementa-se o algoritmo self-training com modelos de regress~ ao logstica (ou maxima entropia) como classicador base, para anotar o corpus Bosque (a sec~ao correspondente ao CETENFolha) da Floresta Sinta(c)tica com as etiquetas do PropBank.Br. Ao algoritmo original se incorpora balanceamento e medidas de similaridade entre os argumentos de um verbo especco para melhorar o desempenho na tarefa de classicac~ao de argumentos. Usando um benchmark de avaliac~ao implementado neste trabalho, a abordagem semissupervisonada proposta obteve um desempenho estatisticamente comparavel ao de um classicador treinado supervisionadamente com uma maior quantidade de dados anotados (80,5 vs. 82,3 de \'F IND. 1\', p > 0, 01) / Semantic role labeling (SRL) is a natural language processing (NLP) task able to analyze part of the meaning of sentences through the detection of the events they describe and the participants involved, which is essential for computers to eectively understand the information coded in text. Most of the research carried out in SRL has been done for texts in English, considering the grammatical and semantic particularities of that language, which prevents those tools and results to be directly transported to other languages such as Portuguese. Most current SRL systems use supervised machine learning methods and require a big corpus of sentences annotated with semantic roles in order to learn how to perform the task properly. For Brazilian Portuguese, a lexical resource that provides this type of information has recently become available: PropBank.Br. However, in comparison with corpora for other languages such as English, the corpus provided by that project is small and it wouldn\'t allow a supervised classier to perform the labeling task with good performance. To deal with this problem, in this dissertation we use a semi-supervised approach capable of extracting relevant information both from annotated and non-annotated data available, making it less dependent on the training corpus. We implemented the self-training algorithm with logistic regression (or maximum entropy) models as base classier to label the corpus Bosque (section CETENFolha) from the Floresta Sintá(c)tica with the PropBank.Br semantic role tags. To the original algorithm, we incorporated balancing and similarity measures between verb-specic arguments so as to improve the performance of the system in the argument classication task. Using an evaluation benchmark implemented in this research project, the proposed semi-supervised approach has a statistical comparable performance as the one of a supervised classier trained with more annotated data (80,5 vs. 82,3 de \'F IND. 1\', p > 0, 01).
|
Page generated in 0.0402 seconds