Global ETD Search

11	Investigação de modelos de coerência local para sumários multidocumento / Investigation of local coherence models for multri-document summaries Márcio de Souza Dias 10 May 2016 (has links) A sumarização multidocumento consiste na tarefa de produzir automaticamente um único sumário a partir de um conjunto de textos derivados de um mesmo assunto. É imprescindível que seja feito o tratamento de fenômenos que ocorrem neste cenário, tais como: (i) a redundância, a complementaridade e a contradição de informações; (ii) a uniformização de estilos de escrita; (iii) tratamento de expressões referenciais; (iv) a manutenção de focos e perspectivas diferentes nos textos; (v) e a ordenação temporal das informações no sumário. O tratamento de tais fenômenos contribui significativamente para que seja produzido ao final um sumário informativo e coerente, características difíceis de serem garantidas ainda que por um humano. Um tipo particular de coerência estudado nesta tese é a coerência local, a qual é definida por meio de relações entre enunciados (unidades menores) em uma sequência de sentenças, de modo a garantir que os relacionamentos contribuirão para a construção do sentido do texto em sua totalidade. Partindo do pressuposto de que o uso de conhecimento discursivo pode melhorar a avaliação da coerência local, o presente trabalho propõe-se a investigar o uso de relações discursivas para elaborar modelos de coerência local, os quais são capazes de distinguir automaticamente sumários coerentes dos incoerentes. Além disso, um estudo sobre os erros que afetam a Qualidade Linguística dos sumários foi realizado com o propósito de verificar quais são os erros que afetam a coerência local dos sumários, se os modelos de coerência podem identificar tais erros e se há alguma relação entre os modelos de coerência e a informatividade dos sumários. Para a realização desta pesquisa foi necessário fazer o uso das informações semântico-discursivas dos modelos CST (Cross-document Structure Theory) e RST (Rhetorical Structure Theory) anotadas no córpus, de ferramentas automáticas, como o parser Palavras e de algoritmos que extraíram informações do córpus. Os resultados mostraram que o uso de informações semântico-discursivas foi bem sucedido na distinção dos sumários coerentes dos incoerentes e que os modelos de coerência implementados nesta tese podem ser usados na identificação de erros da qualidade linguística que afetam a coerência local. / Multi-document summarization is the task of automatically producing a single summary from a collection of texts derived from the same subject. It is essential to treat many phenomena, such as: (i) redundancy, complementarity and contradiction of information; (ii) writing styles standardization; (iii) treatment of referential expressions; (iv) text focus and different perspectives; (v) and temporal ordering of information in the summary. The treatment of these phenomena contributes to the informativeness and coherence of the final summary. A particular type of coherence studied in this thesis is the local coherence, which is defined by the relationship between statements (smallest units) in a sequence of sentences. The local coherence contributes to the construction of textual meaning in its totality. Assuming that the use of discursive knowledge can improve the evaluation of the local coherence, this thesis proposes to investigate the use of discursive relations to develop local coherence models, which are able to automatically distinguish coherent summaries from incoherent ones. In addition, a study on the errors that affect the Linguistic Quality of the summaries was conducted in order to verify what are the errors that affect the local coherence of summaries, as well as if the coherence models can identify such errors, and whether there is any relationship between coherence models and informativenessof summaries. For thisresearch, it wasnecessary theuseof semantic-discursive information of CST models (Cross-document Structure Theory) and RST (Rhetorical Structure Theory) annoted in the corpora, automatic tools, parser as Palavras, and algorithms that extract information from the corpus. The results showed that the use of semantic-discursive information was successful on the distinction between coherent and incoherent summaries, and that the information about coherence can be used in error detection of linguistic quality that affect the local coherence. Anotação de córpus. Avaliação da coerência local Erros de qualidade linguística Sumarização multidocumento Corpus annotation. Evaluation of the local coherence Linguistic quality errors Multi-document summarization
12	Anotação e classificação automática de entidades nomeadas em notícias esportivas em Português Brasileiro / Automatic named entity recognition and classification for brazilian portuguese sport news Zaccara, Rodrigo Constantin Ctenas 11 July 2012 (has links) O objetivo deste trabalho é desenvolver uma plataforma para anotação e classificação automática de entidades nomeadas para notícias escritas em português do Brasil. Para restringir um pouco o escopo do treinamento e análise foram utilizadas notícias esportivas do Campeonato Paulista de 2011 do portal UOL (Universo Online). O primeiro artefato desenvolvido desta plataforma foi a ferramenta WebCorpus. Esta tem como principal intuito facilitar o processo de adição de metainformações a palavras através do uso de uma interface rica web, elaborada para deixar o trabalho ágil e simples. Desta forma as entidades nomeadas das notícias são anotadas e classificadas manualmente. A base de dados foi alimentada pela ferramenta de aquisição e extração de conteúdo desenvolvida também para esta plataforma. O segundo artefato desenvolvido foi o córpus UOLCP2011 (UOL Campeonato Paulista 2011). Este córpus foi anotado e classificado manualmente através do uso da ferramenta WebCorpus utilizando sete tipos de entidades: pessoa, lugar, organização, time, campeonato, estádio e torcida. Para o desenvolvimento do motor de anotação e classificação automática de entidades nomeadas foram utilizadas três diferentes técnicas: maximização de entropia, índices invertidos e métodos de mesclagem das duas técnicas anteriores. Para cada uma destas foram executados três passos: desenvolvimento do algoritmo, treinamento utilizando técnicas de aprendizado de máquina e análise dos melhores resultados. / The main target of this research is to develop an automatic named entity classification tool to sport news written in Brazilian Portuguese. To reduce this scope, during training and analysis only sport news about São Paulo Championship of 2011 written by UOL2 (Universo Online) was used. The first artefact developed was the WebCorpus tool, which aims to make easier the process of add meta informations to words, through a rich web interface. Using this, all the corpora news are tagged manually. The database used by this tool was fed by the crawler tool, also developed during this research. The second artefact developed was the corpora UOLCP2011 (UOL Campeonato Paulista 2011). This corpora was manually tagged using the WebCorpus tool. During this process, seven classification concepts were used: person, place, organization, team, championship, stadium and fans. To develop the automatic named entity classification tool, three different approaches were analysed: maximum entropy, inverted index and merge tecniques using both. Each approach had three steps: algorithm development, training using machine learning tecniques and best score analysis. aprendizado de máquina. classification tool corpora córpus entidade nomeada índices invertidos interface rica web inverted index machine learning maximização de entropia maximum entropy motor de anotação e classificação named entity uolcp2011 uolcp2011 web rich interface webcorpus webcorpus
13	Erros de escrita em inglês por brasileiros: identificação, classificação e variação entre níveis Dantas, Wendel Mendes 17 May 2012 (has links) Made available in DSpace on 2016-04-28T18:22:32Z (GMT). No. of bitstreams: 1 Wendel Mendes Dantas.pdf: 2248359 bytes, checksum: d5c27ce03f0a60ff11f719e7ba0ce737 (MD5) Previous issue date: 2012-05-17 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The aim of this study was to identify and classify errors found in Brazilian English learners s written tasks. The questions which guide this research are: Which are the most common errors in COBRA-7_recorte? ; What is the error variation among course levels for learners found in COBRA-7_recorte? and Which course level shows the highest error diversity in COBRA-7_recorte?". The main theoretical underpinning for the research is provided by Corpus Linguistics, an area devoted to the collection and criterious analysis of data collected from texts in electronic formar, and, specifically, by research on learner corpora. the corpora used in this research were the Corpus of Contemporary American English (COCA) (consultation corpus) and a sample of COBRA-7 (COBRA-7_recorte), the study corpus, compiled from the writings of adult learners enrolled in a network of schools which teach English as a foreign language in the state of São Paulo, and which have been produced between 2009 and 2010. The data have been collected from the institution's online server in 2011. Results have shown that the most common errors found in the analysis corpus are: wrong lexical choice, tense and aspect use, use of determiners, and wrong use of questions, negatives or auxiliaries. They have also revealed that pre-intermediate course level has the highest quantity and diversity of errors, probably because it is a level at which learners are exposed to diverse verbal tenses. Finally, this study has also shown that although wrong lexical choice, particularly the replacement of prepositions or particiles by words from the same or other grammatical categories, seem to be a problem for learners, this difficulty tends to decrease along the course, unlike errors of verbal tense and aspect use, which tend to increase / O trabalho tem como objetivo identificar e classificar os erros na escrita de aprendizes brasileiros de inglês. As perguntas que norteiam a pesquisa são: Quais os erros mais comuns no córpus COBRA-7_recorte? ; Qual a variação de erro entre os níveis de curso dos aprendizes no córpus COBRA-7_recorte? e Qual nível de curso apresenta maior diversidade de erros no córpus COBRA-7_recorte? . Esta pesquisa encontrou suporte teórico na Linguística de Córpus, área que se dedica à coleta e análise criteriosa de dados de textos em formato digital, e especificamente nas pesquisas dedicadas a córpus de aprendizes. Os córpora empregados na pesquisa foram o Corpus of Contemporary American English (COCA) (córpus de consulta) e uma amostra do COBRA-7 (córpus de estudo), compilado a partir de redações de aprendizes adultos matriculados em uma rede de escolas de inglês como língua estrangeira do estado de São Paulo, produzidas entre 2009 e 2010. Os dados foram coletados de um servidor online da própria instituição em 2011. Os resultados indicaram que os erros mais comuns encontrados no córpus de análise referem-se a: má escolha lexical, uso de tempo e aspecto verbal, uso de determinantes, e uso inadequado de questões, negações ou auxiliares. Revelaram também que o nível de curso pré-intermediário apresenta as maiores quantidade e diversidade de erros, provavelmente por se tratar de um nível no qual os aprendizes são expostos a tempos verbais diversos. Por fim, mostraram que embora a má escolha lexical, sobretudo a substituição de preposições ou conjunções por outras ou pelas mesmas classes gramaticais constitua um problema para os aprendizes, essa dificuldade diminui ao longo do curso, ao contrário do erro no uso dos tempos e aspecto verbais, que tende a aumentar Córpus de aprendizes Ensino de idiomas Análise de erros Concordância entre avaliadores Linguagem como sistema probabilístico Learner corpus Language learning Error analysis Inter-rater reliability Language as probabilistic system
14	Anotação e classificação automática de entidades nomeadas em notícias esportivas em Português Brasileiro / Automatic named entity recognition and classification for brazilian portuguese sport news Rodrigo Constantin Ctenas Zaccara 11 July 2012 (has links) O objetivo deste trabalho é desenvolver uma plataforma para anotação e classificação automática de entidades nomeadas para notícias escritas em português do Brasil. Para restringir um pouco o escopo do treinamento e análise foram utilizadas notícias esportivas do Campeonato Paulista de 2011 do portal UOL (Universo Online). O primeiro artefato desenvolvido desta plataforma foi a ferramenta WebCorpus. Esta tem como principal intuito facilitar o processo de adição de metainformações a palavras através do uso de uma interface rica web, elaborada para deixar o trabalho ágil e simples. Desta forma as entidades nomeadas das notícias são anotadas e classificadas manualmente. A base de dados foi alimentada pela ferramenta de aquisição e extração de conteúdo desenvolvida também para esta plataforma. O segundo artefato desenvolvido foi o córpus UOLCP2011 (UOL Campeonato Paulista 2011). Este córpus foi anotado e classificado manualmente através do uso da ferramenta WebCorpus utilizando sete tipos de entidades: pessoa, lugar, organização, time, campeonato, estádio e torcida. Para o desenvolvimento do motor de anotação e classificação automática de entidades nomeadas foram utilizadas três diferentes técnicas: maximização de entropia, índices invertidos e métodos de mesclagem das duas técnicas anteriores. Para cada uma destas foram executados três passos: desenvolvimento do algoritmo, treinamento utilizando técnicas de aprendizado de máquina e análise dos melhores resultados. / The main target of this research is to develop an automatic named entity classification tool to sport news written in Brazilian Portuguese. To reduce this scope, during training and analysis only sport news about São Paulo Championship of 2011 written by UOL2 (Universo Online) was used. The first artefact developed was the WebCorpus tool, which aims to make easier the process of add meta informations to words, through a rich web interface. Using this, all the corpora news are tagged manually. The database used by this tool was fed by the crawler tool, also developed during this research. The second artefact developed was the corpora UOLCP2011 (UOL Campeonato Paulista 2011). This corpora was manually tagged using the WebCorpus tool. During this process, seven classification concepts were used: person, place, organization, team, championship, stadium and fans. To develop the automatic named entity classification tool, three different approaches were analysed: maximum entropy, inverted index and merge tecniques using both. Each approach had three steps: algorithm development, training using machine learning tecniques and best score analysis. aprendizado de máquina. córpus entidade nomeada índices invertidos interface rica web maximização de entropia motor de anotação e classificação uolcp2011 webcorpus classification tool corpora inverted index machine learning maximum entropy named entity uolcp2011 web rich interface webcorpus

Page generated in 0.0417 seconds