• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 14
  • 4
  • 4
  • 4
  • 4
  • 4
  • 2
  • 1
  • Tagged with
  • 17
  • 8
  • 8
  • 7
  • 7
  • 7
  • 6
  • 6
  • 6
  • 6
  • 6
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Um estudo longitudinal sobre as hipersegmentações de palavras escritas nos anos finais do ensino fundamental

Silva, Lilian Maria da [UNESP] 21 February 2014 (has links) (PDF)
Made available in DSpace on 2015-04-09T12:28:22Z (GMT). No. of bitstreams: 0 Previous issue date: 2014-02-21Bitstream added on 2015-04-09T12:48:16Z : No. of bitstreams: 1 000813468.pdf: 1292198 bytes, checksum: 956221aec314fa11a2a4b7a641298ac5 (MD5) / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / Neste trabalho, analisamos as chamadas hipersegmentações, que dizem respeito a quando, no interior de uma palavra, identifica-se espaço gráfico não previsto pela ortografia (por exemplo: “da quela” e “mora-va”, que, de acordo com as convenções ortográficas, são grafadas, respectivamente, como daquela e morava). Por meio de um córpus longitudinal de textos escritos dos quatro últimos anos do Ensino Fundamental, desenvolvemos uma descrição geral dos dados e da trajetória de cada um dos escreventes investigados, com o objetivo de: (i) identificar possíveis regularidades linguísticas dessas grafias nãoconvencionais de palavras que caracterizariam o fim da etapa fundamental de formação escolar; e (ii) interpretar as ocorrências que não atenderam às regularidades mais gerais, mas que se mostraram relevantes para a compreensão de uma relação mais particular do sujeito com a (sua) escrita. Em função do objeto de investigação, fundamentamo-nos em discussões teóricas acerca das fronteiras não-convencionais de palavras (ABAURRE, 1991c; TENANI, 2010, CUNHA, 2004), da noção de palavra (SCHWINDT, 2001; BISOL, 2005; SIMIONI, 2008) e da constituição da escrita (CORRÊA, 2004). Os resultados do trabalho, em relação ao primeiro objetivo, indicaram que: (i) as ocorrências de hipersegmentação diminuíram ao longo dos anos escolares; (ii) a maioria dos escreventes concluiu o Ensino Fundamental produzindo hipersegmentações, embora o número delas tenha diminuído em relação ao tipo de palavra hipersegmentada e à extensão (dada em função do número de palavras) dos textos escritos; (iii) as palavras que continuaram a ser hipersegmentadas foram aquelas que, predominantemente, permitiram a relação entre sílabas pretônicas e possíveis classes gramaticais (como, por exemplo, artigos, preposições, pronomes) e entre sequências que poderiam ser interpretadas como sendo de verbo+pronome enclítico. Em relação ... / In this paper, we analyze the calls hypersegmentation of words that relate to when, within a word, it identifies space of written not predicted by orthography (e.g. da quela and morava, when at the limits convention are daquela and morava). Through a longitudinal study of written texts of the last four years of Elementary School, we develop a general description of the data and the trajectory of each of the written investigated, with the aim of: (i) to describe the distribution of the analyzed occurrences through the school years of Elementary School and written and to identify possible linguistic regularities of these non-conventional spellings of words that characterize the end of key stage of schooling, and (ii) to interpret the events that did not meet the more general regularities, but which were relevant in the understanding of a more particular subject with (his/her) writing. Depending on the object of investigation, we base ourselves in theoretical discussions about the boundaries unconventional words (ABAURRE, 1991c; TENANI, 2010, CUNHA, 2004), the notion of word (SCHWINDT, 2001; BISOL, 2005; SIMIONI, 2008) and the writing constitution (CORRÊA, 2004). The results of the paper related to the first objective, indicated that: (i) occurrences of hypersegmentation decreased through the school years; (ii) most written concluded Elementary School producing hypersegmentation, although hypersegmentation number has decreased compared to the type of word that was hipersegmented and extension (given by the number of words) of written texts; (iii) the words that remained to be hypersegmented were those ones that allowed the relation between unstressed syllables and possible grammatical classes and between sequences that could be interpreted as being verb + enclitic pronoun (according to the Portuguese grammar), and (iv) prosodic nature information and retrievable linguistic information about inserting the written in literacy/writings ...
12

Segmentações não-convencionais de palavra nos quatro últimos anos do ensino fundamental: um estudo longitudinal

Paranhos, Fabiana Cristina [UNESP] 03 July 2014 (has links) (PDF)
Made available in DSpace on 2014-11-10T11:09:49Z (GMT). No. of bitstreams: 0 Previous issue date: 2014-07-03Bitstream added on 2014-11-10T11:57:56Z : No. of bitstreams: 1 000789098.pdf: 3353458 bytes, checksum: 751feaa9fa32a581b94e08d76ab58edd (MD5) / Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) / Neste trabalho, buscamos entender, por meio da análise da grafia de palavras, em que medida as segmentações não-convencionais podem ser resultado das representações de relações entre características de enunciados falados e escritos. Na busca por respostas, analisamos as segmentações não-convencionais que ocorreram em produções escritas de um grupo de alunos que, na época das produções, cursavam os quatro últimos anos do Ensino Fundamental (EF) em uma escola da rede pública do Estado de São Paulo. As hipóteses que orientaram nosso trabalho foram as de que segmentações que não coincidem com as convenções ortográficas, feitas por estudantes do EF II, podem ser representativas (1) das hipóteses dos escreventes acerca dos limites gráficos de palavra em relação aos constituintes prosódicos; e (2) da inserção do sujeito/escrevente em práticas orais e letradas constitutivas de seu aprendizado institucional da escrita. Como consequência destas hipóteses, nossos objetivos foram os de: (1) identificar possíveis critérios prosódicos envolvidos nas decisões dos escreventes do EF II sobre como segmentar palavras na escrita; e (2) observar como e em que medida as marcas de segmentação não-convencional de palavras indiciam, nos textos analisados, relações estabelecidas entre os sujeitos/escreventes e suas práticas sociais orais e letradas. Assim, as ocorrências de segmentação não-convencional de palavras foram analisadas tendo como pressuposto teórico uma concepção de escrita como sendo constituída de modo heterogêneo (CORRÊA, 2004). Para a análise prosódica dos dados, neste trabalho, tomamos por base a teoria de Nespor & Vogel (1986) sobre os domínios prosódicos. Na análise dos dados, vimos que, ao iniciarem a primeira série do EF II, os escreventes apresentam maior número de dados de hipossegmentação, o que quantitativamente os aproxima de tendências observadas por autores como Cunha (2004) ao ... / In this work, we seek to understand, by analyzing the spelling of words, in which way the unconventional written words segmentation can be resulted of representation of relationship between characteristics of spoken and written statements. In the search for answers, we analyzed the unconventional segmentation of words that occurred in texts produced by of a group of students which ones at the time of the production attended the last years of Elementary School, of a public school of São Paulo. The hypotheses that guided our work were the one that segmentation done by the students of Elementary School may be representative (1) hypotheses about the scribes charts word boundaries in relation prosodic constituents; and (2) of the insertion of the writer in oral and literate practices, our objectives were: (1) to identify possible prosodic criteria are involved in the decisions of the writers of Elementary School about how segmentation a word, and (2) to observe how and in that measured the unconventional segmentation established, in the analyzed text, relationship for the writers among their oral and literate practices. Thus, the unconventional segmentations of word were analyzed based on the idea in heterogeneous way constitution of the writing (CORRÊA, 2004). For the prosodic analysis, in this work, we use the theory of Nespor e Vogel (1986), about the prosodic domains. In analysis, we conclude that, to start the first grade of Elementary School, the writers have a higher number of hippossegmentation of word, which quantitatively approximate the trends observed by authors such as Cunha (2004) that analyzed unconventional segmentation word at the beginning of the acquisition process of writing. Qualitatively, we observe the predominance of one of the prosodic structures, is that, clitic followed by prosodic word (cl+w), where the clitic becomes, in interpreting the writer, one pretonic syllable. However, at the end of the Elementary School, ...
13

Segmentações não-convencionais de palavras em escolas públicas e privadas /

Torquette, Akisnelen de Oliveira. January 2016 (has links)
Orientador: Lourenço Chacon / Banca: Luciani Ester Tenani / Banca: Fabiana Cristina Komesu / Banca: Raquel Salek Fiad / Banca: Ana Paula Nobre da Cunha / Resumo: No presente trabalho, tivemos como objetivo comparar a distribuição das segmentações não-convencionais de palavras encontradas em textos do 1º ao 5º ano do Ensino Fundamental I, a fim de traçar um perfil dessas ocorrências em função das variáveis: (a) tipos de escolas (públicas e privadas); (b) anos letivos (1º ano, 2º ano, 3º ano, 4º ano e 5º ano); e (c) sexo/gênero (masculino e feminino). Para tanto, compusemos um banco de dados - denominado EscIn -composto por 4.230 textos resultantes da aplicação de uma proposta de atividade de escrita, do 1º ao 5º ano do Ensino Fundamental I, de cinco escolas privadas e de dez escolas públicas do Município de Marília (SP), durante o ano de 2012. A partir desse banco de dados, formamos uma amostra estratificada de 10% dos dados de cada variável de nosso objetivo, perfazendo um total de 427 textos do corpus a ser analisado. Fizemos análise estatística descritiva e inferencial dos dados de segmentação não-convencional, comparando as variáveis. Os resultados das ocorrências de segmentações não-convencionais mostram que: (1) ocorrem em maior percentual nas escolas públicas do que nas escolas privadas; (2) tendem a diminuir em ambos os tipos de escolas com a progressão dos anos letivos, mas, de forma diferente - nas escolas públicas a queda é contínua, com um pico do 2º para o 3º ano, já nas escolas privadas a queda é acentuadamente do 1º para o 2º ano e, a partir do 3º ano, o percentual zera; e (3) são mais numerosas entre os meninos do... / Abstract: In this study, our objective was to compare the distribution of unconventional segmentations words found in texts of the 1st to 5th grade of elementary school in order to draw a profile of these occurrences depending on variables: (a) type of school (public and private); (b) school years (1st year, 2nd year, 3rd year, 4th year and 5th year); and (c) sex/gender (male and female). To this end, we wrote a database - called EscIn - composed of 4,230 texts resulting from the application of a proposal for a writing activity, from 1st to 5th year of elementary school, five private schools and ten public schools in the city of Marilia (SP) during 2012. From this database, we formed a stratified sample of 10% to each variable of our goal, making a corpus total of 427 texts to be analyzed. In descriptive and inferential statistical analysis data of unconventional segmentation, we compare the variables. The results of unconventional segmentations occurrences show that: (1) occur in higher percentage in public schools than in private schools; (2) tend to decrease in both types of schools with the progression of school years, but differently - in public schools fall is continuing, with a peak in the 2nd to the 3rd year, already in private schools fall is sharply from the 1st to the 2nd year and, from the 3rd years, the percentage resets; and (3) are more numerous among boys than among girls in public schools, but not in private schools. The way of to segment writers is shown since, as ... / Doutor
14

A escrita ortográfica no sexto ano do Ensino Fundamental / Orthographic writing in the Sixth grade of elementary school

Padovani, Maria Ângela 23 November 2016 (has links)
Este trabalho teve como escopo detectar mecanismos presentes no processo de produção escrita de alunos que chegam ao sexto ano do Ensino Fundamental sem o domínio ortográfico esperado nesse nível de escolaridade, considerando o sexto ano como momento nodal para um apoio fundamentado àqueles que apresentem defasagem. Para tanto, analisa produções de quatro alunos de uma escola pública estadual da capital paulista, com base em postulados da Fonética e da Fonologia, em que são observadas as possíveis relações entre a consciência fonológica do português brasileiro e os processos de escrita. Reflexões da Psicolinguística concorrem para o entendimento de que os erros dos alunos são índices a serem considerados para intervenção didático-pedagógica. Para sintonizar intervenções na escola, postulados da Teoria da Atribuição Causal, voltados para a educação, são propostos com o intuito de compreender a disposição dos alunos diante das dinâmicas de ensino e aprendizagem. Uma sistematização das normas ortográficas do português embasa sugestões de abordagens em sala de aula para superação dos problemas apontados. / This dissertation aims to describe the mechanisms involved when sixth-grade students do not achieve expected levels in orthography. The sixth-grade is considered a critical time to provide appropriate support for those students who are under-achieving. Psycholinguistics have postulated that student errors are indicators of the need for pedagogical didactic intervention. The study analyses the written work of four students from a public school in the State of Sao Paulo, from a Phonetic and Phonologic perspective. A relationship between phonological awareness of Brazilian Portuguese and writing processes was observed. To understand the engagement of students with teaching and learning, the Attribution Theory is suggested in order to adjust school interventions. A system of Portuguese orthographic norms was part of the research, along with suggestions for practical intervention.
15

A escrita ortográfica no sexto ano do Ensino Fundamental / Orthographic writing in the Sixth grade of elementary school

Maria Ângela Padovani 23 November 2016 (has links)
Este trabalho teve como escopo detectar mecanismos presentes no processo de produção escrita de alunos que chegam ao sexto ano do Ensino Fundamental sem o domínio ortográfico esperado nesse nível de escolaridade, considerando o sexto ano como momento nodal para um apoio fundamentado àqueles que apresentem defasagem. Para tanto, analisa produções de quatro alunos de uma escola pública estadual da capital paulista, com base em postulados da Fonética e da Fonologia, em que são observadas as possíveis relações entre a consciência fonológica do português brasileiro e os processos de escrita. Reflexões da Psicolinguística concorrem para o entendimento de que os erros dos alunos são índices a serem considerados para intervenção didático-pedagógica. Para sintonizar intervenções na escola, postulados da Teoria da Atribuição Causal, voltados para a educação, são propostos com o intuito de compreender a disposição dos alunos diante das dinâmicas de ensino e aprendizagem. Uma sistematização das normas ortográficas do português embasa sugestões de abordagens em sala de aula para superação dos problemas apontados. / This dissertation aims to describe the mechanisms involved when sixth-grade students do not achieve expected levels in orthography. The sixth-grade is considered a critical time to provide appropriate support for those students who are under-achieving. Psycholinguistics have postulated that student errors are indicators of the need for pedagogical didactic intervention. The study analyses the written work of four students from a public school in the State of Sao Paulo, from a Phonetic and Phonologic perspective. A relationship between phonological awareness of Brazilian Portuguese and writing processes was observed. To understand the engagement of students with teaching and learning, the Attribution Theory is suggested in order to adjust school interventions. A system of Portuguese orthographic norms was part of the research, along with suggestions for practical intervention.
16

Prosódia e escrita : uma análise a partir de (hiper)segmentações de palavra /

Tenani, Luciani Ester. January 2016 (has links)
Resumo: Esta tese trata de segmentações não-convencionais de palavra, de uma perspectiva linguística, e as define como palavras escritas cujas fronteiras gráficas não seguem as convenções ortográficas do português, seja pela ausência de fronteiras entre palavras, como em "concerteza", "ajudime" - exemplos de hipossegmentações -, seja pela presença de fronteiras dentro da palavra, como em "na quela", "morava-mos" - exemplos de hipersegmentações. O objetivo geral é tratar da relação entre prosódia e escrita a partir de análises quantitativa de hipo e hipersegmentações e qualitativa de hipersegmentação que ocorrem em textos produzidos durante o ciclo II do Ensino Fundamental (EF II) no Brasil. É feita descrição da amostra longitudinal dos textos analisados, por se tratar de tipo de material pouco investigado em relação aos textos do ciclo I do Ensino Fundamental (EF I). Também são discutidos problemas metodológicos sobre identificação de segmentações não-convencionais em textos manuscritos, uma vez que não há consenso sobre essa metodologia. A partir da explicitação da metodologia proposta, destaca-se o papel de práticas letradas de leitura e escrita a respeito da categorização do espaço em branco entre palavras escritas. Da análise quantitativa, destacam-se os seguintes resultados: (i) hipo e hipersegmentações são mais frequentes em textos dos alunos do que nos das alunas, uma característica do EF II semelhante a do EF I; e (ii) as hipersegmentações, mas não as hipossegmentações, diminuem de frequência em função do aumento dos anos letivos, uma característica do EF II distinta do EF I. É feita, ainda, análise de características prosódicas, morfossintáticas e semânticas de palavras e dos enunciados em que hipersegmentações ocorreram e são identificadas características linguísticas das hipersegmentação... / Abstract: This thesis provides a linguistic perspective of unconventional word segmentation, which is defined as written words whose graphical boundaries do not follow the orthographic conventions of Portuguese. Two types are considered: (i) hyposegmentations, defined by the lack of boundaries between words, such as "concerteza" (surely), "ajudime" (help me); and (ii) hypersegmentations, which are characterized by the presence of boundaries within a word, such as "na quela" (those), "morava-mos" (we lived). The main objective is to address the relationship between prosody and writing based on a quantitative analysis of hypo- and hypersegmentations and a qualitative analysis of hypersegmentations which occur in texts written by students from Junior High School (EF II) in Brazil. A description of the longitudinal sample of analyzed texts is made, since it is a little-known type of texts if compared to texts from Elementary School (EF I). In the sequence, methodological problems of identifying unconventional segmentations in writings are discussed, since there is no consensus about this methodology. Following the explanation of the proposed methodology, we highlight the role of literacy practices of reading and writing in regard to the categorization of white space between written words. Based on the quantitative analysis, the main results are as follows: (i) hypo- and hypersegmentation occur more frequently in texts of male students than in texts of female students, a trace of EF II similar to EF I; and (ii) hypersegmentation, but not hyposegmentation, decreases in frequency throughout the school years, a characteristic which distinguishes EF II from EF I. Analysis of prosodic, morphosyntactic and semantic features of words and utterances in which hypersegmentations occur has been made and linguistic characteristics of hypersegmentations from EF II have been identified. The ...
17

Some Contributions to Interactive Machine Translation and to the Applications of Machine Translation for Historical Documents

Domingo Ballester, Miguel 28 February 2022 (has links)
[ES] Los documentos históricos son una parte importante de nuestra herencia cultural. Sin embargo, debido a la barrera idiomática inherente en el lenguaje humano y a las propiedades lingüísticas de estos documentos, su accesibilidad está principalmente restringida a los académicos. Por un lado, el lenguaje humano evoluciona con el paso del tiempo. Por otro lado, las convenciones ortográficas no se crearon hasta hace poco y, por tanto, la ortografía cambia según el período temporal y el autor. Por estas razones, el trabajo de los académicos es necesario para que los no expertos puedan obtener una comprensión básica de un documento determinado. En esta tesis abordamos dos tareas relacionadas con el procesamiento de documentos históricos. La primera tarea es la modernización del lenguaje que, a fin de hacer que los documentos históricos estén más accesibles para los no expertos, tiene como objetivo reescribir un documento utilizando la versión moderna del idioma original del documento. La segunda tarea es la normalización ortográfica. Las propiedades lingüísticas de los documentos históricos mencionadas con anterioridad suponen un desafío adicional para la aplicación efectiva del procesado del lenguaje natural en estos documentos. Por lo tanto, esta tarea tiene como objetivo adaptar la ortografía de un documento a los estándares modernos a fin de lograr una consistencia ortográfica. Ambas tareas las afrontamos desde una perspectiva de traducción automática, considerando el idioma original de un documento como el idioma fuente, y su homólogo moderno/normalizado como el idioma objetivo. Proponemos varios enfoques basados en la traducción automática estadística y neuronal, y llevamos a cabo una amplia experimentación que ratifica el potencial de nuestras contribuciones -en donde los enfoques estadísticos arrojan resultados iguales o mejores que los enfoques neuronales para la mayoría de los casos-. En el caso de la tarea de modernización del lenguaje, esta experimentación incluye una evaluación humana realizada con la ayuda de académicos y un estudio con usuarios que verifica que nuestras propuestas pueden ayudar a los no expertos a obtener una comprensión básica de un documento histórico sin la intervención de un académico. Como ocurre con cualquier problema de traducción automática, nuestras aplicaciones no están libres de errores. Por lo tanto, para obtener modernizaciones/normalizaciones perfectas, un académico debe supervisar y corregir los errores. Este es un procedimiento común en la industria de la traducción. La metodología de traducción automática interactiva tiene como objetivo reducir el esfuerzo necesario para obtener traducciones de alta calidad uniendo al agente humano y al sistema de traducción en un proceso de corrección cooperativo. Sin embargo,la mayoría de los protocolos interactivos siguen una estrategia de izquierda a derecha. En esta tesis desarrollamos un nuevo protocolo interactivo que rompe con esta barrera de izquierda a derecha. Hemos evaluado este nuevo protocolo en un entorno de traducción automática, obteniendo grandes reducciones del esfuerzo humano. Finalmente, dado que este marco interactivo es de aplicación general a cualquier problema de traducción, lo hemos aplicado -nuestro nuevo protocolo junto con uno de los protocolos clásicos de izquierda a derecha- a la modernización del lenguaje y a la normalización ortográfica. Al igual que en traducción automática, el marco interactivo logra disminuir el esfuerzo requerido para corregir los resultados de un sistema automático. / [CA] Els documents històrics són una part important de la nostra herència cultural. No obstant això, degut a la barrera idiomàtica inherent en el llenguatge humà i a les propietats lingüístiques d'aquests documents, la seua accessibilitat està principalment restringida als acadèmics. D'una banda, el llenguatge humà evoluciona amb el pas del temps. D'altra banda, les convencions ortogràfiques no es van crear fins fa poc i, per tant, l'ortografia canvia segons el període temporal i l'autor. Per aquestes raons, el treball dels acadèmics és necessari perquè els no experts puguen obtindre una comprensió bàsica d'un document determinat. En aquesta tesi abordem dues tasques relacionades amb el processament de documents històrics. La primera tasca és la modernització del llenguatge que, a fi de fer que els documents històrics estiguen més accessibles per als no experts, té per objectiu reescriure un document utilitzant la versió moderna de l'idioma original del document. La segona tasca és la normalització ortogràfica. Les propietats lingüístiques dels documents històrics mencionades amb anterioritat suposen un desafiament addicional per a l'aplicació efectiva del processat del llenguatge natural en aquests documents. Per tant, aquesta tasca té per objectiu adaptar l'ortografia d'un document als estàndards moderns a fi d'aconseguir una consistència ortogràfica. Dues tasques les afrontem des d'una perspectiva de traducció automàtica, considerant l'idioma original d'un document com a l'idioma font, i el seu homòleg modern/normalitzat com a l'idioma objectiu. Proposem diversos enfocaments basats en la traducció automàtica estadística i neuronal, i portem a terme una àmplia experimentació que ratifica el potencial de les nostres contribucions -on els enfocaments estadístics obtenen resultats iguals o millors que els enfocaments neuronals per a la majoria dels casos-. En el cas de la tasca de modernització del llenguatge, aquesta experimentació inclou una avaluació humana realitzada amb l'ajuda d'acadèmics i un estudi amb usuaris que verifica que les nostres propostes poden ajudar als no experts a obtindre una comprensió bàsica d'un document històric sense la intervenció d'un acadèmic. Com ocurreix amb qualsevol problema de traducció automàtica, les nostres aplicacions no estan lliures d'errades. Per tant, per obtindre modernitzacions/normalitzacions perfectes, un acadèmic ha de supervisar i corregir les errades. Aquest és un procediment comú en la indústria de la traducció. La metodologia de traducció automàtica interactiva té per objectiu reduir l'esforç necessari per obtindre traduccions d'alta qualitat unint a l'agent humà i al sistema de traducció en un procés de correcció cooperatiu. Tot i això, la majoria dels protocols interactius segueixen una estratègia d'esquerra a dreta. En aquesta tesi desenvolupem un nou protocol interactiu que trenca amb aquesta barrera d'esquerra a dreta. Hem avaluat aquest nou protocol en un entorn de traducció automàtica, obtenint grans reduccions de l'esforç humà. Finalment, atès que aquest marc interactiu és d'aplicació general a qualsevol problema de traducció, l'hem aplicat -el nostre nou protocol junt amb un dels protocols clàssics d'esquerra a dreta- a la modernització del llenguatge i a la normalitzaciò ortogràfica. De la mateixa manera que en traducció automàtica, el marc interactiu aconsegueix disminuir l'esforç requerit per corregir els resultats d'un sistema automàtic. / [EN] Historical documents are an important part of our cultural heritage. However,due to the language barrier inherent in human language and the linguistic properties of these documents, their accessibility is mostly limited to scholars. On the one hand, human language evolves with the passage of time. On the other hand, spelling conventions were not created until recently and, thus, orthography changes depending on the time period and author. For these reasons, the work of scholars is needed for non-experts to gain a basic understanding of a given document. In this thesis, we tackle two tasks related with the processing of historical documents. The first task is language modernization which, in order to make historical documents more accessible to non-experts, aims to rewrite a document using the modern version of the document's original language. The second task is spelling normalization. The aforementioned linguistic properties of historical documents suppose an additional challenge for the effective natural language processing of these documents. Thus, this task aims to adapt a document's spelling to modern standards in order to achieve an orthography consistency. We affront both task from a machine translation perspective, considering a document's original language as the source language, and its modern/normalized counterpart as the target language. We propose several approaches based on statistical and neural machine translation, and carry out a wide experimentation that shows the potential of our contributions¿with the statistical approaches yielding equal or better results than the neural approaches in most of the cases. For the language modernization task, this experimentation includes a human evaluation conducted with the help of scholars and a user study that verifies that our proposals are able to help non-experts to gain a basic understanding of a historical document without the intervention of a scholar. As with any machine translation problem, our applications are not error-free. Thus, to obtain perfect modernizations/normalizations, a scholar needs to supervise and correct the errors. This is a common procedure in the translation industry. The interactive machine translation framework aims to reduce the effort needed for obtaining high quality translations by embedding the human agent and the translation system into a cooperative correction process. However, most interactive protocols follow a left-to-right strategy. In this thesis, we developed a new interactive protocol that breaks this left-to-right barrier. We evaluated this new protocol in a machine translation environment, obtaining large reductions of the human effort. Finally, since this interactive framework is of general application to any translation problem, we applied it¿our new protocol together with one of the classic left-to-right protocols¿to language modernization and spelling normalization. As with machine translation, the interactive framework diminished the effort required for correcting the outputs of an automatic system. / The research leading to this thesis has been partially funded by Ministerio de Economía y Competitividad (MINECO) under projects SmartWays (grant agreement RTC-2014-1466-4), CoMUN-HaT (grant agreement TIN2015-70924-C2-1-R) and MISMISFAKEnHATE (grant agreement PGC2018-096212-B-C31); Generalitat Valenciana under projects ALMAMATER (grant agreement PROMETEOII/2014/030) and DeepPattern (grant agreement PROMETEO/2019/121); the European Union through Programa Operativo del Fondo Europeo de Desarrollo Regional (FEDER) from Comunitat Valenciana (2014–2020) under project Sistemas de frabricación inteligentes para la indústria 4.0 (grant agreement ID-IFEDER/2018/025); and the PRHLT research center under the research line Machine Learning Applications. / Domingo Ballester, M. (2022). Some Contributions to Interactive Machine Translation and to the Applications of Machine Translation for Historical Documents [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/181231 / TESIS

Page generated in 0.0464 seconds