Spelling suggestions: "subject:"habla"" "subject:"tabla""
241 |
Programa dirigido a docentes para la detección de dificultades de lenguaje oral en niños de educación inicial de instituciones públicas.Morazan Artola, Gloria Maribel 08 February 2019 (has links)
El propósito de la presente investigación es demostrar el efecto del
programa dirigido a docentes para la detección de dificultades de lenguaje oral en
niños de educación inicial de instituciones públicas. Para ello se realizó una
investigación cuasi experimental con una muestra de cien docentes, divididos en
dos grupos, un grupo experimental y un grupo control. Los resultados fueron
medidos con un cuestionario pre y post test aplicado en ambos grupos.
Los resultados señalaron una respuesta afirmativa en cada una de las
hipótesis. Al término del programa se evidenciaron logros muy significativos, en
cada una de las dimensiones desarrolladas. Por lo cual se llega a la conclusión que
el programa incrementó los conocimientos de los docentes acerca de la detección
de las dificultades de lenguaje oral e impulsó la toma de conciencia de la
importancia de una detección temprana a fin de que tomen las acciones
preventivas acertadas dentro del aula. / The purpose of this research is to demonstrate the effect of the program
aimed at teachers for the detection of oral language difficulties in children early
education public institutions. This requires a quasi-experimental research was
conducted with a sample of one hundred teachers, divided into two groups, an
experimental group and a control group. The results were measured with a pre and
post test questionnaire applied in both groups.
The results showed a positive response to each of the hypotheses. When
the program is evidenced very significant gains in each of the dimensions
developed. Concluding that the program increased knowledge of teachers about
the detection of the difficulties of oral language and boosted awareness of the
importance of early detection to take preventive actions successful in the
classroom.
|
242 |
CONTRIBUTIONS TO EFFICIENT AUTOMATIC TRANSCRIPTION OF VIDEO LECTURESAgua Teba, Miguel Ángel del 04 November 2019 (has links)
Tesis por compendio / [ES] Durante los últimos años, los repositorios multimedia en línea se han convertido
en fuentes clave de conocimiento gracias al auge de Internet, especialmente en
el área de la educación. Instituciones educativas de todo el mundo han dedicado
muchos recursos en la búsqueda de nuevos métodos de enseñanza, tanto para
mejorar la asimilación de nuevos conocimientos, como para poder llegar a una
audiencia más amplia. Como resultado, hoy en día disponemos de diferentes
repositorios con clases grabadas que siven como herramientas complementarias en
la enseñanza, o incluso pueden asentar una nueva base en la enseñanza a
distancia. Sin embargo, deben cumplir con una serie de requisitos para que la
experiencia sea totalmente satisfactoria y es aquí donde la transcripción de los
materiales juega un papel fundamental. La transcripción posibilita una búsqueda
precisa de los materiales en los que el alumno está interesado, se abre la
puerta a la traducción automática, a funciones de recomendación, a la
generación de resumenes de las charlas y además, el poder hacer
llegar el contenido a personas con discapacidades auditivas. No obstante, la
generación de estas transcripciones puede resultar muy costosa.
Con todo esto en mente, la presente tesis tiene como objetivo proporcionar
nuevas herramientas y técnicas que faciliten la transcripción de estos
repositorios. En particular, abordamos el desarrollo de un conjunto de herramientas
de reconocimiento de automático del habla, con énfasis en las técnicas de aprendizaje
profundo que contribuyen a proporcionar transcripciones precisas en casos de
estudio reales. Además, se presentan diferentes participaciones en competiciones
internacionales donde se demuestra la competitividad del software comparada con
otras soluciones. Por otra parte, en aras de mejorar los sistemas de
reconocimiento, se propone una nueva técnica de adaptación de estos sistemas al
interlocutor basada en el uso Medidas de Confianza. Esto además motivó el
desarrollo de técnicas para la mejora en la estimación de este tipo de medidas
por medio de Redes Neuronales Recurrentes.
Todas las contribuciones presentadas se han probado en diferentes repositorios
educativos. De hecho, el toolkit transLectures-UPV es parte de un conjunto de
herramientas que sirve para generar transcripciones de clases en diferentes
universidades e instituciones españolas y europeas. / [CA] Durant els últims anys, els repositoris multimèdia en línia s'han convertit
en fonts clau de coneixement gràcies a l'expansió d'Internet, especialment en
l'àrea de l'educació. Institucions educatives de tot el món han dedicat
molts recursos en la recerca de nous mètodes d'ensenyament, tant per
millorar l'assimilació de nous coneixements, com per poder arribar a una
audiència més àmplia. Com a resultat, avui dia disposem de diferents
repositoris amb classes gravades que serveixen com a eines complementàries en
l'ensenyament, o fins i tot poden assentar una nova base a l'ensenyament a
distància. No obstant això, han de complir amb una sèrie de requisits perquè la
experiència siga totalment satisfactòria i és ací on la transcripció dels
materials juga un paper fonamental. La transcripció possibilita una recerca
precisa dels materials en els quals l'alumne està interessat, s'obri la
porta a la traducció automàtica, a funcions de recomanació, a la
generació de resums de les xerrades i el poder fer
arribar el contingut a persones amb discapacitats auditives. No obstant, la
generació d'aquestes transcripcions pot resultar molt costosa.
Amb això en ment, la present tesi té com a objectiu proporcionar noves
eines i tècniques que faciliten la transcripció d'aquests repositoris. En
particular, abordem el desenvolupament d'un conjunt d'eines de reconeixement
automàtic de la parla, amb èmfasi en les tècniques d'aprenentatge profund que
contribueixen a proporcionar transcripcions precises en casos d'estudi reals. A
més, es presenten diferents participacions en competicions internacionals on es
demostra la competitivitat del programari comparada amb altres solucions.
D'altra banda, per tal de millorar els sistemes de reconeixement, es proposa una
nova tècnica d'adaptació d'aquests sistemes a l'interlocutor basada en l'ús de
Mesures de Confiança. A més, això va motivar el desenvolupament de tècniques per
a la millora en l'estimació d'aquest tipus de mesures per mitjà de Xarxes
Neuronals Recurrents.
Totes les contribucions presentades s'han provat en diferents repositoris
educatius. De fet, el toolkit transLectures-UPV és part d'un conjunt d'eines
que serveix per generar transcripcions de classes en diferents universitats i
institucions espanyoles i europees. / [EN] During the last years, on-line multimedia repositories have become key
knowledge assets thanks to the rise of Internet and especially in the area of
education. Educational institutions around the world have devoted big efforts
to explore different teaching methods, to improve the transmission of knowledge
and to reach a wider audience. As a result, online video lecture repositories
are now available and serve as complementary tools that can boost the learning
experience to better assimilate new concepts. In order to guarantee the success
of these repositories the transcription of each lecture plays a very important
role because it constitutes the first step towards the availability of many other
features. This transcription allows the searchability of learning materials,
enables the translation into another languages, provides recommendation
functions, gives the possibility to provide content summaries, guarantees
the access to people with hearing disabilities, etc. However, the
transcription of these videos is expensive in terms of time and human cost.
To this purpose, this thesis aims at providing new tools and techniques that
ease the transcription of these repositories. In particular, we address the
development of a complete Automatic Speech Recognition Toolkit with an special
focus on the Deep Learning techniques that contribute to provide accurate
transcriptions in real-world scenarios. This toolkit is tested against many
other in different international competitions showing comparable transcription
quality. Moreover, a new technique to improve the recognition accuracy has been
proposed which makes use of Confidence Measures, and constitutes the spark that
motivated the proposal of new Confidence Measures techniques that helped to
further improve the transcription quality. To this end, a new speaker-adapted
confidence measure approach was proposed for models based on Recurrent Neural
Networks.
The contributions proposed herein have been tested in real-life scenarios in
different educational repositories. In fact, the transLectures-UPV toolkit is
part of a set of tools for providing video lecture transcriptions in many
different Spanish and European universities and institutions. / Agua Teba, MÁD. (2019). CONTRIBUTIONS TO EFFICIENT AUTOMATIC TRANSCRIPTION OF VIDEO LECTURES [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/130198 / Compendio
|
243 |
Construcción de recursos para la detección y clasificación automática de disfluencias producidas por tartamudez en españolCabrera Díaz, Daniel Alonso 18 September 2024 (has links)
Esta tesis abordó el desarrollo de recursos computacionales para la
detección y clasificación de disfluencias de tartamudez en español, cubriendo
desde la recolección y anotación de audios hasta la implementación de un
modelo de aprendizaje automático y estrategias de aumento de datos. Se
recolectaron audios en español de cinco participantes con tartamudez,
conformes a los estándares del dataset SEP-28K y con apoyo de dos
especialistas en tartamudez. Aunque la naturaleza controlada de las grabaciones
limitó la diversidad de disfluencias observadas, estos audios proporcionaron una
base sólida para el desarrollo del modelo. El modelo presentado se basó en el
modelo DisfluencyNet. Este modelo fue pre entrenado utilizando wav2vec 2.0
XLSR53 aprovechando su robusta base de datos multilingüe. El modelo
demostró su capacidad para identificar y clasificar disfluencias en español,
aunque su rendimiento fue inferior comparado con modelos equivalentes en
inglés. Esta diferencia subraya la necesidad de más datos. Para mejorar la
detección de disfluencias, se implementaron dos estrategias de aumento de
datos. La primera incluyó variaciones de pitch, adición de reverberación y ruido
blanco, duplicando efectivamente la cantidad de datos disponibles. Aunque esta
estrategia mejoró el recall en ciertas disfluencias, los resultados en precisión y
F1 fueron mixtos. La segunda estrategia, mediante clonación de voz con el
modelo XTTS-v2, generó nuevos audios que emulaban disfluencias naturales,
como prolongaciones y bloqueos. Aunque mejoró el recall, especialmente en
rondas posteriores de aumento de datos, la precisión y F1 continuaron siendo
desafiantes. Futuras investigaciones se enfocarán en expandir la anotación de
disfluencias en contextos de habla espontánea y procesar los audios restantes
del corpus inicial para explorar mejoras en la clasificación y detección de
disfluencias. Además, se explorarán métodos avanzados de clonación de voz y
otras técnicas de modificación de audios para enriquecer los datasets y mejorar
los modelos de detección y clasificación de disfluencias. / This thesis focused on the development of computational resources for the
detection and classification of stuttering disfluencies in Spanish, spanning from
the collection and annotation of audio data to the implementation of a machine
learning model and data augmentation strategies. Audios in Spanish from five
participants with stuttering were collected, adhering to the SEP-28K dataset
standards and supported by two specialists in stuttering. Although the controlled
nature of the recordings limited the diversity of observed disfluencies, these
audios provided a solid foundation for the model development. The model was
based on the DisfluencyNet and pre-trained using wav2vec 2.0 XLSR53,
leveraging its robust multilingual database. The model demonstrated its ability to
identify and classify disfluencies in Spanish, though its performance was inferior
compared to similar models in English, highlighting the need for more data. To
enhance disfluency detection, two data augmentation strategies were
implemented. The first involved pitch variations, reverberation addition, and white
noise, effectively doubling the available data. Although this strategy improved
recall for certain disfluencies, precision and F1 results were mixed. The second
strategy, using voice cloning with the XTTS-v2 model, generated new audios that
emulated natural disfluencies, such as prolongations and blocks. While it
enhanced recall, particularly in later rounds of data augmentation, precision and
F1 continued to be challenging. Future research will focus on expanding the
annotation of disfluencies in spontaneous speech contexts and processing the
remaining audios from the initial corpus to explore improvements in classification
and detection of disfluencies. Additionally, advanced voice cloning methods and
other audio modification techniques will be explored to enrich the datasets and
enhance the detection and classification models.
|
244 |
The Acquisition of Pragmatic and Intercultural Communicative Competences through TelecollaborationDi Sarno García, Sofia 26 October 2023 (has links)
[ES] El estudio presentado en esta tesis gira en torno a la implementación de proyectos de telecolaboración para la adquisición de la competencia pragmática y la competencia comunicativa intercultural (CCI) de estudiantes hispanohablantes. En particular, el objetivo es demostrar cómo estas competencias están inextricablemente relacionadas, y una no puede ser adquirida sin la otra. Por esta razón, los participantes del estudio aquí presentado fueron estudiantes de ingeniería aeroespacial, ya que es probable que participen en diálogos interculturales en sus futuras vidas profesionales. La falta de estas dos competencias podría resultar en malentendidos culturales que a su vez podrían afectar su carrera profesional.
Para fomentar la competencia pragmática y la CCI de los participantes, se coordinaron tres proyectos telecolaborativos de seis semanas cada uno. El primero fue con hablantes del inglés como primera lengua (L1) o hablantes expertos de la Universidad de Bath (Reino Unido), el segundo con hablantes del inglés como L1 o hablantes expertos de la Universidad de Hawái (EE. UU.), y el tercero con hablantes del inglés como L1 de la Universidad de Morgan State (EE. UU.). Para probar la validez de la implementación de estos tres proyectos se estableció un grupo de control que no participó en ningún encuentro telecolaborativo. Los participantes de los tres intercambios interculturales participaron tanto en sesiones síncronas como asíncronas. En las primeras, los estudiantes realizaron una serie de juegos de rol centrados en el acto de habla de las disculpas, desarrolladas a través de Zoom. Por otra parte, las segundas consistieron en dos debates culturales llevados a cabo en la red social MeWe. Los estudiantes del grupo de control realizaron los juegos de rol con sus compañeros y compañeras de clase en un entorno tradicional, cara a cara, pero no participaron en ningún debate cultural. Los datos se recogieron a través de estas tareas, por medio de pre- y post-test sobre las disculpas, un cuestionario de final de proyecto, y una presentación final que prepararon los tres grupos experimentales. Se adoptó un enfoque de métodos mixtos.
Los resultados demuestran que los tres grupos de estudiantes que participaron en los proyectos de telecolaboración excedieron a aquellos del grupo de control en cuanto a la adquisición de disculpas. A pesar de que los resultados pragmáticos no fueron estadísticamente significativos, los estadísticos descriptivos revelaron que los tres grupos mejoraron de pre- a post-test. En particular, el primer grupo obtuvo mejores resultados que los demás. Además, se identificaron ejemplos de desarrollo de la CCI. Los resultados también demuestran que existe una relación empírica entre los logros obtenidos en cuanto a competencia pragmática y CCI, demostrando así la fuerte unión existente entre estas dos competencias. / [CA] L'estudi presentat en aquesta tesi gira al voltant de l'aplicació de projectes telecol·laboratius i l'adquisició de la competència pragmàtica i la competència comunicativa intercultural (CCI) d'estudiants hispanoparlants. En concret, l'objectiu és demostrar com aquestes dues competències estan inextricablement relacionades, i una no pot ser adquirida sense l'altra. Per aquesta raó, els participants de l'estudi presentat ací eren estudiants d'enginyeria aeroespacial, ja que és probable que participen en diàlegs culturals en les seues futures vides professionals. La manca d'aquestes dues competències podria resultar en malentesos culturals que, alhora, podrien afectar les seues carreres professionals.
Per a fomentar la competència pragmàtica i la CCI dels participants, es van coordinar tres projectes telecol·laboratius de sis setmanes cadascun. El primer va ser amb parlants d'anglès com a primera llengua o parlants experts de la Universitat de Bath (Regne Unit), el segon amb parlants d'anglès com a L1 o parlants experts de la Universitat de Hawaii (EE.UU.), i el tercer amb parlants d'anglès com a L1 de la Universitat de Morgan State (EE.UU.). Per a testar la validitat de la implementació d'aquests tres projectes, es va establir un grup de control que no va participar en cap encontre telecol·laboratiu. Els participants dels tres intercanvis interculturals van participar tant en sessions síncrones com asíncrones. En les primeres els estudiants van realitzar una sèrie de jocs de rol centrats en l'acte de parla de les disculpes, i es van desenvolupar a Zoom. D'altra banda, les segones consistien en dos debats culturals realitzats a la xarxa social MeWe. Els estudiants del grup de control van realitzar els jocs de rol amb els seus companys i les seues companyes en un entorn tradicional cara a cara, però no van participar en cap discussió cultural. Les dades es van recollir a través d'aquestes tasques, així com pre- i post-test sobre les disculpes, un qüestionari de final de final de projecte, i una presentació final que van preparar els tres grups experimentals. Es va adoptar un enfocament de mètodes mixts.
Els resultats demostren que els tres grups d'estudiants que van participar en projectes de telecol·laboració van excedir els del grup de control quant a l'adquisició de disculpes. Encara que els resultats pragmàtics no siguen estadísticament significatius, els estadístics descriptius revelen que els tres grups de control van millorar de pre- a post-test. En concret, el primer grup va obtindre millor resultats que els altres. A més, es van identificar casos de desenvolupament de la CCI. Les troballes també demostren que existeix una relació empírica entre els guanys obtinguts quant a competència pragmàtica i CCI, la qual cosa demostra la forta connexió entre aquestes dues competències. / [EN] The study presented in this dissertation revolves around the application of telecollaboration projects for the acquisition of Spanish-speaking students' pragmatic competence and intercultural communicative competence (ICC). In particular, it aims to demonstrate how these two competences are inextricably interrelated, and one cannot be acquired without the other. For this reason, participants of the study presented here were aerospace engineering students since they are likely to engage in intercultural dialogue in their future professional lives. Lack of these two competencies could result in cultural misunderstandings which could, in turn, affect their professional careers.
In order to foster participants' pragmatic competence and ICC, three different six-week telecollaboration projects were coordinated. The first was with first language (L1) or highly proficient English speakers from the University of Bath (UK), the second with L1 or highly proficient speakers from the University of Hawai'i (US), and the third with L1 English speakers from Morgan State University (US). In order to test the validity of the implementation of these three projects, a control group which did not take part in any telecollaborative encounter was set. Participants of the three intercultural exchanges engaged in both synchronous and asynchronous sessions. In the former students carried out a series of role-plays centred on the speech act of apologies, and were held on Zoom. On the other hand, the latter consisted of two cultural discussions conducted on the social network MeWe. Students in the control group carried out the role-plays with their classmates in a traditional face-to-face setting but did not engage in any cultural discussions. Data was gathered through these tasks, as well as pre- and post-test on apologies, a final project questionnaire, and a final presentation carried out by the three experimental groups. A mixed-methods approach was adopted.
The results demonstrate that the three groups of students who participated in the telecollaboration projects outperformed those in the control group in terms of apologies acquisition. Although pragmatic results were not statistically significant, the descriptive statistics revealed that the three groups improved from pre- to post-test. In particular, the first group obtained better results than the others. Besides, instances of ICC development were identified. The findings also demonstrate that there is an empirical relationship between the gains obtained in terms of pragmatic competence and ICC, thus showing the strong connection between these two competences. / Di Sarno García, S. (2023). The Acquisition of Pragmatic and Intercultural Communicative Competences through Telecollaboration [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/198860
|
245 |
Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network ModelsJorge Cano, Javier 30 December 2022 (has links)
Tesis por compendio / [ES] Durante la última década, los medios de comunicación han experimentado una revolución, alejándose de la televisión convencional hacia las plataformas de contenido bajo demanda. Además, esta revolución no ha cambiado solamente la manera en la que nos entretenemos, si no también la manera en la que aprendemos. En este sentido, las plataformas de contenido educativo bajo demanda también han proliferado para proporcionar recursos educativos de diversos tipos. Estas nuevas vías de distribución de contenido han llegado con nuevos requisitos para mejorar la accesibilidad, en particular las relacionadas con las dificultades de audición y las barreras lingüísticas. Aquí radica la oportunidad para el reconocimiento automático del habla (RAH) para cumplir estos requisitos, proporcionando subtitulado automático de alta calidad. Este subtitulado proporciona una base sólida para reducir esta brecha de accesibilidad, especialmente para contenido en directo o streaming. Estos sistemas de streaming deben trabajar bajo estrictas condiciones de tiempo real, proporcionando la subtitulación tan rápido como sea posible, trabajando con un contexto limitado. Sin embargo, esta limitación puede conllevar una degradación de la calidad cuando se compara con los sistemas para contenido en diferido u offline.
Esta tesis propone un sistema de RAH en streaming con baja latencia, con una calidad similar a un sistema offline. Concretamente, este trabajo describe el camino seguido desde el sistema offline híbrido inicial hasta el eficiente sistema final de reconocimiento en streaming. El primer paso es la adaptación del sistema para efectuar una sola iteración de reconocimiento haciendo uso de modelos de lenguaje estado del arte basados en redes neuronales. En los sistemas basados en múltiples iteraciones estos modelos son relegados a una segunda (o posterior) iteración por su gran coste computacional. Tras adaptar el modelo de lenguaje, el modelo acústico basado en redes neuronales también tiene que adaptarse para trabajar con un contexto limitado. La integración y la adaptación de estos modelos es ampliamente descrita en esta tesis, evaluando el sistema RAH resultante, completamente adaptado para streaming, en conjuntos de datos académicos extensamente utilizados y desafiantes tareas basadas en contenidos audiovisuales reales. Como resultado, el sistema proporciona bajas tasas de error con un reducido tiempo de respuesta, comparables al sistema offline. / [CA] Durant l'última dècada, els mitjans de comunicació han experimentat una revolució, allunyant-se de la televisió convencional cap a les plataformes de contingut sota demanda. A més a més, aquesta revolució no ha canviat només la manera en la que ens entretenim, si no també la manera en la que aprenem. En aquest sentit, les plataformes de contingut educatiu sota demanda també han proliferat pera proporcionar recursos educatius de diversos tipus. Aquestes noves vies de distribució de contingut han arribat amb nous requisits per a millorar l'accessibilitat, en particular les relacionades amb les dificultats d'audició i les barreres lingüístiques.
Aquí radica l'oportunitat per al reconeixement automàtic de la parla (RAH) per a complir aquests requisits, proporcionant subtitulat automàtic d'alta qualitat. Aquest subtitulat proporciona una base sòlida per a reduir aquesta bretxa d'accessibilitat, especialment per a contingut en directe o streaming. Aquests sistemes han de treballar sota estrictes condicions de temps real, proporcionant la subtitulació tan ràpid com sigui possible, treballant en un context limitat. Aquesta limitació, però, pot comportar una degradació de la qualitat quan es compara amb els sistemes per a contingut en diferit o offline.
Aquesta tesi proposa un sistema de RAH en streaming amb baixa latència, amb una qualitat similar a un sistema offline. Concretament, aquest treball descriu el camí seguit des del sistema offline híbrid inicial fins l'eficient sistema final de reconeixement en streaming. El primer pas és l'adaptació del sistema per a efectuar una sola iteració de reconeixement fent servir els models de llenguatge de l'estat de l'art basat en xarxes neuronals. En els sistemes basats en múltiples iteracions aquests models son relegades a una segona (o posterior) iteració pel seu gran cost computacional. Un cop el model de llenguatge s'ha adaptat, el model acústic basat en xarxes neuronals també s'ha d'adaptar per a treballar amb un context limitat. La integració i l'adaptació d'aquests models és àmpliament descrita en aquesta tesi, avaluant el sistema RAH resultant, completament adaptat per streaming, en conjunts de dades acadèmiques àmpliament utilitzades i desafiants tasques basades en continguts audiovisuals reals. Com a resultat, el sistema proporciona baixes taxes d'error amb un reduït temps de resposta, comparables al sistema offline. / [EN] Over the last decade, the media have experienced a revolution, turning away from the conventional TV in favor of on-demand platforms. In addition, this media revolution not only changed the way entertainment is conceived but also how learning is conducted. Indeed, on-demand educational platforms have also proliferated and are now providing educational resources on diverse topics. These new ways to distribute content have come along with requirements to improve accessibility, particularly related to hearing difficulties and language barriers. Here is the opportunity for automatic speech recognition (ASR) to comply with these requirements by providing high-quality automatic captioning. Automatic captioning provides a sound basis for diminishing the accessibility gap, especially for live or streaming content. To this end, streaming ASR must work under strict real-time conditions, providing captions as fast as possible, and working with limited context. However, this limited context usually leads to a quality degradation as compared to the pre-recorded or offline content.
This thesis is aimed at developing low-latency streaming ASR with a quality similar to offline ASR. More precisely, it describes the path followed from an initial hybrid offline system to an efficient streaming-adapted system. The first step is to perform a single recognition pass using a state-of-the-art neural network-based language model. In conventional multi-pass systems, this model is often deferred to the second or later pass due to its computational complexity. As with the language model, the neural-based acoustic model is also properly adapted to
work with limited context. The adaptation and integration of these models is thoroughly described and assessed using fully-fledged streaming systems on well-known academic and challenging real-world benchmarks. In brief, it is shown that the proposed adaptation of the language and acoustic models allows the streaming-adapted system to reach the accuracy of the initial offline system with low latency. / Jorge Cano, J. (2022). Streaming Automatic Speech Recognition with Hybrid Architectures and Deep Neural Network Models [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/191001 / Compendio
|
246 |
Confidence Measures for Automatic and Interactive Speech RecognitionSánchez Cortina, Isaías 07 March 2016 (has links)
[EN] This thesis work contributes to the field of the {Automatic Speech Recognition} (ASR). And particularly to the {Interactive Speech Transcription} and {Confidence Measures} (CM) for ASR.
The main goals of this thesis work can be summarised as follows:
1. To design IST methods and tools to tackle the problem of improving automatically generated transcripts.
2. To assess the designed IST methods and tools on real-life tasks of transcription in large educational repositories of video lectures.
3. To improve the reliability of the IST by improving the underlying (CM).
Abstracts:
The {Automatic Speech Recognition} (ASR) is a crucial task in a broad range of important applications which could not accomplished by means of manual transcription. The ASR can provide cost-effective transcripts in scenarios of increasing social impact such as the {Massive Open Online Courses} (MOOC), for which the availability of accurate enough is crucial even if they are not flawless. The transcripts enable search-ability, summarisation, recommendation, translation; they make the contents accessible to non-native speakers and users with impairments, etc. The usefulness is such that students improve their academic performance when learning from subtitled video lectures even when transcript is not perfect.
Unfortunately, the current ASR technology is still far from the necessary accuracy.
The imperfect transcripts resulting from ASR can be manually supervised and corrected, but the effort can be even higher than manual transcription.
For the purpose of alleviating this issue, a novel {Interactive Transcription of Speech} (IST) system is presented in this thesis. This IST succeeded in reducing the effort if a small quantity of errors can be allowed; and also in improving the underlying ASR models in a cost-effective way.
In other to adequate the proposed framework into real-life MOOCs,
another intelligent interaction methods involving limited user effort were investigated. And also, it was introduced a new method which benefit from the user interactions to improve automatically the unsupervised parts ({Constrained Search} for ASR).
The conducted research was deployed into a web-based IST platform with which it was possible to produce a massive number of semi-supervised lectures from two different well-known repositories, videoLectures.net and poliMedia.
Finally, the performance of the IST and ASR systems can be easily increased by improving the computation of the {Confidence Measure} (CM) of transcribed words. As so, two contributions were developed:
a new particular {Logistic Regresion} (LR) model;
and the speaker adaption of the CM for cases in which it is possible, such with MOOCs. / [ES] Este trabajo contribuye en el campo del {reconocimiento automático del habla} (RAH). Y en especial, en el de la {transcripción interactiva del habla} (TIH) y el de las {medidas de confianza} (MC) para RAH. Los objetivos principales son los siguientes:
1. Diseño de métodos y herramientas TIH para mejorar las transcripciones automáticas.
2. Evaluar los métodos y herramientas TIH empleando tareas de transcripción realistas extraídas de grandes repositorios de vídeos educacionales.
3. Mejorar la fiabilidad del TIH mediante la mejora de las MC.
Resumen:
El {reconocimiento automático del habla} (RAH) es una tarea crucial en una amplia gama de aplicaciones importantes que no podrían realizarse mediante transcripción manual. El RAH puede proporcionar transcripciones rentables en escenarios de creciente impacto social como el de los {cursos abiertos en linea masivos} (MOOC), para el que la disponibilidad de transcripciones es crucial, incluso cuando no son completamente perfectas. Las transcripciones permiten la automatización de procesos como buscar, resumir, recomendar, traducir; hacen que los contenidos sean más accesibles para hablantes no nativos y usuarios con discapacidades, etc. Incluso se ha comprobado que mejora el rendimiento de los estudiantes que aprenden de videos con subtítulos incluso cuando estos no son completamente perfectos.
Desafortunadamente, la tecnología RAH actual aún está lejos de la precisión necesaria.
Las transcripciones imperfectas resultantes del RAH pueden ser supervisadas y corregidas manualmente, pero el esfuerzo puede ser incluso superior al de la transcripción manual. Con el fin de aliviar este problema, esta tesis presenta un novedoso sistema de {transcripción interactiva del habla} (TIH).
Este método TIH consigue reducir el esfuerzo de semi-supervisión siempre que sea aceptable una pequeña cantidad de errores; además mejora a la par los modelos RAH subyacentes.
Con objeto de transportar el marco propuesto para MOOCs, también se investigaron otros métodos de interacción inteligentes que involucran esfuerzo limitado por parte del usuario. Además, se introdujo un nuevo método que aprovecha las interacciones para mejorar aún más las partes no supervisadas (ASR con {búsqueda restringida}).
La investigación en TIH llevada a cabo se desplegó en una plataforma web con el que fue posible producir un número masivo de transcripciones de videos de dos conocidos repositorios, videoLectures.net y poliMedia.
Por último, el rendimiento de la TIH y los sistemas de RAH se puede aumentar directamente mediante la mejora de la estimación de la {medida de confianza} (MC) de las palabras transcritas. Por este motivo se desarrollaron dos contribuciones: un nuevo modelo discriminativo {logístico} (LR);
y la adaptación al locutor de la MC para los casos en que es posible, como por ejemplo en MOOCs. / [CA] Aquest treball hi contribueix al camp del {reconeixment automàtic de la parla} (RAP).
I en especial, al de la {transcripció interactiva de la parla} i el de {mesures de confiança} (MC) per a RAP.
Els objectius principals són els següents:
1. Dissenyar mètodes i eines per a TIP per tal de millorar les transcripcions automàtiques.
2. Avaluar els mètodes i eines TIP per a tasques de transcripció realistes extretes de grans repositoris de vídeos educacionals.
3. Millorar la fiabilitat del TIP, mitjançant la millora de les MC.
Resum:
El {reconeixment automàtic de la parla} (RAP) és una tasca crucial per una àmplia gamma d'aplicacions importants que no es poden dur a terme per mitjà de la transcripció manual. El RAP pot proporcionar transcripcions en escenaris de creixent impacte social com els {cursos online oberts massius} (MOOC). Les transcripcions permeten automatitzar tasques com ara cercar, resumir, recomanar, traduir; a més a més,
fa accessibles els continguts als parlants no nadius i els usuaris amb discapacitat, etc. Fins i tot, pot millorar el rendiment acadèmic de estudiants que aprenen de xerrades amb subtítols, encara que aquests subtítols no siguen perfectes. Malauradament, la tecnologia RAP actual encara està lluny de la precisió necessària.
Les transcripcions imperfectes resultants de RAP poden ser supervisades i corregides manualment, però aquest l'esforç pot acabar sent superior a la transcripció manual. Per tal de resoldre aquest problema, en aquest treball es presenta un sistema nou per a {transcripció interactiva de la parla} (TIP). Aquest sistema TIP va ser reeixit en la reducció de l'esforç per quan es pot permetre una certa quantitat d'errors;
així com també en en la millora dels models RAP subjacents.
Per tal d'adequar el marc proposat per a MOOCs, també es van investigar altres mètodes d'interacció intel·ligents amb esforç d''usuari limitat.
A més a més, es va introduir un nou mètode que aprofita les interaccions per tal de millorar encara més les parts no supervisades (RAP amb {cerca restringida}).
La investigació en TIP duta a terme es va desplegar en una plataforma web amb la qual va ser possible produir un nombre massiu de transcripcions semi-supervisades de xerrades de repositoris ben coneguts, videoLectures.net i poliMedia.
Finalment, el rendiment de la TIP i els sistemes de RAP es pot augmentar directament mitjançant la millora de l'estimació de la {Confiança Mesura} (MC) de les paraules transcrites. Per tant, es van desenvolupar dues contribucions: un nou model discriminatiu logístic (LR);
i l'adaptació al locutor de la MC per casos en que és possible, per exemple amb MOOCs. / Sánchez Cortina, I. (2016). Confidence Measures for Automatic and Interactive Speech Recognition [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/61473
|
247 |
Streaming Neural Speech TranslationIranzo Sánchez, Javier 03 November 2023 (has links)
Tesis por compendio / [ES] Gracias a avances significativos en aprendizaje profundo, la traducción del habla (ST) se ha convertido en un campo consolidado, lo que permite la utilización de la tecnología ST en soluciones para entornos de producción. Como consecuencia del aumento constante del número de horas de contenido audiovisual generado cada año, así como una mayor sensibilización sobre la importancia de la accesibilidad, la ST está preparada para convertirse en un elemento clave para la producción de contenidos audiovisuales, tanto de ocio como educativos.
A pesar de que se ha progresado significativamente en ST, la mayor parte de la investigación se ha centrado en el escenario en diferido (offline), en el cual todo el audio de entrada está disponible. En cambio, la ST en directo (online) es una temática en la que falta mucho por investigar. En concreto, existe un caso de traducción en directo, la traducción continua (streaming), que traduce un flujo continuo de palabras en tiempo real y bajo unas estrictas condiciones de latencia. Este es un problema mucho más realista, que es necesario resolver para que sea posible aplicar la ST a una variedad de tareas de la vida real.
Esta tesis está centrada en investigar y desarrollar las técnicas claves que son necesarias para una solución de ST continua. En primer lugar, de cara a permitir el desarrollo y la evaluación de sistemas de ST, se ha recopilado un nuevo conjunto de datos para ST multilingüe, que expande significativamente el número de horas disponibles para ST. A continuación se ha desarrollado un segmentador preparado para la condición continua, que se utiliza para segmentar las transcripciones intermedias de nuestra solución por etapas, que consiste en un sistema de reconocimiento automático del habla (ASR), seguido de un sistema de traducción automática (MT) encargado de traducir las transcripciones intermedias al idioma de destino elegido. Diversas investigaciones han concluido que la calidad de la segmentación es un factor muy influyente es la calidad del sistema MT, por lo que el desarrollo de un segmentador efectivo es un paso fundamental en el proceso de ST continua. Este segmentador se ha integrado en la solución por etapas, y estas se optimizan de manera conjunta para alcanzar el equilibrio óptimo entre calidad y latencia.
La ST continua tiene unas restricciones de latencia mucho más estrictas que la ST en directo, ya que el nivel deseado de latencia tiene que mantenerse durante todo el proceso de traducción. Por tanto, es crucial ser capaz de medir de manera precisa esta latencia, pero las métricas estándar de ST en directo no se adaptan bien a esta tarea. Como consecuencia de esto, se proponen nuevos métodos para la evaluación de ST continua, que garantizan unos resultados precisos a la vez que interpretables.
Por último, se presenta un nuevo método para mejorar la calidad de la traducción continua mediante el uso de información contextual. Mientras que los sistemas tradicionales de ST en directo traducen audios de manera aislada, existe abundante información contextual que está disponible para mejorar los sistemas de ST continua. Nuestra propuesta introduce el concepto de historia continua, que consiste en el almacenamiento de la información más reciente del proceso de traducción, que se utiliza más adelante por el modelo para mejorar la calidad de la traducción. / [CA] Gràcies a avanços significatius en aprenentatge profund, la traducció de la parla (ST) s'ha convertit en un camp consolidat, la qual cosa permet la utilització de la tecnologia ST en solucions per a entorns de producció. A conseqüència de l'augment constant del nombre d'hores de contingut audiovisual generat cada any, així com una major sensibilització sobre la importància de l'accessibilitat, la ST està preparada per a convertir-se en un element clau per a la producció de continguts audiovisuals, tant d'oci com educatius.
A pesar que s'ha progressat significativament en ST, la major part de la recerca s'ha centrat en l'escenari en diferit, en el qual tot l'àudio d'entrada està disponible. En canvi, la ST en directe és una temàtica en la qual falta molt per investigar. En concret, existeix un cas de traducció en directe, la traducció contínua, que tradueix un flux continu de paraules en temps real i sota unes estrictes condicions de latència. Aquest és un problema molt més realista, que és necessari resoldre perquè sigui possible aplicar la ST a una varietat de tasques de la vida real.
Aquesta tesi està centrada en investigar i desenvolupar les tècniques claus que són necessàries per a una solució de ST contínua. En primer lloc, de cara a permetre el desenvolupament i l'avaluació de sistemes de ST, s'ha recopilat un nou conjunt de dades per a ST multilingüe, que expandeix significativament la quantitat de dades disponibles per a ST. A continuació s'ha desenvolupat un segmentador preparat per a la condició contínua, que s'utilitza per a segmentar les transcripcions intermèdies de la nostra solució per etapes, que consisteix en un sistema de reconeixement automàtic de la parla (ASR), seguit d'un sistema de traducció automàtica (MT) encarregat de traduir les transcripcions intermèdies a l'idioma de destí triat. Diveros treballs de recerca han conclòs que la qualitat de la segmentació és un factor molt important en la qualitat del sistema MT, per la qual cosa el desenvolupament d'un segmentador efectiu és un pas fonamental en el procés de ST contínua. Aquest segmentador s'ha integrat en la solució per etapes, i aquestes s'optimitzen de manera conjunta per a aconseguir l'equilibri òptim entre qualitat i latència.
La ST contínua té unes restriccions de latència molt més estrictes que la ST en directe, ja que el nivell desitjat de latència ha de mantindre's durant tot el procés de traducció. Per tant, és crucial ser capaç de mesurar de manera precisa aquesta latència, però les mètriques estàndard de ST en directe no s'adapten bé a aquesta tasca. A conseqüència d'això, es proposen nous mètodes per a l'avaluació de ST contínua, que garanteixen uns resultats precisos alhora que interpretables.
Finalment, es presenta un nou mètode per a millorar la qualitat de la traducció contínua mitjançant l'ús d'informació contextual. Mentre que els sistemes tradicionals de ST en directe tradueixen àudios de manera aïllada, existeix abundant informació contextual que està disponible per a millorar els sistemes de ST contínua. La nostra proposta introdueix el concepte d'història contínua, que consisteix en l'emmagatzematge de la informació més recent del procés de traducció, que s'utilitza més endavant pel model per a millorar la qualitat de la traducció. / [EN] Thanks to significant advances in Deep Learning, Speech Translation (ST) has become a mature field that enables the use of ST technology in production-ready solutions. Due to the ever-increasing hours of audio-visual content produced each year, as well as higher awareness of the importance of media accessibility, ST is poised to become a key element for the production of entertainment and educational media.
Although significant advances have been made in ST, most research has focused on the offline scenario, where the entire input audio is available. In contrast, online ST remains an under-researched topic. A special case of online ST, streaming ST, translates an unbounded input stream in a real-time fashion under strict latency constraints. This is a much more realistic problem that needs to be solved in order to apply ST to a variety of real-life tasks.
The focus of this thesis is on researching and developing key techniques necessary for a successful streaming ST solution. First, in order to enable ST system development and evaluation, a new multilingual ST dataset is collected, which significantly expands the amount of hours available for ST. Then, a streaming-ready segmenter component is developed to segment the intermediate transcriptions of our proposed cascade solution, which consists in an Automatic Speech Recognition (ASR) system that transcribes the audio, followed by a Machine Translation (MT) system that translates the intermediate transcriptions into the desired language. Research has shown that segmentation quality plays a significant role in downstream MT performance, so the development of an effective streaming segmenter is a critical step in the streaming ST process. This segmenter is then integrated and the components of the cascade are jointly optimized to achieve an appropriate quality-latency trade-off.
Streaming ST has much more strict latency constraints than standard online ST, as the desired latency level must be maintained during the whole translation process. Therefore, it is crucial to be able to accurately measure this latency, but the standard online ST metrics are not well suited for this task. As a consequence, new evaluation methods are proposed for streaming ST evaluation, which ensure realistic, yet interpretable results.
Lastly, a novel method is presented for improving translation quality through the use of contextual information. Whereas standard online ST systems translate audios in isolation, there is a wealth of contextual information available for improving streaming ST systems. Our approach introduces the concept of streaming history by storing the most recent information of the translation process, which is then used by the model in order to improve translation quality. / The research leading to these results has received funding from the European
Union’s Horizon 2020 research and innovation programme under grant agreements no. 761758 (X5Gon) and 952215 (TAILOR), and Erasmus+ Educa-
tion programme under grant agreement no. 20-226-093604-SCH (EXPERT);
the Government of Spain’s grant RTI2018-094879-B-I00 (Multisub) funded by
MCIN/AEI/10.13039/501100011033 & “ERDF A way of making Europe”, and
FPU scholarships FPU18/04135; and the Generalitat Valenciana’s research
project Classroom Activity Recognition (ref. PROMETEO/2019/111) and predoctoral research
scholarship ACIF/2017/055. / Iranzo Sánchez, J. (2023). Streaming Neural Speech Translation [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/199170 / Compendio
|
248 |
Acesso lexical e produção de fala em bilíngues português-espanhol e espanhol-portuguêsPreuss, Elena Ortiz January 2011 (has links)
Nesta tese apresentamos uma pesquisa que teve como objetivo geral analisar os mecanismos de acesso lexical e produção de fala em um grupo de bilíngues português-espanhol e espanhol-português. Mais especificamente, foi observado o desempenho desses bilíngues em tarefas de nomear desenhos na L2, a fim de: (a) identificar efeitos de interferência (semântica, de identidade e de facilitação fonológica/ortográfica); (b) observar se o status cognato das palavras poderia interferir no processo de lexicalização; (c) averiguar a existência de interatividade entre as línguas; e (d) verificar se havia correlação entre as médias dos tempos de reação, de acurácia das respostas e o grau de similaridade entre as línguas. Para isso, foram desenvolvidas duas tarefas, dentro do paradigma de interferência desenho-palavra, nos quais houve manipulação da natureza das relações entre desenho-palavra e controle sobre os tipos de palavra envolvidos. Contamos com uma amostra de 23 bilíngues, os quais tiveram que nomear 90 desenhos que apareciam duas vezes nos testes (uma vez na condição relacionada e outra vez na condição não-relacionada). Para avaliar cada efeito de interferência (semântica, de identidade e de facilitação fonológica/ortográfica) foram usados 30 desenhos, os quais foram subdivididos em três grupos, com 10 desenhos cada, conforme o tipo de palavra (cognatas, não-cognatas e falso-cognatas). Dessa forma, nosso experimento passou a ter uma configuração ortogonal. Em geral, os resultados obtidos no experimento parecem evidenciar a especificidade do mecanismos de seleção, uma vez que as nomeações, conforme as expectativas iniciais, foram mais rápidas, na condição relacionada, nos efeitos de identidade interlinguística e de facilitação fonológica/ortográfica, e mais lentas, nessa mesma condição de relação, no efeito de interferência semântica. Assim, tais resultados parecem fortalecer a hipótese de que a seleção lexical é específica na língua de resposta. Outra evidência extremamente significativa se refere ao importante papel que o status cognato das palavras desempenha no processo de lexicalização, tendo sido constatada relevância estatística tanto isoladamente quanto em comparações e interações com os outros efeitos testados. Esses resultados mostram que, ao avaliar os tipos de efeitos de interferência, é preciso considerar os tipos de palavras envolvidos. Foram identificados, também, importantes indícios de que o princípio de interatividade é funcional entre as línguas, principalmente, porque no contexto que privilegiava a ativação sublexical (efeito de facilitação fonológica), as falso-cognatas apresentaram tempos de reação mais rápidos, e a explicação mais plausível para isso é a ocorrência de ativação bidirecional, vinda dos segmentos fonológicos ativados pela tradução na L1 (que não corresponde ao mesmo conceito na L2), a qual incrementou a ativação do nó lexical-alvo na L2. Outro indício relevante observado é de que a fórmula similaridade linguística=facilidade de aquisição da L2 parece ser inconsistente, em virtude de uma sobrecarga atencional provocada pela similaridade entre as línguas. Essa suposição se respalda nos resultados dos tempos de reação e de acurácia entre as cognatas, os quais não foram correspondentes, porque houve contextos em que a nomeação foi mais rápida, mas a acurácia foi menor. Essa diminuição de respostas corretas pode ser uma decorrência da sobrecarga atencional, provocada pela similaridade das palavras. Entretanto, são necessárias, ainda, mais investigações. / This study aimed at analyzing the mechanisms of lexical access and speech production in a group of bilingual Portuguese-Spanish and Spanish-Portuguese speakers. More specifically, our goal was to observe the performance of these bilinguals in L2 picture naming tasks in order to: (a) identify the effects of interference (semantic, identity and phonological/orthographic facilitation), (b) investigate if the status of cognate words could affect the lexicalization process, (c) verify the existence of interaction between languages, and (d) determine whether there was a correlation between reaction time, accuracy and the degree of similarity between languages. Two tasks, in which the nature of the relationship between pictures and words and the types of words involved were controlled for, were developed within the picture-word interference paradigm. The sample was composed of 23 bilinguals, who were asked to name 90 pictures that appeared twice in the tests (once in the related condition and once in the unrelated condition). To assess each interference effect (semantics, identity and phonological/orthographic facilitation), 30 pictures, which were subdivided into three groups, with 10 pictures each, depending on the type of word (cognate, non-cognates and false cognates) were used. Thus, our experiment had an orthogonal configuration. Overall, the results show the specificity of selection mechanisms, since the nominations, as predicted, were faster in the related condition, in the effects of cross-linguistic identity and of phonological/orthographic facilitation; in addition, participants were slower in the same related condition, for semantic interference. These results seem to give support for the hypothesis that predicts that lexical selection is language specific. Another important result concerns the role played by the cognate status of words in the lexicalization process, since statistical significance was found either alone or in comparisons and interactions with other effects. These results show that, when assessing the types of interference effects, one must consider the types of words involved. In addition, important indications that the principle of interactivity is functional among languages were found, since false cognates showed faster reaction times in the context that favored sublexical activation (phonological facilitation effect). We argue that this effect is due to the occurrence of bidirectional activation, which comes from the phonological segments activated by the L1 translation (that does not correspond to the same concept in L2), which in turn increased the activation of the target lexical node in the L2. Another relevant finding is related to the linguistic similarity = ease of acquisition of L2 formula, which appears to be inconsistent due to an attentional overload caused by the similarity between the languages. This assumption is supported by the reaction time and accuracy results that were found between the cognates, which were not correlated, since there were contexts in which naming scores were faster but accuracy was lower. This decrease of correct responses may be a result of attentional overload, caused by the similarity of words. However, further investigation is needed to assess these effects. / En esta tesis se presenta un estudio que tuvo como objetivo analizar los mecanismos de acceso léxico y la producción del habla en un grupo de bilingües portugués-español y español-portugués. Más concretamente, se observó su desempeño en tareas de nombrar dibujos en la L2 para: (a) identificar los efectos de interferencia (semántica, de identidad, y de facilitación fonológica/ortográfica), (b) verificar si el status cognado de las palabras podría afectar el proceso de lexicalización, (c) establecer la existencia de interactividad entre las lenguas, y (d) determinar si existía correlación entre el promedio de los tiempos de reacción, la exactitud de las respuestas y el grado de similitud entre las lenguas. Para ello, dos tareas se desarrollaron dentro del paradigma de interferencia de dibujo-palabra, en las que hubo manipulación de la naturaleza de las relaciones entre dibujo y palabra y control de los tipos de palabras involucrados. Participaron de la investigación 23 bilingües, quienes tuvieran que nombrar 90 dibujos que aparecían dos veces en los testes (una vez en la condición relacionada y otra en la condición no-relacionada). Para evaluar cada efecto de interferencia (semántica, de identidad y de facilitación fonológica/ortográfica) se utilizaron 30 dibujos, subdivididos en tres grupos, con 10 diseños cada uno, dependiendo del tipo de palabra (cognadas, no-cognadas y falsocognadas). Por lo tanto, nuestro experimento pasó a tener una configuración ortogonal. En general, los resultados obtenidos en el experimento parecen demostrar la especificidad de los mecanismos de selección, teniendo en cuenta que las nominaciones, de acuerdo con las expectativas iniciales, fueron más rápidas en la condición relacionada, en los efectos de identidad interlingüística y de facilitación fonológica/ortográfica, y más lentas, en la misma condición de relación, en el efecto de interferencia semántica. Luego, esos resultados parecen reforzar la hipótesis de que la selección léxica es específica en la lengua de respuesta. Otra evidencia muy significativa se relaciona con el importante papel que el status cognado de las palabras desempeña en el proceso de lexicalización, habiendo sido significativo estadísticamente ya sea de forma aislada o en comparaciones o interacciones con los otros efectos analizados. Esos resultados muestran que, al evaluar los tipos de efectos de interferencia, se debe considerar los tipos de palabras involucrados. Además, se identificaron importantes pistas de que el principio de interactividad es funcional entre las lenguas, principalmente, porque en el contexto que favorece la activación subléxica (facilitación fonológica), los falsos-cognados mostraron tiempos de reacción más rápidos, y la explicación más probable para eso es la ocurrencia de activación bidireccional, procedente de los segmentos fonológicos activados por la traducción L1 (que no se corresponde con el mismo concepto en L2), la cual aumentó la activación del nudo léxico-meta en la L2. Otra pista relevante que se observó es que la fórmula similitud lingüística=facilidad de adquisición de la L2 parece ser inconsistente, debido a una sobrecarga de atención causada por la similitud entre las lenguas. Esa suposición se apoya en los resultados del tiempo de reacción y de la exactitud de las respuestas en las cognadas, los cuales no fueron correspondientes, porque hubo contextos en los que el nombramiento fue más rápido, pero la precisión fue menor. Esa disminución de respuestas correctas, puede ser una consecuencia de la sobrecarga de la atención, causada por la similitud de las palabras. Sin embargo, todavía son necesarias más investigaciones.
|
249 |
Acesso lexical e produção de fala em bilíngues português-espanhol e espanhol-portuguêsPreuss, Elena Ortiz January 2011 (has links)
Nesta tese apresentamos uma pesquisa que teve como objetivo geral analisar os mecanismos de acesso lexical e produção de fala em um grupo de bilíngues português-espanhol e espanhol-português. Mais especificamente, foi observado o desempenho desses bilíngues em tarefas de nomear desenhos na L2, a fim de: (a) identificar efeitos de interferência (semântica, de identidade e de facilitação fonológica/ortográfica); (b) observar se o status cognato das palavras poderia interferir no processo de lexicalização; (c) averiguar a existência de interatividade entre as línguas; e (d) verificar se havia correlação entre as médias dos tempos de reação, de acurácia das respostas e o grau de similaridade entre as línguas. Para isso, foram desenvolvidas duas tarefas, dentro do paradigma de interferência desenho-palavra, nos quais houve manipulação da natureza das relações entre desenho-palavra e controle sobre os tipos de palavra envolvidos. Contamos com uma amostra de 23 bilíngues, os quais tiveram que nomear 90 desenhos que apareciam duas vezes nos testes (uma vez na condição relacionada e outra vez na condição não-relacionada). Para avaliar cada efeito de interferência (semântica, de identidade e de facilitação fonológica/ortográfica) foram usados 30 desenhos, os quais foram subdivididos em três grupos, com 10 desenhos cada, conforme o tipo de palavra (cognatas, não-cognatas e falso-cognatas). Dessa forma, nosso experimento passou a ter uma configuração ortogonal. Em geral, os resultados obtidos no experimento parecem evidenciar a especificidade do mecanismos de seleção, uma vez que as nomeações, conforme as expectativas iniciais, foram mais rápidas, na condição relacionada, nos efeitos de identidade interlinguística e de facilitação fonológica/ortográfica, e mais lentas, nessa mesma condição de relação, no efeito de interferência semântica. Assim, tais resultados parecem fortalecer a hipótese de que a seleção lexical é específica na língua de resposta. Outra evidência extremamente significativa se refere ao importante papel que o status cognato das palavras desempenha no processo de lexicalização, tendo sido constatada relevância estatística tanto isoladamente quanto em comparações e interações com os outros efeitos testados. Esses resultados mostram que, ao avaliar os tipos de efeitos de interferência, é preciso considerar os tipos de palavras envolvidos. Foram identificados, também, importantes indícios de que o princípio de interatividade é funcional entre as línguas, principalmente, porque no contexto que privilegiava a ativação sublexical (efeito de facilitação fonológica), as falso-cognatas apresentaram tempos de reação mais rápidos, e a explicação mais plausível para isso é a ocorrência de ativação bidirecional, vinda dos segmentos fonológicos ativados pela tradução na L1 (que não corresponde ao mesmo conceito na L2), a qual incrementou a ativação do nó lexical-alvo na L2. Outro indício relevante observado é de que a fórmula similaridade linguística=facilidade de aquisição da L2 parece ser inconsistente, em virtude de uma sobrecarga atencional provocada pela similaridade entre as línguas. Essa suposição se respalda nos resultados dos tempos de reação e de acurácia entre as cognatas, os quais não foram correspondentes, porque houve contextos em que a nomeação foi mais rápida, mas a acurácia foi menor. Essa diminuição de respostas corretas pode ser uma decorrência da sobrecarga atencional, provocada pela similaridade das palavras. Entretanto, são necessárias, ainda, mais investigações. / This study aimed at analyzing the mechanisms of lexical access and speech production in a group of bilingual Portuguese-Spanish and Spanish-Portuguese speakers. More specifically, our goal was to observe the performance of these bilinguals in L2 picture naming tasks in order to: (a) identify the effects of interference (semantic, identity and phonological/orthographic facilitation), (b) investigate if the status of cognate words could affect the lexicalization process, (c) verify the existence of interaction between languages, and (d) determine whether there was a correlation between reaction time, accuracy and the degree of similarity between languages. Two tasks, in which the nature of the relationship between pictures and words and the types of words involved were controlled for, were developed within the picture-word interference paradigm. The sample was composed of 23 bilinguals, who were asked to name 90 pictures that appeared twice in the tests (once in the related condition and once in the unrelated condition). To assess each interference effect (semantics, identity and phonological/orthographic facilitation), 30 pictures, which were subdivided into three groups, with 10 pictures each, depending on the type of word (cognate, non-cognates and false cognates) were used. Thus, our experiment had an orthogonal configuration. Overall, the results show the specificity of selection mechanisms, since the nominations, as predicted, were faster in the related condition, in the effects of cross-linguistic identity and of phonological/orthographic facilitation; in addition, participants were slower in the same related condition, for semantic interference. These results seem to give support for the hypothesis that predicts that lexical selection is language specific. Another important result concerns the role played by the cognate status of words in the lexicalization process, since statistical significance was found either alone or in comparisons and interactions with other effects. These results show that, when assessing the types of interference effects, one must consider the types of words involved. In addition, important indications that the principle of interactivity is functional among languages were found, since false cognates showed faster reaction times in the context that favored sublexical activation (phonological facilitation effect). We argue that this effect is due to the occurrence of bidirectional activation, which comes from the phonological segments activated by the L1 translation (that does not correspond to the same concept in L2), which in turn increased the activation of the target lexical node in the L2. Another relevant finding is related to the linguistic similarity = ease of acquisition of L2 formula, which appears to be inconsistent due to an attentional overload caused by the similarity between the languages. This assumption is supported by the reaction time and accuracy results that were found between the cognates, which were not correlated, since there were contexts in which naming scores were faster but accuracy was lower. This decrease of correct responses may be a result of attentional overload, caused by the similarity of words. However, further investigation is needed to assess these effects. / En esta tesis se presenta un estudio que tuvo como objetivo analizar los mecanismos de acceso léxico y la producción del habla en un grupo de bilingües portugués-español y español-portugués. Más concretamente, se observó su desempeño en tareas de nombrar dibujos en la L2 para: (a) identificar los efectos de interferencia (semántica, de identidad, y de facilitación fonológica/ortográfica), (b) verificar si el status cognado de las palabras podría afectar el proceso de lexicalización, (c) establecer la existencia de interactividad entre las lenguas, y (d) determinar si existía correlación entre el promedio de los tiempos de reacción, la exactitud de las respuestas y el grado de similitud entre las lenguas. Para ello, dos tareas se desarrollaron dentro del paradigma de interferencia de dibujo-palabra, en las que hubo manipulación de la naturaleza de las relaciones entre dibujo y palabra y control de los tipos de palabras involucrados. Participaron de la investigación 23 bilingües, quienes tuvieran que nombrar 90 dibujos que aparecían dos veces en los testes (una vez en la condición relacionada y otra en la condición no-relacionada). Para evaluar cada efecto de interferencia (semántica, de identidad y de facilitación fonológica/ortográfica) se utilizaron 30 dibujos, subdivididos en tres grupos, con 10 diseños cada uno, dependiendo del tipo de palabra (cognadas, no-cognadas y falsocognadas). Por lo tanto, nuestro experimento pasó a tener una configuración ortogonal. En general, los resultados obtenidos en el experimento parecen demostrar la especificidad de los mecanismos de selección, teniendo en cuenta que las nominaciones, de acuerdo con las expectativas iniciales, fueron más rápidas en la condición relacionada, en los efectos de identidad interlingüística y de facilitación fonológica/ortográfica, y más lentas, en la misma condición de relación, en el efecto de interferencia semántica. Luego, esos resultados parecen reforzar la hipótesis de que la selección léxica es específica en la lengua de respuesta. Otra evidencia muy significativa se relaciona con el importante papel que el status cognado de las palabras desempeña en el proceso de lexicalización, habiendo sido significativo estadísticamente ya sea de forma aislada o en comparaciones o interacciones con los otros efectos analizados. Esos resultados muestran que, al evaluar los tipos de efectos de interferencia, se debe considerar los tipos de palabras involucrados. Además, se identificaron importantes pistas de que el principio de interactividad es funcional entre las lenguas, principalmente, porque en el contexto que favorece la activación subléxica (facilitación fonológica), los falsos-cognados mostraron tiempos de reacción más rápidos, y la explicación más probable para eso es la ocurrencia de activación bidireccional, procedente de los segmentos fonológicos activados por la traducción L1 (que no se corresponde con el mismo concepto en L2), la cual aumentó la activación del nudo léxico-meta en la L2. Otra pista relevante que se observó es que la fórmula similitud lingüística=facilidad de adquisición de la L2 parece ser inconsistente, debido a una sobrecarga de atención causada por la similitud entre las lenguas. Esa suposición se apoya en los resultados del tiempo de reacción y de la exactitud de las respuestas en las cognadas, los cuales no fueron correspondientes, porque hubo contextos en los que el nombramiento fue más rápido, pero la precisión fue menor. Esa disminución de respuestas correctas, puede ser una consecuencia de la sobrecarga de la atención, causada por la similitud de las palabras. Sin embargo, todavía son necesarias más investigaciones.
|
250 |
Acesso lexical e produção de fala em bilíngues português-espanhol e espanhol-portuguêsPreuss, Elena Ortiz January 2011 (has links)
Nesta tese apresentamos uma pesquisa que teve como objetivo geral analisar os mecanismos de acesso lexical e produção de fala em um grupo de bilíngues português-espanhol e espanhol-português. Mais especificamente, foi observado o desempenho desses bilíngues em tarefas de nomear desenhos na L2, a fim de: (a) identificar efeitos de interferência (semântica, de identidade e de facilitação fonológica/ortográfica); (b) observar se o status cognato das palavras poderia interferir no processo de lexicalização; (c) averiguar a existência de interatividade entre as línguas; e (d) verificar se havia correlação entre as médias dos tempos de reação, de acurácia das respostas e o grau de similaridade entre as línguas. Para isso, foram desenvolvidas duas tarefas, dentro do paradigma de interferência desenho-palavra, nos quais houve manipulação da natureza das relações entre desenho-palavra e controle sobre os tipos de palavra envolvidos. Contamos com uma amostra de 23 bilíngues, os quais tiveram que nomear 90 desenhos que apareciam duas vezes nos testes (uma vez na condição relacionada e outra vez na condição não-relacionada). Para avaliar cada efeito de interferência (semântica, de identidade e de facilitação fonológica/ortográfica) foram usados 30 desenhos, os quais foram subdivididos em três grupos, com 10 desenhos cada, conforme o tipo de palavra (cognatas, não-cognatas e falso-cognatas). Dessa forma, nosso experimento passou a ter uma configuração ortogonal. Em geral, os resultados obtidos no experimento parecem evidenciar a especificidade do mecanismos de seleção, uma vez que as nomeações, conforme as expectativas iniciais, foram mais rápidas, na condição relacionada, nos efeitos de identidade interlinguística e de facilitação fonológica/ortográfica, e mais lentas, nessa mesma condição de relação, no efeito de interferência semântica. Assim, tais resultados parecem fortalecer a hipótese de que a seleção lexical é específica na língua de resposta. Outra evidência extremamente significativa se refere ao importante papel que o status cognato das palavras desempenha no processo de lexicalização, tendo sido constatada relevância estatística tanto isoladamente quanto em comparações e interações com os outros efeitos testados. Esses resultados mostram que, ao avaliar os tipos de efeitos de interferência, é preciso considerar os tipos de palavras envolvidos. Foram identificados, também, importantes indícios de que o princípio de interatividade é funcional entre as línguas, principalmente, porque no contexto que privilegiava a ativação sublexical (efeito de facilitação fonológica), as falso-cognatas apresentaram tempos de reação mais rápidos, e a explicação mais plausível para isso é a ocorrência de ativação bidirecional, vinda dos segmentos fonológicos ativados pela tradução na L1 (que não corresponde ao mesmo conceito na L2), a qual incrementou a ativação do nó lexical-alvo na L2. Outro indício relevante observado é de que a fórmula similaridade linguística=facilidade de aquisição da L2 parece ser inconsistente, em virtude de uma sobrecarga atencional provocada pela similaridade entre as línguas. Essa suposição se respalda nos resultados dos tempos de reação e de acurácia entre as cognatas, os quais não foram correspondentes, porque houve contextos em que a nomeação foi mais rápida, mas a acurácia foi menor. Essa diminuição de respostas corretas pode ser uma decorrência da sobrecarga atencional, provocada pela similaridade das palavras. Entretanto, são necessárias, ainda, mais investigações. / This study aimed at analyzing the mechanisms of lexical access and speech production in a group of bilingual Portuguese-Spanish and Spanish-Portuguese speakers. More specifically, our goal was to observe the performance of these bilinguals in L2 picture naming tasks in order to: (a) identify the effects of interference (semantic, identity and phonological/orthographic facilitation), (b) investigate if the status of cognate words could affect the lexicalization process, (c) verify the existence of interaction between languages, and (d) determine whether there was a correlation between reaction time, accuracy and the degree of similarity between languages. Two tasks, in which the nature of the relationship between pictures and words and the types of words involved were controlled for, were developed within the picture-word interference paradigm. The sample was composed of 23 bilinguals, who were asked to name 90 pictures that appeared twice in the tests (once in the related condition and once in the unrelated condition). To assess each interference effect (semantics, identity and phonological/orthographic facilitation), 30 pictures, which were subdivided into three groups, with 10 pictures each, depending on the type of word (cognate, non-cognates and false cognates) were used. Thus, our experiment had an orthogonal configuration. Overall, the results show the specificity of selection mechanisms, since the nominations, as predicted, were faster in the related condition, in the effects of cross-linguistic identity and of phonological/orthographic facilitation; in addition, participants were slower in the same related condition, for semantic interference. These results seem to give support for the hypothesis that predicts that lexical selection is language specific. Another important result concerns the role played by the cognate status of words in the lexicalization process, since statistical significance was found either alone or in comparisons and interactions with other effects. These results show that, when assessing the types of interference effects, one must consider the types of words involved. In addition, important indications that the principle of interactivity is functional among languages were found, since false cognates showed faster reaction times in the context that favored sublexical activation (phonological facilitation effect). We argue that this effect is due to the occurrence of bidirectional activation, which comes from the phonological segments activated by the L1 translation (that does not correspond to the same concept in L2), which in turn increased the activation of the target lexical node in the L2. Another relevant finding is related to the linguistic similarity = ease of acquisition of L2 formula, which appears to be inconsistent due to an attentional overload caused by the similarity between the languages. This assumption is supported by the reaction time and accuracy results that were found between the cognates, which were not correlated, since there were contexts in which naming scores were faster but accuracy was lower. This decrease of correct responses may be a result of attentional overload, caused by the similarity of words. However, further investigation is needed to assess these effects. / En esta tesis se presenta un estudio que tuvo como objetivo analizar los mecanismos de acceso léxico y la producción del habla en un grupo de bilingües portugués-español y español-portugués. Más concretamente, se observó su desempeño en tareas de nombrar dibujos en la L2 para: (a) identificar los efectos de interferencia (semántica, de identidad, y de facilitación fonológica/ortográfica), (b) verificar si el status cognado de las palabras podría afectar el proceso de lexicalización, (c) establecer la existencia de interactividad entre las lenguas, y (d) determinar si existía correlación entre el promedio de los tiempos de reacción, la exactitud de las respuestas y el grado de similitud entre las lenguas. Para ello, dos tareas se desarrollaron dentro del paradigma de interferencia de dibujo-palabra, en las que hubo manipulación de la naturaleza de las relaciones entre dibujo y palabra y control de los tipos de palabras involucrados. Participaron de la investigación 23 bilingües, quienes tuvieran que nombrar 90 dibujos que aparecían dos veces en los testes (una vez en la condición relacionada y otra en la condición no-relacionada). Para evaluar cada efecto de interferencia (semántica, de identidad y de facilitación fonológica/ortográfica) se utilizaron 30 dibujos, subdivididos en tres grupos, con 10 diseños cada uno, dependiendo del tipo de palabra (cognadas, no-cognadas y falsocognadas). Por lo tanto, nuestro experimento pasó a tener una configuración ortogonal. En general, los resultados obtenidos en el experimento parecen demostrar la especificidad de los mecanismos de selección, teniendo en cuenta que las nominaciones, de acuerdo con las expectativas iniciales, fueron más rápidas en la condición relacionada, en los efectos de identidad interlingüística y de facilitación fonológica/ortográfica, y más lentas, en la misma condición de relación, en el efecto de interferencia semántica. Luego, esos resultados parecen reforzar la hipótesis de que la selección léxica es específica en la lengua de respuesta. Otra evidencia muy significativa se relaciona con el importante papel que el status cognado de las palabras desempeña en el proceso de lexicalización, habiendo sido significativo estadísticamente ya sea de forma aislada o en comparaciones o interacciones con los otros efectos analizados. Esos resultados muestran que, al evaluar los tipos de efectos de interferencia, se debe considerar los tipos de palabras involucrados. Además, se identificaron importantes pistas de que el principio de interactividad es funcional entre las lenguas, principalmente, porque en el contexto que favorece la activación subléxica (facilitación fonológica), los falsos-cognados mostraron tiempos de reacción más rápidos, y la explicación más probable para eso es la ocurrencia de activación bidireccional, procedente de los segmentos fonológicos activados por la traducción L1 (que no se corresponde con el mismo concepto en L2), la cual aumentó la activación del nudo léxico-meta en la L2. Otra pista relevante que se observó es que la fórmula similitud lingüística=facilidad de adquisición de la L2 parece ser inconsistente, debido a una sobrecarga de atención causada por la similitud entre las lenguas. Esa suposición se apoya en los resultados del tiempo de reacción y de la exactitud de las respuestas en las cognadas, los cuales no fueron correspondientes, porque hubo contextos en los que el nombramiento fue más rápido, pero la precisión fue menor. Esa disminución de respuestas correctas, puede ser una consecuencia de la sobrecarga de la atención, causada por la similitud de las palabras. Sin embargo, todavía son necesarias más investigaciones.
|
Page generated in 0.0359 seconds