Return to search

Cognitive mechanisms of voice processing / Kognitive Verarbeitung von Stimminformation

The present thesis addresses cognitive processing of voice information. Based on general theoretical concepts regarding mental processes it will differentiate between modular, abstract information processing approaches to cognition and interactive, embodied ideas of mental processing. These general concepts will then be transferred to the context of processing voice-related information in the context of parallel face-related processing streams. One central issue here is whether and to what extent cognitive voice processing can occur independently, that is, encapsulated from the simultaneous processing of visual person-related information (and vice versa). In Study 1 (Huestegge & Raettig, in press), participants are presented with audio-visual stimuli displaying faces uttering digits.
Audiovisual gender congruency was manipulated: There were male and female faces, each uttering digits with either a male or female voice (all stimuli were AV- synchronized). Participants were asked to categorize the gender of either the face or the voice by pressing one of two keys in each trial. A central result was that audio-visual gender congruency affected performance: Incongruent stimuli were categorized slower and more error-prone, suggesting a strong cross-modal interaction of the underlying visual and auditory processing routes. Additionally, the effect of incongruent visual information on auditory classification was stronger than the effect of incongruent auditory information on visual categorization, suggesting visual dominance over auditory processing in the context of gender classification. A gender congruency effect was also present under high cognitive load. Study 2 (Huestegge, Raettig, & Huestegge, in press) utilized the same (gender-congruent and -incongruent) stimuli, but different tasks for the participants, namely categorizing the spoken digits (into odd/even or smaller/larger than 5). This should effectively direct attention away from gender information, which was no longer task-relevant. Nevertheless, congruency effects were still observed in this study. This suggests a relatively automatic processing of cross-modal gender information, which


eventually affects basic speech-based information processing. Study 3 (Huestegge, subm.) focused on the ability of participants to match unfamiliar voices to (either static or dynamic) faces. One result was that participants were indeed able to match voices to faces. Moreover, there was no evidence for any performance increase when dynamic (vs. mere static) faces had to be matched to concurrent voices. The results support the idea that common person-related source information affects both vocal and facial features, and implicit corresponding knowledge appears to be used by participants to successfully complete face-voice matching. Taken together, the three studies (Huestegge, subm.; Huestegge & Raettig, in press; Huestegge et al., in press) provided information to further develop current theories of voice processing (in the context of face processing). On a general level, the results of all three studies are not in line with an abstract, modular view of cognition, but rather lend further support to interactive, embodied accounts of mental processing. / Die vorliegende Dissertation thematisiert die kognitive Verarbeitung von Stimminformation. Basierend auf allgemeinen theoretischen Vorstellungen zu mentalen Prozessen wird zunächst unterschieden in modulare, abstrakte Informationsverarbeitungsansätze und interaktive, verkörperte Vorstellungen kognitiver Prozesse. Diese allgemeinen Vorstellungen werden dann am Beispiel der Verarbeitung von Stimminformation im Kontext der parallel dazu ablaufenden Gesichterverarbeitung konkretisiert. Es geht also u.a. darum, inwiefern kognitive Stimmverarbeitung unbeeinflusst von der gleichzeitigen Verarbeitung von visueller Personeninformation ablaufen kann (und umgekehrt). In Studie 1 (Huestegge & Raettig, in press) werden Probanden audiovisuelle Stimuli dargeboten, bei denen Gesichter Ziffern aussprechen. Manipuliert wird die Geschlechtskongruenz der Stimuli: Es gibt männliche und weibliche Gesichter, die je entweder mit einer männlichen oder weiblichen Stimme synchronisiert wurden. Probanden sollen entweder nur auf die Stimme oder nur auf das visuelle Gesicht achten und jeweils das Geschlecht per Tastendruck kategorisieren. Dabei stellte sich heraus, dass es für die Kategorisierungsleistung eine Rolle spielt, ob es sich um geschlechts-kongruente oder –inkongruente Stimuli handelt: Letztere wurden langsamer bzw. mit höherer Fehleranfälligkeit kategorisiert, was für eine starke cross-modale Interaktion der zugrundeliegenden visuellen und akustischen Verarbeitungsrouten spricht. Dabei wirkte sich inkongruente visuelle Information stärker auf die Stimmbeurteilung aus als inkongruente Stimminformation auf die visuelle Beurteilung, was auf eine Dominanz visueller gegenüber akustischer Informationsverarbeitung hindeutet. Unter starker kognitiver Belastung konnte ebenfalls ein Kongruenzeffekt nachgewiesen werden.
In Studie 2 (Huestegge, Raettig, & Huestegge, in press) wurde dasselbe Stimulusmaterial verwendet, aber kategorisiert werden sollten nun die gesprochenen Ziffern (z.B. in gerade/ungerade oder größer/kleiner 5). Damit ist in der Instruktion die Aufmerksamkeit


von der Geschlechtsdimension weggelenkt. Dennoch fanden sich auch hier Geschlechtskongruenzeffekte auf die Ziffernkategorisierung, was für eine relativ automatische Verarbeitung von cross-modaler Geschlechtsinformation spricht, die sich dann auch auf die Sprachverarbeitung auswirken kann. In Studie 3 (Huestegge, subm.) wurde die Fähigkeit von Probanden untersucht, von einer Stimme auf das zugehörige (statisch oder dynamisch) dargebotene Gesicht zu schließen. Dies gelang den Probanden in überzufälliger Weise. Weiterhin konnte keine Evidenz dafür gefunden werden, dass bewegte (dynamische) Gesichter besser den Stimmen zugeordnet werden konnten als statische Gesichter. Die Ergebnisse sprechen dafür, dass gemeinsame Quellinformation sich sowohl auf Stimme wie Gesichtsmerkmale auswirkt, und dass implizites Wissen hierüber von den Probanden genutzt wird, um Stimmen Gesichtern zuzuordnen. Insgesamt konnten die Ergebnisse der drei Studien (Huestegge, subm.; Huestegge & Raettig, in press; Huestegge et al., in press) dazu beitragen, bestehende Theorien der Stimm- und Gesichterverarbeitung entscheidend weiterzuentwickeln. Die Ergebnisse sind allgemein eher im Einklang mit einer stark interaktiven, verkörperten Sicht auf kognitive Prozesse, weniger mit einer modular-abstrakten Informationsverarbeitungsperspektive.

Identiferoai:union.ndltd.org:uni-wuerzburg.de/oai:opus.bibliothek.uni-wuerzburg.de:18608
Date January 2019
CreatorsHuestegge, Sujata Maya
Source SetsUniversity of Würzburg
LanguageEnglish
Detected LanguageEnglish
Typedoctoralthesis, doc-type:doctoralThesis
Formatapplication/pdf
Rightshttps://creativecommons.org/licenses/by-nc/4.0/deed.de, info:eu-repo/semantics/openAccess

Page generated in 0.0037 seconds