Return to search

Lexical bundles in scientific English: A corpus-based study of native and non-native writing

The present dissertation is a corpus-based investigation of the frequency, structure and functions of lexical bundles in published scientific writing in English, whose main objective is the creation of an inventory of the most frequent and pedagogically useful lexical bundles in scientific prose, one that can be utilized in a variety of teaching applications.

In this study, three- to six-word lexical bundles were extracted from a 1.3 million word sample from the Health Science Corpus, a collection of published articles in biology and biochemistry. This initial list was filtered and enhanced through the application of the Mutual Information (MI) statistic and of a set of exclusion criteria established to satisfy the pedagogical objectives of the study. Following the SciE-Lex investigation (Verdaguer et al., 2009) the remaining lexical bundles were grouped together using like keywords. The present study additionally used the concept of prototypical bundle, which is based on Sinclair’s (2004) notion of canonical units of meaning, to tackle the semantic and structural connections between similar bundles. The structural and functional characteristics of the lexical bundles were explored through careful concordance analysis, which made it possible to categorize the bundles using modified versions of Biber et al.’s (1999) structural framework and Hyland’s (2008a) functional taxonomy.

These quantitative and qualitative analyses reveal how native expert writers employ recurrent word strings in the construction of a coherent, well-structured and convincing scientific text that conforms with the conventions of the genre. They bring to light the different functions that lexical bundles perform in scientific discourse, and how these functions enable writers to address their research concerns, achieve their communication goals and elicit the desired reaction from their target audience. They also show the typical structural realizations of these bundle functions, as well as important aspects of usage that non-native writers need to be aware of to be able to incorporate these expressions in their own writing.

The study also compares the results obtained from the corpus of published scientific articles to the lexical bundles found in a smaller corpus of biomedical research articles written by native Spanish-speaking scientists, who are all non-native users of English. In accordance with the methodology proposed by Cortes (2004), the lexical bundles identified in the HSC were treated as target bundles and subsequently searched for and analyzed in the corpus of non-native writing. This comparison uncovered non-native writers’ overuse of certain bundles, a tendency that results in unnecessary repetitiveness and lack of variation, as well as their restricted use of participant- oriented bundles, which points to their limited awareness of the usage and importance of this particular function.

The dissertation also discusses the pedagogical implications of its final product, a practical list of lexical bundles in scientific English for use in teaching applications, and how it addresses the six major challenges that hinder the successful introduction of lexical bundles in EAP classrooms and teaching materials, as identified by Byrd and Coxhead (2010). / La presente tesis es una investigación de la frecuencia, la estructura y las funciones de los “lexical bundle” en artículos científicos escritos en inglés, con la finalidad de crear un inventario de los “lexical bundle” más frecuentes y pedagógicamente rentables en la prosa científica, una lista que se puede utilizar en varias aplicaciones didácticas.

La investigación empezó con la identificación de combinaciones léxicas de tres a seis palabras en una muestra del “Health Science Corpus” que contiene 1,3 millones de palabras. Después, se filtró la lista inicial con la aplicación de la estadística de la información mutua y de un conjunto de criterios de exclusión. Se organizó la lista a través de la agrupación de los “lexical bundle” mediante las palabras clave que tenían en común y la utilización del concepto de “prototypical bundle” o combinación prototípica (Sinclair, 2004), que permitió tratar las conexiones semánticas y estructurales entre los “lexical bundle” similares. Finalmente, se investigaron las características estructurales y funcionales de las combinaciones léxicas a través del análisis de listas de concordancia, lo que hizo posible clasificar los “lexical bundle” según versiones modificadas del marco estructural de Biber et al. (1999) y la taxonomía funcional de Hyland (2008).

Los análisis cuantitativos y cualitativos revelan cómo los científicos nativos y con largas trayectorias de publicación científica, emplean combinaciones léxicas en la construcción de un texto científico coherente, bien estructurado y convincente que se ajusta a las convenciones del género. Ponen de relieve las distintas funciones que realizan las combinaciones léxicas en el discurso científico y muestran las típicas realizaciones estructurales de estas funciones.

El estudio también compara los resultados obtenidos del “Health Science Corpus” a un corpus más pequeño de artículos de investigación biomédica escritos por científicos de habla española, que son todos usuarios no nativos de inglés. Esta comparación resaltó las diferencias entre los autores nativos y los no nativos, y permitió averiguar las dificultades que los científicos no nativos pueden tener en el uso de combinaciones léxicas, y cómo estas dificultades pueden abordarse en el aula de idiomas, así como en los materiales didácticos.

Identiferoai:union.ndltd.org:TDX_UB/oai:www.tdx.cat:10803/52083
Date24 November 2011
CreatorsLorenzo Salazar, Danica Joy
ContributorsVerdaguer, Isabel, Universitat de Barcelona. Departament de Filologia Anglesa i Alemanya
PublisherUniversitat de Barcelona
Source SetsUniversitat de Barcelona
LanguageEnglish
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/doctoralThesis, info:eu-repo/semantics/publishedVersion
Format318 p., application/pdf
SourceTDX (Tesis Doctorals en Xarxa)
Rightsinfo:eu-repo/semantics/openAccess, ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Page generated in 0.2112 seconds