Spelling suggestions: "subject:"corpus linguistics"" "subject:"korpus linguistics""
101 |
The Greek Interjections : Studies on the Syntax, Semantics and Pragmatics of the Interjections in Fifth-Century DramaNordgren, Lars January 2012 (has links)
This thesis investigates the linguistic and philological characteristics of the primary interjections in Ancient Greek drama. It employs Ameka’s definition and classification from 1992 as its theoretical base, and provides a comprehensive research survey. The thesis has a data-driven approach, and is based on all items traditionally classified as interjections. In the chapter on morphology and syntax, the unique characteristics of interjections are presented. E.g., NPs co-occurring with interjections form an interjection phrase, which follows a specific pattern, in accordance with a phrase schema. The chapter on semantics, which is the main part of the thesis, employs an analytical model based on a moderate minimalism approach. This assumes that all items have a core meaning that can be identified without the aid of context, yet allows different, but related, meanings. The definition adopted in the present thesis states that interjections share only formal characteristics, and thus can be divided into categories based on their semantic features, which are defined using Kaplan’s notion of informational equivalence. The thesis deals with three such categories, each with its individual semantic properties: expressive interjections, express the speaker’s experience of emotion and/or cognition; conative interjections, express what the speaker wants the addressee or auditor to do; imitative interjections, depict or reproduce sounds or events. Items in category 1 are the most frequent and thus receive most attention. In the chapter on pragmatics, it is proposed that the primary function of interjections is to express the core semantics in a specified context. Felicity conditions are suggested for an utterance to convey the primary meaning of an interjection. Interjections are also shown to have various secondary functions, e.g. that of strengthening markers. Finally, a lexicon is provided, which offers individual informational equivalents of all interjections under study.
|
102 |
Ponctuation et syntaxe dans la langue française médiévale. Étude d'un corpus de chartes originales écrites à Liège entre 1236 et 1291Mazziotta, Nicolas 21 December 2007 (has links)
%%%Un résumé mis en forme disponible dans les fichiers joints%%%
Nous avons commencé par faire le pari que la syntaxe pouvait expliquer la majorité des signes de ponctuation. Cette optique nous a guidé durant toute notre étude, dont le but était de répondre à la question:
«Comment, d'après ce qu'on peut observer dans les chartes écrites en français à Liège avant 1292, la ponctuation originale interagit-elle avec la syntaxe dans la langue française médiévale?»
Nous avons d'emblée positionné notre étude par rapport à la réflexion sur la ponctuation médiévale, osant le pari que la syntaxe peut servir de point de référence pour expliquer la plus grande partie de la ponctuation des chartes. Nous avons ensuite décrit la constitution du corpus.
Face à une pareille question, il n'était pas envisageable de commencer
immédiatement à dépouiller les documents: il nous fallait définir avec exactitude les différents concepts dont nous allions avoir besoin.
*** Première partie: modélisation ***
La première partie du travail a ainsi été consacrée à la définition, sur des bases empiriques, des concepts mobilisés. Partant du sens commun et des principes fondamentaux de l'analyse linguistique classique (tenant du structuralisme et du
fonctionnalisme), nous avons exploité les matériaux à notre disposition pour en dégager des notions, dans une approche inductive par son rapport aux faits, mais déductive par sa progression.
Ainsi, au chapitre 2, l'observation du tracé des unités graphiques sur le parchemin nous a amené à abstraire les catégories nécessaires à une modélisation de l'ensemble des unités de la langue écrite, pour lesquelles
nous proposons une terminologie neuve reflétant notre analyse. Nous avons
progressivement défini _langue écrite_, puis _scriptèmes_,
_grammèmes_, etc., progressant des unités les plus générales aux unités les
plus particulières. Ce n'est qu'à ce prix que nous avons pu enfin délimiter
exactement, le moins intuitivement possible, notre propre acception du mot _ponctuation_: «ensemble des
ponctogrammes d'une langue écrite spécifique}. Dans cette définition, le terme _ponctogramme_ désigne une
unité minimale de la langue écrite (_scriptème_) n'organisant pas l'espace (_grammème_), exprimant un contenu (_plérégramme_), ne dépendant pas matériellement d'une autre
unité (_autogramme_), construit à l'aide de traits qui ne se combinent
pas obligatoirement sur un même axe (_nébulogramme_) et non paraphrasable par d'autres unités significatives... Employer ce terme ne pouvait se faire qu'à la fin d'un exposé détaillé, passant en revue tous les hyperonymes impliqués.
De manière moins audacieuse du point de vue de la terminologie employée, nous avons également tenté d'exposer notre conception de la syntaxe (chapitre 3). À nouveau, c'est le corpus qui nous a servi de guide: une fois les phrases délimitées de manière empirique, toutes les structures syntaxiques ont été passées en revue, nommées et intégrées dans un système théorique fondé sur la notion, héritée d'Alain Lemaréchal, de _relation minimale_. Nous sommes parti de l'existence d'un lien sémantique entre les unités en présence et nous
avons caractérisé la manière dont ce lien était _spécifié_.
Nous croyons, au delà de l'intérêt pratique de cette première partie, que les concepts dégagés peuvent être jugés suffisamment généraux sinon pour
servir à la comparaison d'autres systèmes graphiques ou syntaxiques, du moins afin de constituer une base à leur description.
*** Deuxième partie: analyse des données***
Une fois les concepts définis et l'ensemble du corpus annoté, il a été envisageable de répondre à la question posée. Néanmoins, l'ensemble des données disponibles, de par sa nature
et son abondance, rendait l'approche traditionnelle -- ou plutôt _manuelle_
-- difficilement applicable. C'est pourquoi nous avons ouvert la seconde partie du travail en annonçant le recours à des méthodes plus outillées: les statistiques (introduites au chapitre 4).
Ces méthodes présentées, nous avons sélectionné six caractéristiques
morphosyntaxiques et positionnelles que nous avons jugées fondamentales pour décrire tous les constituants. Ces variables répondaient à six
questions: 1/ du point de vue de l'ordre linéaire des mots, le constituant est-il le premier de la structure qu'il sert à construire? 2/ le constituant est-il le dernier de la structure qu'il sert à construire? 3/ quelle est la nature et le niveau d'intégration syntaxique de la structure qui le contient? 4/ quelle
est la fonction du constituant? 5/ est-il de nature propositionnelle (mode personnel ou non)? 6/ est-il relaté? Nous avons ensuite pu mettre en relation les réponses à ces questions et la simple présence de ponctuation de part et d'autre
des constituants, sans tenir compte, dans un premier temps, de la forme des
ponctogrammes.
Pour ce faire, nous avons essentiellement employé les techniques statistiques les plus classiques en sciences humaines: l'analyse des tableaux de contingence à l'aide
du test du chi². Après avoir évalué la relation entre chacune des six variables et la ponctuation, nous avons constaté l'inefficacité de la
méthode, ce qui nous a conduit à en rechercher une autre, permettant d'envisager simultanément toutes les variables morphosyntaxiques et positionnelles, en particulier. Ces nouveaux dépouillements nous ont permis de repérer, au milieu de la masse de constituants inégalement marqués par la présence d'un ponctogramme, ceux dont le marquage ou le rejet du marquage avait la plus faible probabilité d'être dû au hasard. Ce qui est ressorti de cette première étape, où les données étaient réduites à une représentation très abstraite, c'est une liste de points forts concernant:
- la différence de fréquence entre le marquage de la phrase et celui des autres propositions;
- la spécificité du marquage d'un certain nombre de types d'arguments;
- le rejet manifeste du marquage du prédicat;
- la faible fréquence de marquage à la suite des relateurs;
- la forte présence de marquage devant les coordonnants.
Nous avons ainsi pu observer que la ponctuation n'était pas obligatoire, mais que sa présence était certainement liée à un contexte syntaxique spécifique.
Ensuite, ces grandes lignes ont pu être inspectées de manière plus concrète: pour chaque tendance qui le justifiait, nous avons évalué la probabilité que l'attraction ou la répulsion observée soit généralisée. Nous avons adopté la position
pragmatique selon laquelle toute tendance suffisamment fréquente pouvait être considérée comme générale si le fait de retirer les chartes qui la manifestaient de manière significative de l'échantillon ne changeait pas significativement la
probabilité d'attraction.
Il en est ressorti que la plupart des tendances observées étaient générales ou trop faiblement illustrées pour être évaluées de ce point de vue.
Par ailleurs, nous avons essayé de mettre en relation la ponctuation avec le contexte immédiat, ce qui nous a laissé observer que beaucoup de constituants étaient davantage, voire exclusivement marqués au contact d'autres constituants attirant également le marquage ou dans un contexte de coordination.
Cet examen détaillé des tendances mises en évidence au chapitre 5 permet en fin de compte de faire le tri parmi les tendances et de repérer celles
qui sont manifestement dues à l'entourage du constituant ou au document dans lequel il est attesté. En observant plus intuitivement les attestations, nous avons également pu repérer, comme nous nous y attendions, un certain nombre de tendances liées à des facteurs étrangers à la morphosyntaxe: la ponctuation de formules spécifiques au type discursif, celle des chiffres ou encore la présence d'un ponctogramme
devant les noms de personnes.
En outre, l'examen du détail des attestations nous a amené à proposer des révisions concernant le modèle d'analyse morphosyntaxique présenté au chapitre 3: 1/ il conviendrait que soient pris en compte les lexèmes
employés; 2/ la notion de la coordination pourrait être étendue à des groupements de constituants que nous n'avons pas considérés comme coordonnés; 3/ il serait peut-être profitable de considérer les coordonnants de la même manière que les autres relateurs. D'autre part, nous avons insisté sur le fait que l'analyse des structures en syntaxe immédiate gagnerait à être moins abstraite.
De cette étude de la fréquence du marquage est ressorti un ensemble
d'environnements propices à la présence de ponctuation.
À ce moment, il nous a été possible de réintroduire les considérations portant sur la _forme_ des ponctogrammes et d'employer l'_Analyse Factorielle des Correspondances_ (AFC) pour décrire les données. Nous avons effectué un tri croisé pour mesurer les associations entre la forme des ponctogrammes et la tendance au
marquage spécifique à la position où se trouvait ce ponctogramme (ce qui
incluait l'absence d'environnement attirant le marquage). Après une analyse exploratoire, nous avons complété notre étude par une série de
tests évaluant la probabilité que les regroupements entre la forme des
ponctogrammes et l'environnement dans lequel on les rencontre soit due au
hasard. Dans la majorité des cas observés, les contrastes mis en évidence par l'AFC correspondaient à des oppositions significatives.
L'étude détaillée de la forme a mené à la conclusion suivante: les ponctogrammes autres que <·> sont plus rares, et leur emploi paraît plus spécifique à un environnement donné. En d'autres termes: non seulement les scribes ne ponctuaient pas n'importe où, mais, en plus, ils n'employaient pas indifféremment les signes.
Les méthodes ne permettant pas de traiter de manière efficace les ponctogrammes peu attestés, nous les avons simplement commentés, laissant de côté les statistiques pour une étude plus philologique. Ces observations ont mené, d'une part, à la critique de la validité de la transcription: 1/ certaines distinctions entre les formes sont
peut-être superflues; 2/ certaines unités peuvent être confondues avec d'autres. D'autre part, la forme des ponctogrammes pose la question de la relation entre les ponctogrammes et le reste du système graphique.
|
103 |
Discourse markers within the university lecture genre:A contrastive study between Spanish and North-American lecturesBellés Fortuño, Begoña 02 February 2007 (has links)
La tesis doctoral que aquí se presenta se podría enmarcar dentro de tres campos lingüísticos: el análisis de género, la retórica contrastiva y el análisis de corpus.El análisis de género (Swales 1981, 1990; Dudley-Evans & Henderson 1990a, 1990b; Henderson & Hewings 1990; Bathia 1993, 2002; Skulstad 1996, 2002; Flowerdew 1994, 2002) es un parte dentro del amplio campo de análisis del discurso (Barber 1962; Halliday, Strevens & McIntosh 1964). En este estudio nos centramos en el estudio de la clase magistral dentro de los denominados géneros académicos en el aula (Fortanet 2004b). La clase magistral es un género hablado y como tal posee ciertas peculiaridades de los géneros hablados en contraposición a los géneros académicos escritos.Nuestro estudio se centra en la comparación y contraste de dos lenguas, el español peninsular y el inglés americano, ya que como corpus se utilizan clases magistrales españolas y norte-americanas y en consecuencia se toman como referencia estudios de retórica contrastiva. En este estudio nos centramos en un aspecto concreto del lenguaje, los marcadores discursivos. Con el análisis de los marcadores discursivos en el lenguaje académico hablado en español e inglés norte-americano pretendemos ver como se usan los marcadores discursivos para favorecer a hablantes nativos y no nativos de español e inglés en el espacio de educación superior.
|
104 |
Topical Opinion RetrievalSkomorowski, Jason January 2006 (has links)
With a growing amount of subjective content distributed across the Web, there is a need for a domain-independent information retrieval system that would support ad hoc retrieval of documents expressing opinions on a specific topic of the user’s query. While the research area of opinion detection and sentiment analysis has received much attention in the recent years, little research has been done on identifying subjective content targeted at a specific topic, i.e. expressing topical opinion. This thesis presents a novel method for ad hoc retrieval of documents which contain subjective content on the topic of the query. Documents are ranked by the likelihood each document expresses an opinion on a query term, approximated as the likelihood any occurrence of the query term is modified by a subjective adjective. Domain-independent user-based evaluation of the proposed methods was conducted, and shows statistically significant gains over Google ranking as the baseline.
|
105 |
Topical Opinion RetrievalSkomorowski, Jason January 2006 (has links)
With a growing amount of subjective content distributed across the Web, there is a need for a domain-independent information retrieval system that would support ad hoc retrieval of documents expressing opinions on a specific topic of the user’s query. While the research area of opinion detection and sentiment analysis has received much attention in the recent years, little research has been done on identifying subjective content targeted at a specific topic, i.e. expressing topical opinion. This thesis presents a novel method for ad hoc retrieval of documents which contain subjective content on the topic of the query. Documents are ranked by the likelihood each document expresses an opinion on a query term, approximated as the likelihood any occurrence of the query term is modified by a subjective adjective. Domain-independent user-based evaluation of the proposed methods was conducted, and shows statistically significant gains over Google ranking as the baseline.
|
106 |
(A)rise and (a)wake : An investigation of two verb pairsLakaw, Alexander January 2008 (has links)
<p>In this corpus-based study, the two verb pairs arise and rise and awake and wake are investigated. The paper focuses on seven research questions that are related to the meanings of the verbs in question, the semantic specialisations of those verbs, and the semantic relation</p><p>of the specific verb pair constituents. Furthermore, tendencies of language change are investigated, and an attempt is made to generalise over the influence of the prefix a- on those</p><p>tendencies.</p><p>The results of the quantitative and qualitative analysis show that the verbs awake and wake are more synonymous than the verbs arise and rise. It seems as if due to this difference, the two verbs arise and awake are subject to different processes of language change that take</p><p>their development into different directions. The observations made about the characteristics of the prefix a- that is involved in the two verbs arise and awake are often ambiguous and inconclusive. Therefore, the influence of this prefix on the processes of language change needs to be analysed further by investigating more word pairs distinguished by the absence or presence of the prefix a-.</p>
|
107 |
Teaching academic vocabulary with corpora student perceptions of data-driven learning /Balunda, Stephanie A. January 2009 (has links)
Thesis (M.A.)--Indiana University, 2009. / Title from screen (viewed on February 1, 2009). Department of English, Indiana University-Purdue University Indianapolis (IUPUI). Advisor(s): Julie A. Belz, Ulla M. Connor, Thomas A. Upton. Includes vitae. Includes bibliographical references (leaves 65-67).
|
108 |
Explaining orthographic variation in a virtual community : linguistic, social, and contextual factorsIorio, Joshua Boyd 24 January 2011 (has links)
The purpose of this project is to investigate factors that can be used to explain orthographic variation in City of Heroes (CoH), a virtual community based in an online role-playing game. While a number of models of variation exist for speech, to date, no statistical models of orthographic variation in virtual communities exist. By combining traditional variationist methods with computational text processing, this project documents socially meaningful alternations in the linguistic code regarding two types of sociolinguistic variables, namely spelling and use of abbreviations. For each of the two variable types, two dependent variables are posited, i.e. the alternation between: 1) –ing and –in in durative verbal aspect marking in forms such as coming and comin, 2) –s and –z markers of plurality in words such as cats and catz, 3) abbreviated and full forms for referential abbreviation in terms such as Atlas Park and AP, and 4) abbreviated and full forms for conative abbreviations in terms such as looking for team and lft. The study investigates the role that the following factors play in explaining orthographic variation in CoH: 1) message length, 2) standardness of the immediate linguistic environment, 3) cognitive load, 4) relative proximity in the virtual space, 5) degree of message publicness, 6) experience in the community, 7) avatar gender, and 8) social group affiliation.
Through mixed-effects, multivariate models, the study demonstrates that each of the predictors has some role in explaining the orthographic variability observed in the textual record of the community. Moreover, interactions between some of the predictors prove to be significant contributors to the models, which highlight the importance of addressing interaction terms in models of language variation. The findings from the study suggest that the socio-contextual meaning of particular structures in the CoH community lead authors to make linguistic choices, which are realized as alternations in the linguistic code. Finally, implications for the study of language variation in general are discussed. / text
|
109 |
A Corpus Approach to Ecological Discourse Analysis and L2 Writing PedagogyPoole, Robert January 2015 (has links)
This three-article dissertation emerges from interests in corpus linguistics (CL), corpus-based discourse analysis, and corpus-informed pedagogy for second language (L2) writing classrooms. A brief summary of each article follows: Article #1: Using the localized, place-based discourse of the Rosemont Copper Mine debate of southern Arizona, the first article produces a corpus-based discourse analysis of texts from the primary interest groups involved in the mine proposal. The ecolinguistic analysis details linguistic patterns within the interest groups' texts and discusses how these grammatical and semantic features form rhetorical constellations, i.e. patterns of linguistic features performing a shared rhetorical purpose, within the debate. Findings show that the industry group produces rhetoric of authority, certainty, and dominion through deployment of particular constellations of lexicogrammatical features while the linguistic elements in the environmental advocacy texts construe uncertainty, doubt, aesthetic value, and environmental stewardship. Article #2: The second article details an integration of geographical information system (GIS) and CL techniques with an ecolinguistics-informed analytical framework for the analysis of the same contentious environmental debate from southern Arizona. The application of GIS and CL procedures enabled the mapping of place name mentions present within two interest group corpora as well as the frequency of particular semantic tags and semantic tag sets that co-occur with specific places prominent in the debate. The findings and the GIS visualizations exhibit how different interest groups refer to and represent geographical places within their discourse and how these references to places index ideological positions towards the environment. Article #3: The final article details a study in which twenty-one international students in the second course of an undergraduate writing program sequence at a U.S. university studied the local debate regarding the Rosemont Copper Mine. The participants analyzed texts from two primary interest groups, a local, environmental group and an international mining company, and participated in a series of corpus-aided activities using corpus data derived from texts from the opposing groups. The contrastive analyses made possible through the study of texts and corpus data from the two sharply distinct groups enabled students to notice, analyze, and discuss the meaningful and purposeful variation in word choice and rhetorical strategies present in the texts, the data, and the debate. The article provides a model for how corpus data can be integrated into writing classrooms for advancing students' abilities to analyze language and increase rhetorical awareness. The introductory chapter provides an overview of the Rosemont Copper Mine debate, ecolinguistics, and corpus linguistics. This opening chapter is followed by three articles (corresponding to Chapters 2, 3, and 4), and the dissertation concludes with a discussion of implications of the findings and potential for future research.
|
110 |
Framing Obama : A Comparative Study of Keywords and Frames in Two Washington NewspapersRenström, Caroline January 2011 (has links)
This study aims to contribute to the understanding of ideology conveyed by lexical items and framing of texts. Since ideology is embedded in language the frames used in newspapers construct a narrow ideological perspective for the readers to interpret subjects and events through. On the basis of editorials from The Washington Post and The Washington Times that cover President Barack Obama, the study examines how the editorials differ in their framing of Obama and which discourses and keywords occur unusually frequently in each newspaper. Findings suggest that when it comes to framing, The Washington Post allows for a relatively balanced perspective on Obama as they both support and criticise him, while The Washington Times overwhelmingly condemns and attacks Obama. A keyword analysis points to unusually frequent discourses on race, conservatives and reforms in The Washington Post, and spending, unemployment and political institutions in The Washington Times. Because of their ideological differences the newspapers construct a reality where the subject, Obama, is presented in very different ways.
|
Page generated in 0.0722 seconds