Return to search

Google Books Ngram Viewer – nya möjligheter för den ryska korpusforskningen eller bara "More of the Same"?

I detta arbete undersöks sökverktyget Ngram Viewer och dess ryska delkorpus, innehållande totalt drygt 67 miljarder ord från närmre 600 000 böcker, utgivna mellan 1607 och 2009. Arbetet består av tre huvudsakliga delar; en översiktligt jämförande undersökning av andra ryskspråkiga korpusar, därefter en mindre litteraturstudie av tidigare forskning genomförd med hjälp av den ryska delkorpusen i Ngram Viewer och slutligen egna tester och pilotundersökningar av densamma. Syftet med uppsatsen är framförallt att undersöka Ngram Viewers möjligheter och begränsningar i en större kontext av korpusforskning. Pilotstudierna i Ngram Viewer fokuserar framförallt på relationen mellan begreppen русский och российский (och därmed indirekt förhållandet mellan Русь och Россия‏), bland annat genom jämförelse med tidigare studier (Griščenko, 2013, 2014a). En av de viktigaste insikterna från arbetets första två delar är korpusens bristande funktioner vad gäller hantering av skrivtecken som avskaffades vid den ryska stavningsreformen 1917. Pilotundersökningarna i arbetets tredje del avgränsas därför främst till material från åren 1900–2008. Att de lingvistiska annotationerna i korpusen uteslutande är automatiskt genererade samt att man inte har direkt tillgång till korpusens källmaterial utgör också viktiga faktorer som begränsar Ngram Viewers användningsområde. / В этой работе изучается корпус и инструмент Google Books Ngram Viewer и как можно использовать корпус для исследования исторических изменений русского языка. Русский подкорпус Ngram Viewer содержит около 67 миллионов слов из почти 600 000 книг, изданных 1607–2009 гг.   Исследование состоит из трех частей. В первой части сравнивается Ngram Viewer с другими корпусами русского языка. Во второй части предлагается обзор научной литературы относительно Ngram Viewer, и его русского подкорпуса. В третьей части приводятся собственные пилотажные исследования с помощью Ngram Viewer. Прежде всего, рассматривается использование слов русский и российский, в частности, по сравнению с исследованиями Грищенко 2013 и 2014а.   Мы пришли к выводу, что Ngram Viewer в первую очередь может быть использован как инструмент количественного анализа русского языка 20-ого и 21-ого веков. По техническим причинам корпус оказался менее полезным для изучения более древних текстов (до орфографической реформы 1917 г.).

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:uu-298747
Date January 2016
CreatorsBryngelson, Andreas
PublisherUppsala universitet, Slaviska språk
Source SetsDiVA Archive at Upsalla University
LanguageSwedish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0028 seconds