Fördjupningsuppgift

På denna sida hittar du instruktioner och material för fördjupningsuppgiften samt information om betygskriterierna.

Allmän Information

Målet av fördjupningsuppgiften är att genomföra en korpusstudie med en kombination av kvantitativa metoder (med hjälp av de programmeringstekniker ni lärt er i språkteknologidelen), och kvalitativa analyser (baserade på de lingvistiska kunskaper ni fick i lingvistikdelen).

Den viktigaste informationen hittar du i presentationen nedan.

Föreläsningsbilder

Data

Datan är tillgängligt nu. För varje korpus får ni tre filer: De engelska originaltexterna, den svenska översättningen och den svenska översättningen med lingvistisk annotering.

Material

Viktiga Datum

  • Introduktion 5/5.

  • Testdata tillgängligt: 15/5 (uppdaterad!).

  • Inlämning: 5/6.

  • Metodseminarium: 20/5 (för att delta krävs inlämning i Lisam: 19/5 14:00).

  • Resultatseminarium: 27/5 (för att delta krävs inlämning i Lisam: 26/5 14:00).

  • Rapportseminarium: 3/6 (för att delta krävs inlämining i Lisam: 30/5 14:00).

Vanliga frågor

Behöver jag ha med alla tre korpusar i studien?

Det beror på din forskningsfråga, men i de flesta fall är det intressant att genomföra den kvantitativa analysen på både undertextkorpusen och bokkorpusen för att kunna jämföra resultaten. När det gäller den kvalitativa analysen kan du fokusera på en av korpusarna. Friends-korpusen behöver därmed inte ingå i själva studien; dess huvudsakliga syfte är att fungera som en mindre testkorpus, vilket gör det möjligt att snabbt prova kod och metoder.

Går det bra att återanvända kod från labbarna, t.ex. sentences-funktionen?

Ja, det går alldeles utmärkt! Du får gärna återanvända all kod från labbarna om den är relevant för din analys.

Hur hittar jag den engelska motsvarigheten till en svensk mening?

En rad i den svenska .txt filen motsvarar alltid en rad i den engelska .txt filen. Det innebär alltså att samma index ger samma mening på båda språken.

För OpenSubtitles och Friends är även .txt- och .conllx-filerna alignade. Det innebär att indexen av en rad i .txt är samma som i .conllx-filen när ni använder sentences()-funktionen på filen.

För Gutenberg är det lite mer komplicerat eftersom översättningen gjorts styckevis. .txt- och .conllx-filerna är alltså inte alignade. Ett enkelt sätt är att strängsöka efter meningen i den svenska .txt-filen och använda radnumret för att hitta motsvarande rad i den engelska filen. Men för att förenkla sökningen har jag nu också lagt till alignade filer för Gutenberg i Lisam, under Data Fördjupningsuppgift/Gutenberg aligned. Men obs. att index från gutenberg_sv.conllx ger ett helt stycke, inte enskilda meningar.

Får jag använda ord och konstruktioner från föreläsningsbilderna?

Ja! För betyget G går det bra att enbart använda ord och konstruktioner från föreläsningsmaterialet. För att nå betyget VG behöver du även hitta några egna exempel i litteraturen, men du kan absolut utgå från föreläsningsbilderna som grund, och sedan lägga till dina egna.

Vad menas med “5 syntaktiska konstruktioner”? / Vad räknas som en syntaktisk konstruktion?

Med “syntaktiska konstruktioner” menas sådana som tas upp i föreläsningsbilderna under rubriken “Översättningssvenska: Syntax”. En bild motsvarar en specifik konstruktion eller variation – så du kan välja fem olika konstruktioner därifrån.

Ett alternativ är att du i stället fokuserar på en enda konstruktion, men undersöker den mer detaljerat. Då ska du välja fem olika variationer av hur konstruktionen kan förekomma, till exempel med olika ordföljder eller grammatiska mönster. I så fall bör varje variation innebära att du använder lingvistisk annotation på olika sätt genom att leta efter olika taggar, grammatiska relationer m.m.

Vad är skillnaden mellan 5 ord och 5 syntaktiska konstruktioner i studien?

Den första delen fokuserar på enskilda ord som ofta förekommer i översättningssvenska. Här räcker det med en enkel strängsökning för att identifiera förekomsterna i materialet. För exempel på sådana ord, se rubriken “Översättningssvenska: Ord” i föreläsningsbilderna.

Denna andra delen handlar om syntaktiska konstruktioner. Här behöver du använda lingvistisk annotation, till exempel ordklasstaggar eller grammatiska relationer, för att kunna identifiera och analysera dessa konstruktioner. Se rubriken “Översättningssvenska: Syntax” i föreläsningsbilderna för exempel på sådana konstruktioner.

Hur är datan översatt?

Alla korpusar i studien är översatta med hjälp av ett maskinöversättningssystem som heter OPUS-MT. Efter översättningen har texterna automatiskt annoterats med hjälp av det svenska språkpaketet i SpaCy. För mer information om hur datan har bearbetats och förberetts, se projektets Github-repo.

Finns det svenska originaltexter att jämföra resultatet med?

Tyvärr finns det ingen tillgång till svenska originaltexter som direkt kan jämföras med översättningarna. Verifieringen av huruvida ett visst språkligt drag verkligen är översättningssvenska ska därför göras i den kvalitativa analysen av studien.

Däremot kan du göra jämförelser mellan de två olika domänerna i korpusen: Talad svenska (i undertexter-korpusen) och “bok-svenska” (i Gutenberg-korpusen).