is Íslenska en English

Lokaverkefni (Meistara)

Háskóli Íslands > Verkfræði- og náttúruvísindasvið > Meistaraprófsritgerðir - Verkfræði- og náttúruvísindasvið >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/43324

Titill: 
  • Titill er á ensku Abstractive Text Summarization for Icelandic
Námsstig: 
  • Meistara
Leiðbeinandi: 
Útdráttur: 
  • Útdráttur er á ensku

    In this study, we train and evaluate state-of-the-art Transformer models for abstractive text summarization in Icelandic. We introduce the first publicly available abstractive summarization dataset for Icelandic, RÚV Radio News (RRN), which we use for training and evaluating our models. Our findings reveal that when fine-tuned for a low-resource summarization setting, the multilingual mT5 model outperforms a similar capacity PEGASUS model that is pre-trained exclusively on Icelandic text. Additionally, we discover that data augmentation, using machine-translated text, can result in ungrammatical output text.

  • Verkefnið snýr að því að þjálfa og meta gæði state-of-the-art Transformer líkana í abstrakt samantektargerð fyrir íslensku. Við kynnum til sögunnar fyrsta abstrakt samantektargerðargagnasafnið, RÚV Radio News (RRN), unnið upp úr hádegisfréttum Ríkisútvarpsins. Við berum saman fjöltyngda mT5 málalíkan við sambærilegt PEGASUS líkan, forþjálfað einungis á íslenskum texta. Okkar niðurstöður sýna að mT5 stendur sig almennt betur þegar líkönin eru fínþjálfuð fyrir samantektargerð. Ennfremur komumst við að því að þegar við fínþjálfum á vélþýddum samantektargerðargagnasöfnum fáum við gjarnan málfræðilega verri úttakstexta.

Samþykkt: 
  • 25.1.2023
URI: 
  • http://hdl.handle.net/1946/43324


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
Abstractive_Text_Summarization_for_Icelandic.pdf1.15 MBLokaður til...01.07.2023HeildartextiPDF
Skemman_yfirlysing.pdf81.97 kBLokaðurYfirlýsingPDF