en English is Íslenska

Thesis (Master's)

University of Iceland > Verkfræði- og náttúruvísindasvið > Meistaraprófsritgerðir - Verkfræði- og náttúruvísindasvið >

Please use this identifier to cite or link to this item: http://hdl.handle.net/1946/43324

Title: 
  • Abstractive Text Summarization for Icelandic
Degree: 
  • Master's
Abstract: 
  • In this study, we train and evaluate state-of-the-art Transformer models for abstractive text summarization in Icelandic. We introduce the first publicly available abstractive summarization dataset for Icelandic, RÚV Radio News (RRN), which we use for training and evaluating our models. Our findings reveal that when fine-tuned for a low-resource summarization setting, the multilingual mT5 model outperforms a similar capacity PEGASUS model that is pre-trained exclusively on Icelandic text. Additionally, we discover that data augmentation, using machine-translated text, can result in ungrammatical output text.

  • Abstract is in Icelandic

    Verkefnið snýr að því að þjálfa og meta gæði state-of-the-art Transformer líkana í abstrakt samantektargerð fyrir íslensku. Við kynnum til sögunnar fyrsta abstrakt samantektargerðargagnasafnið, RÚV Radio News (RRN), unnið upp úr hádegisfréttum Ríkisútvarpsins. Við berum saman fjöltyngda mT5 málalíkan við sambærilegt PEGASUS líkan, forþjálfað einungis á íslenskum texta. Okkar niðurstöður sýna að mT5 stendur sig almennt betur þegar líkönin eru fínþjálfuð fyrir samantektargerð. Ennfremur komumst við að því að þegar við fínþjálfum á vélþýddum samantektargerðargagnasöfnum fáum við gjarnan málfræðilega verri úttakstexta.

Accepted: 
  • Jan 25, 2023
URI: 
  • http://hdl.handle.net/1946/43324


Files in This Item:
Filename Size VisibilityDescriptionFormat 
Abstractive_Text_Summarization_for_Icelandic.pdf1.15 MBLocked Until...2023/07/01Complete TextPDF
Skemman_yfirlysing.pdf81.97 kBLockedDeclaration of AccessPDF