Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: https://hdl.handle.net/1946/44617
Part-of-Speech (POS) tagging is a sequential labelling task in which words, punctuation, and symbols occurring in running text, i.e., tokens are assigned a tag describing their morphosyntactic features. To predict the correct tag, the tagger relies on the context of the token in a sentence and its orthographic form. POS tagging is an important step for many Natural Language Processing applications.
Over the last two decades, steady progress has been made in POS tagging for Icelandic. Various taggers have been presented that improve on previous state-of-the-art methods. During that period, work on Icelandic Corpora has also progressed. Existing corpora have undergone error correction phases, and in some cases been expanded with new data. A new larger gold standard corpus for POS tagging was created to replace the older standard. Furthermore, alterations have been made to the fine-grained tagset used for Icelandic. The tagset has been simplified a couple of times with tags being removed or merged into others, and new tags have been added.
This variability over the years means that reported results for taggers are not easily comparable. In this project, we train and test four data-driven taggers that have been employed for Icelandic, while using the latest version of the current gold standard corpus and tagset, as well as the latest versions of augmentation data used, if any. These taggers represent four different models: a Hidden Markov model, an Averaged Perceptron algorithm, a Bidirectional Long Short-Term Memory neural network, and a Transformer neural network. We compare the accuracy of the four models and see from where each model's improvements stem. We also do an error analysis of the results of the transformer model, which obtains the highest accuracy.
Now that the latest tagging method based on the transformer model surpasses 97% accuracy one might question whether any further gains can be achieved. The generally considered upper bound of inter-annotator agreement for morphosyntactic analysis is between 97% and 98%. Is POS tagging perhaps a solved problem for Icelandic? We draw a random sample of errors common to all four models for classification with regard to insolubility. This analysis reveals annotation errors in the gold standard corpus as well as insoluble tagging errors due to insufficient context information. We calculate the lower bounds for these error classes and estimate that, by correcting the annotation errors in the gold standard and making some improvements to the model, the accuracy could surpass 98%.
Í málfræðimörkun eru orð, greinarmerki og tákn, eða það sem kallast tókar, sem koma fyrir í samfelldum texta, greindir og merktir með málfræðilegu marki. Markarinn byggir greiningu á formgerð tókans sem og samhenginu sem hann kemur fyrir í hverju sinni. Málfræðimörkun er mikilvæg grunnstoð margra verkefna í máltækni.
Síðastliðna tvo áratugi hefur orðið stöðug framþróun í mörkun á íslenskum texta. Reglulega hafa nýir markarar verið kynntir til sögunnar sem bætt hafa árangur eldri markara. Á sama tímabili hefur einnig orðið framgangur í gerð íslenskra málheilda. Málheildir hafa farið í gegnum leiðréttingarferli og sumar hafa verið stækkaðar með nýjum gögnum. Nýr gullstaðall fyrir mörkun var kynntur til sögunnar og leysti fyrri gullstaðal af hólmi. Einnig hafa breytingar verið gerðar á markamenginu sem notað er fyrir íslensku. Mengið hefur verið einfaldað nokkrum sinnum, mörk hafa verið tekin út eða sameinuð öðrum, en nýjum mörkum hefur einnig verið bætt við.
Þessar breytingar í gegnum árin gera samanburð á mörkunarnákvæmni markaranna illmögulegan. Í þessari ritgerð eru kynntar niðurstöður úr þjálfun og prófunum fjögurra mismunandi tegunda gagnadrifinna markara sem nýttir hafa verið fyrir íslensku. Til þess notum við nýjustu útgáfu Gullstaðalsins og markamengisins, sem og annarra þjálfunargagna. Þessir markarar byggja á fjórum líkönum: huldu Markovslíkani, meðaltals-skynjunarneti, BiLSTM-tauganeti, og transformer-tauganeti. Við berum saman árangur þessara mismunandi líkana og framkvæmum einnig villugreiningu á útkomu transformer-líkansins sem nær hæstu mörkunarnákvæmni.
Nú þegar nákvæmni besta líkansins er orðin meiri en 97% er spurning hvort hægt sé að ná lengra eða ekki. Áætla má að efri mörk þeirrar greiningar sem málfræðingar geti verið sammála um sé á bilinu 97% til 98%. Er málfræðimörkun þá kannski leyst verkefni fyrir íslensku? Við tökum slembiúrtak til nánari greiningar úr þeim villum sem allir markararnir gera og eru sammála um mörkun fyrir. Greiningin leiðir í ljós villur í Gullstaðlinum sem og óleysanlegar mörkunarvillur sökum ónógs samhengis. Við reiknum út neðri mörk fjölda staka í þessum tveimur mengjum og áætlum að með því að laga villur í Gullstaðlinum og bæta líkanið enn frekar megi ná nákvæmninni yfir 98%.
Skráarnafn | Stærð | Aðgangur | Lýsing | Skráartegund | |
---|---|---|---|---|---|
Data-driven Part-of-Speech Taggers for Icelandic.pdf | 3,94 MB | Opinn | Heildartexti | Skoða/Opna |