is Íslenska en English

Lokaverkefni (Meistara)

Háskóli Íslands > Hugvísindasvið > Meistaraprófsritgerðir - Hugvísindasvið >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/35368

Titill: 
  • Á næsta leyti að vissu leyti? Notkun ruglingsmengja við sjálfvirka stafsetningarleiðréttingu
  • Titill er á ensku The use of confusion sets for automatic spelling correction in Icelandic
Námsstig: 
  • Meistara
Leiðbeinandi: 
Efnisorð: 
Útdráttur: 
  • Í þessari ritgerð verður fjallað um samhengisháða sjálfvirka stafsetningarleiðréttingu, smíði og útgáfu Íslensku ruglingsmengjamálheildarinnar og gagnanámstilraunir sem gerðar voru á henni. Ruglingsmengi eru hljómlík orðapör sem líklegt er að ruglist saman í stafsetningu, t.a.m. leyti og leiti, sýna og sína eða komin og kominn. Í gagnanámstilraunum sem byggja á notkun ruglingsmengja eru þáttavigrar myndaðir úr setningafræðilegum eða merkingarfræðilegum eiginleikum setningadæma sem innihalda orðin úr ruglingsmengi og flokkari þjálfaður til þess að aðgreina samhengi orðanna sjálfvirkt hvort frá öðru. Með því er hægt að smíða leiðréttingarbúnað sem greinir ekki aðeins stakorðavillur sem ekki finnast í orðabók, heldur einnig raunorðavillur þar sem raunverulegu orði hefur fyrir mistök verið skipt út fyrir annað, raunverulegt orð.

    Íslenska ruglingsmengjamálheildin inniheldur 27 flokka hljómlíkra orðapara, en orðin í mengjunum eru einni bókstafsbreytingu hvort frá öðru. Málheildin inniheldur orðalista með pörum hvers flokks fyrir sig ásamt öllum þeim setningadæmum sem finnast með viðkomandi orðum í Risamálheildinni. Þá er einnig að finna þar yfirlitstöflur með upplýsingum um tíðni hvers pars innan Risamálheildarinnar, auk þess sem athugað er hvort orðin innan hvers pars eru setningafræðilega eða merkingarfræðilega aðgreind. Málheildin hefur verið gefin út í opnum aðgangi á íslensku varðveislusafni evrópska rannsóknarinnviðaverkefnisins CLARIN og er því öllum aðgengileg sem vilja gera sínar eigin athuganir.

    Í þeim gagnanámstilraunum sem voru unnar við gerð þessarar ritgerðar voru tvær gerðir þáttasöfnunar og þrjár gerðir flokkara prófaðar á gögnum Íslensku ruglingsmengjamálheildarinnar. Niðurstöður tilraunanna sýna að sjálfvirk þáttasöfnun byggð á tíðniupplýsingum úr umhverfi markorðsins skilar nokkuð betri mælingum en handsmíðuð þáttasöfnun byggð á málfræðireglum á borð við hvort markorðið standi nálægt persónubeygðri sögn. Regluþættirnir virka best á orð sem eru setningafræðilega aðgreind, en sjálfvirka þáttasöfnunin virkar best á orð sem eru merkingarfræðilega aðgreind. Þá virðast ákvörðunartré og tauganetsflokkarar skila bestum niðurstöðum með handsmíðuðum þáttum, en lógístíska aðhvarfsgreiningin og tauganetið með sjálfvirkri þáttasöfnun.

  • Útdráttur er á ensku

    This essay covers the use of confusion sets in automatic spelling correction for Icelandic, the compilation and publication of The Icelandic Confusion Set Corpus and the machine learning experiments done on the data. Confusion sets are word pairs that are likely to get mixed up in spelling due to their homophonous properties. In machine learning experiments done with confusion sets, a feature vector is derived from the surrounding context of the word. A classifier is then trained on sentence examples containing the word pair. By this use of context sensitivity, real word errors can be retrieved and corrected automatically.
    The Icelandic Confusion Set Corpus contains 27 categories of homophonous word pairs which are in Levenshtein-distance 1 from each other. It contains lists of words containing each category, frequency tables with information on the words taken from the Icelandic Gigaword Corpus, as well as information on whether the words within the pair are grammatically disjoint or identical. The corpus has been made accessible on the open source repository of CLARIN-IS.
    In the machine learning experiments done for this thesis, two feature extraction methods were compared. The results show that feature extraction using a bag-of-words method generally have higher accuracy, precision, recall and f-score than those done with handwritten grammatical rules. The grammatical rules however work better on the grammatically disjoint pairs whereas the bag-of-words model works better for grammatically identical pairs. The results also show that the use of a decision tree or a neural network work best for the grammatical features, but a logistic regression classifier and a neural network work best for the bag-of-words features.

Tengd vefslóð: 
  • https://github.com/steinunnfridriks/ICoSC
  • https://repository.clarin.is/repository/xmlui/handle/20.500.12537/19
Samþykkt: 
  • 18.5.2020
URI: 
  • http://hdl.handle.net/1946/35368


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
Skemman_yfirlysing.pdf51.84 kBLokaðurYfirlýsingPDF
ruglingsmengi_steinunnfridriksdottir.pdf1.08 MBOpinnHeildartextiPDFSkoða/Opna