is Íslenska en English

Lokaverkefni (Meistara)

Háskóli Íslands > Verkfræði- og náttúruvísindasvið > Meistaraprófsritgerðir - Verkfræði- og náttúruvísindasvið >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/12085

Titill: 
  • Titill er á ensku Post-Correction of Icelandic OCR Text
  • Vélræn leiðrétting á íslenskum ljóslesnum texta
Námsstig: 
  • Meistara
Útdráttur: 
  • Útdráttur er á ensku

    The topic of this thesis is the post-correction of Icelandic OCR (optical character recognized) text. Two methods for spelling correction of OCR errors in Icelandic text are proposed and evaluated on misrecognized words in a digitization project which is ongoing in Alþingi (the Icelandic parliament). The first method is based on a noisy channel model. This method is applied to nonword errors, i.e., words which have been misrecognized during the OCR process and transformed into another word which is not in the Icelandic vocabulary. This method achieves a correction accuracy of 92.9% when applied to a test set of nonword errors from a large collection of digitized parliamentary speeches from the Alþingi digitization project (a total of 47 million running words from the years 1959-1988). The second method uses Winnow classifiers, and is applied to real-word errors, i.e., words which have been misrecognized during the OCR process and transformed into another word which also exists in the Icelandic vocabulary. A Winnow classifier is able to correct real-word errors by detecting words which do not fit in the context in which they appear and suggesting other similar words which are more likely to be correct. When applied to a test set of real-word errors from the same set of digitized texts as above, this method achieves a correction ratio of 78.4%. When both methods are applied to all errors in the digitized parliamentary speeches, an overall correction accuracy of 92.0% is achieved.

  • Efni þessa verkefnis er leiðrétting á ljóslesnum (e. optical character recognized, OCR) íslenskum texta. Tvær aðferðir til að leiðrétta ljóslestrarvillur í íslenskum texta eru þróaðar og síðan metnar á villum í ljóslestrarverkefni sem Alþingi stendur að. Fyrri aðferðin byggir á líkani fyrir leiðréttingu á stafsetningarvillum sem orsakast af truflunum í samskiptarásum (e. noisy channel spelling correction). Hún er notuð til að leiðrétta ósamhengisháðar villur, þ.e. villur þar sem ljóslestur á orði misheppnast þannig að orð breytist í annað orð sem ekki er til í íslensku. Með þessari aðferð reynist unnt að leiðrétta 92,9% af slíkum villum þegar aðferðinni er beitt á safn ljóslesinna þingræðna úr Alþingisverkefninu (samtals 47 milljón lesmálsorð frá árunum 1959-1988). Seinni aðferðin notar vélrænan Winnow flokkara og er beitt á samhengisháðar villur, þ.e. orð þar sem ljóslestur hefur mistekist þannig að orð breytist í annað orð sem þó er til í íslensku. Winnow flokkari getur leiðrétt slíkar ljóslestrarvillur með því að finna orð sem falla ekki að því samhengi sem þau koma fyrir í og stinga upp á öðrum orðum í staðinn sem eru líklegri til að vera rétt. Með þeirri aðferð tekst að lagfæra 78,4% af öllum samhengisháðum villum í þessu sama textasafni. Þegar báðum aðferðunum er beitt á þetta safn reynist unnt að lagfæra 92,0% af öllum villum.

Samþykkt: 
  • 8.6.2012
URI: 
  • http://hdl.handle.net/1946/12085


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
Post-Correction of Icelandic OCR Text.pdf1.56 MBOpinnHeildartextiPDFSkoða/Opna