is Íslenska en English

Lokaverkefni (Meistara)

Háskóli Íslands > Hugvísindasvið > Meistaraprófsritgerðir - Hugvísindasvið >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/38027

Titill: 
  • Greining aðalsetningamarka. Mæling á frammistöðu og uppfærslur á splitter.py
Námsstig: 
  • Meistara
Leiðbeinandi: 
Efnisorð: 
Útdráttur: 
  • Í þessari ritgerð verður fjallað um mælingu á frammistöðu og uppfærslum á forritinu splitter.py sem greinir aðalsetningamörk í inntakstexta með því að nota tvíundameðaltals-skynjunarnet. Þetta er forrit sem er hluti af taugaþáttunarpípunni iceParsingPipeline. Áður en pípan getur þáttað texta þarf að gera forvinnslu á textanum. Í þessu felst m.a. að skipta textanum í heildarsetningar og að skipta heildarsetningunum í aðalsetningar. Heildarsetning getur e.t.v. verið samsett af tveimur eða fleiri aðalsetningum sem eru tengdar saman með aðaltengingunum og/en/eða/heldur/enda/ellegar í íslensku. Þegar aðaltenging tengir saman tvær aðalsetningar er það kallað aðalsetningamark. Taugaþáttunarpípan hefur verið notuð til að búa til vélþáttaðar málheildir, en frammistaða forritsins splitter.py hefur ekki verið mæld. Markmið verkefnisins sem fjallað er um í þessari ritgerð er að mæla nákvæmni, heimt og f-mælingu fyrir splitter.py og að innleiða uppfærslur í forritið til að bæta þessar niðurstöður. Annað markmið verkefnisins er að láta splitter.py einnig virka fyrir færeysku. Fyrstu niðurstöður sýna að splitter.py gerir villur í rétt rúmlega einum fjórða tilvika. Eftir að uppfærslur hafa verið innleiddar bætist frammistaðan örlítið. Til að bæta frammistöðuna ennfrekar er mælt annað hvort með því að bæta fleiri uppfærslum við splitter.py eða með því að láta splitter.py nota djúptauganet í staðinn fyrir tvíundameðaltals-skynjunarnetið. Tekin eru saman gögn sem splitter.py getur notað til þess að greina aðalsetningamörk í textum á færeysku. Einnig eru gerðar nauðsynlegar uppfærslur á splitter.py til að það virki fyrir færeysku.

  • Útdráttur er á ensku

    This essay is about measuring the performance and updating the program splitter.py which detects main clause boundaries in a text by using a binary averaged perceptron. This is a program which is part of the neural parsing pipeline iceParsingPipeline. Before the pipeline can parse a given text it needs to do preprocessing on it. This includes splitting the text into whole sentences and then splitting the whole sentences into main clauses. A whole sentence can consist of two or more main clauses which are cojoined with the conjunctions og/en/eða/heldur/enda/ellegar in Icelandic. When a conjunction conjoins two main clauses it is called main clause boundary. The neural pipeline has been used to create machine parsed corpora, but the performance of the program splitter.py has not been measured. The goal of the project which is described in this essay is to measure precision, recall and f-measure for splitter.py and to implement updates in the program to improve these measurements. Another goal of the project is to make splitter.py also work for Faroese. The first results show that splitter.py makes errors in just over a quarter of cases. After the updates have been implemented the performance improves slightly. To further improve the performance of splitter.py it is recommended that either more updates to splitter.py are implemented or to have splitter.py use a deep neural network instead of the binary averaged perceptron. Data is compiled which splitter.py can use to detect main clause boundaries in texts in Faroese. Necessary updates are also implemented in splitter.py so that it works for Faroese.

Samþykkt: 
  • 5.5.2021
URI: 
  • http://hdl.handle.net/1946/38027


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
MA_lokaverkefni_BjarniBarkarson.pdf624.18 kBOpinnHeildartextiPDFSkoða/Opna
Yfirlysing_fyrir_Skemmuna.pdf429.7 kBLokaðurYfirlýsingPDF