Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: https://hdl.handle.net/1946/47694
Spiking Neural Networks (SNNs) mimic the brain's neuron communication through brief, distinct electrical impulses -- spikes -- offering a more energy-efficient alternative to traditional neural networks. While SNNs have shown promise in computer vision and robotics, their application in natural language processing (NLP) remains predominantly unexplored.
In this study, we investigated the potential of SpikeBERT, a spiking version of BERT, to achieve performance comparable to traditional BERT models for multiclass classification of Icelandic text. We categorized text into four groups: legal texts, news articles, books, and journals. The spiking model was trained on a dataset derived from the Icelandic Gigaword Corpus (IGC), and its performance was compared to that of a fine-tuned IceBERT model. The evaluation used both the entire dataset -- a collection of Icelandic texts retrieved and processed from the IGC -- and reduced datasets, comprising 1/3 and 2/3 subsets of the initial collection, to assess how performance scales with dataset size and compare the robustness of BERT and SpikeBERT. The findings indicate that on the entire dataset, SpikeBERT's performance is approximately 8% lower than IceBERT, and on the reduced datasets, it is 12% lower. These results suggest that SNNs offer a promising alternative for text classification with lower energy consumption and potential applicability for low-resource languages.
We also address the challenges of using SNNs for low-resource languages and propose possible ways to increase their performance through hyperparameter tuning. This highlights the potential of SNNs in NLP and adds to the groundwork for future research to refine these models for better performance.
Púlsanet (SNNs) líkja eftir taugaboðum heilans með stuttum, aðgreinanlegum rafboðspúlsum – púlsum – og bjóða upp á orkusparandi valkost við hefðbundin taugnet. Þó púlsanet hafi sýnt lofandi niðurstöður í tölvusjón og vélmennatækni, eru þau enn að mestu ókönnuð á sviði máltækni.
Í þessari rannsókn könnuðum við möguleika SpikeBERT, púlsútgáfu af BERT, til að ná frammistöðu sambærilegri við hefðbundin BERT módel fyrir margflokkun íslenskra texta. Við flokkum texta í fjóra flokka: lögfræðitexta, fréttagreinar, bækur og tímarit. Púlsamódelið var þjálfað á gagnasetti sem byggir á Risamálheildinni (RMH), og frammistaða þess borin saman við fínstillt IceBERT módel. Mat á frammistöðu notaði bæði allt gagnasettið – safn íslenskra texta sem voru fengin og unnin úr RMH – og minnkuð gagnasett, sem samanstóðu af 1/3 og 2/3 af upphaflega safninu, til að meta hvernig frammistaðan skalar með gagnastærð og bera saman styrkleika BERT og SpikeBERT.
Niðurstöðurnar sýna að á öllu gagnasettinu er frammistaða SpikeBERT um það bil 8% lakari en IceBERT, og á minnkuðum gagnasettum er hún 12% lakari. Þessar niðurstöður benda til þess að púlsanet bjóði upp á lofandi valkost fyrir textaflokkun með minni orkunotkun og mögulega notkun fyrir tungumál með lítil úrræði.
Við fjöllum einnig um áskoranir við notkun púlsaneta fyrir tungumál með lítil úrræði og leggjum til mögulegar leiðir til að bæta frammistöðu þeirra með fínstillingu breyta. Þetta varpar ljósi á möguleika púlsaneta í máltækni og leggur grunninn að frekari rannsóknum til að betrumbæta þessi módel fyrir betri frammistöðu.
Skráarnafn | Stærð | Aðgangur | Lýsing | Skráartegund | |
---|---|---|---|---|---|
msc_ovsiannikova_2024.pdf | 1,43 MB | Opinn | Heildartexti | Skoða/Opna |