is Íslenska en English

Lokaverkefni (Meistara)

Háskóli Íslands > Þverfræðilegt nám > Lýðheilsuvísindi >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/38767

Titill: 
  • Titill er á ensku Comparison of regression and machine learning methods for classification in a large cohort study
Námsstig: 
  • Meistara
Efnisorð: 
Útdráttur: 
  • Útdráttur er á ensku

    Many different methods exist to determine associations between an outcome and a set of predictors. Regression and machine learning are two categories of methods that can be used to determine these associations and classify data. Regression models are most often based on linear mappings of predictors with few interactions, while machine learning methods use a combination of linear and non-linear mappings and higher order of interactions. Also, the objective of the two is different. More focus is on statistical inference when using regression methods and more focus on accuracy when using machine learning methods. However, it is natural to assume that a better performance in modeling and classification can be achieved with such methods. In this thesis, two regression methods (logistic regression and lasso) and two machine learning methods (random forest and support vector machine) were examined and their ability to classify outcomes in a large cohort study were observed. The classification was performed using both a full dataset and a training and test dataset. The cohort used was the SAGA cohort, a nationwide study in Iceland on the impact of trauma on women’s health. The cohort consists of 31,795 women between the ages of 18-69. In the cohort study setting there is usually a much larger number of observations than the number of predictors. Still there can be a concern about misspecification and overfitting. It is of practical value to be able to judge how robust the modeling of the data is with respect to modeling approach. The three binary outcomes that were studied and classified were posttraumatic stress disorder (PTSD), obesity, and hypertension. The classification ability of the methods was assessed the using area under the ROC (Receiver Operating Characteristics) curve (AUC) and accuracy, measured as the proportion correctly classified. The results of the study showed that the methods had similar performance but there were some differences. The difference between the worst and the best result for AUC was on average 3.66% (2.16%-6.49%) and the difference for accuracy was on average 11.94% (2.18%-20.53%). No method performed best every time. It can be concluded that, although there are differences between the regression and machine learning methods, there is no one method that outperforms other methods in all cases. The results indicate that the modeling results are robust with respect to choice of method.

  • Margar tölfræðiaðferðir eru til sem geta ákvarðað tengsl milli breyta. Aðhvarfsgreining og vélanám eru tveir flokkar af aðferðum sem er hægt að nota til að ákvarða þessi tengsl og til að flokka gögn. Aðhvarfsgreiningaraðferðir eru oftast byggðar á línulegum samantektum á skýribreytum með fáum víxlhrifum á meðan vélanámsaðferðir byggja oftar á ólínulegum samantektum og meira af víxlhrifum. Markmiðin geta verið mismunandi. Meiri áhersla er á tölfræðileg próf með aðhvarfsgreiningu en meiri áhersla á nákvæmni í flokkun með vélanámsaðferðum. Það er samt eðlilegt að ætla að hægt sé að ná betri árangri í líkanagerð og flokkun með vélanámsaðferðum. Þessi ritgerð skoðaði tvær aðhvarfsgreiningaraðferðir (lógístísk aðhvarfsgreining og lasso aðferð) og tvær vélanámsaðferðir (random forest og support vector machine) og getu þeirra til að flokka útkomur í stórri ferilrannsókn. Flokkunin var framkvæmd annars vegar á öllum gögnunum og hins vegar þegar gögnunum var skipt í þjálfunar- og prófunargögn. Rannsóknin sem var notuð er Áfallasaga kvenna sem var framkvæmd á öllu Íslandi og skoðaði áhrif áfalla á heilsu kvenna. Rannsóknarþýðið samanstendur af 31.795 konum á aldrinum 18-69 ára. Þær þrjár tvíkosta útkomur til rannsóknar í þessari ritgerð eru áfallastreituröskun, offita og háþrýstingur. Venjulega eru mun fleiri athuganir en breytur í ferilrannsóknum. Engu að síður er hætta á tilgreina líkön ranglega eða að ofmáta líkön við gögn. Það hefur mikla þýðingu að meta hvernig mismunandi líkön virka til að greina gögn í stórri ferilrannsókn og hvort árangur þeirra sé mismunandi og hvort hætta sé á van- eða ofgreiningu. Aðferðirnar verða metnar með flatarmáli undir ROC (Receiver Operating Characteristic) kúrvu (AUC, e. Area Under the Curve) og nákvæmni (e. accuracy). Niðurstöður rannsóknarinnar sýndu mun á aðferðum en ekki mikinn og engin aðferð var best fyrir allar útkomur. Munurinn milli hæsta og lægsta AUC var að jafnaði 3,66% (2,16%-6,49%) og munurinn milli hæstu og lægstu nákvæmni var að jafnaði 11,94% (2,18%-20,53%). Það má draga þá ályktun að þó að það sé munur á aðhvarfsgreiningaraðferðunum og vélanámsaðferðunum sé engin ein aðferð sem er betri en aðrar aðferðir í öllum tilvikum. Það er vísbending að velja megi þá aðferð sem er auðveldust í notkun til að ná að gera greinagóða mynd af tengslum milli breyta og flokkun á útkomu miðað við gildi á skýribreytum.

Samþykkt: 
  • 7.6.2021
URI: 
  • http://hdl.handle.net/1946/38767


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
MSc_IM_270521.pdf3.21 MBOpinnHeildartextiPDFSkoða/Opna
Skemman_yfirlysing_IM.pdf199.16 kBLokaðurYfirlýsingPDF