is Íslenska en English

Lokaverkefni (Meistara)

Háskóli Íslands > Þverfræðilegt nám > Lýðheilsuvísindi >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/45867

Titill: 
  • Titill er á ensku Missing data and multiple imputation: A sampling study with the SAGA cohort
  • Brottfallsgildi og endurtekinn tilreikningur: Úrtakskönnun úr Áfallasögu kvenna
Námsstig: 
  • Meistara
Leiðbeinandi: 
Efnisorð: 
Útdráttur: 
  • Útdráttur er á ensku

    Background: Missing data in epidemiological research is a common occurrence where there is no method that conclusively performs best. The aim of this thesis is to compare selected methods on the Stress-And Gene-Analysis (SAGA) cohort. Methods: Using: Complete case analysis (CCA), Single imputation using predictive mean matching (SI-PMM), Multiple imputation using predictive mean matching (MI-PMM) and Multiple imputation using the default methods from MICE (MI-MICE) on the SAGA cohort, and fitting a Poisson model with robust error variance on a binary outcome, the estimates and confidence intervals were compared. Following this, a sampling study was conducted by drawing differently sized (1.000, 5.000, 10.000, 15.000 and 20.000) random samples from the complete cases of the data and imposing different levels of missingness, i.e. 5%, 10%, 25%, 50% and 75%. The same missingness pattern from the whole data was used to create the missingness on five covariates under the Missing at random (MAR) mechanism. Here the percentage bias and coverage was compared. A brief look into different strategies of choosing auxiliary variables was conducted as well as looking at how the results differ under Missing not at random (MNAR) mechanism. Results: The different methods performed similarly on the whole SAGA cohort. From the sampling study, CCA performed worse than the imputation methods with higher bias and standard errors. MI-PMM performed marginally better than MI-MICE where the bias on average stayed below the 5% benchmark in all sample sizes except 1.000. Conclusions: MI-PMM is recommended since it is user friendly, fast and resulted in the lowest amount of bias.

  • Bakgrunnur: Töpuð gildi í faraldsfræðirannsóknum eru algeng og ekki er til nein ein aðferð sem tæklar þetta vandamál í öllum kringumstæðum. Markmið rannsóknarinnar er að bera saman þekktar aðferðir á Áfallasögukvenna gögnin. Aðferðir: Með því að nota CCA, SI-PMM, MI-PMM og MI-MICE og sníða svo Poisson líkan með leiðréttri dreifni, eru stuðlarnir og öryggisbilin borin saman eftir aðferðunum. Í kjölfarið er úrtakskönnun framkvæmd með því að taka misstór slembiúrtök úr kláraða gagnasettinu (1.000, 5.000, 10.000, 15.000 og 20.000) og búið til mismörg töpuð gildi, þ.e. svo 5%, 10%, 25%, 50% og 75% af gangasettinu hefur töpuð gildi. Sama mynstur tapaðra gilda og úr Áfallasögunni er notað á fimm fylgibreytur undir MAR. Hérna er prósentuskekkjan og spanhlutfall borið saman. Stuttlega er litið á mismunandi aðferðir við að velja hjálparbreytur og hvernig niðurstöðurnar breytast undir MNAR. Niðurstöður: Aðferðirnar stóðu sig svipað vel á öll Áfallasögu gögnin. Frá úrtaksrannsókninni stóð CCA sig verr en endurteknu tilreikninga aðferðinar með hærri prósentuskekkju og staðalskekkju. MI-PMM stóð sig aðeins betur en MI-MICE þar sem skekkjan var að meðaltali undir 5% þröskuldinum í öllum úrtaksstærðum nema 1.000. Ályktanir: Mælt með er að nota MI-PMM þar sem hún er aðgengileg, hraðvirk og leiddi að minnstu skekkjunni.

Samþykkt: 
  • 10.10.2023
URI: 
  • http://hdl.handle.net/1946/45867


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
Meistararitgerd_mdb6_280823.pdf22.88 MBOpinnHeildartextiPDFSkoða/Opna
Skemman_yfirlysing.pdf118.17 kBLokaðurYfirlýsingPDF