is Íslenska en English

Lokaverkefni (Doktors)

Háskóli Íslands > Verkfræði- og náttúruvísindasvið > Doktorsritgerðir - Verkfræði- og náttúruvísindasvið >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/22726

Titill: 
  • Titill er á ensku Computationally efficient Bayesian statistical modeling and inference for latent Gaussian models with an application to spatial extremes
  • Skilvirk Bayesísk líkanagerð og ályktunartölfræði fyrir stigskipt Gaussísk líkön ásamt greiningu á staðsetningaháðum útgildum
Námsstig: 
  • Doktors
Leiðbeinandi: 
Efnisorð: 
Útdráttur: 
  • Útdráttur er á ensku

    The research project presented in this Ph.D. thesis aims to provide both a general and a computationally efficient approach to Bayesian statistical modeling and Bayesian inferential computations, with the focus on applications to spatial extremes. The research project can be can be split into the three following categories.
    First, the author provides his stance towards a general approach to statistical analysis in practice. To that end, it is discussed how various regression models can be viewed as a broader class of a more general and flexible framework for statistical models. Furthermore, it is established that latent Gaussian models (LGMs) provide a flexible and interpretable class of statistical models for various statistical applications, in particular, for the statistical analysis provided in this thesis. A discussion is also given on how LGMs can be viewed as a specific extension of structured additive regression models, in the sense that, the data density function of each data point can depend on more than a single linear link function of the latent parameters.
    Second, a novel computationally efficient Markov chain Monte Carlo (MCMC) sampling scheme for LGMs is proposed in this thesis. The sampling scheme is a two block Gibbs sampling scheme designed to exploit the model structure of LGMs. The author refers to the proposed sampling scheme as the MCMC split sampler in this thesis. The principle idea behind the MCMC split sampler is to split the latent Gaussian parameters into two vectors. The former vector consists of latent parameters which appear in the data density function while the latter vector consists of latent parameters which do not appear in it. The former vector is placed in the first block of the proposed sampling scheme and the latter vector is placed in the second block along with any potential hyperparameters. The resulting conditional posterior density functions within the blocks allow the MCMC split sampler to handle, by design, LGMs with latent models imposed on more than just the mean structure of the data density function. The MCMC split sampler is also designed to be applicable for any choice of a parametric data density function. Moreover, it scales well in terms of computational efficiency when the dimension of the latent model increases.
    Third, a computationally efficient statistical method is proposed in this thesis to obtain distributional properties of annual maximum 24-hour precipitation on a 1 km by 1 km regular grid over Iceland. A covariate which is based on a local meteorological model that captures information on the physical processes of precipitation is constructed, providing an additional spatial information on maximum precipitation. An LGM is built which takes into account observed maximum precipitation, the covariate based on the local meteorological model, and spatial variations. The observations are assumed to follow the generalized extreme value distribution, where spatial models based on approximate solutions to stochastic partial differential equations are implemented for the location, scale, and shape parameters of the data density function. The MCMC spilt sampler is applied as inferential algorithm, which in turn exploits the sparse matrices induced by the stochastic partial differential equation modeling, yielding continuous spatial predictions for spatially varying model parameters and quantiles. The construction of the meteorological covariate is extendable to any regions in the world where local meteorological models are available. The proposed modeling strategy is general in the sense that it is extendable to any spatial domain of interest.

  • Markmið doktorsritgerðarinnar er að setja fram almenna og skilvirka aðferðafræði fyrir bæði Bayesíska tölfræðilega líkanagerð og reiknilega Bayesíska ályktunartölfræði, með áherslu á staðsetningaháð útgildi. Rannsóknunum má skipta niður í þrjá meginflokka.
    Fyrst er almenn afstaða tekin til tölfræðilegrar líkanagerðar. Leitt er í ljós að línuleg aðhvarfsgreining sé sértilfelli af almennri tölfræðilegri líkanagerð þar sem gagnaþéttleiki er settur fram til að lýsa gögnum og líkön sett fram til að lýsa stikum gagnaþéttleikans. Enn fremur er sýnt fram á að stigskipt Gaussísk líkön mynda sveigjanlegan og túlkanlegan flokk af tölfræðilíkönum sem hægt er að beita á ýmis tölfræðileg verkefni. Einnig er sýnt fram á að stigskipt Gaussísk líkön framlengja flokk almennra línulegra líkana í þeim skilningi að hægt er að setja fram líkön, ekki einungis til að lýsa staðsetningarstika gagnaþéttleikans heldur einnig öðrum stikum gagnaþéttleikans eins og til dæmis skölunarstika hans.
    Í öðru lagi er sett fram nýtt almennt Markov-keðju Monte Carlo hermunar-reiknirit fyrir Bayesíska ályktunartölfræði sem sniðið er að stigskiptum Gaussískum líkönum. Reikniritið er byggt á tveggja blokka Gibbs-reikniriti og er hannað til að nýta stærðfræðilegt form stigskiptra Gaussískra líkana. Grunnhugmyndin á bak við reikniritið er að setja stika líkansins sem koma fram í gagnaþéttleikanum og þá stika sem ekki koma fram í honum í tvær aðskildar blokkir. Tilsvarandi stærðfræðilegt form skilyrtra eftiráþéttleika í hvorri blokk fyrir sig má nýta til að sníða reikniritið að stigskiptum Gaussískum líkönum þar sem líkön eru sett fram til að lýsa staðsetningarstika og skölunarstika gagnaþéttleikans, sem og öðrum stikum hans. Reikniritið er hannað fyrir öll stigskipt Gaussísk líkön með stikuðum gagnaþéttleikum. Reikniritið heldur reiknilegri skilvirkni sinni með vaxandi fjölda stika í þeim hluta líkansins sem lýst er með Gaussískum þéttleika.
    Að lokum er tölfræðilegt líkan sett fram til að lýsa gagnaþéttleika hámarks sólarhringsúrkomu í hverjum punkti á þéttu neti yfir Íslandi. Annars vegar er sýnt fram á hvernig megi nýta upplýsingar úr veðurfræðilíkani sem aukalega upplýsingagátt fyrir hegðun hámarksúrkomu í öllum punktum þétta netsins þar sem engar mælingar á úrkomu eru til staðar. Aðferðin felur í sér smíði á skýribreytum í öllum punktum þétta netsins sem byggðar eru á upplýsingum úr veðurfræðilíkaninu. Hins vegar er sett fram stigskipt Gaussískt líkan sem nýtir áðurnefndar upplýsingar í formi skýribreyta og tekur tillit til breytileika úrkomu í rúmi. Breytileika í rúmi er lýst með tölfræðilegu rúmlíkani sem byggir á nálgunarlausn á slembni hlutafleiðujöfnu sem gefur af sér aðferðafræði fyrir hraðvirka útreikninga. Áðurnefnt reiknirit er svo notað til að meta stika líkansins sem gefur samfellda rúmspá fyrir rúmháða stika í gagnaþéttleika hámarksúrkomu og nýtist við spá um stærðargráðu aftaka úrkomu í öllum punktum þétta netsins yfir Íslandi. Auðsótt er að yfirfæra tölfræðilíkanið og aðferðafræðina á önnur svæði, að því gefnu að hægt sé að nálgast upplýsingar úr veðurfræðilíkani af svæðinu.

Samþykkt: 
  • 7.9.2015
URI: 
  • http://hdl.handle.net/1946/22726


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
Geirsson_PhDthesis.pdf11.9 MBOpinnHeildartextiPDFSkoða/Opna