Hooajaline andmete prognoosimine R-forecasti mudeliga
Allikas: Äri-IT Kevad 2023
Autor: Arvo Sarapuu, BCS Itera BI arendaja
Andmete prognoosimise mudeli R-forecast laienduse ARIMA kõrval on nüüd kasutusel ka sesoonsust arvestav SARIMA.
R-forecast on laialt tuntud prognoosi tegemise tööriist, kus kasutatakse ARIMA mudelit (Autoregressive Intergated Moving Average). See suudab küll väga hästi ära kasutada aegridasid ennustuste tegemiseks, ent jääb sesoonsusega arvestamisel veidi siiski hätta. Selle probleemi lahendab aga ARIMA mudeli laiendus SARIMA (Seasonal Auto regressive Intergrated Moving Average).
Nii nagu ARIMAgi, on ka SARIMA kombinatsioon autoregressiivsest (AR) ning liikuva keskmise (MA) mudelist, kus AR-mudeli prognoos vastab muutuja varasemate väärtuste lineaarsele kombinatsioonile, MA-mudeli prognoos varasemate prognoosivigade lineaarsele kombinatsioonile ning I tähistab andmeväärtusi, mis on asendatud oma väärtuste ja eelmiste väärtuste erinevusega.
SARIMA puhul on lisaks rõhk sesoonsusel (S). Nii et kui on olemas andmed, kus on fikseeritud kindla ajaperioodi trendid, siis on SARIMA mudel täpsem (nt ilmaennustused, inimeste käitumine koolivaheajal jne).
Sesoonsuse olulisus
On olukordi-sündmusi, mis toimuvad alati samal ajal, näiteks riigipühad, vaheajad… või ka näiteks palgapäev – kõik need mõjutavad muidugi tarbijat. Kui viime kokku sündmuse ja tarbimiskäitumise sel ajal, siis saame seda oma mudelis ära kasutada (nt jäätise müük suvel, jõulukaubad detsembris).
SARIMA sisaldab kolme uut hüperparameetrit (need on näitajad, mis määravad ära mudeli arvutamisloogika). Hooajalisuse all on aga omakorda veel neli elementi:
- hooajaliste perioodide autoregressiivne järjestus (millal hooaeg lõpeb),
- hooajaliste perioodide vaheline järjestus (milline muutus tähendab hooaja algust),
- hooajaliste perioodide libiseva keskmise järjestus (veaprotsendiga kontroll),
- ühe hooajalise perioodi ajasammude arv (millest koosneb analüüsitav tsükkel, nt 12 kuud aastas).
Standardmudel ei ole kindlasti sobilik kõikide andmete jaoks. Kõiki mudeli atribuute saab ja tulebki korrigeerida, et saada oma ettevõtte eripärasustele vastav prognoos.
SARIMA üks eelis on see, et kuna hüperparameetreid ei ole palju, siis on võimalik leida kiirelt nendevaheline õige konfiguratsioon. Võrreldes ARIMAga on aga eriti tähtis, et andmeid oleks piisav hulk prognoosi jaoks. Isegi kolmeaastane ajalugu võib olla liiga lühike. ARIMA/SARIMA mudelit kasutatakse hooajaliste haiguste (gripp/COVID), aga ka õhutemperatuuri, aktsiaturu ning tarbijakäitumise prognoosimiseks eeldusel, et tegemist on andmetega, mis arvestavad sesoonsusega.