Search
Моделирање Real-world data

Следните неколку тетратки се повеќе како вовед во моделирање на вистински податоци. Земајќи ги во предвид сите дополнителни параметри и анализи, ќе изведеме модел кој како база (позадина) ќе ги спроведува тие равенки и ќе се обидеме да предвидиме некои состојби.

Ова поглавје е повеќе фокусирано на вметнување на податоци од проширешнот SIR модел, каде имаме временски зависни $R_0$ вредности и стапка на починати $\alpha$ кое зависи од болнички ресурси поврзани со податоци од вирусот COVID-10 со цел да се доближеме најблиску што може до правење на засновани предвидувања за можни идни настани и сценарија. Пред да навлеземе во графиците и анализите, сакаме да нагласиме што всушност нашиот едноставен модел не може да прави.

Ограничувања, претпоставки, ризици

Моделите се секогаш еден вид на симплификација на вистинскиот свет. Доколку имаме цел да истражиме некој феномен или нешто кое зависи од повеќе фактори, идејата е да се раздели и поедностави со цел да се сфати влијанието кој го има. Моделите и сите видови на статисчки предвидувања не се совршени, доколку некој сака да види совршен модел што наликува на вистинскиот свет, нека излезе надвор.


"Essentially, all models are wrong, but some are useful" - George Box [2]


Многу луѓе во полето на статистика, машинско учење се обидуваат да развијат теоретски модели со цел да предвидат однесување на одредени процеси. Идејата зад овој цитат (барем ние како го толкуваме) е дека секој модел е грешен бидејќи никогаш нема да ги претставува податоците идентично како во вистинскиот живот. Доколку најдобро со 99.9% се направи модел кој предвидува колку еден вирус ќе трае или кога ќе има поголеми бранови на заразени за една држава, пример Италија, не значи дека тој ист модел ќе се совпаѓа за пример Македонија (многу фактори се во игра население по возраст, болнички ресурси, воведување карантин, почитување правила, општествена свест на граѓаните..).

Меѓутоа иако моделите се грешни, не значи дека еден модел не може да опише прецизно некој процес дека не е корисен, напротив може да ни каже и да ни помогне да увидиме многу блиску до реалност како вирус се однесува со текот на времето. Потребно е само да ги имаме во предвид следните работи:

  • Системот на Диференцијални равенки кои ние одлучивме да го користиме е екстремно осетлив на своите иницијални (почетни) параметри, т.е. минимални промени може да доведат до комплетно различни резултати
  • Во нашите пресметки ние претпоставуваме хомогеност низ целата популација, т.е. не зимаме во предвид дека некои места се пофреквентни од други (во некои статии ги нарекуваат "hot spots"); не зимаме во предвид дали сите овие места ги почтиуваат мерките и кога секоја посебно ги имплементира
  • Ние ќе изведуваме заклучоци (extrapolating) од некомплетни, прелиминарни податоци. Бидејќи вирусот сеуште е во тек, и целиот свет е на удар начинот на кои земјите ги собираат своите податоци можеби не се точни; хипотетички примери: Македонија ги објавува сите починати 1 неделно, во нашиот модел тоа е врзано за тој ден дека има толку починати меѓутоа тие се од целата недела и ние нема да добиеме реална слика за бројот на починати таа недела, доколку ова се распрска низ 3 месеци грешката е енормна; Некоја земја можеби ги пресметува директно починатите од вирусот, други земји можеби ги бројат сите починати каде починатиот бил заразен; Некои земји можеби се "политички коректни" и не објавуаат точни податоци

Дополнитечно, значително за нашиот модел, ние ги правиме следните претпоставки (овие се само посовни, во кодовите има поголем број):

  • $R_0$ или се намалува или останува константно. Никогаш не расте со што овој модел што го користиме не ни дозволува да видиме доколку пример карантин или мерките се олабават како тоа влијае на параметрот, би ни требало дополнителна функција
  • Бројот на починати не ја менува структурата на популацијата до некој значителен степен (пресметуваме стапки на смрност $\alpha$ како априорни, користејќи ја структурата не една популација пред да избие пандемија, доколку се менува структурата на наслението и луѓе умираат тогаш се менува и структурат на популацијата со тоа е стапките на смрност кај секоја возрасна група, што не го опфаќаме) со претпоставката дека тој број не влијае многу на самата структура (што иако е доста слаба препоставка и рационална доколку се земе во предвид времето дека е кратко)
  • Само критични случаеви ги полнат болниците и може да доведат до поголеми стапки на смрност како резултат на немање на капацитет во болниците
  • Сите критични случаеви не добиваат терапија и умираат
  • Сите личности што се оздравени стануваат имуни на болеста (ова е можеби најнепропорционално со вистинските извештати, каде извори велат доколку една личност се зарази има повторно шанси [3])

Имајќи ги сите овие ограничувања, препоставки следните неколку тетратки се моделирање на вистински податоци, а секое моделирање започнува со Curve Fitting од кое се изведува моделот и конечено се совпаѓаат податоците со нашиот модел - Data fitting.