Machine learning zalał aplikacje pogodowe. Co z tego masz?

ML w pogodówkach: postęp naukowy kontra UX

Google DeepMind, Nvidia i Huawei wypuścili modele prognozowania pogody oparte na machine learningu — GraphCast, FourCastNet i Pangu-Weather — które w testach porównawczych biją tradycyjne modele numeryczne ECMWF w dokładności prognoz do 10 dni do przodu. Teraz te modele trafiają do komercyjnych aplikacji pogodowych, ale użytkownicy często nie mają pojęcia, czy patrzą na wynik ML, klasycznego NWP (Numerical Weather Prediction), czy mieszankę obu.

GraphCast od DeepMind wygeneruje prognozę globalną w mniej niż minutę na pojedynczym TPU — tradycyjny model numeryczny potrzebuje na to setek rdzeni przez kilka godzin. To gigantyczna różnica w kosztach obliczeniowych, co tłumaczy, dlaczego firmy tak chętnie po te modele sięgają.

Aplikacje korzystają z ML, ale każda inaczej

AccuWeather podpisał umowę z Nvidia na wykorzystanie modelu FourCastNet jako jednej z warstw w swoim systemie prognozowania. The Weather Company, czyli stojąca za aplikacją Weather.com, odpalila własne modele ML trenowane na dekadach danych radarowych i satelitarnych. Windy — ulubieniec żeglarzy i pilotów — agreguje kilkanaście modeli jednocześnie, w tym coraz częściej te ML-owe, i pozwala użytkownikowi samodzielnie przełączać się między nimi.

Problem w tym, że żadna z tych firm nie komunikuje wprost, kiedy pokazuje wynik modelu ML, a kiedy klasycznego NWP. Użytkownik widzi temperaturę i ikonkę chmury — nie metadane modelu.

Dokładność rośnie, ale nie wszędzie jednakowo

ML-owe modele pogodowe wykręcają lepsze benchmarki głównie dla prognoz średnioterminowych — 5 do 10 dni. Na krótkim horyzoncie, czyli 0–6 godzin (nowcasting), tradycyjne modele radarowe wciąż trzymają się mocno. Prognoza hiper-lokalna dla konkretnej ulicy to temat, z którym ML dopiero zaczyna się mierzyć.

ECMWF, europejskie centrum prognozowania, już wbudowało ML jako komponent swojego systemu operacyjnego. Nie zastąpiło NWP — dodało ML jako dodatkową warstwę weryfikacyjną. To podejście hybrydowe wydaje się aktualnie standardem w sektorze meteorologii instytucjonalnej.

Użytkownicy tego nie widzą — i to jest sedno problemu

Większe pytanie niż „czy ML działa?” brzmi: w jaki sposób producenci aplikacji tłumaczą wyniki modeli na prognozy zrozumiałe dla kogoś, kto chce wiedzieć, czy brać parasol. Interfejs jest czarną skrzynką nakładaną na kolejną czarną skrzynkę.

Niektórzy deweloperzy idą w stronę większej transparentności — Windy pokazuje rozbieżności między modelami jako zakres niepewności. To podejście wymaga od użytkownika trochę wiedzy, ale daje realną informację o tym, jak pewna jest prognoza na dany dzień.

Inne aplikacje idą w przeciwnym kierunku: jeden wynik, zero kontekstu, maksymalna prostota. To sprzedaje się lepiej w App Store, ale ukrywa fakt, że prognoza na 8. dzień ma zupełnie inną wiarygodność niż prognoza na jutro — niezależnie od tego, czy stoi za nią ML czy NWP.

Kto kontroluje dane, kontroluje prognozę

ML-owe modele pogodowe trenuje się na danych historycznych z sond atmosferycznych, satelitów i stacji naziemnych. Dostęp do tych danych jest nierównomierny — USA i Europa mają gęstą sieć pomiarową, duże części Afryki i Azji Centralnej znacznie rzadszą. Modele trenowane głównie na danych z Północnej Półkuli mogą gorzej radzić sobie z prognozami dla obszarów słabiej reprezentowanych w zbiorach treningowych.

GraphCast od DeepMind był trenowany na 39 latach danych z ERA5 — reanalysis dataset ECMWF. To solidna podstawa, ale wciąż odzwierciedla rozkład danych historycznych, a nie równomierną reprezentację geograficzną.

AccuWeather twierdzi, że ich modele ML skalibrowane lokalnie dla rynku USA osiągają dokładność lepszą o 10% od bazowego GraphCast na tym samym zbiorze testowym — ale niezależna weryfikacja tych liczb jeszcze się nie pojawiła.