AWS i ESA budują detektor rozbłysków słonecznych na LSTM
- Amazon Web Services opublikował przewodnik po budowie systemu detekcji rozbłysków słonecznych opartego na sieciach LSTM wdrożonych w SageMaker AI.
- Dane wejściowe pochodzą z instrumentu STIX na pokładzie sondy Solar Orbiter Europejskiej Agencji Kosmicznej.
- Projekt łączy infrastrukturę chmurową AWS z rzeczywistymi danymi heliofizykalnymi do klasyfikacji zdarzeń promieniowania rentgenowskiego.
AWS odpalił tutorial: LSTM kontra rozbłyski słoneczne
Amazon Web Services opublikował szczegółowy przewodnik pokazujący, jak zbudować i wdrożyć model głębokiego uczenia do wykrywania rozbłysków słonecznych — wszystko na SageMaker AI, z danymi z instrumentu STIX należącego do ESA. To nie jest akademicki eksperyment na syntetycznym datasecie. STIX (Spectrometer/Telescope for Imaging X-rays) to działający instrument na pokładzie Solar Orbiter, który od 2020 roku rejestruje rzeczywiste zdarzenia rentgenowskie ze Słońca.
STIX dostarcza dane, LSTM je czyta
Instrument STIX mierzy promieniowanie rentgenowskie w zakresie 4–150 keV i generuje szeregi czasowe o zmiennej granulacji — od 0,1 sekundy podczas aktywnych zdarzeń do kilku minut w spokojnych okresach. To klasyczny problem dla sieci LSTM (Long Short-Term Memory), które dobrze radzą sobie z sekwencjami o długich zależnościach czasowych.
Architektura opisana przez AWS składa się z warstw LSTM ułożonych w stos, uzupełnionych warstwami Dropout redukującymi przeuczenie, i kończy się gęstą warstwą klasyfikacyjną. Model rozróżnia cztery klasy rozbłysków według skali GOES: A, B, C, M i X — gdzie X to najsilniejsze zdarzenia, zdolne zakłócić sieci energetyczne i łączność satelitarną.
SageMaker robi tu całą robotę infrastrukturalną
AWS pokazuje pełny pipeline: od pobrania danych przez Solar Orbiter Science Archive, przez preprocessing w SageMaker Studio, trenowanie na zarządzanej instancji GPU, aż po deployment jako endpoint REST. Całość da się uruchomić bez stawiania własnej infrastruktury — SageMaker obsługuje skalowanie, wersjonowanie modeli i monitoring.
Preprocessing to w tym projekcie spory kawałek roboty. Dane STIX wymagają normalizacji, obsługi brakujących pomiarów (instrument bywa zasłonięty przez inne obiekty) i segmentacji na okna czasowe przed podaniem do sieci. AWS opisuje te kroki dość dokładnie, co czyni z przewodnika użyteczny punkt startowy dla kogo chce podobny system zbudować z innymi danymi szeregów czasowych.
Dlaczego klasyfikacja rozbłysków nie jest prosta
Rozbłyski słoneczne są rzadkie i silnie niezbalansowane klasowo — zdarzeń klasy X jest wielokrotnie mniej niż słabych rozbłysków klasy B czy C. AWS radzi sobie z tym przez ważenie klas podczas trenowania i stosowanie F1-score zamiast samej dokładności jako metryki głównej. To standardowe podejście, ale w kontekście danych kosmicznych nabiera praktycznego sensu: fałszywy brak alarmu przed rozbłyskiem X to potencjalnie poważna awaria satelity.
Model osiąga przyzwoite wyniki na zbiorze testowym, choć AWS nie podaje konkretnych liczb F1 w samym opisie posta — szczegóły są w notebookach dołączonych do przewodnika na GitHubie.
Kto może to uruchomić dziś
Kod i notebooki są dostępne publicznie. Wymagania to konto AWS z dostępem do SageMaker oraz podstawowa znajomość PyTorch — model jest zaimplementowany właśnie w tym frameworku. Dane STIX można pobrać bezpośrednio z archiwum ESA bez żadnej rejestracji.
Cały trening na pełnym dostępnym datasecie zajmuje według AWS kilka godzin na instancji ml.p3.2xlarge, co przekłada się na koszt rzędu kilkunastu dolarów za pojedynczy eksperyment. Niezbyt wygórowana cena za system, który normalnie wymagałby dedykowanego sprzętu w centrum obliczeniowym.
Co z tym zrobić poza Słońcem?
Najciekawszy aspekt tego projektu to jego przenoszalność. Ten sam pipeline — LSTM na SageMaker z danymi szeregów czasowych — można wprost zaadaptować do monitorowania anomalii w sieciach energetycznych, wykrywania usterek w czujnikach przemysłowych czy analizy danych biomedycznych. AWS wyraźnie sugeruje ten kierunek, opisując architekturę w sposób niezależny od domeny.
ESA planuje rozszerzenie misji Solar Orbiter co najmniej do 2030 roku, więc dane STIX będą napływać przez kolejne lata. Czy społeczność badaczy heliofizykii podchwyci ten pipeline i zbuduje na nim coś poważniejszego niż demonstrator?