TGS skrócił trening modelu z 6 miesięcy do 5 dni

Q: Czy 97% redukcji czasu to norma dla HyperPod?

TGS i AWS użyli SageMaker HyperPod do trenowania sejsmicznego modelu AI. Czas treningu spadł o 97%.

Q: Co to oznacza dla branży naftowej i gazowej?

TGS i AWS użyli SageMaker HyperPod do trenowania sejsmicznego modelu AI. Czas treningu spadł o 97%.

Q: Czy distributed training na AWS staje się standardem w naukach o Ziemi?

TGS i AWS użyli SageMaker HyperPod do trenowania sejsmicznego modelu AI. Czas treningu spadł o 97%.

TGS, firma zajmująca się danymi geologicznymi, wytrenowała swój sejsmiczny model fundacyjny (SFM) w 5 dni zamiast 6 miesięcy — używając Amazon SageMaker HyperPod do treningu rozproszonego na dużą skalę.

Vision Transformer na usługach geologii

Model TGS bazuje na architekturze Vision Transformer, zaadaptowanej do analizy danych sejsmicznych. Sejsmika to trójwymiarowe wolumeny danych — setki gigabajtów obrazów podpowierzchniowych używanych przy poszukiwaniu złóż ropy i gazu. Standardowe modele językowe tu nie wystarczą. TGS potrzebował architektury zdolnej przetworzyć przestrzenne zależności w ogromnych zbiorach danych geologicznych, a ViT okazał się strzałem w dziesiątkę.

Rozszerzenie okna kontekstowego pozwoliło modelowi analizować większe wolumeny sejsmiczne w jednym przebiegu — bez konieczności dzielenia danych na mniejsze kawałki, co wcześniej wprowadzało artefakty i gubione zależności przestrzenne.

Czy 97% redukcji czasu to norma dla HyperPod?

Skalowanie niemal liniowe oznacza, że podwojenie liczby GPU skraca czas treningu niemal dwukrotnie — brzmi banalnie, ale w praktyce treningu rozproszonym to rzadkość. Wąskie gardła komunikacji między węzłami, synchronizacja gradientów i nierównomierne obciążenie potrafią zjeść większość zysków ze skalowania.

SageMaker HyperPod radzi sobie z tym przez automatyczne zarządzanie klastrem, wbudowane checkpointowanie i odporność na awarie węzłów. Jeśli jeden GPU odpada, system nie restartuje całego treningu od zera — wznawia od ostatniego checkpointu. Przy treningu trwającym tygodnie to nie luksus, to konieczność.

TGS nie podał dokładnej liczby GPU ani konfiguracji klastra, ale sama redukcja z ~180 dni do 5 dni sugeruje skalowanie na dziesiątki, jeśli nie setki kart.

Co to oznacza dla branży naftowej i gazowej?

Modele fundacyjne w sejsmice to stosunkowo świeże podejście. Branża O&G (oil & gas) tradycyjnie opierała się na metodach fizycznych i klasycznym ML — sieci neuronowe do interpretacji horyzontów, segmentacji faciesów czy wykrywania uskoków. Duże modele pretrenowane na ogromnych zbiorach danych sejsmicznych mogą zmienić ten przepływ pracy podobnie jak LLM-y zmieniły przetwarzanie tekstu.

SFM od TGS może być fine-tunowany do konkretnych zadań geologicznych bez trenowania od zera — co dla firm poszukiwawczych oznacza tańszą i szybszą adaptację modelu do konkretnego basenu sedymentacyjnego czy typu skał.

Czy distributed training na AWS staje się standardem w naukach o Ziemi?

Dotychczas tego typu obliczenia trafiały albo do własnych klastrów HPC firm, albo do akademickich superkomputerów. Chmura przez lata miała opinię droższej i mniej przewidywalnej alternatywy przy wielotygodniowych treningach.

Case study TGS pokazuje inny scenariusz: zarządzana infrastruktura HyperPod eliminuje inżynierię klastrów, a pay-as-you-go przy 5-dniowym treningu jest bardziej przewidywalny budżetowo niż utrzymanie własnego sprzętu przez pół roku. AWS nie podał kosztów tego konkretnego treningu.

TGS opublikował szczegóły techniczne rozwiązania we współpracy z AWS na blogu Machine Learning. Model jest już używany produkcyjnie do analizy danych sejsmicznych.

Najbliższe miesiące pokażą, czy inne firmy z branży geofizycznej pójdą tym tropem — TGS ma w swoich zasobach jedną z największych bibliotek danych sejsmicznych na świecie, więc ich SFM miał wyjątkowo dobre warunki startowe do pretreningu.