AWS wchodzi w biologię. BioFM zmienia odkrywanie leków
- AWS opisuje zastosowania multimodalnych biologicznych modeli fundacyjnych (BioFM) w odkrywaniu leków i rozwoju klinicznym.
- Modele te łączą dane genomiczne, proteinowe i kliniczne, by przyspieszyć procesy terapeutyczne.
- Chmura AWS ma służyć jako infrastruktura do budowania i wdrażania takich systemów przez organizacje farmaceutyczne i badawcze.
AWS stawia na biologię molekularną
Amazon Web Services opublikował szczegółowe omówienie multimodalnych biologicznych modeli fundacyjnych — BioFM — pokazując ich konkretne zastosowania od odkrywania leków po bezpośrednią opiekę nad pacjentem. To nie jest kolejny blogpost o AI w ogóle. AWS wskazuje tu na bardzo konkretny rynek: farmację i medycynę kliniczną, gdzie decyzje kosztują miliardy, a błąd oznacza lata straconych badań.
BioFM to modele trenowane jednocześnie na wielu typach danych biologicznych — sekwencjach DNA, strukturach białek, danych klinicznych z elektronicznych kart pacjentów, wynikach badań obrazowych. Tradycyjne modele w biologii działały na jednym typie danych naraz. Multimodalność zmienia rachunek: model widzi jednocześnie genotyp pacjenta, historię choroby i strukturę cząsteczki kandydackiej.
Co BioFM potrafi zrobić, czego nie potrafił klasyczny ML?
Klasyczne modele uczenia maszynowego w farmacji wymagały osobnych pipeline’ów dla każdego typu danych. Chcesz przewidzieć toksyczność związku? Jeden model. Chcesz dopasować lek do profilu genetycznego pacjenta? Drugi model. Integracja wyników była ręczna i żmudna.
BioFM spina to w jeden system. AWS pokazuje trzy obszary, gdzie to ma realne znaczenie:
- Odkrywanie leków — model może jednocześnie analizować sekwencję białka docelowego, przewidywać jak związek chemiczny się z nim zwiąże i szacować ryzyko działań niepożądanych na podstawie danych klinicznych z przeszłości
- Rozwój kliniczny — przyspieszenie doboru pacjentów do badań klinicznych przez dopasowanie profili genomicznych do mechanizmu działania testowanego leku
- Opieka nad pacjentem — personalizacja terapii na poziomie, który wcześniej wymagał tygodni analiz laboratoryjnych
Firmy farmaceutyczne tracą przeciętnie ponad dekadę i ponad miliard dolarów na wprowadzenie jednego leku na rynek. Jeśli BioFM skróci fazę odkrywania o 30%, to nie jest akademicki wynik — to konkretna zmiana ekonomiki całej branży.
Czy infrastruktura chmurowa to wąskie gardło badań biologicznych?
AWS nie ukrywa, że ten blogpost to też materiał sprzedażowy. Cała architektura BioFM jest przedstawiana przez pryzmat usług AWS — od SageMaker po dedykowane instancje z akceleratorami dla obliczeń genomicznych. Organizacje badawcze, które chcą odpalić własny BioFM, mają dostać gotową ścieżkę na infrastrukturze Amazona.
To ma sens biznesowy, ale rodzi też pytanie: czy centralizacja tak wrażliwych danych — genomicznych, klinicznych, terapeutycznych — w jednym dostawcy chmury to dobry pomysł? Dane genomiczne pacjentów to prawdopodobnie najbardziej prywatne dane jakie istnieją. Raz upublicznione, nie da się ich „zanonimizować” z powrotem.
Regulatorzy w UE już przyglądają się temu obszarowi przez pryzmat GDPR i rozporządzenia o danych zdrowotnych (EHDS), które wejdzie w życie stopniowo do 2027 roku.
Modele fundacyjne kontra specjalistyczne narzędzia bioinformatyczne
Branża bioinformatyczna ma własne, dobrze ugruntowane narzędzia — AlphaFold2 od DeepMind do przewidywania struktur białek, RoseTTAFold, ESMFold od Meta AI. Każde z nich wykręca benchmarki w wąskiej dziedzinie lepiej niż jakikolwiek model generalistyczny.
BioFM idzie w innym kierunku: zamiast być najlepszy w jednej rzeczy, ma być wystarczająco dobry we wszystkich i łączyć je w spójny workflow. To ten sam trade-off, który widać w modelach językowych — GPT-4 nie jest najlepszym modelem do żadnego konkretnego zadania językowego, ale jest praktycznym wyborem do wielu zadań naraz.
Czy ta filozofia sprawdzi się w biologii, gdzie błąd w przewidywaniu toksyczności może kosztować życie uczestnika badania klinicznego? Laboratoria farmaceutyczne będą musiały odpowiedzieć na to pytanie własną walidacją, nie tylko benchmarkami z blogposta.
AWS nie jest tu pierwszym graczem
Google Cloud od ponad dwóch lat promuje swoje narzędzia genomiczne i współpracuje z Illumina. Microsoft Azure podpisał umowy z kilkoma dużymi CRO (contract research organizations). NVIDIA buduje BioNeMo — własną platformę do trenowania modeli biologicznych na H100.
AWS wchodzi w ten wyścig z mocną infrastrukturą, ale bez własnego flagowego modelu biologicznego, który mógłby stanąć obok AlphaFold czy ESM3. Strategia wydaje się polegać na byciu platformą dla cudzych modeli, nie na budowaniu własnych.
Najbliższe miesiące pokażą, czy organizacje badawcze wolą platformę-neutralnego dostawcę infrastruktury, czy pionowo zintegrowane rozwiązanie z własnym modelem w środku.”, “coverImageAlt”: “Ilustracja przedstawiająca model molekularny białka otoczony danymi genomicznymi i wykresami klinicznymi