AI utknęło w firmach. Winne są dane, nie modele.

Q: Czy data stack z 2015 roku nadaje się do AI?

Przedsiębiorstwa chcą wdrażać AI, ale blokuje je własna infrastruktura danych — fragmentaryczna, niespójna i niemożliwa do podłączenia pod LLM.

Q: Kto zarabia na tym chaosie?

Przedsiębiorstwa chcą wdrażać AI, ale blokuje je własna infrastruktura danych — fragmentaryczna, niespójna i niemożliwa do podłączenia pod LLM.

Q: Czy firmy w ogóle zdają sobie sprawę z powagi problemu?

Przedsiębiorstwa chcą wdrażać AI, ale blokuje je własna infrastruktura danych — fragmentaryczna, niespójna i niemożliwa do podłączenia pod LLM.

Korporacje inwestują miliardy w AI, a największą przeszkodę mają we własnych serwerowniach — to nieuporządkowane, niespójne dane, które żaden model nie przetworzy sensownie. MIT Technology Review opisuje zjawisko, które zaczyna dominować rozmowy w salach zarządów: AI jest gotowe, dane nie są.

Zarządy mówią AI, działy IT mówią sprawdźcie najpierw dane

Consumerowe narzędzia AI — ChatGPT, Gemini, Claude — działają płynnie, bo trenowano je na ogromnych, względnie czystych zbiorach danych z internetu. Korporacyjna rzeczywistość wygląda inaczej: lata mergerów, przejęć i prowizorycznych integracji zostawiły firmy z dziesiątkami systemów, które nie rozmawiają ze sobą. Jeden dział trzyma dane klientów w Salesforce, drugi w starym Oracle, trzeci w Excelu na lokalnym dysku.

LLM podłączony do takiego środowiska nie zwróci głupiej odpowiedzi — zwróci pewną siebie błędną odpowiedź. A to w kontekście enterprise’owym bywa droższe niż brak odpowiedzi w ogóle.

Czy data stack z 2015 roku nadaje się do AI?

Krótka odpowiedź: nie. Dłuższa odpowiedź wymaga spojrzenia na to, jak przez ostatnią dekadę firmy budowały swoje hurtownie danych. Architektura data lake, która przez lata wyglądała jak eleganckie rozwiązanie, dziś częściej przypomina data swamp — dane wpadają, ale nikt nie wie co tam jest ani w jakim formacie.

AI wymaga czegoś konkretnego: danych z metadanymi, z lineage’em, z jasną informacją skąd pochodzi rekord i kiedy był aktualizowany. Bez tego model nie odróżni aktualnego cennika od tego sprzed trzech lat.

Firmy, które poważnie podchodzą do wdrożeń, zaczynają od audytu — i regularnie odkrywają, że 60-70% ich danych to duplikaty, błędne wpisy albo rekordy bez kluczowych atrybutów. To nie jest margines — to norma.

Nowa warstwa: data stack przebudowany pod AI

MIT Technology Review wskazuje na kilka obszarów, które firmy muszą przebudować równolegle:

Jakość danych w czasie rzeczywistym — nie batch cleaning raz na kwartał, lecz ciągłe monitorowanie z automatycznym flagowaniem anomalii
Semantyczna warstwa metadanych — żeby model wiedział, że pole cust_id i customer_number to ten sam byt w dwóch różnych systemach
Governance i lineage — szczególnie istotne przy regulacjach jak GDPR, gdzie AI musi wiedzieć jakie dane może w ogóle przetwarzać
Wektorowe bazy danych — konieczne przy RAG-based deploymentach, gdzie model sięga po firmową wiedzę zamiast halucynować

To nie są tanie zmiany. Firmy takie jak Databricks, Snowflake czy dbt Labs odpalają całe linie produktowe wycelowane dokładnie w ten problem — i rynek to kupuje.

Kto zarabia na tym chaosie?

Venture capital wyczuł okazję. Startupy z segmentu „data observability” i „data quality for AI” zebrały w 2024 roku łącznie ponad 2 miliardy dolarów finansowania. Monte Carlo, Acceldata, Soda — każdy z nich sprzedaje wersję tej samej obietnicy: zanim wrzucisz AI na produkcję, upewnij się, że dane nie skłamią.

Established gracze nie siedzą z założonymi rękami. Snowflake wykupił Neeva i kilka mniejszych firm data quality. Databricks zintegrował Unity Catalog głębiej z pipeline’ami ML. Microsoft Fabric próbuje połączyć Azure Data Factory, Power BI i Synapse w jeden ekosystem, który ma być AI-ready out of the box.

Czy firmy w ogóle zdają sobie sprawę z powagi problemu?

Nie wszystkie. Część zarządów wciąż myśli, że wdrożenie AI to kwestia zakupu licencji i podłączenia API. Pilotaże wyglądają świetnie — bo pilotaże działają na wybranych, wyczyszczonych danych. Skalowanie na całą organizację to zderzenie z rzeczywistością.

Gartner szacuje, że przez 2026 rok ponad 85% projektów AI w przedsiębiorstwach nie dotrze do produkcji — i jako jeden z głównych powodów wymienia właśnie jakość danych. To liczba, którą warto pokazać zarządowi przy następnym spotkaniu budżetowym.

Firmy, które przeżyją ten etap i faktycznie odpalą AI na skalę, będą miały przewagę trudną do nadrobienia — nie dlatego że mają lepsze modele, lecz dlatego że zainwestowały w infrastrukturę, gdy inni dyskutowali o prompt engineeringu.”, “coverImageAlt”: “Ilustracja przedstawiająca skomplikowaną sieć rur danych prowadzącą do modelu AI