AI utknęło w firmach. Winne są dane, nie modele.
- Największą barierą wdrożenia AI w korporacjach nie są modele językowe, lecz chaotyczna infrastruktura danych odziedziczona po dekadach złych praktyk.
- Firmy odkrywają, że narzędzia AI działające błyskawicznie w konsumenckich zastosowaniach zacinają się na enterprise'owych silosach danych.
- Według MIT Technology Review przedsiębiorstwa muszą przebudować cały stack danych, zanim AI da jakikolwiek wymierny efekt biznesowy.
Korporacje inwestują miliardy w AI, a największą przeszkodę mają we własnych serwerowniach — to nieuporządkowane, niespójne dane, które żaden model nie przetworzy sensownie. MIT Technology Review opisuje zjawisko, które zaczyna dominować rozmowy w salach zarządów: AI jest gotowe, dane nie są.
Zarządy mówią AI, działy IT mówią sprawdźcie najpierw dane
Consumerowe narzędzia AI — ChatGPT, Gemini, Claude — działają płynnie, bo trenowano je na ogromnych, względnie czystych zbiorach danych z internetu. Korporacyjna rzeczywistość wygląda inaczej: lata mergerów, przejęć i prowizorycznych integracji zostawiły firmy z dziesiątkami systemów, które nie rozmawiają ze sobą. Jeden dział trzyma dane klientów w Salesforce, drugi w starym Oracle, trzeci w Excelu na lokalnym dysku.
LLM podłączony do takiego środowiska nie zwróci głupiej odpowiedzi — zwróci pewną siebie błędną odpowiedź. A to w kontekście enterprise’owym bywa droższe niż brak odpowiedzi w ogóle.
Czy data stack z 2015 roku nadaje się do AI?
Krótka odpowiedź: nie. Dłuższa odpowiedź wymaga spojrzenia na to, jak przez ostatnią dekadę firmy budowały swoje hurtownie danych. Architektura data lake, która przez lata wyglądała jak eleganckie rozwiązanie, dziś częściej przypomina data swamp — dane wpadają, ale nikt nie wie co tam jest ani w jakim formacie.
AI wymaga czegoś konkretnego: danych z metadanymi, z lineage’em, z jasną informacją skąd pochodzi rekord i kiedy był aktualizowany. Bez tego model nie odróżni aktualnego cennika od tego sprzed trzech lat.
Firmy, które poważnie podchodzą do wdrożeń, zaczynają od audytu — i regularnie odkrywają, że 60-70% ich danych to duplikaty, błędne wpisy albo rekordy bez kluczowych atrybutów. To nie jest margines — to norma.
Nowa warstwa: data stack przebudowany pod AI
MIT Technology Review wskazuje na kilka obszarów, które firmy muszą przebudować równolegle:
- Jakość danych w czasie rzeczywistym — nie batch cleaning raz na kwartał, lecz ciągłe monitorowanie z automatycznym flagowaniem anomalii
- Semantyczna warstwa metadanych — żeby model wiedział, że pole
cust_idicustomer_numberto ten sam byt w dwóch różnych systemach - Governance i lineage — szczególnie istotne przy regulacjach jak GDPR, gdzie AI musi wiedzieć jakie dane może w ogóle przetwarzać
- Wektorowe bazy danych — konieczne przy RAG-based deploymentach, gdzie model sięga po firmową wiedzę zamiast halucynować
To nie są tanie zmiany. Firmy takie jak Databricks, Snowflake czy dbt Labs odpalają całe linie produktowe wycelowane dokładnie w ten problem — i rynek to kupuje.
Kto zarabia na tym chaosie?
Venture capital wyczuł okazję. Startupy z segmentu „data observability” i „data quality for AI” zebrały w 2024 roku łącznie ponad 2 miliardy dolarów finansowania. Monte Carlo, Acceldata, Soda — każdy z nich sprzedaje wersję tej samej obietnicy: zanim wrzucisz AI na produkcję, upewnij się, że dane nie skłamią.
Established gracze nie siedzą z założonymi rękami. Snowflake wykupił Neeva i kilka mniejszych firm data quality. Databricks zintegrował Unity Catalog głębiej z pipeline’ami ML. Microsoft Fabric próbuje połączyć Azure Data Factory, Power BI i Synapse w jeden ekosystem, który ma być AI-ready out of the box.
Czy firmy w ogóle zdają sobie sprawę z powagi problemu?
Nie wszystkie. Część zarządów wciąż myśli, że wdrożenie AI to kwestia zakupu licencji i podłączenia API. Pilotaże wyglądają świetnie — bo pilotaże działają na wybranych, wyczyszczonych danych. Skalowanie na całą organizację to zderzenie z rzeczywistością.
Gartner szacuje, że przez 2026 rok ponad 85% projektów AI w przedsiębiorstwach nie dotrze do produkcji — i jako jeden z głównych powodów wymienia właśnie jakość danych. To liczba, którą warto pokazać zarządowi przy następnym spotkaniu budżetowym.
Firmy, które przeżyją ten etap i faktycznie odpalą AI na skalę, będą miały przewagę trudną do nadrobienia — nie dlatego że mają lepsze modele, lecz dlatego że zainwestowały w infrastrukturę, gdy inni dyskutowali o prompt engineeringu.”, “coverImageAlt”: “Ilustracja przedstawiająca skomplikowaną sieć rur danych prowadzącą do modelu AI