OpenAI opublikowało Privacy Filter — model open-weight do wykrywania i redagowania danych osobowych w tekście z najwyższą skutecznością.

OpenAI wypuszcza filtr prywatności jako open-weight

OpenAI właśnie wrzuciło do sieci Privacy Filter — open-weightowy model wykrywający i redagujący dane osobowe (PII) w tekście, który firma reklamuje jako najdokładniejszy tego typu na rynku.

Open-weight, czyli możesz go zabrać do domu

Model jest dostępny jako open-weight, co oznacza, że wagi są publicznie dostępne — możesz go odpalić lokalnie, zintegrować z własnym pipeline’em i przetwarzać wrażliwe dokumenty bez wysyłania ich gdziekolwiek. Dla firm przetwarzających dane medyczne, prawne czy finansowe to nie jest drobnostka. To różnica między compliance a jego brakiem.

W praktyce: wrzucasz tekst, model identyfikuje imiona, numery PESEL, adresy, numery kart kredytowych i inne dane osobowe, po czym je redaguje lub oznacza. Wszystko lokalnie, bez zewnętrznych wywołań API.

Czy OpenAI goni własny ogon?

Przez lata jednym z głównych zarzutów wobec OpenAI było to, że ich narzędzia wymagają przesyłania danych na zewnętrzne serwery — co przy przetwarzaniu dokumentów zawierających PII stawiało firmy w prawnie kłopotliwej pozycji. Teraz OpenAI wydaje model, który ten problem omija.

Brzmi jak odpowiedź na rosnącą presję regulacyjną. GDPR, AI Act, lokalne przepisy o ochronie danych — wszystko to sprawia, że enterprise’owi klienci coraz ostrożniej podchodzą do SaaS-owych narzędzi AI. Model open-weight to elegancki ruch: dajesz narzędzie, zostajesz poza łańcuchem odpowiedzialności za przetwarzanie danych.

Konkurencja nie śpi — ale tu OpenAI stawia poprzeczkę

Na rynku istnieje już kilka narzędzi do anonimizacji PII. Microsoft Presidio działa jako open source od lat i obsługuje dziesiątki typów danych osobowych w wielu językach. spaCy z odpowiednimi pipeline’ami też to ogarnia. Hugging Face roi się od mniejszych modeli do NER (Named Entity Recognition), które można przebranżowić na PII detection.

OpenAI twierdzi, że ich model wykręca state-of-the-art accuracy — na razie bez opublikowania szczegółowych benchmarków, które pozwoliłyby to zweryfikować niezależnie. Społeczność pewnie niedługo sprawdzi, czy to marketing, czy fakty.

Co obsługuje Privacy Filter?

Model radzi sobie z typowymi kategoriami PII:

Imiona i nazwiska
Adresy e-mail i numery telefonów
Adresy zamieszkania
Numery identyfikacyjne (SSN, numery paszportów itp.)
Dane finansowe jak numery kart
Daty urodzenia

Zakres językowy i skuteczność na tekstach innych niż angielski — tego OpenAI na razie nie precyzuje szczegółowo. Dla firm przetwarzających dokumenty po polsku lub w innych językach europejskich to pytanie otwarte.

Dla kogo to ma sens?

Przede wszystkim dla zespołów budujących RAG-i i agenty AI operujące na dokumentach korporacyjnych. Przed wpuszczeniem wrażliwych danych do kontekstu modelu można teraz przepuścić je przez Privacy Filter i wyczyścić PII. Brzmi prosto, w praktyce eliminuje całą klasę problemów compliance.

Legal-tech, med-tech, fintech — wszędzie tam, gdzie dane osobowe trafiają do pipeline’ów AI, ten model może siedzieć jako warstwa sanitizacyjna. Integracja z n8n czy Langchainem powinna być kwestią godzin dla kogoś, kto wie, co robi.

Czy open-weight to nowa strategia OpenAI?

OpenAI przez długi czas trzymało się modelu zamkniętego — nazwy, logotypy, a przede wszystkim wagi modeli były pilnie strzeżone. Ostatnio firma zaczęła zmieniać retorykę. Kilka tygodni temu pojawiły się sygnały o planowanym otwieraniu części modeli.

Privacy Filter to pierwszy konkretny krok w tym kierunku po długiej przerwie. Jeden wyspecjalizowany model to nie polityczna zmiana kursu, ale pokazuje, że OpenAI rozumie, że w niektórych przypadkach open-weight to jedyna opcja do wygrania kontraktu enterprise’owego — szczególnie w sektorze publicznym i regulowanym.

Model jest już dostępny, a jego rzeczywista dokładność na wielojęzycznych zbiorach danych zweryfikują niezależne testy w ciągu najbliższych tygodni.