Wdrożenie sztucznej inteligencji w firmie rzadko sprowadza się do jednej pozycji w kosztach „ChatGPT Team”. Za chwilę pojawia się zużycie API (input/output tokenów), logi audytu, synchronizacja z CRM lub ERP, aktualizacja baz wiedzy pod RAG oraz czas ludzi: właściciela procesu, dewelopera integracji i osoby od jakości odpowiedzi. Bez tego obrazu łatwo uznać projekt za udany po demo — i przegrać na skali produkcji.
Sensowne planowanie zaczyna się od KPI biznesowych (czas obsługi, CPL, błędy operacyjne) i tolerancji na błąd modelu. Dopiero wtedy szacujesz narzędzia i infrastrukturę — nie odwrotnie.
Liczy się całkowity koszt posiadania (TCO), nie cena z cennika na stronie producenta.
Szacunkowe pozycje budżetu (modelowanie TCO)
| Pozycja | Co obejmuje | Na co uważać |
|---|---|---|
| Licencje / seat | copiloty, platformy „AI dla zespołu” | ilość narzędzi × headcount — rozrost bez SSO i audytu |
| Zużycie API / GPU | tokeny, inference, ewentualnie własny hosting | peak miesięczny, długość kontekstu, cache vs świeże zapytania |
| Integracje | middleware, webhooki, synchronizacja z CRM | koszt jednorazowy + utrzymanie przy zmianie API |
| Dane i RAG | czyszczenie, chunking, indeks wektorowy | często największy koszt ukryty przy brudnych źródłach |
| People | owner procesu, dev, QA prawny/redakcyjny | stały OPEX — bez tego rozwiązanie „dryfuje” |
| Compliance | DPA, DPIA, retention logów | koszt prawnika i narzędzi maskowania PII |
Fazy wdrożenia a typowy profil kosztu
| Faza | Charakter kosztu | Typowe pozycje |
|---|---|---|
| Discovery / PoC | głównie czas ludzi + lekkie licencje | warsztaty, prototyp promptów, smoke test na próbce danych |
| Pilot produkcyjny | API + integracja + monitoring | limity tokenów, alerty kosztów, pierwsze SLA |
| Skalowanie | OPEX rośnie z wolumenem | HA, wersjonowanie promptów, testy regresji, retencja fine-tuningu |
Tokeny i API — co napędza rachunek
- Długi kontekst i częste ponowne wysłanie całej historii — koszt rośnie szybciej niż liczba użytkowników.
- Podwójna pętla: retrieval + generacja — osobno embedding zapytania, osobno odpowiedź LLM.
- Szczyty ruchu (kampanie, koniec miesiąca) — bez alertów na zużycie łatwo o „bill shock”.
Pilot z budżetem i kryteriami wyjścia
- Zarezerwuj budżet rzędu 10–50% planowanego rocznego kosztu na fazę pilotażu — z jasnym terminem i progami jakości.
- Ustal „kill criteria”: np. brak osiągnięcia accuracy / czasu obsługi po X tygodniach → stop lub zmiana architektury.
- Unikaj wieloletniej umowy „day one” bez dowodu wartości z pilota.
Umowy i compliance — pozycje często pomijane w Excelu
- DPA z dostawcą LLM: miejsce przetwarzania, subprocessors, retention promptów.
- Limity RPM i egress — przy eksporcie logów do SIEM koszt może skoczyć.
- Exit plan: eksport indeksów wiedzy i konfiguracji — zmiana vendora bez migracji „od zera”.
Jak nie przepłacić — krótka lista kontrolna
- Pilot na sandboxie z limitem tokenów i wyłączonym retention tam, gdzie nie ma podstawy prawnej.
- Negocjacje enterprise: SLA, region DC, alerty na zużycie.
- Porównuj CAPEX/OPEX przy modelach open-weight na własnym GPU vs czysty API — oba mają sens przy różnej skali i regulacji.
Sieć tematów — koszt w kontekście całego wdrożenia AI
- Strategia AI w biznesie
- Narzędzia AI dla firm — procurement
- Automatyzacja procesów AI
- AI w małej firmie — proportionality budżetu
- Chatbot AI — koszt vs zwrot
FAQ
Najczęściej zadawane pytania
- Często rząd 10–50% docelowego kosztu rocznego na eksperyment z jasnym progiem zakończenia — zamiast wieloletniej umowy day one.
- Ze szczytów ruchu, długiego kontekstu, podwójnej pętli RAG oraz braku cache — warto alertować dzienne zużycie i ustawić limity budżetowe u dostawcy.
- To nie tylko jednorazowy trening — liczy się przygotowanie danych, monitoring dryfu i okresowe odświeżanie; uzasadniaj wyłącznie przy stabilnym ROI.
- Może obniżyć opłaty za milion tokenów, ale dokładasz GPU, utrzymanie klastra i talent — policz CAPEX/OPEX i dostępność przy Twoim poziomie regulacji.
- Powiąż z konkretnym KPI: czas obsługi, koszt leada, liczba błędów — baseline sprzed AI vs po pilocie; unikaj „oszczędności godzin” bez liczb.
- Złe lub niekompletne dane wejściowe — czyszczenie, etykiety i utrzymanie bazy wiedzy często przewyższają samą subskrypcję LLM.