Dwa najczęstsze sposoby „dopasowania” dużego modelu językowego do Twojej firmy to RAG (dokładanie kontekstu z dokumentów przy zapytaniu) oraz fine-tuning (dostrajanie wag na Twoich przykładach). To nie są substytuty — rozwiązują różne klasy problemów. Źle dobrane podejście oznacza zbędne koszty GPU, halucynacje przy faktach albo sztywny ton, którego nie naprawisz samym promptem.
Zanim jednak dotkniesz indeksu wektorowego lub checkpointu LoRA, sprawdź prompt engineering: dobry system prompt, few-shot i format wyjścia (JSON/rama odpowiedzi) często dają 80% efektu w kilku dniach. Do RAG przechodzisz, gdy model potrzebuje faktów z Twojej bazy wiedzy; do fine-tuningu — gdy powtarzalnie potrzebujesz konkretnego stylu, procedury lub struktury wyjścia.
RAG dostarcza aktualnych faktów do kontekstu; fine-tuning koduje nawyki odpowiedzi w parametrach. Najlepsze produkty często używają obu warstw naraz.
Szybkie porównanie — co rozwiązujesz którym podejściem
| Kryterium | RAG | Fine-tuning |
|---|---|---|
| Źródło prawdy | Dokumenty, CRM, regulaminy — aktualizujesz bazę bez retreningu | Zakodowane w wagach — zmiana polityki często wymaga nowej iteracji treningu |
| Świeżość danych | Indeks można odświeżać codziennie lub co godzinę | Dobre dla relatywnie stabilnych wzorców zachowania |
| Atrybucja | Możliwość podania fragmentów źródeł przy odpowiedzi | Trudniejsze cytowanie „linijka z dokumentu” |
| Koszt początkowy | Niższy — pipeline ingestii + wektory + inference | Wyższy — dane, eksperymenty, GPU, MLOps |
| Typowy błąd | Zły chunking → złe trafienia i halucynacje na słabym kontekście | Brudne przykłady treningowe → utrwalenie błędów |
RAG — co realnie decyduje o jakości
Model bazowy zostaje zamrożony; w czasie rzeczywistym dokładasz fragmenty tekstu pobrane semantycznie z Twojej kolekcji. Jakość końcowej odpowiedzi zależy więc nie tylko od GPT czy Claude, ale od embeddingów, podziału dokumentów na fragmenty (chunking), ewentualnego hybrid search (BM25 + wektory), rerankingu oraz polityki „co robimy, gdy nic nie znajdziemy”.
Chunking i overlap
- Stały rozmiar (np. 512 tokenów) jest prosty, ale często tnie akapity w złych miejscach — na start lepszy jest podział rekurencyjny z nakładką 10–20%.
- Dla dokumentacji technicznej sprawdza się układ „dziecko–rodzic”: małe fragmenty do wyszukiwania, większy blok do pokazania modelowi.
- Metadane (rozdział, produkt, wersja) poprawiają filtrowanie zanim w ogóle dotkniesz embeddingów.
Zaawansowane wzorce
- Przepisanie zapytania (query rewriting) — żargon użytkownika ≠ język dokumentów.
- Większy top-k + reranker krzyżowy — najpierw szeroki recall, potem precyzyjny ranking.
- Self-RAG / krytyk — model ocenia, czy retrieval był potrzebny i czy fragment jest wiarygodny.
Fine-tuning — kiedy ma sens dostrajanie wag
Fine-tuning zmienia zachowanie modelu na poziomie parametrów: mniej „instrukcji w promptcie”, krótsze prompty przy stabilnym formacie i często niższy koszt tokenów na zapytanie po wdrożeniu. Najczęściej spotykamy LoRA i QLoRA zamiast pełnego treningu — mniej GPU, krótsze iteracje, wystarczająca jakość dla klasycznych zadań klasyfikacji, ekstrakcji czy ujednolicenia tonu.
- Spisz specyfikację zachowania: format wejścia/wyjścia, lista zakazów i przykłady „złych” odpowiedzi.
- Zacznij od 50–100 ręcznie przygotowanych par jakościowych — liczy się jakość etykiet, nie liczba śmieci.
- Skaluj np. generacją kandydatów z dużego modelu + recenzją eksperta; deduplikuj i usuwaj sprzeczności.
- Trenuj z walidacją na osobnym zbiorze; obserwuj regresje przy kolejnych wersjach danych.
Ekonomia: RAG vs fine-tuning przy skali zapytań
RAG obciąża każde zapytanie: embedding zapytania, odczyt z bazy wektorowej, często dłuższy prompt z kontekstem. Fine-tuning ma wyższy koszt jednorazowy, ale po przełomowej liczbie żądań krótszy prompt może obniżyć koszt tokenów i opóźnienie. Punkt zwrotny zależy od cen dostawcy, średniej długości kontekstu i tego, ile razy retrenujesz model przy zmianie polityk.
- RAG: typowo szybszy time-to-value dla zmieniającej się wiedzy (produkty, regulacje, oferta).
- Fine-tuning: często zwycięża przy bardzo dużej liczbie podobnych zapytań i stabilnym zadaniu.
- Ukryte koszty RAG: hosting kolekcji, monitoring jakości retrievalu, aktualizacja indeksu.
- Ukryte koszty FT: retrening przy driftcie danych, regresje jakości, utrzymanie benchmarków.
Ewaluacja — bez metryk budujesz na ślepo
- Dla RAG: precyzja/recall retrievalu, relevance fragmentów, „faithfulness” odpowiedzi względem cytatów.
- Dla FT: metryki zadaniowe (np. F1, dokładność ekstrakcji) + ocena ludzka na próbce.
- Zawsze: latencja p50/p95, koszt na zapytanie, część konwersacji eskalowanych do człowieka.
- LLM jako sędzia przyspiesza iteracje — ale okresowo kalibruj wyniki z ekspertami domenowymi.
Strategia hybrydowa w produkcji
Doświadczenie wdrożeniowe: fine-tuning uczy formatu i stylu pracy z dostarczonym kontekstem; RAG dostarcza treści, które zmieniają się częściej niż rozpuszczalny w checkpointach. W ten sposób unikasz „zamułowania” polityk w modelu i jednocześnie nie musisz za każdym razem pisać kilometrowego system promptu.
Bezpieczeństwo i compliance
- Prompt injection i manipulacja retrieval — limity źródeł, walidacja formatów, polityki „brak kontekstu = bezpieczna odmowa”.
- Redakcja PII przed logowaniem; dla regulowanych branż — ścieżka audytu zapytań i odpowiedzi.
- Przy FT: upewnij się, że zbiór treningowy nie zawiera sekretów ani danych osobowych bez podstawy prawnej.
Checklist przed decyzją
- Czy problem da się rozwiązać promptem + narzędziami (JSON schema, funkcje)? Jeśli tak — zostań przy tym.
- Czy wiedza zmienia się częściej niż raz na kwartał? Jeśli tak — mocna strona RAG.
- Czy potrzebujesz cytowań z dokumentów? Jeśli tak — RAG lub hybryda.
- Czy potrzebujesz ultrakonsekwentnego formatu/stylu przy milionach żądań? Rozważ FT lub hybrydę.
- Zaplanuj budżet na eval i monitoring — bez tego ani RAG, ani FT nie są „ukończone”.
Prompt ustala zasady gry. RAG podaje fakty z Twoich materiałów. Fine-tuning uczy nawyku odpowiedzi. W produkcji często potrzebujesz wszystkich trzech warstw.
Projektujecie produkt na LLM — od prototypu RAG po fine-tuning i infrastrukturę inferencji: pomagamy dobrać architekturę, metryki i bezpieczną ścieżkę do produkcji.
Najczęściej zadawane pytania
- Zwykle najpierw solidny baseline z promptem; potem RAG, jeśli brakuje faktów z Twojej wiedzy; fine-tuning, gdy powtarzalnie potrzebujesz stylu, formatu lub zachowania, którego prompt nie utrzymuje w skali.
- Nie w warstwie faktów o zmieniających się dokumentach — bez retreningu model nie „wie”, że zmieniłeś regulamin. Fine-tuning uzupełnia styl i procedury; świeżą wiedzę dokłada RAG lub częste retreningi (kosztowne).
- Dla wielu zadań wystarczy od kilkuset do kilku tysięcy dobrze opisanych par — ważniejsza jest spójność i recenzja niż surowa liczba. Zacznij od małego złota i mierz regresje na zestawie testowym.
- Diagnozuj retrieval osobno: chunking, metadane, hybrid search, reranking, progi podobieństwa i ścieżka „brak wyniku”. Dopiero potem podkręcaj model generujący.
- RAG: hosting wektorów, ingestia przy zmianach, stały monitoring zapytań. FT: okresowe retreningi przy nowych danych zachowania, testy regresji, wersjonowanie checkpointów.
- Tak — to często najlepszy wariant produkcyjny: FT na formacie i obsłudze kontekstu z promptu plus RAG na aktualnych dokumentach.