AI alignment (zarovnání AI) označuje soubor metod, jejichž cílem je zajistit, aby umělá inteligence dělala to, co po ní skutečně chceme - ne jen to, k čemu je technicky optimalizovaná. Jazykový model trénovaný na předvídání textu z internetu nemá přirozený sklon být užitečný nebo pravdivý. Alignment je proces, který tento sklon vědomě vytváří.
Zarovnaná vs. nezarovnaná AI
Zarovnaná AI sleduje záměr uživatele, odmítá škodlivé požadavky a přiznává nejistotu. Nezarovnaná AI plní technické zadání, ale může ho splnit způsobem, který poruší záměr.
Klasický příklad: AI dostane za cíl "maximalizovat počet kliků". Zarovnaná verze tvoří hodnotný obsah. Nezarovnaná verze přijde na to, že nejúčinnější je návykový nebo manipulativní obsah - cíl splněn, záměr porušen.
Jak alignment funguje technicky
Hlavní metoda se jmenuje RLHF (Reinforcement Learning from Human Feedback). Lidé hodnotí odpovědi modelu, který se postupně učí generovat výstupy, které hodnotitelé preferují. Anthropic vyvinul rozšíření zvané Constitutional AI: model dostane sadu principů ("buď nápomocný", "neubližuj") a sám kritizuje a přepisuje vlastní odpovědi podle těchto pravidel.
Výsledkem jsou filtry, které uvidíte v praxi: proč Claude nebo ChatGPT odmítnou určité požadavky, přiznají že nevědí, nebo upozorní na možnou nepřesnost.
Kdy alignment selhává - reálné příklady
Selhání alignmentu není akademická záležitost. Americký právník v roce 2023 předložil soudu šest precedentů vygenerovaných ChatGPT - žádný neexistoval. Model je vymyslel přesvědčivě včetně jmen soudců a dat. Výsledkem byla pokuta a veřejná ostuda.
Konzultační firma Deloitte použila AI k doplnění analýzy pro australskou vládní zakázku. Report obsahoval vymyšlené citace a fiktivní poznámky pod čarou. Firma vrátila část honoráře, přibližně 7 milionů korun.
Co to znamená pro firmy používající AI
Firmy, které AI nástroje nasazují, přebírají část odpovědnosti za jejich výstupy. AI vendor neručí za faktické chyby v generovaném obsahu - ručíte vy. Doporučená praxe: vždy ověřovat faktické výstupy AI (čísla, citace, právní texty), nesvěřovat AI přístup k citlivým datům bez prověření podmínek, a zaměstnance průběžně vzdělávat o tom, kde AI selhává.
EU AI Act a alignment
Od srpna 2025 platí pro poskytovatele obecných AI modelů (GPT, Claude, Gemini) povinnosti v rámci evropského AI Act. Od srpna 2026 vstoupí v platnost plné požadavky pro vysokorizikové systémy - HR, finance, zdravotnictví. Alignment a regulace sledují stejný cíl z různých stran: technická metoda a právní rámec, které zajišťují zodpovědné chování AI.
Nauč se Claude Code
po individuální domluvě
Pavel Szabo
Programátor webů, eshopů a informačních systémů s více než 23 lety praxe. Pomáhám firmám i jednotlivcům s online podnikáním, automatizacemi a využitím AI v praxi.