Ztrátová funkce je jeden z nejdůležitějších pojmů ve strojovém učení a hlubokém učení, protože právě ona určuje, co model považuje za chybu a jak velkou váhu této chybě přikládá. Když model vytvoří výstup – například odhadne cenu, zařadí obrázek do třídy nebo doplní text – potřebuje nějaký způsob, jak poznat, zda se trefil, nebo minul. A právě k tomu slouží ztrátová funkce. Převádí rozdíl mezi skutečným a očekávaným výsledkem na číselnou hodnotu, podle které se model během tréninku orientuje.
Bez ztrátové funkce by model sice dokázal něco spočítat, ale už by neměl jasné měřítko, podle kterého by se mohl zlepšovat. Nevěděl by, co je „dobře“, co je „špatně“ a jak velkou chybu vlastně udělal. Právě proto ztrátová funkce nestojí někde bokem. Je to jeden z hlavních prvků, který určuje směr celého učení.
Co ztrátová funkce v modelu skutečně dělá
Když neuronová síť nebo jiný model vytvoří výstup, je potřeba ho porovnat s tím, co bylo správně. Jenže samotné porovnání nestačí. Trénink potřebuje přesnější informaci – ne jen zda byl výsledek chybný, ale také jak moc byl chybný.
A právě to ztrátová funkce dělá. Vezme predikci modelu a správnou odpověď a spočítá mezi nimi číselně vyjádřený rozdíl. Tento rozdíl pak funguje jako kompas pro celý trénink. Model se nesnaží být „lepší“ v neurčitém smyslu. Snaží se minimalizovat konkrétně definovanou ztrátu.
To je zásadní i proto, že různá zadání potřebují různé typy chybového měření. Není totéž předpovídat spojité číslo, rozpoznávat třídu nebo generovat pravděpodobnost. A právě od toho se odvíjí i volba ztrátové funkce.
Proč na výběru ztrátové funkce opravdu záleží
Ztrátová funkce neurčuje jen to, že model udělal chybu. Do velké míry určuje i to, jakou chybu považuje za důležitou. Dva modely mohou mít stejné vstupy, stejnou architekturu i stejná data, ale pokud používají jinou ztrátovou funkci, mohou se během tréninku učit odlišně.
To je důležité, protože různá zadání kladou důraz na různé věci. Někde je potřeba citlivě trestat větší odchylky, jinde je důležitější správná pravděpodobnostní interpretace, jinde se řeší robustnost vůči odlehlým hodnotám. Ztrátová funkce proto není jen technická drobnost. Je to jeden z bodů, kde se rozhoduje, jak bude model chápat kvalitu svého vlastního výsledku.
Jak to vypadá v praxi
U lineární regrese nebo jiných numerických předpovědí se často používají funkce založené na rozdílu mezi predikovanou a skutečnou hodnotou. Typickým příkladem je střední kvadratická chyba, která více trestá větší odchylky. U klasifikace se naopak často používají ztrátové funkce, které pracují s pravděpodobnostmi a s tím, jak jistě nebo nejistě model zařadil správnou třídu.
Laicky řečeno: ztrátová funkce není univerzální metr pro všechno. Vždy musí odpovídat tomu, co model řeší a jaký typ výsledku od něj očekáváte. Pokud je zvolená špatně, model se může učit nevhodným směrem, i když je jinak architektura nebo dataset v pořádku.
Jak ztrátová funkce souvisí s backpropagation
Jakmile je ztráta spočítaná, nastupuje další důležitá část tréninku. Model potřebuje zjistit, které parametry se na této ztrátě podílely a jak je má změnit.
Právě tady se ztrátová funkce přímo propojuje s dalšám veledůležitým pojmem – backpropagation.
Backpropagation bere ztrátu jako výchozí bod a zpětně rozkládá její vliv napříč sítí. Ztrátová funkce tedy neurčuje jen to, že výsledek byl špatně. Nepřímo určuje i to, jaké gradienty se budou počítat a jak bude model během učení upravovat své váhy a biasy.
Proto je výběr ztrátové funkce tak důležitý. Není to izolovaný parametr někde stranou. Ovlivňuje celý mechanismus učení.
Ztrátová funkce není totéž co metrika úspěšnosti
Tohle je častý zdroj zmatku.
Lidé si někdy pletou ztrátovou funkci s metrikou, podle které hodnotí hotový model.
Jenže to nejsou totožné věci.
Ztrátová funkce slouží hlavně k tomu, aby model věděl, jak se má během tréninku zlepšovat.
Metrika naopak slouží k tomu, aby člověk nebo systém posoudil, jak dobře model funguje z praktického hlediska.
U klasifikace může být třeba důležitá přesnost, recall nebo F1 score, zatímco samotný trénink běží podle jiné ztrátové funkce. V popularizačních/redakčních textech se tyto dva pojmy často směšují. Jenže model se neučí podle každé metriky stejně dobře. Některé věci jsou vhodné pro hodnocení, jiné pro samotnou optimalizaci.
Proč ztrátová funkce ovlivňuje chování modelu víc, než se zdá
Na první pohled může působit jako čistě matematická volba v pozadí. Ve skutečnosti ale výrazně ovlivňuje, jak se model bude chovat.
Pokud například větší chyby trestá výrazněji než menší, model se bude snažit především omezit právě je. Pokud je naopak robustnější vůči extrémním odchylkám, bude se chovat jinak.
To znamená, že ztrátová funkce ovlivňuje i praktický charakter výsledného modelu. Nejen to, jestli se „učí“, ale také jaké typy chyb považuje za nejhorší a co během tréninku nejvíc koriguje.
Kde se tento pojem bere a proč je tak základní
Myšlenka, že model potřebuje nějakou cílovou funkci nebo objektiv, podle kterého se optimalizuje, je starší než dnešní hluboké učení. Ve statistice, regresi, optimalizaci i klasickém strojovém učení se dlouhodobě pracovalo s funkcemi, které určují, co přesně se má minimalizovat nebo maximalizovat.
V moderních neuronových sítích se tento princip neztratil – naopak. Jen se promítl do mnohem složitějších modelů. Dnešní AI může mít miliardy parametrů, ale pořád potřebuje stejný základní kompas: pravidlo, podle kterého pozná, co znamená lepší a horší výsledek. Tím pravidlem je právě ztrátová funkce.
Kde jsou limity a proč špatná ztrátová funkce umí pokazit i dobrý model
Ztrátová funkce sama o sobě model „nezachrání“, ale stejně tak ho může výrazně poškodit, pokud je zvolená nevhodně. Když neodpovídá typu úlohy, datům nebo praktickému cíli, model se může učit něco jiného, než skutečně potřebujete.
To je důležité i pro realističtější pohled na AI. Když se mluví o tom, že model něco „umí“ nebo „neumí“, často se přehlíží, že výsledek není dán jen architekturou nebo objemem dat. Velkou roli hraje i to, podle jaké chybové logiky se model vlastně učil. A právě tam ztrátová funkce vstupuje do hry zcela zásadně.
Na širší souvislosti toho, jak AI funguje, jak se učí a proč výsledky někdy působí chytřeji, než odpovídá realitě, navazuje také článek 17 nejčastějších mýtů o umělé inteligenci.
Související pojmy
- Neuronová síť – protože ztrátová funkce dává největší smysl až ve chvíli, kdy je jasné, jak model jako celek funguje a kde se jeho chyba vůbec bere.
- Backpropagation – protože právě z vypočtené ztráty vychází zpětné šíření chyby a následný výpočet gradientů.
- Gradientní sestup – protože na základě ztráty a gradientů se rozhoduje, jak se budou parametry modelu skutečně měnit.
- Bias – protože ztráta nepřímo ovlivňuje i to, jak se během tréninku budou upravovat nejen váhy, ale i biasy.
- Strojové učení – protože pojem ztrátové funkce dává širší kontext tomu, jak modely obecně optimalizují své chování podle dat a cíle úlohy.

