Váha je jeden ze základních parametrů neuronové sítě. Právě ona určuje, jak silně má jeden vstup nebo výstup neuronu ovlivnit další výpočet v síti. Když se mluví o tom, že se model během tréninku „učí“, ve velké míře to znamená právě to, že upravuje své váhy. Bez nich by neuronová síť neuměla rozlišovat, které informace jsou důležité více a které méně. Váhy tedy nejsou nějaký detail v pozadí – jsou jedním z hlavních mechanismů, který modelu umožňuje zachytit vztahy v datech.
Na první pohled se může zdát, že váha je jen obyčejný koeficient ve výpočtu. To je technicky pravda, ale její význam je mnohem větší. Váhy totiž určují, jak se informace v síti zesilují, zeslabují nebo obracejí. Jinými slovy – síť se neučí jen to, že nějaký vstup existuje, ale i to, jak moc má na výsledek působit.
Co váha v neuronové síti skutečně znamená
Každý neuron dostává nějaké vstupy. Tyto vstupy se před dalším zpracováním obvykle násobí vahami. Tím síť určuje, jak velkou důležitost má mít konkrétní informace pro další výpočet. Pokud je váha vysoká, vstup má na výsledek větší vliv. Pokud je nízká, jeho vliv je slabší. A pokud je záporná, může vstup působit opačným směrem.
To je jeden z klíčových důvodů, proč jsou váhy pro neuronovou síť tak důležité. Síť totiž nepracuje jen s přítomností nebo nepřítomností informace. Učí se, jak silně má která informace působit a jak ji má kombinovat s ostatními.
Proč se model učí právě váhy
Když síť na začátku tréninku dostane data, její váhy bývají nastavené jen přibližně nebo náhodně. Výsledky tomu odpovídají – model se na začátku často trefuje špatně. Postupně ale začíná porovnávat své výstupy se správnými odpověďmi, počítá chybu a podle ní upravuje parametry. A mezi těmito parametry mají váhy zcela klíčové místo.
Jestliže se říká, že neuronová síť „nachází vzory v datech“, ve skutečnosti to často znamená právě to, že si během tréninku nastavuje váhy tak, aby lépe odpovídaly vztahům mezi vstupem a výstupem. V tomto smyslu jsou váhy jedním z hlavních nositelů naučeného chování modelu.
Jak váha souvisí s biasem
Váha se velmi často vysvětluje spolu s pojmem bias. Důvod je jednoduchý – oba parametry spolu při výpočtu neuronu úzce souvisejí. Váhy určují sílu jednotlivých vstupů, zatímco bias přidává k výsledku dodatečný posun.
Jinými slovy: váhy říkají, jak silně má která informace působit, zatímco bias pomáhá nastavit, odkud se má celé rozhodování odvíjet.
Právě kombinace vah a biasů dává neuronu dostatečnou flexibilitu.
Samotné váhy by ve většině úloh nestačily. Stejně tak by samy o sobě nestačily jen biasy. Teprve dohromady vytvářejí parametrický základ, který se během tréninku postupně ladí.
Jak se váhy mění během tréninku
Váhy se neupravují ručně. Model je mění automaticky na základě vypočtené chyby. Když síť vytvoří výstup, ztrátová funkce určí, jak velká je chyba, backpropagation spočítá, jak se tato chyba vztahuje k jednotlivým parametrům, a gradientní sestup nebo jiný optimalizátor potom váhy skutečně posune směrem k nižší ztrátě.
To je důležité i pro intuitivní pochopení AI. Model se neučí tím, že by „pochopil význam“ lidským způsobem. Učí se tak, že opakovaně upravuje váhy a biasy podle toho, jak dobře nebo špatně dopadl předchozí pokus.
Váha není fyzická „důležitost“, ale naučený parametr
Je dobré dodat, že váha není lidský slovní popis významu. Není to nálepka typu „tohle je důležité“. Je to číslo, které model během tréninku nastaví tak, aby co nejlépe snižoval chybu. Někdy pak člověk může zpětně interpretovat, že určitý vstup měl větší vliv, ale samo o sobě to neznamená, že síť uvažuje stejně jako člověk.
Právě proto je potřeba být opatrný při příliš volném překládání technických pojmů do lidských metafor. Váha skutečně určuje sílu vlivu v modelu, ale stále jde o parametr matematického výpočtu, ne o vědomý úsudek nebo „názor“ modelu.
Proč jsou váhy tak důležité u hlubokých sítí
U jednoduchých modelů může být počet vah poměrně malý. U hlubokých neuronových sítí jich ale může být obrovské množství. Právě to je jeden z důvodů, proč jsou dnešní modely tak výkonné, ale současně i náročné. Každá vrstva přidává další množství propojení a každé propojení nese svou vlastní váhu. U velkých modelů tak mohou váhy tvořit obrovský parametrický prostor, ve kterém se trénink snaží najít co nejlepší nastavení.
To ale zároveň znamená vyšší nároky na data, výpočetní výkon i optimalizaci. Čím více vah model obsahuje, tím více možností má – ale také tím složitější bývá jeho trénink a tím větší riziko, že bez dobrého návrhu nebude fungovat tak, jak by měl.
Jak váhy souvisejí s interpretací modelu
U jednodušších modelů se někdy dá význam vah poměrně dobře interpretovat. Lze například říct, že určitá proměnná měla silnější nebo slabší vliv. U hlubokých sítí je ale situace složitější. Váhy jsou rozprostřené napříč mnoha vrstvami a jejich smysl často vyplývá až z kombinace s ostatními parametry. Proto není vždy snadné převést váhy přímo do lidsky čitelného vysvětlení.
To je důležité i v debatě o transparentnosti AI. Lidé někdy čekají, že když model pracuje s vahami, půjde jeho rozhodování jednoduše „rozebrat“. U malých modelů to někdy jde. U rozsáhlých hlubokých sítí už je to mnohem obtížnější.
Kde jsou limity a proč váhy samy o sobě nestačí
Přestože jsou váhy klíčové, samy o sobě netvoří celý model.
Výsledek vždy závisí i na biasech, aktivačních funkcích, architektuře sítě, datech, ztrátové funkci a optimalizační metodě. Váhy jsou sice jedním z hlavních nositelů naučeného chování, ale nefungují izolovaně.
Právě proto je dobré dívat se na ně jako na součást většího celku. Když model selhává, nemusí být problém „ve vahách“ v úzkém smyslu. Může jít o špatná data, nevhodnou architekturu nebo špatně zvolený cíl tréninku. Váhy jsou zásadní, ale nefungují odděleně od zbytku systému.
Proč má smysl tomuto pojmu rozumět i mimo technické obory
Váha je jeden z těch pojmů, které se na první pohled zdají příliš technické, ale ve skutečnosti dobře ukazují, jak model funguje uvnitř. Kdo rozumí váhám, lépe chápe, že učení modelu neznamená žádné neurčité „nabývání inteligence“, ale velmi konkrétní proces nastavování parametrů na základě dat a chyb.
To je důležité i pro širší debatu o AI. Jakmile se technické principy jako váhy, biasy, ztrátová funkce nebo backpropagation vytratí z vysvětlení, snadno vzniká dojem, že modely fungují skoro samy od sebe. Ve skutečnosti ale stojí na poměrně přesně definovaných výpočtech a učených parametrech.
Na širší souvislosti toho, jak AI funguje, jak se učí a proč kolem ní vzniká tolik zjednodušených představ, navazuje také článek 17 nejčastějších mýtů o umělé inteligenci.
Související pojmy
- Neuronová síť – váhy dávají plný smysl až ve chvíli, kdy vám je jasné, jak je neuronová síť postavená jako celek a kudy v ní procházejí informace.
- Bias – právě ve srovnání s biasem nejlépe vynikne, že váha určuje sílu vlivu vstupu, zatímco bias posouvá samotné rozhodování neuronu.
- Backpropagation – při zpětném šíření chyby se spočítá, jak mají být váhy upraveny. To je smysl celého procesu zvaného backpropagation.
- Gradientní sestup – ukazuje modelu, kam se má v prostoru všech možných nastavení vydat, aby se postupně dostával k lepším výsledkům.
- Ztrátová funkce -podle ní model pozná, jak velkou chybu udělal a jakým směrem se mají váhy měnit.
