🩳 Chatboti vs. čeština

Pokud váš chatbot občas zkomolí české slovo, zbystřete.

Je to jednak tím, že zatímco angličtinu má natrénovanou jako na jazykovou olympiádu, čeština je v modelu zastoupena minimálně. Spousta českých gramatických jevů mu chybí; prostě se s nimi nesetkal. Angličtina u velkých modelů naopak tvoří obvykle 80-90 % trénovacích dat.

Samotný nedostatek českých textů není jediný problém. Texty jsou před učením tokenizovány (rozšmikány na kratičké útržky, někdy slova, slabiky a někdy písmena). Protože je tokenizace navržena pro angličtinu, česká slova se na tokeny drolí méně efektivně a vzniká víc kratších částí. Do kontextového okna se tak vejde méně českého textu než anglického, a v delším řetězci výpočtů narůstá nepřesnost.

Důsledkem toho všeho je nejspíše i nepříjemný jev, kdy odpovědi modelů v češtině jsou chudší a kratší než ty v angličtině.

Co se model naučí první? Gramatiku.

Pro mě bylo podnětné si uvědomit, že schopnost modelu generovat smysluplné věty (tedy „umět gramatiku“) je vlastně to první, co si opravdu natrénuje dobře. Ne proto, že by miloval hodiny gramatiky, ale kvůli tomu, že gramatické jevy se v jazycích pořád dokola opakují a jsou v nich všudypřítomným „signálem”.

Jenže!

Čeština má jinou gramatiku než angličtina. Model proto bezděky natrénuje gramatická pravidla zvlášť pro každý jazyk. Gramatiky jsou v něm pak zadrátované v podobě nejsilnějších statistických vztahů mezi slabikami každého jazyka. Mimochodem, evropský Mistral je větší češtinový hotentot než US modely. Je trénován hlavně na angličtině a francouzštině.

Z logiky věci plyne, že co v praxi považujeme za „hlavní obsah” modelů pod slupkou jazyka: fakta, odborné znalosti, terminologie jsou v datech zastoupeny výrazně řidčeji než gramatiky.

Modely prostě umí nejlépe ze všeho žvanit – o něčem, co ovládají ještě méně jistě než samotný jazyk. Chvilku si nad tím zameditujte.

Proč model odpoví, když neví?

Model je chudáček: on neví, že neví. Když po něm chceme odpověď, vždy dělá rychlou kalkulaci „jako student u zkoušky“. Odpoví tím, co se mu zdá nejpravděpodobnější, i když se ta pravděpodobnost blíží nule (tedy absolutní neznalosti). Motivaci mají oba fiškusové stejnou: odměna je vyšší, když odpoví jakkoli, i blbě, než když přiznají neznalost. Tak je trénovali na vysoké škole života.

V případě malého zastoupení tématu v trénovacích datech proto chatbot odpoví „halucinací”. Jako když filmový agent FBI magicky zazoomuje rozpixelovaný záběr z kamery, a my najednou místo šmouhy vidíme ostrý obličej vraha. Model podobně jako ve filmu z řídkých dat dopočítá neexistující detaily, aby odpověď vypadala věrohodně. Musí. Motivací modelu je vždy poskytnout pravděpodobně znějící text, ne „pravdu”. Koncept pravdivosti nějakého faktu modely neobsahují, trénují se na uvěřitelnost.

Tím se vracíme k problému s mateřštinou: slabě natrénovaná jazyková rovina se projeví nejspíše „anglickou” zkomoleninou českého slova. Ani fragmenty jiných jazyků nejsou vyloutcheny.

Selhává-li model na jazykové rovině, té v datech nejvíc zastoupené, není to pak ale varování, že i hlouběji bude nespolehlivý? Přesně tak! Zvlášť pokud očekáváte 100% přesnost v odborných tématech.

Medicínu, právo a jiné specifické obory se model učil opět převážně z anglických zdrojů, kterých je mnohem víc. Generovat věrohodné texty podobné původním zdrojům tedy zvládne. Přesto bude mít trable vyjádřit je správně česky, bez chyb, s českou odbornou terminologií. Výsledkem pak může být odpověď, která skryje časovanou bombu (nebo ostudu): bude jakoby fakticky přijatelná, ale terminologicky posunutá nebo zavádějící. Rozpoznáte ji hůř než úplně špatnou odpověď.

Praktické doporučení na závěr?

Chcete-li se tedy LLM chatbota zeptat na nějakou odbornou věc, na jejíž přesnosti vám záleží, tak to...

raději nedělejte a najděte si původní věrohodné zdroje, které mají autora s jasnou zodpovědností za uváděná tvrzení (např. knihu od nakladatele, kterému věříte :)

ale pokud jinak nedáte,
ptejte se raději anglicky.
Nejen, když si všimnete, že model na dané téma v češtině generuje zkomoleniny. Jeho „anglický mozek” nemusí být spolehlivě namapovaný do české terminologie a jejích nuancí, a navíc na českou otázku dostanete českou – tedy konzistentně chudší – odpověď.

🩳

Tento post je tzv. „kraťas“ – nejde o plný článek, ale o malou poznámku, nápad, myšlenku, postřeh, recenzi, na niž by se velký článek nehodil. Kraťas často vznikne jako rozšířená verze suprkraťasu, tedy postu na instagramu Lifehacky.cz. Všechny kraťasy najdete pod odpovídajícím štítkem (nebo přes menu nahoře).