Az LLM-ek belső működése: tokenek, figyelem és transformer

A kiindulópont: hogyan „lát" szöveget egy számítógép?

A számítógépek önmagában nem értelmeznek szöveget — számukra minden információ numerikus formában létezik. Ahhoz, hogy egy neurális hálózat szöveggel dolgozhasson, elsőként a szöveget számokká kell alakítani. Ezt a folyamatot nevezzük tokenizációnak.

Egy token nem feltétlenül egyenlő egy szóval. Az angol „running" szó például lehetséges, hogy egy tokenként tárolódik, míg a „tokenization" két részre bontódhat: „token" és „ization" egységekre. A tokenizáló szótár (vocabulary) mérete modellenként változik — a GPT-4-nél ez körülbelül 100 000 elem körül mozog, míg a BERT esetén kb. 30 000 token szerepel az alaptárban.

A magyar nyelv agglutináló morfológiája miatt a tokenizálás különösen érdekes kihívást jelent: egyetlen szótőhöz akár 10–20 toldalék is kapcsolódhat, és az LLM-ekbe beágyazott tokenizáló szótárak jellemzően a latin írású, szintetikus morfológiájú európai nyelvekre (főleg angolra) optimalizáltak. Ez azt eredményezi, hogy egy magyar szót az alapmodellek esetén átlagosan több tokenként kezelnek, mint az angol megfelelőjét.

A transformer architektúra alapjai

A 2017-ben megjelent „Attention is All You Need" (Vaswani és munkatársai) tanulmány mutatta be azt az architektúrát, amely az összes modern nagy nyelvi modell alapját képezi. A korábbi visszatérő neurális hálózatokkal (RNN) szemben a transformer képes a szekvencia összes elemét párhuzamosan feldolgozni, ami lényegesen gyorsabb tanítást tesz lehetővé.

A transformer encoder-decoder szerkezetből áll, bár a csak-dekóder (decoder-only) változatok — mint a GPT-architektúra — a szöveggenerálásban terjedtek el. Az encoder-only megközelítést (például BERT) elsősorban szövegosztályozásra és information retrieval feladatokra alkalmazzák.

Az önfigyelmi mechanizmus (self-attention)

Az önfigyelmi mechanizmus lehetővé teszi a modell számára, hogy a bemeneti szekvencia bármely két elemének kapcsolatát közvetlenül figyelembe vegye, a köztük lévő távolságtól függetlenül. Ez alapvető különbség az RNN-ekhez képest, ahol a hosszú szekvenciákban a korai elemek hatása „elhalványul".

Matematikailag az önfigyelem három mátrixot számít ki: Query (Q), Key (K) és Value (V). A figyelmi súlyok a Q és K mátrixok szorzatából, majd szoftmax-transzformációból adódnak, és ezek szabják meg, hogy az egyes pozíciók mennyire befolyásolják egymást a V mátrix értékeinek súlyozásakor.

Technikai részlet: Multi-head attention

A valódi implementációkban nem egyetlen figyelmi mechanizmust alkalmaznak, hanem párhuzamosan több fejből (head) álló mechanizmust (multi-head attention). Minden fej különböző szempontból vizsgálja a tokenek kapcsolatát — például az egyik szintaktikai, a másik szemantikai összefüggésekre specializálódhat.

Előtanítás és finomhangolás

A nagy nyelvi modellek kétfázisú tanítási folyamaton mennek át. Az előtanítás (pre-training) során a modell rendkívül nagy mennyiségű, általánosan összegyűjtött szöveges adaton tanulja meg a nyelv statisztikai szerkezetét. A GPT-3 például kb. 570 GB szöveges adaton tanult, amelyet közösségi adatforrásokból, weboldalakból és könyvekből gyűjtöttek össze.

A finomhangolás (fine-tuning) az előtanított modellt egy specifikus feladatra szabja. A visszacsatolásos megerősítéses tanulás emberi értékelőktől (Reinforcement Learning from Human Feedback, RLHF) lehetővé teszi, hogy a modell viselkedése jobban igazodjon a felhasználói elvárásokhoz és biztonsági követelményekhez.

Paraméterek és méretezés

Az LLM-ek méretét jellemzően a paraméterek (súlyok) számával jellemzik. A GPT-2 kb. 1,5 milliárd paramétert tartalmaz; a GPT-3 175 milliárd paramétert; a nagyobb modellek esetén ez a szám meghaladja az ezer milliárdot. A kutatások (például a Chinchilla-törvény) azt mutatják, hogy az adatok mennyisége és a modell mérete között optimális arány létezik — a pusztán nagyobb modellméret nem garantál jobb teljesítményt.

Összefoglalás

A nagy nyelvi modellek a transformer architektúrán alapuló, előtanított neurális hálózatok, amelyek a szöveg statisztikai szerkezetét modellezik. Az önfigyelmi mechanizmus, a tokenizáció és az RLHF-alapú finomhangolás együttesen alkotják azt a technikai keretet, amely lehetővé teszi a mai LLM-ek sokoldalú szövegfeldolgozási képességeit.