Az LLM-ek szabályozási környezete az EU-ban
Az Európai Unióban két fő jogszabályi keret határozza meg a nagy nyelvi modellek alkalmazásának feltételeit: a már hatályos GDPR (2016/679/EU rendelet) és a 2024-ben elfogadott EU MI-rendelet (EU AI Act). Magyarország EU-tagállamként mindkét rendelet hatálya alatt áll.
A két jogszabály egymást kiegészíti: a GDPR a személyes adatok feldolgozásának feltételeit szabályozza, míg az EU AI Act a mesterségesintelligencia-rendszerek kockázati besorolását és az azokhoz kapcsolódó kötelezettségeket határozza meg. Egy LLM-alapú vállalati alkalmazás esetén mindkettőt vizsgálni kell.
GDPR és az LLM-ek kapcsolata
A GDPR szempontjából az LLM-ek alkalmazásakor az alábbi kérdések merülnek fel:
Személyes adatok a betanítási adathalmazban
Ha egy szervezet saját LLM-et tanít vagy finomhangol, figyelemmel kell lenni arra, hogy a betanítási adathalmaz tartalmaz-e személyes adatokat. A GDPR 6. cikke alapján az adatkezelésnek jogalapja kell legyen; ha a betanítási adatokban személyes adatok szerepelnek, a szükséges jogalapot (hozzájárulás, jogos érdek, stb.) dokumentálni kell.
Automatizált döntéshozatal
A GDPR 22. cikke különleges feltételeket támaszt az olyan automatizált döntésekkel szemben, amelyek az érintettre jogi vagy hasonlóan jelentős hatással járnak. Ha egy LLM-alapú rendszer olyan döntést hoz (például hitelbírálat, álláspályázat szűrése), amely közvetlen hatással van a természetes személyre, az érintettnek joga van emberi beavatkozást kérni és a döntést megfellebbezni.
Adattovábbítás harmadik országba
A legtöbb kereskedelmi LLM-API-t az USA-ban székhellyel rendelkező vállalatok üzemeltetik. A személyes adatok EU-n kívülre való továbbítása a GDPR V. fejezete alapján csak meghatározott feltételek mellett lehetséges. Ez a szempont különösen fontos az egészségügyi, pénzügyi és jogi szektorban tevékenykedő szervezetek számára.
EU AI Act – kockázatalapú megközelítés
Az EU AI Act kockázatalapú osztályozási rendszert vezet be. Az LLM-ek jellemzően az általános célú MI-rendszerek (GPAI – General Purpose AI) kategóriájába esnek, amelyre az aktus külön fejezetben tartalmaz rendelkezéseket.
Kockázati szintek az EU AI Act szerint
- Elfogadhatatlan kockázat: Tiltott alkalmazások (pl. szociális pontrendszer, valós idejű biometrikus azonosítás nyilvános térben)
- Magas kockázat: Kritikus infrastruktúra, foglalkoztatás, oktatás, igazságszolgáltatás — részletes kötelezettségek
- Korlátozott kockázat: Chatbotok — kötelező átláthatósági tájékoztatás
- Minimális kockázat: Legtöbb általános célú alkalmazás — ajánlott, de nem kötelező intézkedések
Az általános célú LLM-ekre (GPAI) vonatkozóan az aktus az alábbi kötelezettségeket írja elő a fejlesztők számára: technikai dokumentáció közzététele, az EU szerzői jogi szabályoknak való megfelelés, a szintetikusan generált tartalmak jelölése, valamint — rendkívül nagy számítási kapacitást igénylő modellek esetén — kibertámadásokkal szembeni robusztusság biztosítása.
Torzítás és méltányossági szempontok
Az LLM-ek az előtanítás során olyan adathalmazokat látnak, amelyek tükrözik az emberi szövegek statisztikai eloszlását — beleértve az azokban esetlegesen meglévő torzításokat is. Ez azt jelenti, hogy a modell viselkedése bizonyos témákban, csoportokkal kapcsolatban vagy kulturális kontextusokban eltérő lehet.
A torzítás (bias) nem feltétlenül szándékos, és jellemzően nem egyetlen okra vezethető vissza. A kutatók három fő forrást azonosítanak: az adathalmaz összetétele (alulreprezentált csoportok), az annotációk torzítása (emberi értékelők saját előítéletei) és a modell kapacitás-kiosztása (egyes nyelvek, dialektusok jobb reprezentációja).
Emberi felügyelet szerepe
Az EU AI Act és a legjobb gyakorlatok egyaránt hangsúlyozzák az emberi felügyelet szükségességét. A magas kockázatú alkalmazásokban az LLM kimenete nem lehet végső döntés emberi vizsgálat nélkül. Ez nem csupán jogi elvárás, hanem a rendszer megbízhatóságának alapfeltétele is, tekintettel a hallucinációs jelenségre.
Az RLHF szerepe a biztonságos viselkedésben
A visszacsatolásos megerősítéses tanulás emberi értékelőktől (RLHF) az a technika, amellyel a modellek viselkedését a káros, pontatlan vagy szándékos félrevezetésre alkalmas kimenetekkel szemben megerősítik. A folyamat során emberi értékelők rangsorolják a modell kimeneteit, és a visszajelzés alapján jutalommodell épül, amelyet a modell finomhangolásánál használnak fel. Ugyanakkor az RLHF önmagában nem garantál teljes biztonságot — az értékelők saját torzításai és a jutalomfunkció hibái tovaterjedhetnek.
Összefoglalás
A nagy nyelvi modellek alkalmazása jogi és etikai keretet igényel. A GDPR az adatvédelem szempontjából kötelező megfelelőséget ír elő, az EU AI Act a kockázati besorolástól függő kötelezettségeket támaszt, a torzítás kezelése pedig folyamatos emberi felügyeletet igényel. Ezek a szempontok nem korlátként, hanem az LLM-ek felelős alkalmazásának keretrendszereként értelmezendők.