Kiderült, melyik nyelvet érti legjobban a mesterséges intelligencia!
A Marylandi Egyetem (Baltimore) és a Microsoft kutatása szerint a lengyel nyelv bizonyult a legpontosabbnak a mesterséges intelligenciának adott utasítások értelmezésében. A 26 nyelvet vizsgáló nemzetközi összehasonlításban az első helyet szerezte meg a francia és az olasz előtt, miközben az angol csak a hatodik lett. Az eredményeket az új OneRuler benchmark keretében tették közzé, amely a nagy nyelvi modellek (LLM) hosszú szövegbeviteli képességeit teszteli – számolt be róla a hírügynökség a Rzeczpospolity-ra hivatkozva.
A „One ruler to measure them all: Benchmarking multilingual long-context language models” (Egy mérce minden nyelvre: többnyelvű, hosszú kontextusú nyelvi modellek értékelése) című tanulmány szerzői szerint a lengyel nyelv átlagosan 88%-os pontosságot ért el, míg az angol kevesebb mint 84%-ot. Ez azért figyelemreméltó, mert a modelleket általában a legtöbb adattal angolul és kínaiul képezik. A kínai nyelv azonban mindössze 62%-os eredménnyel a lista végétől számított negyedik helyen végzett.
A vizsgálat hétféle feladattípusra terjedt ki, amelyeket keresési és információ-összesítő kategóriákba soroltak, 8000-től egészen 128 000 token hosszúságú kontextusokkal.
A kutatók megállapították, hogy minél hosszabb a szövegkörnyezet, annál nagyobb a teljesítménykülönbség az úgynevezett nagy erőforrású nyelvek (például európai nyelvek) és az alacsony erőforrásúak (például a szuahéli vagy a szeszotó) között. Ez a különbség 11%-ról 34%-ra nőtt a leghosszabb szövegeknél.
Annak ellenére, hogy a nagy nyelvi modellek viszonylag kevés lengyel nyelvű adaton tanulnak, ebben a nyelvben magasabb válaszpontosságot, kevesebb hibát és jobb eredményeket érnek el a terjedelmes dokumentumok elemzésében.
A kutatás szerzői szerint a lengyel bizonyult a legalkalmasabb nyelvnek az úgynevezett promptolásra – vagyis a hosszú és összetett kérdések megfogalmazására a mesterséges intelligencia számára.