Már-már űrtechnológiával dolgozzák fel az iratokat – A Magyar Nemzeti Levéltár munkájáról

Kultúra – 2024. február 24., szombat | 12:01

A Magyar Nemzeti Levéltár (MNL) több mint 300 ezer iratfolyóméter forrásanyagával, köztük számos egyházi vonatkozású dokumentummal az egyik legnagyobb kulturális intézmény Magyarországon. A levéltári iratokat immár a modern technológia eszközeivel dolgozzák fel – ezt a munkát mutatja be Borsodi Attila MNL honlapján közzétett írása, amelyből részleteket közlünk.

A Magyar Nemzeti Levéltár Informatikai és Innovációs Igazgatóságának a munkája arra bizonyíték, hogy a modern kor vívmányait sikerrel lehet alkalmazni a történelmi iratok, anyagok feldolgozásában is. A munka során hatékonyan használják a mesterséges intelligenciát, a kézírás-felismerést és számos új technológiát, ezek kapcsán saját fejlesztésű újításokat, megoldásokat is letettek már az asztalra. Ezeket nemzetközileg is elismerik. (...)

A teljes intézményben 300 kilométert meghaladó iratot őriznek, amelyeket több mint 100 éve dolgoznak fel különböző segédletekben. A munka most nagy lökést kapott az által, hogy az automatizálás különböző technológiai lehetőségei rendelkezésre állnak, és ezzel a kutatást lehet segíteni. (…)

Az MNL Informatikai és Innovációs Igazgatóságának vezetője, Szatucsek Zoltán elmondta: „Az egyik terület, amin dolgozunk, a kézírás-felismerés. A gépelt szöveg felismerése már régi technológia, amely eleinte hagyományos módszerekkel történt, alapvetően optikai felismeréssel dolgoztak. Ami változott, hogy a géppel írt szövegek felismerését is meg tudják támogatni gépi tanulásos eszközök. Ma már megtanítják a szoftvereket a különböző mintázatokra, például arra, hogy mi lehet A, B vagy éppen C betű és mi nem. S ezt a beazonosítást képes a szoftver elvégezni akkor is, ha a szó elmosódott, vagy csak félig látszik” – fogalmazott az igazgató.

Hozzátette: ugyanezen az elven működik a kézírás felismerése is. Fontos, hogy a kézírásos szövegek digitális szövegként eddig nem voltak elérhetőek. A 19. század második felében Magyarországon elkezdték átírni a régi okleveleket, és kiadványokban jelentették meg azokat. Ezt azonban csak az iratok töredékénél tudták elvégezni, hiszen 1911 előtt minden irat kézzel készült.

Szatucsek Zoltán kifejtette, hogy a kézírás-felismerés területén a levéltár tavaly rendezett egy nemzetközi workshopot (műhelymunkát), ahol a levéltárak megosztották a megszerzett tapasztalataikat. Márpedig tapasztalat van bőven, amit a Magyar Nemzeti Levéltár és más, nyugat-európai partner levéltárak kölcsönösen felhasználnak. A kiindulás az Európa Digitális Kincsei (European Digital Treasures) projekt volt, aminek egyik feladata a levéltár megismertetése volt az idősebb generációval. „Az volt az elgondolásunk, hogy szervezünk egy közösségi programot, amelyben önkéntesként segíthetnek segédleteket összeállítani. S ehhez jött a spanyolok zseniális ötlete, hogy ezt kombináljuk a kézírás-felismeréssel. Indítottunk egy alprogramot, amelyben a nyugdíjasok betanították a mesterséges intelligenciát, sok szöveget kézzel átírtak az öt ország különböző forrásaiból. Mi az 1828-ik évi országos összeírást dolgoztuk így fel hetven önkéntes segítségével, az alprogramban határon túli magyarok is részt vettek” – jegyezte meg az MNL Informatikai és Innovációs Igazgatóságának vezetője. (…)

Az igazgatóságon van egy másik fontos terület is, a rekordok, bevitt adatok összekapcsolása. „A legnagyobb kutatói közösségünk a családtörténet-kutatóké, hiszen az emberek keresik az őseiket, a régi rokonságukat. Nálunk nagyon sok adatkészlet van, különböző adó- és katonai összeírások, anyakönyvek, és ezekkel az információkkal tudjuk a munkát támogatni. A kultúra mindig alulfinanszírozott, de ahhoz, hogy több forrást tudjunk magunkhoz vonzani, meg kell mutatnunk, hogy társadalmilag hasznosak vagyunk, és vannak, akik használják az intézmény szolgáltatásait. Így ez a terület kitörési pont nekünk, hiszen a családtörténet-kutatás nagyon népszerű, egy ipar telepedett rá, és az egész most már genetikai vizsgálatokkal is kiegészül. Nem véletlen, hogy az Amerikai Egyesület Államokban a családtörténet-kutatás a második legnépszerűbb hobbi a kertészkedés után” – hangsúlyozta az MNL Informatikai és Innovációs Igazgatóságának vezetője. (…)

Az első jelentős programjuk a Szovjetunióba elhurcoltak, hadifoglyok és kényszermunkások adatbázisa volt. Az Orosz–Magyar Levéltári Vegyesbizottság megállapodása értelmében Magyarország megkapta 600 ezer, a második világháborúban szovjet táborokba került magyar fogoly azonosító kartonját. Az igazgatóságnak ezeket az adatokat kellett összekapcsolnia azzal az adatbázissal, ami megvolt a hazatértektől. „A feladat komoly kihívás elé állított minket, hiszen a szovjet táborokban a foglyok adatait félanalfabéta, magyarul nem tudó katonák rögzítették hallás alapján. Ez különösen akkor volt problémás, ha a szovjet katonáknak bonyolult magyar település- és családneveket kellett leírniuk, mert ezeket változatos módon voltak képesek rögzíteni, rengeteg volt az elírás. Ráadásul amíg a mi kultúránkban az édesanyák, addig a Szovjetunióban az édesapák nevét rögzítették. Így kellett a két bevitt adathalmazban levő, ugyanarra a személyre vonatkozó adatokat összekapcsolnunk. Ezt a munkát szintén a mesterséges intelligencia segítségével végeztük el úgy, hogy az algoritmust megtanítottuk a mintázatok felismerésére” – közölte Szatucsek Zoltán.

Az elvégzett munka nem hozhatott tökéletes eredményt, és amikor az adatbázist publikálták a világhálón, arra kértek mindenkit, hogy ha valaki hibát talál vagy észrevétele van, írja azt meg. A két éve kirakott adatbázis elképesztően népszerű lett, százezrek látogatták meg az oldalt, sokan jeleztek hibákat, illetve osztották meg saját, szüleik vagy éppen nagyszüleik történetét. Mivel fél év elteltével azt is lehetővé tették, hogy a látogatók tartalmakat oszthassanak meg, több száz fotót, iratot is feltöltöttek. Összesen ötezer visszajelzés érkezett.

Ez a két nagy kezdeményezés, a kézírás-felismerés és a rekord-összekapcsolás, egy nagy közös programban egyszerre jelenik majd meg. (…) „A vízió az, hogy az új technológia segítségével automatikusan felépítjük az ország családfáját, ami az eddigi munkánk megkoronázása lehet. S a munka más iratokkal is folytatódhat” – emelte ki Szatucsek Zoltán.

Idén egy újabb célt is kitűzött az igazgatóság. Egy olyan szoftvert próbálnak megalkotni, hogy egy érdeklődő – a ChatGPT-hez hasonlóan – természetes nyelvű kereséssel levéltári anyagot tudjon elérni, vagyis a kérdésére megfelelő választ kapjon a mesterséges intelligencia segítségével. A tényleges irathoz való kapcsolat bemutatása egyúttal igazolja, hogy az adatok, információk valósak. Ebben a programban az Óbudai Egyetemmel működnek együtt, és ezt alkalmaznák majd a levéltári anyagoknál is. Sőt, pályázni fognak közösen az Európai Levéltári Portállal, hogy a szolgáltatást európai szintre emeljék.

A teljes írás ITT olvasható.

Forrás és fotó: Magyar Nemzeti Levéltár

Magyar Kurír

Kapcsolódó fotógaléria