Folklore Archive Webinars 4. Multilingual Search and Challenges for the Archive in the 21st Century: Lessons from ISEBEL (Online, 2022. május 9.)
A SIEF (International Society for Ethnology and Folklore), az etnológia és folklór nemzetközi szervezetének archívumi munkacsoportja (Working Group on Archives) négyalkalmas webi- náriumának negyedik alkalmára 2022. május 9-én került sor. Az előadó, Timothy R. Tangherli- ni, a Kaliforniai Egyetem professzora (University of California, Berkley) az ISEBEL digitális archívumot mutatta be, elsősorban a többnyelvű keresési lehetőség kialakításának útjára és kihívásaira koncentrálva. A projekt a kaliforniai egyetem mellett az amsterdami Meertens Ins- tituut és a rostocki egyetem (Uni-Rostock) munkatársainak közreműködésével valósult meg.
Az előadó mellett Theo Meder, Holger Meyer és Cristoph Schmitt töltöttek be a munkában vezető szerepet. A projektről részletesebben lehet tájékozódni a https://isebel.eu/ oldalon, ahol az elkészült adatbázis kereshető változata is elérhető: http://search.isebel.eu/.
Tim Tangherlini a feldolgozandó anyag rövid bemutatása után (motívumok és szereplők, ala- kok dán, észak-német és holland népmesékből) a projekthez vezető útról és a jelentkező kihívá- sokról mesélt. Kiemelte, hogy a folklóranyagok a humán tudományok területének „big data”-jei, olyan adathalmazok, amelyek a kultúra kifejezésének sokmillió variációját foglalják magukba, amik folyamatosan változnak, és terjednek az emberek társadalmi hálózatain keresztül. Azaz olyan hatalmas mennyiségű adattal kell dolgozni, ami az emberi agy számára átláthatatlan, és amelynek elemzéséhez a számítógépek segítéségét kell igénybe venni. Ezzel lehetőség nyílik az adatoknak olyan szintű és módú elemzésére is, ami egyébként lehetetlen volna. Segítségükkel nemcsak kultúrákon, földrajzi egységeken, hanem nyelveken átívelő vizsgálatok is elvégezhe- tőek. A fizikai archívumok mellett a projekt kidolgozásában segítség volt a Rostocki Egyetem már működő digitális archívuma, a „Wossidlo”, melynek címkézési rendszerét nagymértékben átvették a ISEBEL-hez is, valamint további párhuzamosan folyó projekteket is segítségül hívtak.
A munka fő célkitűzései a következők voltak: a létező adatstruktúrák felfedezése és megér- tése; egy olyan keresőprogram kifejlesztése, amely képes egységbe rendezni az adatokat mini- mális kritériumok alapján is, összekötve az egyes lokális archívumokban lévő információkat; a keresés lehetőségének kiterjesztése különböző nyelvekre; az eredmények vizuális (például térképeken történő) és más módszerű megjelenítése; valamint hálózati modellek felállítása az adatok alapján. A különböző archívumok egyesítésében nagy kihívást jelentett az archiválási rendszerek különbözősége. Végül sikerült egy központi sémát felállítani, amely olyan közve- títő rendszereken keresztül működött, melyek tulajdonképpen „lefordították” a helyi archivá- lási rendszereket erre a globális „nyelvre”. Ehhez ki kellett alakítani ennek a „nyelvnek” az alap adatkészleteit, melyek a különböző kulcsszavakat, fogalmakat, a gyűjtőre és a gyűjtésre vonatkozó adatokat, archívumi besorolásokat, a mesékben előforduló személyeket, alakokat, helyeket, eseményeket, hivatkozásokat, tehát azokat az alaptényeket tartalmazzák, amelyek segítségével az egyes mesék kereshetővé válnak. Kihívást jelentett az is, hogy mik kerüljenek be a keresési kritériumok közé, azaz mi az az információ, amely a legtöbb esetben rendelke- zésre áll. Ehhez figyelembe kellett venni az egyes felhasznált archívumok rendszereit, és úgy kellett kialakítani a szoftvert, hogy a helyi egységek továbbra is kezükben tarthassák saját gyűjteményük kezelését, mégis lehetőség nyíljon a többiekkel való együttműködésre is. Ennek megoldása az előadó elmondása szerint igen bonyolult volt.
Ezután az ördög (devil) kulcsszó segítségével példákat láthattunk a keresési rendszer műkö- désére. A kutató ezzel azt a témát igyekezett felvezetni, hogy miként történt a különböző nyelvű szövegek nyelvi egységesítése. Közös nyelvként az angolt választották. Minden szövegnek elké- szült egy piszkozati fordítása angol nyelven, ez tulajdonképpen egy háttérszöveg, amelynek segít- ségével felcímkézték a meséket az angol kulcsszavakkal is. Ha angol nyelven keresünk, értelem- szerűen minden olyan szöveget megtalálunk, amely a keresett kifejezéssel van felcímkézve. Ha valamelyik helyi nyelven keresünk egy kifejezést, akkor a kereső először a helyi nyelvű szövege- ket sorakoztatja fel, majd a keresési kifejezés angol megfelelőjével keres tovább a többi nyelven, így később ezek a szövegek következnek a listában. Természetesen olyan szavak is előfordulnak a szövegekben, amelyek nem feleltethetőek meg egy az egyben a nyelvek között. A közös vagy hasonló és a nem lefordítható szavakból tulajdonképpen egy olyan folklórszókincs világlik ki, amelyben az egyes szavak között különböző mértékű kapcsolat van. A kutatók ezt egy elképesz- tően szép, a domborzati térképekhez hasonló szótérkép segítségével ábrázolták.
Végül a további feladatokról, az éppen folyó részfolyamatokról hallhattunk néhány rész- letet. Ezek elsősorban már a felhalmozott adatok elemzését célozzák. Folyamatban van példá- ul a kéziratok vizsgálata, digitalizálása, feltöltése is. Kísérleteznek az úgynevezett nem pont alapú vizualizációval is, amely új perspektívát kínál, új eredmények, összefüggések felfede- zésére ad lehetőséget. Vizsgáljak a mese és a mesélő közötti kapcsolatot, viszonyt is. Például kimutatták, hogy Dániában a mesélők szerint boszorkányok mindenhol vannak, de leginkább a saját térbeli perspektívájukon belül helyezkednek el. Próbálkoznak ezen túl az úgynevezett topic-modelling módszerrel, azaz arra kíváncsiak, hogy a különböző témájú történetek hol és mennyire terjedtek el. Mik a kedvelt és kevésbé kedvelt témák az egyes területeken? Fontos feladat a megfelelő kutatási módszer(ek) kialakítása a programhoz, amelyet folyamatos work- shopok segítségével próbálnak megoldani. Emellett természetesen cél további intézmények, így további gyűjtemények bevonása a munkába.
A professzor előadásának köszönhetően tehát megismerkedhettünk különböző (nyelvű és rendszerű) folklórarchívumok digitalizációjának és főként az ezekhez megfelelő keresőprog- ram kialakításának kihívásaival, emellett kicsit betekintést nyerhettünk az informatikai rend- szer kiépítésének mikéntjébe is. Véleményem szerint igen tanulságos volt, hogy a rendszert nem csak elméleti oldalról ismerhettük meg, hanem valóban példákat láthattunk a működésé- re. A példaként bemutatott képi ábrázolások, térképre vetített adathalmazok pedig izgalmasnak ígérkező kutatási témalehetőségeket vetítettek elő.