A digitális ősgesztától a kétrétegű pdf-ig – a Hungaricana Közgyűjteményi Portál bemutatója

Az MTA BTK Történettudományi Intézetének Tanácsterme adott otthont a történész szakma és a nagyközönség számára is online kutatási lehetőséget biztosító Hungaricana Közgyűjteményi Portál bemutatójának. Az április óta hivatalosan is működő portál célja a Nemzeti Kulturális Alap (NKA) által támogatott közgyűjteményi digitalizálások eredményeinek bemutatása és publikálása. Az Országgyűlési Könyvtár kezelésében álló honlap egyrészt informál a meghirdetett pályázatokról és pályázati eredményekről, másrészt publikációs felületet biztosít az elkészült adatbázisoknak, valamint igyekszik teret adni a jó digitalizálási gyakorlatoknak, újszerű eszközöknek és technológiáknak.

A rekkenő hőség ellenére szép számmal jöttek el az érdeklődők a 2015. július 7-én, kedden megrendezett eseményre, ahol Balogh Balázs, az MTA BTK Néprajzi Intézetének igazgatója köszöntötte a megjelenteket. A Bölcsészettudományi Kutatóközpont főigazgató-helyettese szerint nem volt egyszerű a különféle intézetek összecsiszolása a BTK szárnyai alatt, de a nehézségek általában nem a tudományos jellegű kérdésekben adódtak, azokban rendre sikerült nézetazonosságot találni. Ilyen volt a digitalizáció témája is, amelyet valamennyi tagintézmény kiemelkedő szakmai kérdésként kezel, ezért is öröm Balogh szerint, hogy a széles palettát átfogó bemutatónak a Kutatóközpont ad otthont.


Balogh Balázs

Kecskeméti Gábor, az MTA BTK Irodalomtudományi Intézetének igazgatója bevezető felszólalásában arra hívta fel a figyelmet, hogy a Hungaricanáról két megközelítésben érdemes beszélni. Az egyik a tartalmi szemlélet, tehát az egyes közgyűjteményekben „megtermelődött tartalom” eredete, szakmai szempontú feldolgozása és rendszerezése, a másik a technológiai-informatikai háttér, tehát annak a kérdése, hogy hogyan tehető 21. századi módszerekkel közkinccsé mindaz, amit a közgyűjtemények mindeddig sikerrel megőriztek és felhalmoztak.

A Hungaricana portál bemutatása Markója Szilárd, az Országgyűlési Könyvtár igazgatója előadásával kezdődött. Markója szerint az alapvető gond az, hogy a közgyűjteményi körökben mindenki megy a saját feje után, és összefogás helyett minden intézmény saját értékét és kihasználtságát igyekszik bizonygatni. A bajok természetesen az alulfinanszírozottságból erednek, amit csak tovább tetéz a nehézkes kooperáció az egyes intézmények között. A Hungaricana portál éppen azért érdekes és értékes vállalkozás Markója Szilárd szerint, mivel eredményesen összeköti a könyvtári, levéltári és múzeumi szakmát.

A megvalósítás annak köszönhető, hogy az Országgyűlési Könyvtár sikeresen pályázott az NKA-nál, és ennek keretében megbízta az Arcanum Adatbázis Kft.-t az informatikai háttér létrehozásával és kezelésével. Markója Szilárd hangsúlyozta, hogy a Hungaricana lényegében egy pilot projekt-szerű kísérlet, ami az NKA-s tartalmakra épít azok összefogásával. A 100 terabájtos adattenger kezelése óriási kihívás, de a napi többezres látogatottság, amely a műfajon belül top 3-ba sorolja idehaza a Hungaricanát, igazolja a kezdeményezés létjogosultságát. A portál struktúrája alulról építkezik, nem oktrojál a résztvevő felekre egységes rendszert, inkább abban hisz, hogy „mindenki beleteszi a sajátját.” A moduláris felépítés előnye, hogy az adatok egy része a partnerintézmények szerverein található, míg a másik része az Arcanum szerverein. Jelenleg a rendszer, amely közel 150 intézményt fog át határon innen és túl, 5 millió oldalt tartalmaz, 4-5 millió képpel és 5-6 millió bibliográfiai adattal, több ezer térképpel.


Markója Szilárd

A Hungaricana levéltári motorja a BFL (Budapest Főváros Levéltára), míg a könyvtári főszerepet az Országgyűlési Könyvtár vállalta magára. Markója Szilárd beszámolója alapján a Hungaricana könyvtári anyaga jelenleg kb. 40 terrabájtra rúg, amibe a 800 ezer oldalt kitevő országgyűlési dokumentumok éppúgy beletartoznak, mint 180 ezer oldalnyi helyi lap, vagy az Evangélikus Digitális Könyvtár 100 ezer oldalas anyaga. Az OSZK 200 ezer képeslapot számláló gyűjteménye pedig a Hungaricana egyik legnépszerűbb szekciója. Bár 48 múzeum 1,2 millió oldallal képviselteti magát a portálon, Markója szerint szükség lenne egy olyan múzeum csatlakozására is, amelyik felvállalja a vezető szerepet. Ami a jövőt illeti, az Országgyűlési Könyvtár igazgatója szerint egyik lehetőség adja a másikat, a közös munka során újabb és újabb ötletek születnek, melyek megvalósításához újabb pályázatokra lesz szükség. Ami már most is látszik, hogy az online kutató közönség sok tekintetben aktívabb, mint az offline. Az internetes kutatás élénk kommunikációval párosul, ezért a kutatókat a tartalomépítésbe is be lehet vonni.

A Hungaricana levéltári oldaláról Kenyeres István tartott beszámolót. A BFL igazgatója szerint a magyar közgyűjtemények alapvetően ügyesek adatbázisépítésben, de nemzetközi összehasonlításban gyengén muzsikálnak az önreklámozás terén. A Hungaricana neve a sokak által ismert Europeana portál nevének – grammatikailag helytelen – parafrázisa, és a célkitűzése is hasonló az európai nagytestvér céljaihoz, de komolyabb minőségi követelményeknek akar megfelelni. Míg a százezres nagyságrendű látogatottságot felmutató Europeana oldalát egy átlagos felhasználó 12 másodpercig böngészi, addig a Hungaricana szerverei átlagban 10 perces látogatásokat jegyeznek fel. Kenyeres szerint ezt azt mutatja, hogy a Hungaricanán valódi kutatás végezhető.

Kenyeres István elmondta, hogy a legnagyobb kihívást a különféle levéltári források metaadatainak összeegyzetetése jelentette, de egyúttal cáfolta azokat, akik szerint ez eleve lehetetlen lenne. Jelenleg 27 levéltár vesz részt a portál működtetésében. 1,5 millió levéltári irat olvasható digitális formában eredetiben, ami 3,17 milló levéltári rekordot jelent. Nagy előnye a rendszernek, hogy az amúgy rendkívül nehezen hozzáférhető levéltári kiadványok is elérhetők mintegy 560 ezer oldal terjedelemben. A Magyar Levéltári Portál anyagai egy az egyben átmentésre kerültek, így hozzáférhetők az MDP/MSZMP iratok (540 ezer oldal) és Budapest Székesfőváros közgyűlési jegyzőkönyvei 1873-tól 1949-ig (66 ezer oldal) is. A vármegyei jegyzőkönyvek 12 megyei levéltárnak köszönhetően érhetők el (11300 felvétel, 36 ezer rekord), míg a bécsi segédletek (155 ezer ügyirat) a kora újkor kutatóinak nyújtanak nagy segítséget. A digitális adatbázisban viszonylag könnyen kutathatók azok a különféle közjegyzői, árvaszéki és peres iratok is, amelyeket hagyományos formában még keresni is alig lehet. A világháborús fogolytörzskönyvek pedig fizikai méretüknél fogva okoznak kihívást a hagyományos kutatás során, digitálisan ezek olvasása is egyszerűbbé vált.


Kenyeres István

Kenyeres István szerint a térképes szekció a Hungaricana egyik legnagyobb büszkesége, hiszen nemzetközi (osztrák-magyar-horvát) és interdiszciplináris összefogásnak (ELTE TTK, Földmérési és Távérzékelési Intézet) köszönhetően jött létre. A Mapire georeferált térképei (katonai, katonai felmérések, kataszteri) a Google technológiájára támaszkodnak, tehát számos opció mellett különféle rétegek (layer) mutatására, átlátszóság (transparency) beállítására és távolságmérésre (distance) is használhatók. Az amerikai óriáscég rendszere még azt is lehetővé teszi, hogy a magyar földrajzi nevek a határon túl is magyar nyelven jelenjenek meg. A térképeket továbbá össze lehet kapcsolni más adatbázisokkal is, pl. a népszerű képeslapok is geotagelhetők. Kenyeres István szerint a Hungaricana kulcsa a jó kérdezés, azaz a keresőszavak helyes és kreatív alkalmazása. Az igazgató rámutatott arra is, hogy az Arcanum nagy érdeme, hogy a Hungaricana rendszersebessége más hasonló adatbázisportálokéhoz viszonyítva kimondottan nagynak számít.

Reisz T. Csaba, a Magyar Nemzeti Levéltár (MNL) címzetes főigazgatója előadásában elsősorban azokról a digitalizációs eredményekről beszélt, amelyeket intézménye még a nagy 2012-es összevonás előtti időszakban mutatott fel, és amelyek most már a Hungaricana adatbázisát is gazdagítják. Reisz szerint nem véletlen, hogy egy 2008-as Európai Bizottsági jelentés a magyarországi digitalizálás zászlóshajójaként az Arcanumot nevezete meg. Bár sok más hasonló cég van a magyar piacon, ilyen jó eredményeket kevesen tudtak felmutatni, aminek Reisz szerint az lehet a magyarázata, hogy az Arcanumnál nem csak a profit, hanem a szakmai szempontok is számítanak. 1998-ban az akkori Magyar Országos Levéltár (MOL) Mohács előtti gyűjtemény adatai címmel CD-t adott ki, ami Reisz T. Csaba szerint a magyar digitalizáció ősgesztájának tekinthető. A főleg középkori tematikájú azóta publikált CD-k és DVD-k adják a MOL digitális adatbázisainak gerincét. A 47. kötet után már újabb CD-t nem is publikáltak, viszont az egész 72 kötetből álló sorozat megjelent DVD adathordozón. A középkorral foglalkozó kiadványok mellett digitális publikálásra kerültek újkori összeírások, urbáriumok és oklevelek, valamint három darab térképgyűjtemény és a dualizmus kori minisztertanácsi jegyzőkönyvek is.


Reisz T. Csaba

A levéltáros szakember szerint azt a kérdést kell feltennünk, hogy az online adatbázisok mellett továbbra is szükség van-e offline termékekre. A válasz szerinte igen, mivel vannak anyagok, melyek internetes változata nem annyira részletes, mint az adathordozón közreadott verzió. Ennek ellenére nagy lehetőség a Hungaricana, melynek 5 millió oldalából jelenleg kb. 610 ezer a levéltári forrás. Ami a középkori okleveleinket illeti, 108.372 db érhető el a portálon, de a diplomatikai levéltár és a fényképtár is átemelésre került a Magyar Levéltári Portálból a Hungaricanába. Reisz T. Csaba szerint utóbbinak a kifinomult keresőszavas rendszer jelenti az igazi erősségét, hiszen különböző írásváltozatokra és szótávolságra is lehet keresni. A rendszer a dokumentumok nagyítását, kicsinyítését és forgatását is lehetővé teszi. Reisz T. Csaba arra is felhívta a figyelmet, hogy az úrbéri tabelláké jelenti az első olyan forráscsoportot, amely kizárólag online kutatható. A címzetes főigazgató szerint a digitális korszakban nincsenek véget érő, lezárt projektek. A királyi könyvek például először CD-n jelentek meg, majd DVD-n, végül online, de most az újradigitalizálást tervezik, hiszen ma már sokkal gyorsabban és jobb minőségben lehet ezt megtenni, mint régebben. Az Urbáriumok és összeírások 400 gigabájtos anyag, ami még blurayre sem fért rá, ezért csak merevlemezen lehetett forgalmazni, de most már ez is elérhető online. Reisz szerint számos forráscsoport digitalizációja várat még magára, melyek közül a legsürgetőbb talán az MTI archívumának feldolgozása. Reisz T. Csaba szerint ha ma bárki online történeti kutatásokba kezd Magyarországon, akkor a MATARKA és az Arcanum-féle ADT+ mellett a Hungaricana a harmadik megkerülhetetlen internetes kutatófelület.

A Hungaricana közgyűjteményi portál bemutatását Biszak Sándor előadása zárta. Az Arcanum Adatbázis Kft. ügyvezető igazgatója elsősorban a rendszer informatikai hátterét ismertette. Biszak Sándor szerint a világ nagyon megváltozott az elmúlt évtizedben, elsősorban a Google-nek köszönhetően. A Google Books eddig 15 millió könyvet digitalizált világszerte, de a versenyből az Arcanum is kiveszi a részét, jelenleg a magyar cég 15 millió oldalnál jár. A cég ingyenesen elérhető ADT rendszere 300-350 folyóiratot tartalmaz, a fizetős ADT+ szolgáltatás pedig 8-10 millió oldalt tesz kutathatóvá, és ez évente 2-3 millió oldallal bővül. Biszak Sándor elmondása szerint jelenleg a napi- és hetilapok digitalizációja a prioritás, de emellett folyamatosan végzik a hivatalos lapok, lexikonok, szótárak, tematikus gyűjtemények (pl. első világháborús ezredtörténetek) szkennelését is. A magyar sajtó digitalizálása különösen nagy kihívást jelent, hiszen a Népszava önmagában 450 ezer oldalt tesz ki, de ide tartoznak a különféle vidéki, vármegyei és határon túli lapok is.

Biszak Sándor elmondta, hogy az Arcanum jelenlegi kapacitása átlagosan napi 50 ezer oldal szkennelését teszi lehetővé az adott forrás méretétől és minőségétől függően. Sajnos a robotszkennerek nem tudnak hatékonyan lapozni, így a legtöbb munkát manuálisan kell elvégezni. Az Arcanum ügyvezetője szerint sok tekintetben még mindig jobb a régi folio rendszer, de ennek ellenére a magyar cég is idejében átállt a kétrétegű pdf fájlok használatára. Ennek elterjedtsége mellett az is előnye, hogy OCR eljárással 98-99% eséllyel felismeri a régi nyomtatott szövegeket. A felmerülő hibákat (betűk, szavak, képek, keretek, szegélyek) is lehet utólag javítani, de a szövegek manuális begépelése egész egyszerűen lehetetlen vállalkozás lenne. A kétrétegű pdf lényege, hogy a felső réteg maga a digitalizált kép, míg az alsó réteg tartalmazza az automatikusan felismert szöveget. Biszak szerint döbbenetes, hogy az Adobe cég, amely az Acrobat program által a pdf-et az egyik legelterjedtebb dokumentum-fájlformátummá tette a világon, nem rendelkezik megvásárolható publikációs platformmal, ezért a digitalizáló cégekenek saját megoldásokat kell kifejleszteniük a pdf-ek tömeges közzétételéhez.


Biszak Sándor

Biszak Sándor arról is beszélt, hogy egy új technológiának, a panorámaszkennernek a segítségével több méteres átmérőjű festmények és térképek digitalizálására is van lehetőség. Egy ilyen most zajló projekt keretében Barabás Miklósnak a Lánchíd alapkőletételét ábrázoló monumentális festményét digitalizálják. A panorámaszkenner segítségével hatalmas felbontásban a legapróbb részletekig nagyíthatóvá válnak a régi magyar festmények és térképek, vetekedve a Google Arts Project által meghonosított sztenderdekkel.

A bemutató előadásokat követően kérdésekre és eszmecserére is volt lehetőség. Kritikát elsősorban Ress Imre, az MTA BTK TTI Újkori Témacsoportjának tudományos főmunkatársa fogalmazott meg. Megjegyezte többek között, hogy a Hungaricana portálon közzétett bécsi segédletek nem kerültek teljes értékűen közzétételre, hiszen Fazekas István előtanulmánya és saját szerzői hozzájárulása sem látható az online változatban. A történész az index.hu hírportál cikkét is felidézte, mely szerint „a Hungaricana az amatőr történészek kánaánja”, tehát nem a szűkebb értelemben vett szakma az igazi célközönség. Ress Imre szerint nem jó ötlet ennyi mindent és ennyire különböző forrásokat egy helyen összefogni, szerinte külön adatbázisok egyedi forráscsoportokra kifejlesztett keresőrendszerrel sokkal használhatóbbak lennének. Ress Imre szóvá tette azt is, hogy a térképek leválasztása a hozzájuk tartozó iratokról szakmailag igencsak aggályos gyakorlat. A kutató szerint a magyar digitalizáció egyfelől le van maradva a nyugat-európai színvonaltól, másfelől a magyar viszonyokra történő reflektálás nélkül, sok esetben meggondolatlanul vesz át külföldi mintákat. Szerinte a minél több elve helyett a minél jobb elvét kellene előtérbe helyezni, mindvégig szigorúan megfelelve a történettudományi követelményeknek. Ress Imre óva intette a digitalizáció híveit a túlzott lelkesedéstől, mondván, hogy a nagy nekibuzdulás ellenére a mikrofilmezés sem lett sikertörténet.


Ress Imre

A Hungaricana gazdái közül Kenyeres István (BFL) reagált az elhangzott kritikára. Szerinte a Hungaricana egy publikációs pilot projekt, amitől nem lehet elvárni, hogy egy csapásra megoldja a szakmában az elmúlt húsz év során felgyülemlett gondokat. Az egész rendszer azért jöhetett létre, mivel az NKA kötelezte a közgyűjteményeket a pályázatoknál arra, hogy átadják az anyagaikat a Hungaricanának. Ha ez nincs, akkor az anyag 80-90%-a ma nem lenne elérhető. Kenyeres szerint a magyar digitalizálás kimondottan jó színvonalú, különösen a BFL-ben; a baj inkább az, hogy kevés intézmény folytat hasonló projekteket. Sok intézmény sajnos nem is hajlandó együttműködni a Hungaricanával, és olyan kulcsfontosságú intézményekkel is nehézkes a kapcsolat, mint az Országos Széchényi Könyvtár, a Magyar Nemzeti Múzeum vagy a Magyar Nemzeti Levéltár. Kenyeres István szerint számos kolléga nem akar lépést tartani a változó világgal, amit jól illusztrál az erős kritika is, amit az igazgató akkor kapott, amikor a BFL több ezer képet bocsátott ingyenesen a népszerű archívfotó portál, a fortepan.hu rendelkezésére. Ennek ellenére a Hungaricana vezetői azt várják, hogy egyre többen csatlakoznak a közgyűjteményi projekthez. Ami a mikrofilmeket illeti, azok is számos esetben digitalizálhatók, mutatott rá Kenyeres István, aki szerint az index.hu cikke a Hungaricanáról rossz felütésű, gyenge írás. A rendszert szerinte annak kifinomultsága és összetettsége miatt pont nem az amatőr történészek tudják érdemben használni.

A Hungaricana portálról szóló beszélgetést követően élénk vita bontakozott ki az előadók és a közönség soraiban az Arcanum rendszereiben elérhető szakfolyóiratok közzétételi jogairól is, különösen a Történelmi Társulat tulajdonát képező Századok tekintetében. Ennek a disputának az ismertetése azonban túlmutatna a Hungaricana közgyűjteményi portálról szóló tudósításunk keretein.

Székely Tamás

Kapcsolódó cikkek:

„…ha ezt nem értjük meg, kihalunk, mint a dinoszauruszok”

Akadémiai történetírás az interneten

A történész mint hacker, avagy merre tart a történettudomány?

Sokpecsétes titkok nyomában

"Hiába omlott volna e sok vér?” – Iránytű hazánk I. Világháborús köztéri szobraihoz

Rovatok: