Maróthy Szilvia:
Adatbőség vagy adatínség? A sajtótörténet webes forrásai

Maróthy Szilvia előadása a Polecolit online sajtótörténeti műhelykonferenciáján. Az MTA BTK Lendület Magyar Irodalom Politikai Gazdaságtana Kutatócsoport „Az adatbőség zavarai: Sajtótörténeti kutatások és a digitalizáció” címmel tartott műhelykonferenciát 2020. május 18-án. ( → Hirdetmény és videók.)

Az internetre egyre inkább az információ kimeríthetetlen tárházaként gondolunk. Rengeteg digitalizált történeti forrás érhető el ingyenes, ill. előfizetéses módon. Nem minden tartalomszolgáltatás biztosít azonban strukturált adatsorokat, s a sajtótörténet számos fontos kiadványának digitalizálása még várat magára. Hogy mi áll rendelkezésre és mi nem egy átfogóbb számítógépes sajtótörténeti kutatás számára, azt a Minkó Mihállyal és Parádi Andreával közösen elkezdett „A Nyugat és korszakának hálózata” projekt mentén mutatom be. Erről további info itt érhető el: https://github.com/marothyszilvi/nyugat.

Tisztelt Hallgatóság,

a Sajtótörténeti műhelykonferenciához egy rövid hozzászólással szeretnék kapcsolódni, melyben azt firtatom, valóban az adatbőség korszakát éljük-e, s mit jelent kutatási szempontból az adatbőség kánaáni állapota.

A műhelykonferencia előadásai zömmel arról számolnak be, hogy az internetes és fizetős tartalomszolgáltatásoknak köszönhetően milyen módon és mértékben változott a kutatómunka. Rengeteg periodikum került fel, főleg az Elektronikus Periodika Archívum (EPA) és az Arcanum digitalizálási munkájának köszönhetően, melyek szövege így együttesen kereshető. Ez valóban nagyban megváltoztatta a kutatók tájékozódási, kutakodási módszereit. Radikálisan fogalmazva: ma már nem az olvasottság a kutató egyik legfontosabb erénye, hanem jártassága a webes adatbázisok, és az azokban való eligazodás, keresés területén. Ezeket a változásokat, s a rengeteg információ rendelkezésünkre állását, ennek pozitívumait nem is szeretném vitatni.

Azt annál inkább, hogy a ma rendelkezésre álló webes adatbázisok, tartalomszolgáltatások mennyire szolgálják a nem hagyományos kutatást. A hagyományos alatt most azt értem, hogy a kutató adott témában kutat, keres valamit, azt valamilyen módon megtalálja, majd elolvassa, jegyzeteli, a szerzett ismeretekből következtetésekre jut stb. A nem hagyományos alatt pedig azt, hogy a kutató nem egy konkrét információt keres, hanem az adatok teljességéből, teljességének elemzéséből kíván a kutatás szempontjából releváns információkhoz jutni.

Míg előbbihez bőven elegendő egy teljes szöveges keresést alapvető operátorokkal biztosító adatbázis, utóbbihoz ez mind az adatok strukturáltsága, mind pedig a webes szolgáltatás elérhető funkciói miatt nagyon kevés. Hozzászólásomban egy példán keresztül szeretném bemutatni, hogy mihez kevés, és mi lenne az elegendő. Következtetésemet előre elárulom, elegendő az lenne, ha

  1. minél több adathoz (metaadatok, bibliográfiai adatok, szövegek stb.) hozzájuthatnánk a maga teljességében, legalábbis kutatási célokra;
  2. a szolgáltatások törekednének a legalább nagyjából egységes adatstruktúrára, strukturálási elveiket pedig, akárcsak a szolgáltatás tartalmának (és hiányainak!) pontos leírását nyilvános felületen közzétennék.

Példámban röviden ismertetem a Parádi Andreával és Minkó Mihállyal közös munkánkat, melyről tavaly ősszel a kolozsvári komparatisztika konferencián tartott előadásunkban számoltunk be A Nyugat és korszakának teljes hálózata helyett (Kapcsolati hálók felrajzolásának nehézségei) címmel. Az előadás prezentációját, az adatvizualizációkat és az alapjukat képező adatsorokat GitHubon tettük közzé (GitHub: Nyugat). Munkánk előzménye a Nyugathon című workshop, mely során különféle adatforrásokat dolgoztunk fel. Ezek a következők:

Számos problémával találkoztunk a munka során. Az adatbázisok különféle adatsorai gyakran egymástól függetlenül épülnek, így sok bennük a párhuzamosság, tehát például ugyanazon folyóiratokat dolgoznak fel másképpen. Nem ritka a strukturáltság hiánya, vagy legalábbis következetlensége adatbázisok belül is. Eltérőek a tárgyszavazási, metaadatolási gyakorlatok is. Emellett az egyes szolgáltatások nem tartalmazzák az adott folyóiratok teljes cikkanyagát, szerzői névsorát, s ennek tényét sem közlik feltétlenül. Amíg tehát nem tekintetjük át a rendelkezésre álló adatállományt, nincs pontos képünk annak teljességéről.

Az összegyűjtött adatokból első körben egy olyan hálózatvizualizáció keletkezett, mely nem annyira a korszak folyóiratkultúráját mutatja be, hanem inkább azt, milyen adatok állnak jelenleg rendelkezésünkre. A Pesti Hírlap például elenyésző pontocskának tűnik a Protestáns Szemle jobbján.

Ezért döntöttünk úgy, hogy egy kisebb, ám sokkal jobban feldolgozott adatsort használunk. Ez egyrészt a Nyugat folyóirat EPÁ-n hozzáférhető kiadása (pontosabban annak tartalomjegyzéke) volt, másrészt a Napkelet folyóirat teljes anyagából a folyóiratszámra, szerzőre, ill. cikk címre vonatkozó adatok, melyet az Arcanum bocsátott rendelkezésünkre. Ezen adatforrásokból készítettük azt a CSV (comma separated values) fájlt, mely az adatvizualizációk alapját képezte. A hálózatvizualizáció a folyóiratszámok és a szerzők képezte csomópontok kapcsolódásait mutatja meg.

Az elemzéshez szükség volt az adatok félautomatikus tisztítására is, melyet zömmel reguláris kifejezések segítségével végeztünk. Az adattisztítás végterméke az az adatsor, melyet már a Gephi adatvizualizációs szoftverrel tudtunk elemezni. Ennek eredményeit e helyt nem ismertetem, ám a GitHubon mind a hálózatvizualizációk, mind a kiindulási és tisztított adatsorok szabadon hozzáférhetők.

Látható tehát, hogy jelentős előmunkálatokat igényel egy ilyen elemzés az adatok megszerzésétől (elkunyerálásától) azok tisztításáig és strukturálásáig. Ezért lenne nagyon fontos, hogy minél több adatgazda nyisson adatainak nyílttá, szabadon hozzáférhetővé és felhasználhatóvá tétele felé, valamint hogy egyértelműen dokumentálja, mit nyújt a szolgáltatása és mit nem.