A nagyobb lapok után az Arcanum digitális tárház a falusi, kisvárosi újságok feldolgozására készül. Külföldön közben érdeklődnek a családi vállalkozás fejlesztése, az újságcikkeket körülhatároló intelligens rendszer iránt.
Ha valaki azt hinné, hogy csupán történészek vagy újságírók böngészgetnek régi újságokban, az nem gondol minden eshetőségre: sokan vannak, akik saját magukra vagy rokonaikra keresnek rá. Ezt tapasztalja Biszak Sándor, az Arcanum ügyvezető igazgatója. A nagy magyar sajtóarchívumban a többség egyébként is személynevekre keres rá – a keresések 80 százaléka ilyen –, ezen belül nyilván sokan személyes vagy családi ügyekben kutakodnak. Meglehet: a helyi lapokban olyan nevek is felbukkannak, amelyek az eddig feldolgozott országos vagy megyei lapokban nem.
Miután az országos és megyei napilapok nagy része már digitalizálva, kereshetően rendelkezésre áll, Biszak Sándor úgy véli: érdemes és lehet is „lejjebb szállni“. A kisvállalkozás most pályázatot írt ki „települési újságok digitalizálására“. Ha beszállítják a cég dél-budai irodájába a lapszámokat, akkor az oldalak digitalizálása a cég költségére megtörténik, és az önkormányzat vagy más laptulajdonos megkapja a maga példányát, kereshető pdf-formátumban.
Az első jelentkezések arra utalnak, hogy bejön a cég számítása: a pályázatot olvasva többeknek megindul az agyuk, máris akadt például olyan falu, ahonnan a református gyülekezet lapjával is jelentkeztek. Érkezett ajánlat amerikai magyar laptól is.
Október végéig lehet jelentkezni. Az Arcanumnál egyelőre nem is sejtik, hányan élnének a lehetőséggel, de a cég kapacitásain bizonyára nem fog múlni a munka elvégzése. Biszak Sándor szerint a települési lapok viszonylag ritkán, kis terjedelemben jelennek meg. Ő arra számít, hogy egy nagyobb szatyornyi anyagnál több nemigen fog érkezni egy-egy településről. Az Arcanum 50 millió újságoldalához képest a helyi lapoktól félmillió oldal már „nagyon nagy eredmény“ lenne.
A milliós számok láttán jogos a kérdés, hogy az Arcanum hol tart a digitalizálásban. Biszak Sándor szerint 80 százaléknál, és ez így is fog maradni, hiszen „mozgó célra lőnek“, nem is tudják, mi lenne a 100 százalék. Kérdés lehet az is, milyen lapok tartoznak a gyűjtés körébe (a keresztrejtvény-újságok például nem), és változik az is, hogy milyen kiadású lapokat szereznek meg. A helyi lapok után egy következő cél talán a szintén nehezen összeszedhető üzemi lapok digitalizálása lehetne.
Növeli a kört, hogy immár Romániából (leginkább az egykor Magyarországhoz tartozó részekről) is hozzájutnak magyar lapokhoz. Az ilyen újdonságok közé tartozik a Szamos című szatmárnémeti lap vagy az 1939–1940 közötti Aréna sportújság. A romániai együttműködéshez tartozik még, hogy az Arcanum román lapokat is kutathatóvá tesz: több mint ötmillió román nyelvű újságoldal található az Arcanum román részében.
Az Arcanum körüli hírekhez tartozott, hogy 2020-ban az állam nem támogatta tovább az előfizetést egyetemeknek, kutatóintézeteknek, könyvtáraknak. Az Elektronikus Információszolgáltatás Nemzeti Program (EISZ) addig három éven át járult hozzá az Arcanum Digitális Tudománytár (ADT) eléréséhez. Ma már látni, hogy a kezdeti finanszírozás után az intézmények nyilván annyira fontosnak találták az archívumot, hogy túlnyomó többségük a saját pénzéből folytatta és folytatja az előfizetést. Végső soron Biszak Sándor sikerként értékeli, hogy „alig vagy talán nem is vesztettünk előfizetőt“.
Az Arcanum tavalyelőtt azzal keltett feltűnést, hogy – ma már mondani sem kell, hogy mesterséges intelligencia (MI) segítségével – lehetővé tette a célzottabb keresést, vagyis ki lehetett szűrni a szövegből a személyneveket, évszámokat, intézményneveket. Ez be is vált, és különösen hasznosnak tűnik az arckeresés. „Olyan információkat lehet megtalálni, amit szöveges kereséssel egyáltalán nem. Nagyon sokan használják ezt például a nyolcvanas–kilencvenes évek parlamenti fotóinál a szereplők azonosításához, vagy a filmintézetben megállítják a filmet, a színész arcképét betöltik az adatbázisba, és szinte mindig találnak olyan cikket a Színházi életben vagy máshol, amelyből kiderül, hogy hívták a művészt“ – hoz példákat Biszak Sándor, hozzátéve, hogy az ismert nagyobb külföldi sajtóarchívumoknál nincs hasonló lehetőség.
Már az egyik legnagyobb digitális hírlapgyűjtemény – az USA-ban működő, 300 millió oldalas newspaperarchive.com – is érdeklődik az Arcanum egy új fejlesztése, az újságszegmentálás (newspaper segmentation), az újságcikkek körülhatárolása iránt. Ezt a feladatot is MI segítségével oldják meg. Bár a laikus aligha gondolna erre, nem magától értetődő, hogy a beszkennelt oldalakon a keresőgép meg tudja állapítani, melyik szó melyik cikkben szerepel. Pedig „például ha két szó ugyanabban a cikkben van, akkor a találat nyilván relevánsabb, mint ha a véletlenül egy oldalra kerülő szavakról lenne szó“. Hozzá tartozik ehhez a válogatáshoz továbbá, hogy az MI a szövegen belül megtalálja a címeket, a szerző nevét, a képaláírásokat – ez sokaknak megkönnyíti a célzott keresést.
A sokféle tördelés miatt ezt gyakorlatilag lehetetlen beprogramozni, ezt csak az MI tudja megoldani, kellő betanulás és gyakorlás után. A szoftver ráadásul bármilyen (akár nem latin betűs) újságoldalakon is elég jó arányban felismeri a cikkek elemeit. Miután ilyen kéréseket kaptak, az Arcanumnál sikerrel próbálkoztak már indiai és héber újságoldalak szegmentálásával is.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.
HVG