A Petőfi Irodalmi Múzeum személynév állományának egységesítése és szűrése
Hozzájárulás az NDA névtér projectjéhez
Networkshop 2008
Dunaújváros
Kómár Éva – Lengyel Mónika – Simon András
A Petőfi Irodalmi Múzeum szolgáltatásai
Életrajzi típusú adatbázisok – történetük, gyűjtőkörük
A HunTéka múzeumi alkalmazása
Névállomány szűrése és egységesítésének problematikája
Az egységesítés elméleti előkészítése
Az egységesítés végrehajtása – authority controll Miről lesz szó?
Networkshop – 2008 Dunaújváros
A Múzeum
Gyűjtőköre
Magyar irodalom tárgyi, képi, kéziratos, nyomtatott és hangzó dokumentumainak gyűjtése
Feladata
A muzeológiai forrásanyag felkutatása, gyűjtése, őrzése, feldolgozása, szolgáltatása és bemutatása kiállításokon
Háttérkutatások
A gyűjteményi feldolgozáson és szolgáltatáson túlmutató tudományos feltáró munka eredménye az alapkutatási adatbázisok
A Petőfi Irodalmi Múzeum szolgáltatásai
Networkshop – 2008 Dunaújváros
Magyar életrajzi index
Magyar emigráns írók és műveik
Magyar írók sírjai
Francia becsületrend magyar kitüntetettjei
Diplomások adattára
Kortárs magyar írók adattára
Magyar főnemesség genealógiája
Magyar családtörténeti adattár
Díjak és díjazottak
Életrajzi típusú adatbázisok – történetük, gyűjtőkörük 1.
Networkshop – 2008 Dunaújváros
Magyar életrajzi index
Networkshop – 2008 Dunaújváros
Életrajzi típusú adatbázisok – történetük, gyűjtőkörük 2.
Magyar emigráns írók és műveik
Networkshop – 2008 Dunaújváros
Életrajzi típusú adatbázisok – történetük, gyűjtőkörük 3.
Magyar családtörténeti adattár
Networkshop – 2008 Dunaújváros
Életrajzi típusú adatbázisok – történetük, gyűjtőkörük 4.
Az átállás indokai
Elavult technológia: Access
Az adatbázisok elszigeteltségének megszüntetése
Konklúzió
Egységes múzeumi és könyvtári integrált rendszer létrehozása, bevezetése
Networkshop – 2008 Dunaújváros
A HunTéka múzeumi alkalmazása 1.
Access – HunTéka konverzió specifikálása
HunMARC megfeleltetés
Szabványos elemeknél részletesebb adatkör
900-as mezőtartomány felhasználása A HunTéka múzeumi alkalmazása 2.
Networkshop – 2008 Dunaújváros
A HunTéka múzeumi alkalmazása 3.
Példák
Networkshop – 2008 Dunaújváros
A HunTéka múzeumi alkalmazása 4.
900-as mezőtartomány felhasználása
Networkshop – 2008 Dunaújváros
Névállomány szűrése és egységesítésének problematikája 1.
Több mint 600.000 név besorolási rekord
A különböző forrásokból érkező eltérő tartalmú rekordok egyaránt megtartandó adatokat
hordoznak
Egyes esetekben a megkülönböztetést szolgáló kiegészítő adatelemek a redundanciát növelik
Networkshop – 2008 Dunaújváros
Névállomány szűrése és egységesítésének problematikája 2.
Technikailag
háromféleképpen kerülhetett név az authorithy állományba:
Az életrajzi tömbből
A múzeum bibliográfiai adatbázisai felől, ha annak struktúrája miatt törzsadatként kellett kezelni
A bibliográfiai rekordok felől – újként
Networkshop – 2008 Dunaújváros
Névállomány szűrése és egységesítésének problematikája 3.
Névállomány szűrése és egységesítésének problematikája 4.
A személynév besorolási rekordok alapfunkciói:
A személy kizárólagos azonosítása
Személy kereshetősége
Szabványosság
Ellenőrzés biztosítása
Networkshop – 2008 Dunaújváros
Egységesítés elméleti alapjai
Eminens rekord fogalma:
Ugyanazon természetes személyt leíró rekordok közül a hitelesnek elfogadott
Alapmezők és járulékos mezők:
alapmező: név és születési dátum (100$a$j$d)
járulékos mező: további besorolási és kapcsolódó bibliográfiai adatok (6xx, 9xx)
Networkshop – 2008 Dunaújváros
Normalizált alakok előállítása:
Keresztnevek (helyesírás, gépelési hibák)
eltérő írásmódok kiküszöbölése
dátum értékek ellenőrzése
Networkshop – 2008 Dunaújváros
Előmunkálatok
Rekordok értékelése
év szerint
1: Arany Bálint 1854-1943
2: Nagy József 1965-
3: Schőner Dezső -1945
4: Szabó Ödön -198?
5: Frankenburg Adolf 1911-1884
járulékos mezőkkel való kitöltöttség és adathelyesség szerint
Networkshop – 2008 Dunaújváros
Egyesítés - behasonlítás
Azonos rekordok kiválasztása:
Varga | Jenő | 1878- | 1878 | | PPT Varga | Jenő | 1879-1964 | 1879 | 1964 | KAU Varga | Jenő | 1879-1964 | 1879 | 1964 | INT Varga | Jenő | 1879-1964 | 1879 | 1964 | INE Varga | Jenő | 1879-1964.| 1879 | 1964 | LNT Varga | Jenő | 1880- | 1880 | | PPT Varga | Jenő | 1882- | 1882 | | PPT Varga | Jenő | 1882- | 1882 | | PPT Varga | Jenő | 1883-1964 | 1883 | 1964 | INT Varga | Jenő | 1893. k. -| 1893 | | INT Varga | Jenő | 1895-1965 | 1895 | 1965 | INT Varga | Jenő | 1910- | 1910 | | PPT Varga | Jenő | 1941-1999 | 1941 | 1999 | INT Varga | Jenő | -1971 | | 1971 | INE Varga | Jenő | 1974- | 1974 | | PPT Varga | Jenő | -1986 | | 1986 | INE Varga | Jenő | -1989 | | 1989 | INE Networkshop – 2008 Dunaújváros
Egyesítés – kiegészítő tartalom – „határok”
Járulékos mezők, és adathelyesség
090 __ a PPT 090 __ a INE 100 __ a Varga 100 __ a Varga
j Jenő j Jenő
d 1910- d -1989
900 __ a 1910. 667 __ a gépészmérnök 902 __ a Fiume 905 __ a 1989. I. 19 924 __ a 1933 906 __ a Bp.?
o diploma éve 909 __ a 79
925 __ a JME 943 __ a MN 1989. febr. 16 926 __ a Gépészmérnök
Networkshop – 2008 Dunaújváros
Eminens rekordok megjelölése 1.
Osztályozás [1..5]
Forrás adatbázisok prioritás listája alapján
A 6xx, 9xx mezőkkel gazdagabban kitöltött
Sorrendben előbb lévő
Időanomália kezelése
Networkshop – 2008 Dunaújváros
Eminens rekordok megjelölése 2.
Mechanikus szűrés
Tökéletes egyezés esetén
Intelligens szűrés
Kapcsolódó művek kiadási dátuma
Névadatbázison belüli utalók (400, 500) alapján
Networkshop – 2008 Dunaújváros
Besorolási rekordok fizikai összeolvasztása
Automatizálható folyamatok
A járulékos mezők meghatározott algoritmus szerinti felül-, illetve melléírása
Ismétlődő tartalmak szelektálása
Bibliográfiai rekordkapcsolatok összevonása
Kézi beavatkozást igénylő munka
Családfa adatbázisokból származó rekordok
Networkshop – 2008 Dunaújváros
Összegzés
A célkitűzés és megvalósulása
NEM az emberi munka teljes kizárása
A szellemi munka folyamatának gépi egységekre bontása
A 600.000 átfésülendő rekord néhány ezerre való lecsökkentése
Networkshop – 2008 Dunaújváros