Oddano: 9. 2. 2010 - Sprejeto: 17. 3. 2010
Kratki znanstveni prispevek
UDK 021.84:004.738.5(497.12)
Izvlecek
Zbiranje in zajemanje slovenskih spletnih publikacij poteka v skladu z Zakonom o obveznem izvodu publikacij, Zakonom o spremembah in dopolnitvah Zakona o obveznem izvodu publikacij in Pravilnikom o vrstah in izboru elektronskih publikacij za obvezni izvod. V prispevku so predstavljene aktivnosti, ki jih je Narodna in univerzitetna knjiznica (NUK) izvajala na podrocju zbiranja obveznega izvoda spletnih publikacij od leta 2006, ko se je zacel uporabljati Zakon o obveznem izvodu publikacij. Ta opredeljuje dva koncepta zbiranja spletnih publikacij. NUK lahko prosto dostopne spletne publikacije isce in pridobiva sam, obenem pa mora omogociti zavezancem za obvezni izvod elektronsko oddajo njihovega gradiva. Koncepta se sicer delno prekrivata, vendar se bistveno razlikujeta glede postopkov pridobivanja, hranjenja in uporabe publikacij, saj zakon kot publikacije opredeljuje tudi celotne spletne strani, ki jih NUK zajema z avtomatiziranimi postopki.
Kljucne besede: obvezni izvod, spletne publikacije, Slovenija
Short scientific article
UDC 021.84:004.738.5(497.12)
Abstract
The Slovenian web publications are collected in accordance with the Legal Deposit Act, Act amending the Legal Deposit Act, and Regulations on Type and Selection Criteria for Legal Deposit of Electronic Publications. Since the adoption of Legal Deposit Act in 2006, the National and University Library (NUL) has carried out a range of activities in the field of collecting legal deposit of web publications. Two different concepts of web publications acquisition are defined by The Legal Deposit Act. NUL can search for and collect freely accessible web publications but must also provide an electronic means of depositing web publications for the publishers and intellectual rights owners. The two concepts overlap to some extent, however, as web sites are also treated as publications, and are, therefore, harvested by NUL, there exist some fundamental differences in terms of acquisition, preservation and usage of different types of web publications.
Key words: legal deposit, web publications, Slovenia
1 Uvod
Zbiranje obveznega izvoda ima v Evropi ze vecstoletno tradicijo in tudi v Sloveniji smo ze pred tremi leti praznovali 200-letnico tega pomembnega instituta za ohranjanje slovenske pisne kulturne dediscine. Z razvojem novih nosilcev informacij, ki niso vec v fizicni obliki, se je pri zbiranju obveznega izvoda izgubljal pomemben del pisne kulturne dediscine (Kavcic - Colic, 2007; Kodric, 2006).
Zakon o obveznem izvodu publikacij, ki se je zacel uporabljati leta 2006, je v Sloveniji prvic omogocil zbiranje obveznega izvoda spletnih publikacij. Pogoji in osnove za sprejem zakonodaje na tem podrocju v Sloveniji in tujini so ze bili predstavljeni (Kavcic - Colic et al. 2004; Kavcic - Colic, 2007; Kodric - Dacic, 2006; Sesek, 2006). Obvezni izvod spletnih publikacij prinasa stevilne nove vidike, ki jih pri zbiranju obveznega izvoda tiskanih publikacij ni bilo, in nove poglede ter razseznosti pri znanih vprasanjih: vecjo vpletenost zaloznikov pri zbiranju obveznega izvoda, teritorialnost (kraj izdaje), elektronski dostop za uporabnike, upravljanje z digitalnimi pravicami, digitalno ohranjanje in zascita podatkov (Gibby in Green, 2008).
2 Zakonske dolocbe
Zakon o obveznem izvodu publikacij doloca, da so elektronske publikacije »elektronske knjige, elektronski casopisi in casniki, spletne strani in podobno, ki so objavljene na fizicnih nosilcih (npr. na magnetnih trakovih, kasetah, disketah, CD-romih ipd.) ali so dostopne na racunalniskih omrezjih ali svetovnem spletu«, in nadalje, da so spletne publikacije »elektronske knjige, elektronski casopisi in casniki, dostopni po spletu, ter spletne strani in podobno« (Zakon, 2006, 2. clen).
V primerjavi z nekaterimi drugimi evropskimi drzavami (npr. Velika Britanija) (Gibby in Green, 2008) je NUK ze pred sprejemom Zakona o obveznem izvodu publikacij zbiral elektronske publikacije na fizicnih nosilcih. Zakon o obveznem posiljanju tiskov iz leta 1972 je v 3. clenu dolocal: »S tiskom so po tem zakonu misljene vse publikacije (knjige, brosure, separati, muzikalije, revije, casniki, zemljevidi, atlanti vseh vrst, umetniske reprodukcije, katalogi, programi, razglednice ipd.), kakor tudi gramofonske plosce, glasbene razglednice, tonske kasete ter videokasete in podobno, ki so namenjene za razsirjanje oziroma za prodajo.« Leta 1994 je bil sprejet Zakon o pogojih za opravljanje reproduktivne video in avdio dejavnosti, ki je v drugem odstavku 4. clena dolocal: »Fizicna ali pravna oseba, ki razmnozuje videogram oziroma fonogram, namenjen trzenju, dajanju v najem, javnemu predvajanju ali drugi obliki posredovanja, mora v 15 dneh po koncanem razmnozevanju en izvod videograma oziroma fonograma skupaj z dokumentacijo iz prvega odstavka 2. clena tega zakona poslati Narodni in univerzitetni knjiznici v Ljubljani.« Na podlagi obeh zakonov se je v Sloveniji z razvojem elektronskih publikacij na fizicnih nosilcih kontinuirano zbiral tudi obvezni izvod tega gradiva, niso pa se zbirale spletne publikacije.
Zbiranje obveznega izvoda spletnih publikacij je v Zakonu o obveznem izvodu publikacij (2006) posebej opredeljeno v dveh clenih. Zakon doloca, da morajo biti spletne publikacije predlozene brez elektronske zascite dostopa, ali pa morajo zavezanci zagotoviti geslo za prevzem. Na ta nacin je zagotovljeno prevzemanje in trajno ohranjanje spletnih publikacij v NUK. Zakon zagotavlja tudi varovanje avtorskih pravic zaloznikov, saj je dostop zascitenih publikacij za koncne uporabnike omogocen v skladu z dogovorom med NUK in zaloznikom. Vsekakor mora biti uporaba obveznega izvoda omogocena vsaj v prostorih NUK ali za studijske in raziskovalne namene (7. clen). Zakon je za zajemanje obveznega izvoda spletnih publikacij predpisal sprejem Pravilnika o vrstah in izboru elektronskih publikacij za obvezni izvod, zagotavlja pa tudi zajemanje razlicic ali novih izdaj (17. clen).
V posameznih clenih so v nekaterih tockah spletne publikacije navedene kot izjeme: oddati je potrebno samo en izvod, kolofon je obvezni del spletne publikacije, a vsebuje samo tiste podatke, ki so znacilni za medij ter podatek o spletni lokaciji. NUK »poisce obvezni izvod elektronskih publikacij s postopki iskanja po spletu«, oziroma jih posreduje zavezanec sam. Zascitene spletne publikacije posreduje zavezanec z geslom v 15 dneh po objavi na spletu. Pri prevzemu zascitenih publikacij NUK obvesti zavezanca o datumu prevzema posamezne spletne publikacije. NUK je odgovoren za zakonito uporabo in varovanje spletnih publikacij pred zlorabo. Ce zaradi tehnoloske zastarelosti NUK ne more zagotoviti dostopa v skladu z zakonom, pa zakon omogoca, da NUK trajno ohrani vsebino s prenosom na nadomestni medij. Pri prenosu zakon dovoljuje tudi tehnicne spremembe z namenom zagotavljanja dostopa ali hranjenja. Ce ni mogoce ohraniti prvotne informacijske, slikovne in slisne vsebine, ali ce je publikacija unicena ali zastarela, jo NUK lahko izloci iz zbirke.
V treh letih od zacetka uporabe Zakona o obveznem izvodu publikacij se je pri zbiranju publikacij izkazalo, da prvotna definicija ni najbolje dolocala spletnih publikacij, ki se pojavljajo v praksi, zato je v Zakonu o spremembah in dopolnitvah Zakona o obveznem izvodu publikacij (2009, 2. clen) nova definicija: »Spletne publikacije so vse elektronske publikacije, ki so dostopne preko spleta, in so lahko v besedilni, avdio ali video obliki ali so kombinacija nastetih oblik, vkljucno s spletnimi stranmi in podobno.«
Takoj po zacetku uporabe zakona je NUK najprej pripravil Pravilnik o vrstah in izboru elektronskih publikacij za obvezni izvod, ki je bil sprejet leta 2007. Nato je razvil tehnicno infrastrukturo, ki je potrebna za delovanje sistema zbiranja spletnih publikacij: portal za oddajo publikacij in program za avtomatsko zajemanje. Dejansko zbiranje obveznega izvoda spletnih publikacij se je zacelo sele leta 2008.
Na podlagi tradicije zbiranja obveznega izvoda tiskanih publikacij so bile meje zbiranja obveznega izvoda elektronskih publikacij v svetu in v Sloveniji postavljene zelo na siroko. Zaradi zahtevnosti zbiranja pa so potrebni drugacni in ozji kriteriji. Vendar so v elektronskem okolju meje med znanimi vrstami gradiva vedno bolj zabrisane, poleg tega pa se stalno pojavljajo tudi vedno novi formati. Zato zakon ne doloca podrobneje spletnih publikacij, ki jih NUK zbira kot obvezni izvod. Pravilnik o vrstah in izboru elektronskih publikacij (2007) za obvezni izvod navaja tri splosne in pet posebnih kriterijev. Splosni kriteriji ostajajo enaki kot pri dosedanjem zbiranju obveznega izvoda na fizicnih nosilcih: dela slovenskih avtorjev, dela v slovenskem jeziku in dela o Sloveniji. Posebni kriteriji so doloceni glede na znacilnosti spletnih publikacij in se nanasajo na vsebino, odgovornost, strukturo publikacije, domeno in format podatkov. Zbiranje elektronskih publikacij je v treh letih potekalo selektivno zaradi kadrovskih omejitev (za zbiranje in zajemanje je v NUK zaposlen en delavec, ki skrbi za administriranje portala Svarog in upravljanje programa za avtomatsko zajemanje spletnih strani) ter zaradi ogromne kolicine publikacij v spletnem okolju, ki jih nobena nacionalna knjiznica ne more shraniti v celoti.
Z vidika prostega dostopa do vseh zajetih vsebin, so nekateri avtorji opozorili, da se na spletu pojavljajo tudi sporne, zelo obcutljive, osebne (vprasanje varo vanja osebnih podatkov) in celo nezakonite vsebine (teroristicne vsebine, nespodobne ali opolzke publikacije). S povsem avtomatiziranim zajemom, kjer so moznosti pregledovanja pred zajemom zelo majhne, bi morda nehote zajemali tudi vse taksne publikacije. Z omejitvijo dostopa bi lahko ublazili tveganje glede hranjenja in omogocanja prostega dostopa do taksnih vsebin, ki bi bilo lahko za depozitno knjiznico zakonsko sporno. Na to sta opozorili tudi dve studiji. Prvo je leta 2003 izdelal Andrew Charlesworth za Joint Information Systems Committee and the Welcome Trust, drugo pa sta opravila Beunen and Schiphof leta 2006 za Koninklijke Bibliotheek v Hagu (Gibby in Green, 2008). V Sloveniji taksnih vsebin se nismo zajemali in tudi nismo dolocili posebnih kriterijev, s katerimi bi jih iz zajema izlocili. Zanimivo pa je, da pri resevanju razlicnih pravnih vprasanj s podrocja zajemanja spletnih publikacij opozarjajo tudi na ta vidik.
3 Sodelovanje med zalozniki in knjiznicami
Uspesna oddaja obveznega izvoda je bila vedno odvisna tudi od dobrega sodelovanja med depozitnimi knjiznicami in zavezanci (zalozniki ali tiskarji), ceprav je oddaja dolocena z zakonom. Pri zbiranju obveznega izvoda spletnih publikacij pa so zalozniki se posebej zaskrbljeni in nezaupljivi. Ze leta 1997 je bila ustanovljena skupna delovna skupina, sestavljena iz clanov nekaterih evropskih nacionalnih knjiznic in predstavnikov evropskih zaloznikov (Sesek, 2006).
Kot sta zapisala Gibby in Green (2008), imajo tiskane publikacije zaradi znacilnosti medija ze po svoji naravi dolocene omejitve pri uporabi. Spletne publikacije pa omogocajo na eni strani zelo hitro in enostavno distribucijo, na drugi strani pa je dosti tezje preprecevanje nedovoljenega kopiranja. Zato zalozniki po vsem svetu zahtevajo vsaj upostevanje omejitev in izjem v 10. clenu Pogodbe svetovne organizacije za intelektualno lastnino o avtorski pravici iz leta 1996:
»(1) Pogodbenice lahko v svoji domaci zakonodaji predvidijo omejitve ali izjeme glede pravic, ki jih avtorjem knjizevnih in umetniskih del daje ta pogodba, v nekaterih posebnih primerih, ki niso v nasprotju z obicajno uporabo dela in pretirano ne posegajo v zakonite interese avtorja. (2) Pogodbenice morajo pri uporabi Bernske konvencije skrciti vse omejitve ali izjeme od pravic, ki so dolocene v njej, na nekatere posebne primere, ki niso v nasprotju z obicajno uporabo dela in pretirano ne posegajo v zakonite interese avtorja.« (Zakon , 1999).
Leta 2009 je mednarodna bibliotekarska organizacija (International Federation of Library Associations and Institutions - IFLA) v sodelovanju z mednarodnimi organizacijami avtorjev (European Writers' Council - EWC), zaloznikov (Inter- national Publishers Association - IPA), organizacijo za varstvo intelektualne lastnine (World Intellectual Property Organization - WIPO) in zvezo za reproduktivne pravice (International Federation of Reproduction Rights Organisations - IFRRO) pred knjiznim sejmom v Frankfurtu organizirala enodnevno konferenco z naslovom The Culture of Reading and Books in the Digital Age. Prvic so se skupaj srecali vsi kljucni predstavniki navedenih organizacij in prav vsi so izrazili veliko zadovoljstvo, da je do srecanja prislo. Kljub razlicnim pogledom zaradi posameznih interesov je bila izmenjava mnenj za vse zelo koristna. Vsi so pripravljeni na nadaljnje sodelovanje in iskanje resitev za trenutno najpomembnejsa vprasanja na podrocju digitalizacije gradiva in prostega dostopa. Organizatorji so obljubili, da bodo predstavitve in nadaljnje sodelovanje predstavljene na spletni strani IFLA, a do danes zal razen najave konference se niso bile objavljene nobene druge informacije (Enhancing, 2009).
S strani knjiznic so predavatelji predvsem opozarjali, da so nacionalne knjiznice zadnji braniki nacionalne kulturne dediscine, vendar lahko trenutno brez zakonskih omejitev digitalizirajo le gradivo do leta 1890. Knjiznice so bile predstavljene kot trzisce, ustvarjalke bralcev in varuhi intelektualne lastnine. Zato je nujno zagotoviti vec pravic uporabnikov in omogociti dostop do znanja. Za knjiznice morajo tudi v digitalnem okolju veljati izjeme in omejitve pri ohranjanju gradiva, pri raziskovalnem in studijskem delu, za splosno in brezplacno uporabo v skladu s posteno poslovno prakso ter za zagotavljanje dosegljivih formatov. Se posebej je taksna izjema potrebna pri zagotavljanju konverzije v posebne formate za potrebe uporabnikov s posebnimi potrebami. Za izboljsanje bralne kulture je potrebno prepoznavanje kompleksnosti knjiznic in pomembnejsa vloga knjiznic v nacionalnih informacijskih politikah.
Sodelovanje med NUK in slovenskimi zalozniki spletnih publikacij poteka ze od zacetka zajemanja spleta. Kljub sprejetemu Kodeksu prakse prostovoljnega depozita (Sesek, 2006), se je zbiranje v praksi zacelo sele, ko so bili zagotovljeni vsi tehnicni pogoji in zakonske osnove. Zavezanci za obvezni izvod slovenskih spletnih publikacij so vkljuceni v proces oddaje gradiva in samostojno odlocajo o moznostih dostopa.
4 Zajemanje in arhiviranje vsebin na spletu
Svetovni splet je prostor, na katerem se ze od samega zacetka pojavljajo najrazlicnejse publikacije iz vseh podrocij clovekovega ustvarjanja, tako znanstvenoraziskovalnega kot kulturno-umetniskega. Splet pa je se veliko vec, je prostor komunikacije, izmenjave informacij in znanja, povezovanja ter vzpostavljanja najrazlicnejsih odnosov med posamezniki ali skupinami posameznikov. Kot tak predstavlja virtualizacijo cloveske druzbe v vseh njenih odtenkih in subtilnostih.
Ko govorimo o nacionalni ali svetovni kulturni dediscini ne moremo vec izkljuciti tega obseznega in kompleksnega prostora, ki je pri produkciji in pretoku znanja danes ze v precejsnji meri nadomestil klasicne mehanizme in poti. S stalisca bibliotekarske stroke se kulturne dediscine lotevamo predvsem z vidika trajnega hranjenja in trajnega omogocanja uporabe, zato smo se v knjiznicah morali soociti tudi z izzivi ohranjanja spletnih strani, tako njihove vsebine kot tudi specificne strukture, ki je ze sama po sebi vredna ohranitve za prihodnje rodove. Zajemanje in arhiviranje vsebin na spletu sta dejavnosti, ki ju na podlagi teh temeljev izvajajo predvsem nacionalne ali regionalne knjiznice in sta v skladu z njihovim poslanstvom logicna nadgradnja zbiranja, obdelave, hranjenja in dajanja v uporabo klasicnih publikacij na fizicnih nosilcih.
Pri zajemanju in arhiviranju spletnih vsebin gre za sistematicno in delno avtomatizirano shranjevanje ter arhiviranje spletnih mest. Postopek poteka s pomocjo robotskih programov za samodejno zajemanje (ang. web harvesters), ki so podobni spletnim pajkom, ki jih uporabljajo spletni iskalniki za preiskovanje in indeksacijo spleta. Bistvena razlika med obema postopkoma je, da programi, ki zajemajo spletne strani, te tudi shranjujejo. Zajete spletne strani so tako na voljo za kasnejse pregledovanje.
Spletisca so praviloma zajeta v celoti, z vsemi pripadajocimi datotekami, prav tako se ohrani njihova struktura. Vsak zajem je mozno omejiti glede na globino. Lahko zajamemo le posnetek prve strani spletisca ali pa posezemo globlje do druge, tretje ali do najgloblje ravni. Prav tako lahko omejimo ali raztegnemo zajem glede na sirino. Zajamemo lahko le strani in pripadajoce datoteke na eni domeni ali pa razsirimo zajem na nekatere zunanje povezave, ki so vsebinsko povezane z osnovno stranjo.
Na splosno locimo dva pristopa k zajemanju - selektivnega in celostnega. Pri prvem zajemamo posamezna spletna mesta, ki smo jih izbrali na podlagi nekih kriterijev. Na ta nacin skusamo zajeti spletna mesta cim bolj globoko in jih ohraniti cim bolj podobna originalnim, zivim izvirnikom. Selektivno zajemanje nam omogoca preverjanje kakovosti posameznih zajemov in popravljanje morebitnih napak (nedelujoce povezave, nepopolni zajemi itd). Ta nacin nam omogoca tudi zbiranje vecje kolicine metapodatkov o posamezni strani. Vsako stran zajemamo z neko frekvenco, ki je odvisna od ocene pogostosti spreminjanja strani, velikosti strani in od kapacitete strojne opreme, ki jo uporabljamo. Slabost pristopa je predvsem casovna zamudnost in potratna uporaba programskih ter pomnilniskih kapacitet. Poleg tega so tako zajete spletne strani izvzete iz konteksta sirsega spleta, saj zunanje povezave ne delujejo. Ker je bistvena znacilnost svetovnega spleta ravno medsebojna povezanost spletnih strani, tako zajeta stran do neke mere izgubi svojo izvorno funkcionalnost.
Pri celostnih zajemih gre obicajno za zajemanje celotnih nacionalnih domen ali podobno velikih kosov spleta. Pri tem nacinu obicajno zajemamo na bolj povrsinski ravni in tako dobimo posnetek spleta v nekem trenutku. Prednost tovrstnih zajemov je ohranitev znacilnosti spleta, torej spletnih strani, ki so med seboj povezane, poglavitna slabost pa je izguba velike kolicine informacij, ki so na globljih ravneh spleta. Poleg tega je frekvenca izvedb tovrstnih zajemov precej nizja od tiste, ki jo omogoca selektivni pristop (najvec nekajkrat letno). Pomanjkljivost predstavlja tudi skoraj popolna odsotnost preverjanja kakovosti, saj je kolicina zajetega gradiva prevelika za rocno pregledovanje.
Zaradi razlicnih prednosti in slabosti obeh pristopov se mnoge institucije odlocajo za kombinacijo obeh. V zadnjih letih smo prica tudi brisanju meje med obema pristopoma. Celostni zajemi zaradi vedno vecjih kapacitet strojne opreme lahko posezejo globlje in pridobijo vecje kolicine gradiva, ob enem pa se razvijajo novi postopki avtomatiziranega preverjanja kakovosti zajemov. Zaradi vedno naprednejsih aplikacij za delo s programi za samodejni zajem je selektivno zajemanje postalo preprostejse, bolj avtomatizirano in zahteva manj rocnega posredovanja.
Z arhiviranjem vsebin na spletu se pretezno ukvarjajo nacionalne ali vecje regionalne knjiznice. Veliko, med njimi tudi NUK, jih je zdruzenih v mednarodnem konzorciju za ohranjanje spleta (International Internet Preservation Consortium - IIPC, 2010), ki zdruzuje 39 institucij z vsega sveta in podpira dejavnost arhiviranja spletnih vsebin ter razvoj razlicnih orodij za zajemanje, shranjevanje in uporabo arhiviranih spletnih strani. Ena od bolj pomembnih clanic je The Internet Archive (2010) - spletni arhiv, ki od leta 1996 deluje v San Franciscu, kot poslanstvo pa si je zadal gradnjo arhiva celotnega svetovnega spleta ali vsaj cim vecjega dela. Internet Archive je znan po izdelkih, kot je Wayback Machine (vmesnik za pregledovanje arhiviranih spletnih strani), zelo razsirjena pa je tudi uporaba njihovega programa za zajemanje Heritrix.
V NUK smo s sistematicnim zajemanjem slovenskih spletnih strani zaceli leta 2008, ceprav zacetki raziskovalne dejavnosti s tega podrocja segajo v leto 2002, ko je NUK v sodelovanju z Institutom Jozef Stefan izpeljal ciljni razvojni projekt Metodologija zbiranja in arhiviranja slovenskih elektronskih publikacij na medmrezju (Kodric - Dacic, 2006). Rezultati projekta so bile predvsem metodoloske osnove in strokovna izhodisca za zajemanje spletnih publikacij, pridobili pa smo tudi nekaj prakticnih izkusenj. Sele na podlagi novega Zakona o obveznem izvodu publikacij (2006) je postalo zajemanje spletnih vsebin del rednih nalog NUK.
V NUK trenutno izvajamo selektivno zajemanje v skladu s Pravilnikom o vrstah in izboru elektronskih publikacij za obvezni izvod. Kriteriji za izbiro so v pravilniku opredeljeni precej ohlapno in tako omogocajo zajemanje precejsnjega dela slovenskega spleta brez posebnega dovoljenja izdelovalcev spletnih strani. Vsaka zajeta spletna stran mora ustrezati vsaj enemu splosnemu in enemu posebnemu kriteriju iz pravilnika. Za zacetek smo se lotili zajemanja spletnih strani s podrocja javne uprave, visokega solstva, spletnih strani raziskovalnih institucij in spletnih revij.
Za zajemanje uporabljamo Heritrix, zelo razsirjeno in uveljavljeno orodje za zajemanje spletnih strani, kot vmesnik za delo s programom pa orodje Web Curator Tool (WCT), ki sta ga leta 2006 pod okriljem IIPC zasnovali Nacionalna knjiznica Nove Zelandije in Britanska nacionalna knjiznica. Bistvena prednost uporabe WCT je preprosto rokovanje s programom za zajemanje, ki od uporabnika ne zahteva poglobljenega tehnicnega znanja, na drugi strani pa naprednemu uporabniku omogoca zelo natancno prilagajanje nastavitev (Paynter et al., 2008). Uporaba vmesnika se v zadnjih letih povecuje in je v marsikateri instituciji nadomestila tudi lastne resitve, ki terjajo bistveno vec znanja in casa. Ker so zajete vsebine shranjene v posebnem arhivskem formatu, jih ni mozno prikazati v obicajnem spletnem brskalniku, pac pa za prikaz potrebujemo vmesnik, ki omogoci pregledovanje gradiva v obliki, ki smo je vajeni pri uporabi zivih spletnih strani. Za prikaz zajetih vsebin uporabljamo Wayback Machine, ki je zaradi svoje prepoznavnosti postal skoraj sinonim za Internet Archive in omogoca brskanje po spletnem arhivu ter prikaz zajetih spletnih strani v obicajnem spletnem brskalniku.
Vsako spletno stran pred zajemom ocenimo glede na njene tehnicne, strukturne in oblikovne znacilnosti. Sledi vnos spletne strani (tarce) v vmesnik WCT. Vsako tarco lahko sestavlja eden ali vec URL-jev. Dolocimo tudi frekvenco zajemanja. Tarco lahko zajemamo v casovno zamejenem ali neomejenem obdobju, zajemi pa se lahko vrsijo v enakih intervalih ali le ob tocno dolocenih datumih. Vmesnik omogoca tudi vnasanje nekaterih formalnih in vsebinskih podatkov o tarci v formatu Dublin Core, tehnicni metapodatki pa se samodejno belezijo tekom zajema.
Za vecino spletnih strani ustreza osnovni profil nastavitev, medtem ko je v nekaterih primerih potrebno s podrobnejsim rocnim nastavljanjem programa zagotoviti pravilen zajem. Na voljo imamo veliko moznosti, ki omogocajo zelo natancno nastavitev. Globino zajema lahko dolocimo z omejitvijo stevila povezav, ki vodijo od osnovne strani, ali z omejitvijo stevila podmap, ki vodijo od osnovne domene. Zajem lahko omejimo tudi z dolocitvijo maksimalnega stevila zajetih datotek ali skupne zgornje meje velikosti zajema v bajtih. Dolocimo lahko maksimalno trajanje zajema v sekundah, iz zajema pa lahko izlocimo katerekoli tipe datotek.
Ker lahko zajem obremeni internetno povezavo gostitelja spletne strani in tako otezi dostop drugim uporabnikom, moramo upostevati dolocene omejitve glede intenzivnosti postopka. Heritrix ze v osnovi ne more procesirati vec kot enega URL-ja naenkrat. Poleg tega je poskrbljeno tudi za zakasnitev pri prehodu iz za- kljucenega URL-ja na naslednjega. Dolocimo lahko tudi omejitev pasovne sirine, ki jo lahko uporablja program za zajemanje, in se tako izognemo preveliki obremenitvi spletnih strani, ki imajo na voljo pocasnejso povezavo.
Do neke mere lahko delovanje razlicnih programov, ki z avtomatiziranimi postopki preiskujejo, belezijo ali zajemajo spletne vsebine, omejijo tudi sami izdelovalci spletnih strani. Za ta namen uporabljajo datoteko robots.txt, ki je obicajno v osnovnem direktoriju strani in vsebuje njihova pravila glede moznosti dostopa tovrstnih programov do dolocenih delov spletne strani. Datoteka obicajno vsebuje izkljucitve - navedbe map, ki jih ti programi ne smejo obiskati - lahko pa tudi popolnoma prepove kakrsnokoli delovanje raznih robotskih programov. Pravila, zapisana v robots.txt, sicer veljajo le kot priporocila in ne morejo ustaviti delovanja tistih programov, ki so nastavljeni tako, da ignorirajo ta pravila. Ker zelimo naso dejavnost izvajati cim manj invazivno, se drzimo pravil, ki jih izdelovalci zapisejo v robots.txt.
Po opravljenem zajemu pregledamo zajeto spletno stran. Pri tem smo pozorni na to, ali je program zajel vse, kar smo zeleli, in ali je prikaz zajetih vsebin sprejemljiv s stalisca zvestobi originalu. Najbolj pogosta tezava je nezmoznost programa za zajem delov spletnih strani, ki predstavljajo t. i. globoki splet (ang. deep web), ki po velikosti zavzema vecino celotnega spleta. V teh primerih spletna stran ne vsebuje dolocene vsebine, pac pa jo sele na zahtevo uporabnika postreze iz locene baze. Obicajno mora uporabnik v neko polje vpisati iskalno zahtevo in tako opraviti poizvedbo v bazi, ki mu vrne ustrezne informacije. Ker program ne more izpolnjevati polj, ne more doseci teh skritih informacij in tako lahko zajame le iskalni vmesnik.
Podobne tezave predstavljajo spletne strani z dinamicno generirano vsebino. Klasicne spletne strani, napisane v jeziku HTML, so sestavljene iz vsebine, ki je vedno prisotna na sami strani, pri dinamicnih spletnih straneh pa se doloceni deli strani nalozijo sele, ko jih sprozi dolocen dogodek. Za izdelavo tovrstnih spletnih strani se uporabljajo ogrodja, kot so Java, Flash, Ajax ali skriptni jeziki, kot so PHP, Perl, ASP, ASP.NET itd. Heritrix sicer v mnogih primerih uspe zajeti in tudi ohraniti funkcionalnost nekaterih skript v arhiviranih spletnih straneh, vseeno pa kolicina nedelujocih povezav in napacno prikazanih vsebin predstavlja eno od vecjih tezav spletnega arhiviranja pri nas in po svetu.
Tezave pa ne povzrocajo le izpuscene vsebine ali premajhna kolicina zajete vsebine spletnih strani, saj v nekaterih primerih program zajame prevec oziroma tisto, kar ni relevantno. V teh primerih gre najbolj pogosto za pasti, ki povzrocijo, da program za zajem zacne izvajati neomejeno stevilo poizvedb za dolocen URL. Tipicen primer pasti so koledarji, ki generirajo neomejeno stevilo povezav, katerim program sledi dokler ne doseze zgornje meje zajetih dokumentov, ki smo mu jo dolocili. Na ta nacin lahko relativno majhna spletna stran povzroci izjemno velik zajem, ker je vecina pobranih dokumentov proizvedla past.
Nekatere od omenjenih tezav lahko do neke mere odpravimo s podrobnejsim nastavljanjem programa in ponavljanjem zajema dokler ne dosezemo optimalne kakovosti, vseeno pa je na danasnji stopnji razvoja arhiviranja spletnih vsebin in zaradi vedno novih tehnologij za gradnjo spletnih strani nemogoce zagotoviti povsem zadovoljive zajeme v cisto vseh primerih. Vsak zajem, ki ustreza kriterijem kakovosti, se pravi, vsebuje vso ali vsaj bistveni del vsebine spletne strani in tudi omogoca uporabo ter prikaz vsebine, arhiviramo v poseben repozitorij. Zajete spletne strani so shranjene v ARC formatu, ki ga je za shranjevanje zajetih spletnih mest ustvaril Internet Archive, ogledovanje arhiviranih vsebin pa je mozno z uporabo vmesnika Wayback Machine.
Spletni arhiv, ki ga gradimo v NUK, je za zdaj se zaprt za javnost, v prihodnosti pa nacrtujemo tudi javen dostop. Eden od pomembnejsih nacrtov je tudi poskusna izvedba zajema celotne domene ».si« in spletnih strani iz ostalih domen, ki ustrezajo kriterijem slovenike. Celostne zajeme zelimo v prihodnosti vzpostaviti kot stalno prakso NUK in tako dopolniti selektivno metodo, ki jo uporabljamo zdaj. Obenem bomo neprestano sirili nabor spletnih strani, ki jih zajemamo selektivno. V sklopu zajemanja vsebin na slovenskem spletu zelimo v prihodnosti tudi pokrivati pomembnejse dogodke, kot so drzavnozborske in lokalne volitve. Veliko izzivov nas caka tudi na tehnicnem podrocju, kjer si bomo prizadevali za cim visjo raven kakovosti zajemov, izgradnjo arhiva, ki bo ustrezal kriterijem trajnega hranjenja in vmesnikom za javni dostop, ki bo uporabnikom omogocal ucinkovito in prijetno uporabo arhiva.
5 Svarog - portal za elektronsko oddajo publikacij
Z avtomatiziranimi postopki zajemanja spletnih vsebin pridobimo veliko kolicino prosto dostopnega gradiva v obliki spletnih strani. Te so kot objekti dostopne v spletnem arhivu. Pod koncept obveznega izvoda publikacij pa seveda na prvo mesto spadajo publikacije s tradicionalno strukturo, ki so dostopne na spletu ali na razlicnih omrezjih, torej predvsem elektronske knjige, revije in clanki. Na podlagi Pravilnika o vrstah in izboru elektronskih publikacij za obvezni izvod, ki NUK nalaga omogocanje elektronskega nacina oddaje publikacij, smo za zbiranje tovrstnega gradiva v samostojnih datotekah vzpostavili portal Svarog - sistem za varno arhiviranje oddanega gradiva (https://www.nuk.uni-lj.si/svarog/).
Svarog je preprost vmesnik za oddajanje elektronskih publikacij. Namenjen je predvsem zavezancem za obvezni izvod publikacij in tistim zaloznikom, ki so sklenili pogodbo z Javno agencijo za raziskovalno dejavnost RS o sofinanciranju domacih znanstvenih in poljudnoznanstvenih periodicnih publikacij ter so po tej pogodbi zavezani tekoce stevilke svojih periodicnih publikacij v elektronski obliki posiljati NUK za namen objave na Digitalni knjiznici Slovenije. Na portal zalozniki oddajajo predvsem placljive publikacije, oziroma tiste, ki jih NUK sam s postopki iskanja po spletu ne more poiskati in pridobiti. Seveda pa je namenjen tudi oddaji prosto dostopnih publikacij vseh vrst.
Portal je nastal zaradi potrebe po enotnem nacinu posredovanja datotek, ki vsebujejo publikacije, kot so e-knjige ali revije ter clanki v PDF in podobnih formatih. Uporaba uveljavljenih poti, kot sta posiljanje po elektronski ali obicajni posti na fizicnih nosilcih, ni najbolj primerna za zbiranje vecje kolicine elektronskega gradiva, saj precej otezuje vodenje evidenc in arhiviranje publikacij. Z novim Zakonom o obveznem izvodu publikacij, ki je obetal povecano kolicino oddanih elektronskih publikacij, je bilo potrebno zasnovati sistem, ki bi omogocal preprosto oddajo gradiva, vodenje ustreznih evidenc in arhiviranje oddanega gradiva (Stular Sotosek, 2008).
Svarog je trenutno v fazi, v kateri je namenjen predvsem sprejemanju, pregledovanju in evidentiranju oddanih publikacij. Zalozniki ob oddaji posredujejo nekaj osnovnih podatkov o svojih publikacijah, ki sluzijo predvsem za identifikacijo, vsaka oddana publikacija pa je vezana na ustrezen zapis v sistemu COBISS, ki vsebuje ostale formalne metapodatke. Pri oddaji mora zaloznik oznaciti tudi moznost dostopa do svoje publikacije. V primeru, da se odloci za prost dostop, s tem dovoli NUK objavo publikacije na Digitalni knjiznici Slovenije, od koder je na daljavo brezplacno dostopna za lastne studijske in raziskovalne namene. Ce dostop omeji, NUK publikacijo hrani, na voljo pa jo lahko da le znotraj prostorov knjiznice, kjer mora biti zagotovljena zakonita uporaba.
Z razliko od avtomatiziranega zajemanja vsebin na spletu, kjer kot objekte obravnavamo celotne spletne strani, v tem primeru skupaj s pripadajocimi metapodatki kot objekte arhiviramo posamezne datoteke, ki jih posredujejo zalozniki. Podobno kot pri oddaji tiskanih publikacij po pregledu oddane publikacije zaloznik prejme elektronsko potrdilo o prejeti publikaciji, ki je enakovredno potrdilu na papirju.
Svarog je zacel delovati v zacetku leta 2008. Po uvodni fazi testiranja, ki je trajala dva meseca, smo zaceli prejemati prve publikacije. Do casa pisanja clanka je bilo na Svarogu registriranih 115 zaloznikov, ki vecinoma oddajajo e-knjige in e-revije v PDF datotekah, pridobili pa smo tudi nekaj vecjih plakatov in zvocnih posnetkov.
V letu 2010 nacrtujemo posodobitev sistema, ki bo omogocila bolj ucinkovito delo moderatorjem in lazji postopek oddaje zaloznikom, predvsem pa bo uvedla kljucno povezavo sistema z repozitorijem digitalnih vsebin, kar nam bo omogocilo se vecjo stopnjo standardizacije postopkov pridobivanja in arhiviranja digitalnega gradiva. S casom zelimo Svarog vzpostaviti kot centralno tocko za zbiranje digitalnega gradiva, ki bi v cim vecji meri nadomestila klasicne, manj ucinkovite poti.
6 Sklep
Zbiranje spletnih publikacij se je po svetu zacelo ze pred sprejemom zakonskih podlag v okviru razlicnih projektov, s prostovoljno oddajo ipd. Na ta nacin so knjiznice ob zbiranju gradiva v praksi postopoma oblikovale sheme in kriterije za zbiranje spletnih publikacij. Zakonski in podzakonski akti so v Sloveniji omogocili zacetek zbiranja obveznega izvoda spletnih publikacij, vendar je zbiranje se v zacetni fazi. Preko zbiranja dejansko tudi spoznavamo vse razlicne vrste spletnih publikacij, ki nastajajo in se razsirjajo v javnosti. Po dolocenem casu pa bo NUK lahko oblikoval tudi natancnejse kriterije za zbiranje.
S kombinacijo pristopov avtomatiziranega zajemanja vsebin na spletu in pridobivanja posameznih elektronskih publikacij prek portala Svarog skusamo pokriti zelo obsezno podrocje spletnih publikacij. Seveda je nemogoce pricakovati, da bomo uspeli pridobiti in shraniti cisto vse vsebine, ki bi si to zasluzile, saj se pri sledenju produkcije spletnih publikacij soocamo s tezavami, ki jih v tradicionalnem okolju nismo poznali, ali pa smo jih lazje resevali. Tako se vedno znova pojavljajo vprasanja, kako slediti novim relevantnim objavam publikacij, ki niso zavedene v nasih evidencah (nimajo zapisa CIP ali stevilke ISSN), kaj shraniti in cesa ne, kako ucinkovito katalogizirati vedno vecjo kolicino tega novega gradiva, itd. Prihodnost pa bo prinesla tudi vedno bolj kompleksna vprasanja tehnicne narave. V primerjavi s tiskanim gradivom, ki ga je relativno preprosto hraniti, uporaba pa je vedno mozna brez posebne tehnicne ali druge opreme, se pri spletnih publikacijah srecujemo s tezavami, ki jih povzrocajo vedno novi datotecni formati, nekompatibilnost novejsih aplikacij in operacijskih sistemov s starejsimi formati, neobstojnost in nezanesljivost fizicnih medijev za hranjenje, problematika opisovanja publikacij ter razlicne metapodatkovne sheme za trajno hranjenje. Da bi tudi v elektronskem okolju uspeli zagotoviti vsaj podobno visoko stopnjo najdljivosti in uporabnosti publikacij cez 50, 100 ali vec let, kot smo je vajeni pri papirnatih predhodnikih, bo potrebno veliko truda, predvsem pa vedno novega znanja, s katerim bomo verjetno ves cas vsaj en korak za najnovejsimi iznajdbami digitalne informacijske dobe. Ali bodo prihodnje generacije kdaj odkrile tudi spletne »Brizinske spomenike«?
KLASINC, Janko; Irena SESEK. Collecting legal deposit of web publications in the National and University Library, Slovenia: legal provisions and practice. Knjiznica, 54(2010)1-2, p. 121-135
Navedeni viri
1. Gibby, R., Green, A. (2008). Electronic legal deposit in the United Kingdom. New Review of Academic Librarianship, 14, 55-70.
2. Enhancing the culture of reading and books in the digital age. (2009). Pridobljeno 17. 3. 2010 s spletne strani: http://www.ifla.org/en/events/ enhancing-the-culture-of-reading-and-books-in-the-digital-age
3. International Internet Preservation Consortium. (2010). Pridobljeno 25. 1. 2010 s spletne strani: http://www.netpreserve.org/about/index.php
4. Internet Archive: about IA. (2010). Pridobljeno 25. 1. 2010 s spletne strani: http://www.archive.org/about/about.php
5. Kavcic - Colic, A. (2007). Krmarjenje v srednjem veku informacijske dobe: ali nam bo uspelo ohraniti naso pisno digitalno dediscino? Knjiznica, 51 (3- 4), 149-161.
6. Kavcic - Colic, A., Kodric - Dacic, E., Solar, R., Jakac - Bizjak, V., Kalcic, D. in Kavcic, I. (2004). Metodologija zbiranja in arhiviranja slovenskih elektronskih publikacij na medmrezju. Ljubljana: Narodna in univerzitetna knjiznica.
7. Kodric - Dacic, E. (2006). Zunaj Gutenbergovega vesolja. Knjiznica, 50 (1-2), 173-186.
8. Paynter, G., Joe, S., Lala, V. in Lee, G. (2008). A year of selective web archiving with the web curator at the National Library of New Zealand. D-Lib Magazine, 14, (5-6). Pridobljeno 25. 1. 2010 s spletne strani: http://www.dlib.org/dlib/ may08/paynter/05paynter.html.
9. Pravilnik o vrstah in izboru elektronskih publikacij za obvezni izvod. (2007). Uradni list RS, st. 90.
10. Sesek, I. (2006). Strokovne novosti in izvajanje Zakona o obveznem izvodu publikacij. Knjiznica, 50 (4), 33-47.
11. Stular Sotosek, K. (2008). Spletni nabiralnik za oddajo elektronskih publikacij: nova spletna storitev za zaloznike. Knjiznica, 52 (1), 123-132.
12. Zakon o obveznem izvodu publikacij. (2006). Uradni list RS, st. 69.
13. Zakon o obveznem posiljanju tiskov. (1972). Uradni list SRS, st. 55.
14. Zakon o pogojih za opravljanje reproduktivne video in avdio dejavnosti. (1994). Uradni list RS, st. 42.
15. Zakon o ratifikaciji Pogodbe Svetovne organizacije za intelektualno lastnino o avtorski pravici. (1999). Uradni list RS, st. 84.
16. Zakonu o spremembah in dopolnitvah Zakona o obveznem izvodu publikacij. (2009). Uradni list RS, st. 86.
Janko Klasinc je zaposlen v Narodni in univerzitetni knjiznici.
Naslov: Jakceva 10, 1000 Ljubljana
Naslov elektronske poste: [email protected]
Irena Sesek je zaposlena v Narodni in univerzitetni knjiznici.
Naslov: Brodska 24, 1000 Ljubljana
Naslov elektronske poste: [email protected]
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
Copyright Zveza Bibliotekarskih Drustev Slovenije 2010