Oddano: 20. 9. 2007 - Sprejeto 19. 10. 2007
Pregledni znanstveni clanek
UDK 025.4.036:004.65
Izvlecek
Ob pojavu znatnega stevila velikih slikovnih podatkovnih zbirk, v katerih so bile slike vecinoma opisane s tekstovnimi deskriptorji, se je zaradi nepopolnosti tovrstnega nacina opisovanja scasoma pojavila potreba po drugacnem pristopu do indeksiranja slik in poizvedovanja po njih. Alternativa tekstovnim sistemom poizvedovanja po slikah je poizvedovanje po slikah na podlagi vsebine. Slike so indeksirane na osnovi svoje dejanske vsebine in znacilnice, kot so barva, tekstura in oblika so izrazene s stevilcnimi vrednostmi. V procesu poizvedovanja sistem izracuna vrednosti znacilnic za podano sliko na isti nacin, kot so izracunane vrednosti za slike, shranjene v zbirki, in opravi primerjavo. Taksni sistemi so znani pod imenom CBIR (content-based image retrieval) sistemi. V delu predstavimo osnovne karakteristike CBIR sistemov, prosto dostopnih prek svetovnega spleta, in jih primerjamo gleda na razvojno okolje, v katerih so nastali, znacilnicah, ki jih uporabljajo za opisovanje vsebine slik, in zmoznostjo uporabniskega vmesnika, ki ga sistem ponuja.
Kljucne besede: sistemi za poizvedovanje, poizvedovanje, slikah, CBIR, znacilnice, ekstrakcija znacilnic, podatkovne zbirke, vizualne informacije, informacijski sistemi, informacijska tehnologija, Internet
Review article
UDC 025.4.036:004.65
Abstract
With development of technology, large image databases have become reality. Pictures in these databases were mainly described with keywords, but due to insufficiency of such description, the need for different approach to image indexing and retrieval has arisen. Content-based image retrieval is an alternative to textual based systems. Images are indexed on the basis of their actual content, features like color, texture and shape are presented numerically. In retrieval process, features for input image are extracted with the same algorithm as used for pictures already stored in the database, and values are compared. Such systems are known as CBIR (content-based image retrieval) systems. Basic characteristics of CBIR systems, which are freely available on the Internet, are presented. The systems are compared with respect to the environment in which they were built, applied features for content description and ability of user interface.
Keywords: retrieval systems, image retrieval, CBIR, features, feature extraction, image databases, visual information, information systems, information technology, Internet
1 Uvod
Danes poznamo stevilne oblike, v katerih se pojavljajo informacije. Dalec najbolj je raziskano upravljanje s tekstovnimi informacijami, manj pa upravljanje z vizualnimi in zvocnimi. Slike so bile od nekdaj prisotne v cloveski interakciji. ze praljudje so se izrazali s pomocjo slikovnih informacij, ki so krasile stene njihovih jamskih domovanj. Od nekdaj so bile slike prisotne v cloveskem vsakdanu, v modernem svetu pa so se slike uveljavile kot nepogresljiv pripomocek na stevilnih strokovnih podrocjih. Fotografija in televizija sta mocno povecali uporabo slik, racunalnik pa je pomenil dokoncen razmah njihove uporabe, se posebej, ko so bile v devetdesetih razvite tehnike za digitalno zajemanje slik, njihovo obdelavo, shranjevanje, prikazovanje in posredovanje. Ob tem se je pojavilo znatno stevilo velikih slikovnih podatkovnih zbirk, v katerih so bile slike vecinoma opisane s tekstovnimi deskriptorji. Zaradi nepopolnosti tovrstnega nacina opisovanja (Bird, Elliot in Hayward, 1999) se je pojavila potreba po drugacnem pristopu do indeksiranja slik in poizvedovanja po njih. Cawkell (2000) povzema zgodovino soocanja z velikimi tezavami pri tekstovnem opisovanju zelo velikih slikovnih zbirk.
Za razliko od tekstovnih sistemov poizvedovanja po slikah, deluje poizvedovanje po slikah na podlagi njihove vsebine po bistveno drugacnem principu. Slike so indeksirane na osnovi njihove dejanske vsebine in znacilnice, kot so barva, tekstura in oblika so izrazene s stevilcnimi vrednostmi. Tipicni CBIR (angl. Content- Based Iimage Rretrieval) sistem omogoca uporabnikom, da formulirajo poizvedbo s podajanjem primera podobne slike, ki jo iscejo. Sistem izracuna vrednosti znacilnic za podano sliko na isti nacin, kot so izracunane vrednosti za slike, shranjene v zbirki, in opravi primerjavo. Rezultat poizvedbe so slike, kjer so znacilnice po vrednosti najblizje znacilnicam podane slike.
Najzgodnejsa uporaba termina CBIR sega v leto 1992, ko je Kato s tem izrazom opisal svoje eksperimente poizvedovanja po slikah na osnovi avtomaticno pridobljenih znacilnic barve in oblike. Izraz se je kmalu uveljavil in dozivel siroko uporabo. Termin se lahko nanasa tako na enostavne kot na semanticne znacilnice, toda proces ekstrakcije znacilnic iz slik mora biti pretezno avtomatski (Eakins in Graham, 1999). CBIR je hitro razvijajoca se tehnologija z visokim potencialom in narascujocim stevilom objav. Tezave poizvedovanja po slikah so bile v devetdesetih delezne siroke pozornosti in iskanje resitev je bilo zelo aktivno.
CBIR se razlikuje od klasicnega poizvedovanja v tem, da so slike v svojem bistvu nestrukturirane. Digitalne slike sestojijo izkljucno iz slikovnih elementov- pikslov razlicnih intenzitet, ki niso vnaprej povezani v pomenske skupine, npr. za sliko obraza oko, lica, nos, usta, brada, oziroma segmente. Tako za sliko, na kateri je obraz, ni vnaprej poznano, da se na njej nahaja obraz, niti kateri slikovni elementi v sliki pripadajo obrazu. Preden je sploh mozno razglabljanje o pomenu slike, je potrebna ekstrakcija uporabnih informacij-znacilnic iz sicer brezpomenskih podatkov. Slika se torej bistveno razlikuje od teksta, kjer so crke ze strukturirane v besede, ki nosijo pomen, in besede naprej v stavke.
Podobnost slik je subjektivno podrocje, saj ima lahko ista slika za dva cloveka precej razlicen pomen. Ko nekdo gleda sliko, na kateri so prikazane redke vrste zivali, mu bo slika predstavljala »neznane zivali«, strokovnjak pa bo natancno vedel, za katere zivali gre in bo drugace interpretiral sliko - z natancnim poimenovanjem na njej prikazanih zivali.
Znacilno je, da ljudje radi povezujemo predmete z njihovo funkcijo. Ta fenomen se odraza v tekstovnih sistemih. ce vzamemo za primer kozarec, ga glede na njegovo funkcijo (pitje) vedno enako poimenujemo, ne glede na veliko potencialno raznolikost kozarcev, ki se lahko odraza v razlicnih oblikah, barvah, materialih. Ali drugace povedano, ce opredelimo kozarec kot semanticno kategorijo, lahko znotraj te kategorije belezimo nesteto njenih vizualnih predstavitev. Poleg tega lahko isti kozarec po svoji vizualni vrednosti bistveno variira glede na vidni kot, geometrijsko rotacijo ali osvetlitev. Resnicno uporaben CBIR sistem bi moral biti sposoben izvajanja tovrstnih povezav, kar pa je v praksi tezko doseci (Johansson, 2000). Brez dvoma obstaja razkorak med cloveskim in racunalniskim dojemanjem podobnosti.
Pogosto se zgodi, da je rezultat poizvedbe v CBIR sistemu bistveno neskladen z uporabnikovimi pricakovanji. Za slike je dolocitev informacijske vsebine bolj zahtevna kot je to v primeru teksta. Pri tekstu ima vsaka beseda koncno stevilo pomenov in njena semanticna vrednost je takoj jasna ali pa jo razjasnimo z izbiro ene od koncnega stevila moznosti, z analizo na nivoju stavka ali odstavka. Kompleksnosti vizualnih informacij se zavemo, ko skusamo samo z besedami opisati sliko. Slika ima lahko vec interpretacij. Tipicen primer so iluzije, slike, ki zavajajo clovesko zaznavanje, v smislu da mozgani ocem ob pogledu na sliko sporocajo zaznavo, ki ni skladna z dejanskim stanjem. Poznamo vec vrst iluzij, opticne iluzije, psiholoske iluzije, iluzije kontrasta in druge. Znan primer iluzije je zenski obraz, ki je socasno tudi podoba saksofonista. Nekateri ljudje tudi po dolgem strmenju v sliko ne bodo ugledali druge podobe.
Problematiko lahko razvijemo dalje z drugim primerom. Sliko preoranega polja bo sistem morda zaznal kot zelo podobno sliki tablice cokolade, a njuni semanticni vrednosti sta povsem razlicni. Do navidezne enakosti dveh vsebin slik pride zaradi podobne vrednosti izgleda, ki jo zaznamuje njuna specificna kombinacija barv in tekstur. Gre za problem t. i. sorodnih slik (angl. rhyming images), ki po svojem semanticnem pomenu nimajo dosti skupnega, a so si gledano skozi algoritem, po katerem jih primerja sistem, zelo podobne (Gupta, Santini in Jain, 1997).
Velik razkorak med zmoznostjo CBIR sistemov in zmoznostjo clovekove interpretacije vizualnih podatkov je posledica dejstva, da cloveski mozgani dalec presegajo nivo izlocanja znacilnic. Podobe in oblike interpretirajo kot predmete. Poleg tega imajo mozgani sposobnost razpoznave specificnega predmeta znotraj kategorije (npr. oseb, ki so na sliki). Razkorak med uporabljenimi znacilnicami za matematicno ponazoritev slike in interpretacijo slike s strani cloveskih mozganov, imenujemo semanticni prepad. Eden glavnih raziskovalnih problemov je, kako zmanjsati ta prepad (Geradts, 2002).
2 Znacilnice
CBIR sistemi operirajo s pomocjo znacilnic. Enostavne znacilnice, ki predstavljajo vsebino slike, so izracunane za vsako sliko v zbirki in shranjene. Za sliko ali skico, uporabljeno v poizvedbi, se izracunajo znacilnice na enak nacin in izvede se matematicna primerjava z vrednostmi, shranjenimi za slike v zbirki.
Znacilnica je lastnost, pridobljena s pretvorbo originalnega vizualnega predmeta skozi algoritem analize slike in odraza specificne znacilnosti slike. Znacilnica je tipicno predstavljena kot niz stevilk oziroma kot vektor. Dve pomembni in pogosti operaciji nad vektorji znacilnic sta projekcija in razdalja. V primeru slik se razdalja kot mera podobnosti med slikama pogosteje uporablja. Vecja kot je razdalja med znacilnicami, manjsa je podobnost med slikama.
Uporaba znacilnic pri CBIR poveca moznost, da bo poizvedovanje znotraj sistema bolj podobno cloveskemu pogledu na slike. Lep primer so barve, ki v resnici sploh ne obstajajo, so samo spekter svetlobe, ampak so del cloveskega pogleda na slike. Barva zato predstavlja uporabno znacilnico (za razliko od infrardece svetlobe, ki je ne vidimo). Poleg barv sta dve tipicni enostavni znacilnici tekstura in oblika. Zdi se, da so enostavne znacilnice skupne vidnim sistemom vecine ljudi. S tem pa ni izkljucena uporaba kompleksnih znacilnic. Obstaja mnogo nacinov uporabe, kjer so uporabne specificne, kompleksne znacilnice. Primer so MR slike v medicini ali infrardeca svetloba v primeru satelitskih slik. Vsaka uporaba zahteva resitev zase. Kompleksne znacilnice so ponavadi izracunane iz enostavnih znacilnic. ce je za enostavne tipicna splosnost, so kompleksne znacilnice mnogo bolj podrocno specificne, v smislu da so izdelane za uporabo v posebnem specificnem razredu slik ali predmetov. S tocno dolocenimi kompleksnimi znacilnicami se ponavadi ukvarjajo znanstveniki s tocno dolocenega podrocja. Sistem CBIR, ki v svojem delovanju zajema procesiranje specificnih kompleksnih znacilnic, je pogosto zelo drag in preden se relevantnim slikam prilagodi kompleksne znacilnice, se prej odstrani vecina nerelevantnih slik iz zbirke.
Barva je najpogosteje uporabljena in pogosto najpomembnejsa znacilnica v CBIR sistemih. V racunalniskem svetu poznamo dva standardna barvna modela:
- RGB (angl. red, green, blue) in
- CMY (angl. cyan, magenta, yellow).
Ta dva barvna modela pa ne ustrezata dobro cloveskemu nacinu dojemanja slik (Müller, Michoux, Bandon in Geissbuhler, 2004; Geradts, 2002). Vsaka tocka je sestavljena iz kombinacije treh barv razlicne intenzitete, vendar so te tako majhne, da clovesko oko vidi tocko kot enobarvno. Alvy Ray Smith je leta 1978 ustvaril barvni model HSV (angl. hue, saturation, value), ki najbolj ustreza cloveskemu dojemanju barv. Gre za uporabnisko prilagojen model, ki bolje odraza lastnosti barve. Hue predstavlja barvo (npr. rdeca). Saturation predstavlja nasicenost barve in se opredeljuje v razponu 0 do 100 odstotkov. Nizja kot je nasicenost barve, manj je barva intenzivna. Value predstavlja svetlost barve in locuje temno barvo od svetle (glej Sliko 2).
Najenostavnejsi nacin dolocanja barvne podobnosti med dvema slikama je primerjava njunih histogramov. Za vsako sliko, dodano v zbirko, se izracuna barvni histogram, ki prikazuje deleze pikslov posameznih barv v sliki. Ti podatki se shranijo in uporabijo pri procesiranju uporabniskih vnosov pri poizvedovanju. Ko uporabnik zastavlja poizvedbo, doloci zeleni delez poljubnih barv v sliki. Po izvedeni primerjavi sistem uporabniku prikaze slike z najbolj podobnimi barvnimi histogrami. To tehniko sta v zacetku devetdesetih razvila Swain in Ballard (1991), a histogrami so merili samo globalne vrednosti in v najslabsem primeru sta lahko dve povsem razlicni sliki imeli identicna histograma. Kasneje je bila tehnika nadgrajena, in danes vecinoma vsebuje kombiniranje barvnega z elementi prostorskega ujemanja. ceprav gre za enostaven postopek, so rezultati takih primerjav dobri (Forsyth, 1999).
Tekstura se nanasa na ureditev osnovnih sestavin slike. Na digitalni sliki se tekstura odraza kot prostorska ureditev pikslov na sliki - ta ureditev pikslov se vidi kot sprememba v intenziteti vzorca (Grosky in Stanchev, 2000). Podobnost tekstur je lahko uspesno uporabljena pri razlocevanju med podrocji slik s podobnimi barvami (npr. morje in nebo). Poizvedbe z vnosom tekstur so lahko oblikovane na podoben nacin kot poizvedbe z vnosom barv - z izbiranjem zelene teksture iz ponujenega nabora (palete). Tipicna lastnost teksture je, da jo je skorajda nemogoce opisati z besedami.
Statisticno preracunane mere tekstur se pogosto urejajo v vektor, v katerem postanejo medsebojno objektivno primerljive. Tekstura slike lahko vsebuje razlicne statisticno predstavljive atribute, kot so (Gupta, Santini in Jain, 1997):
- nakljucnost (pove koliko je nakljucnosti v sliki, npr. sahovnica jo ima malo, vzorec nakljucnih tock pa zelo veliko);
- periodicnost (ponavljanje vzorca);
- usmerjenost (npr. crte v zastavi so usmerjene, orientirane).
Zamislimo si sliko z desetimi razlicnimi regijami in vsaka regija ima drugacno teksturo. Vrednosti tekstur za nakljucnost, periodicnost in usmerjenost dolocajo deset tock v koordinatnem sistemu, kjer so koordinate nakljucnost, periodicnost, usmerjenost. Kako podobna je ta slika neki drugi, ki ima 10 drugacnih teksturnih regij? Funkcije razdalje so dolocene med tockami in lahko podajo matematicno vrednost podobnosti dveh slik, kljucno vprasanje pa ostaja, kako dobro odrazajo cloveski obcutek za razlike v videzu.
Oblika je kvaliteta objekta, ki je odvisna od notranje lege tock, ki sestavljajo njegov obris, ali zunanjih povrsin. Vizualni predmeti so v naravi primarno prepoznani po svoji obliki. ce predstavimo obliko z znacilnicami, pridobljenimi iz slike, lahko primerjavo izvajamo podobno kot v primeru drugih enostavnih znacilnic, s funkcijo razdalje, kjer vecja razdalja pomeni manjso podobnost. Znacilnice, ki ponazarjajo obliko, delimo na globalne in lokalne, pri cemer se globalne nanasajo na prostor celotne slike, lokalne pa na okolico tock zanimanja ( angl. interest points). Tocke zanimanja so lahko npr. mesta v sliki, ki predstavljajo ekstreme, pri filtriranju slike z gaussovimi filtri. Velikost filtra oz. σ, pri kateri je bila dosezena ekstremna vrednost, pa doloca velikost okolice. Obstajajo tudi drugi nacini predstavitve oblike, npr. s transformacijo, s katero lahko iz osnovnih pridobimo nove informacije.
Prostorske entitete v sliki so tocke, crte, regije in predmeti. Prostorske odnose med temi entitetami lahko razvrstimo v dve skupini, v smerne in topoloske odnose.
Smerni odnosi (angl. directional relationship) upostevajo polozaje predmetov na sliki. Izrazeni so kot »levo od«, »desno od«, »nad«, »pod«. Merski odnosi so pogosto povezani s smernimi odnosi in lahko izrazajo, kako blizu so si predmeti, ki tvorijo odnos (razdalja) in/ali pod kaksnim kotom ga tvorijo. Smerni odnosi zahtevajo neko globalno orientiranost slike, saj so odvisni od spreminjanja rotacije in skale slike. Topoloski odnosi ne vkljucujejo koncepta razdalje, in so neobcutljivi za tovrstne variacije. Zajemajo odnose med bliznjimi entitetami, kot so stikanje, vsebovanje in prekrivanje (Del Bimbo, 1999).
2.2 Globalni in lokalni pristop
Globalni pristop pomeni ekstrakcijo znacilnic iz podrocja celotne slike, z neupostevanjem lokalnih posebnosti. Globalne vrednosti znacilnic same pogosto niso zadostne. Enostaven primer je s podrocja medicine, kjer se zdravniki osredotocijo na obolelo tkivo na radioloskem posnetku, in bi bile globalne vrednosti slike neuporabne. Kot drug primer si zamislimo dve sliki z zelo podobno globalno barvno strukturo ali strukturo tekstur, ki sta si v koncnem videzu lahko zelo razlicni, npr. slika japonske zastave in slika otroka, ki je oblecen v rdec kombinezon in se igra na zasnezenem dvoriscu.
Lokalni pristop pomeni ekstrakcijo znacilnic iz dolocenih delov slike. CBIR sistemi pogosto uporabljajo segmentacijo slik, ki funkcionira najbolje, kadar sliko sestavlja eden ali nekaj predmetov, ki se jasno razlikujejo od ozadja. Pri vecjem stevilu manjsih predmetov pogosto prihaja do prekrivanja in nezelene barvne podobnosti z ozadjem, kar otezi razlikovanje. Lokalne znacilnice se nanasajo na parametre, pridobljene iz posameznih segmentov slike in razmerja med njim. Vsaka lokalna znacilnica je opremljena s pozicijo. Predmetne znacilnice so znacilnice, izracunane za vsak predmet v sliki posebej. Predmeti so lahko loceni intelektualno ali na nek avtomatski oz. polavtomatski nacin. V primeru regionalnih znacilnic je slika razdeljena na regije, ki imajo kompaktne lastnosti glede na vsebino dolocene slike, lahko pa gre tudi za fiksne, vnaprej dolocene regije, neodvisne od vsebine slike. Meja med predmeti in regijami je vcasih nejasna. Homogene regije se vcasih interperetirajo kot predmeti (Johansson, 2000).
Ce v CBIR sistemu iscemo slike, ki imajo vec kot 40 odstotkov modrine na vrhu in vec kot 30 odstotkov oranzne barve na dnu, morda iscemo sliko prizora s plaze. Primer kaze, kako utegne uporabnik opisati sestavne elemente zelene slike in njihovo postavitev v prostoru slike. Sistemi, ki uporabljajo fiksne regije locuje jo prostor slik v doloceno stevilo preddefiniranih regij. Lahko gre npr. za preproste bloke osem krat osem pikslov. Uporabniki dolocijo, katere regije so za njih pomembne. Sistem izracuna znacilnice za vsako izbrano regijo in oceni podobnost slik glede na regionalno ujemanje vrednosti znacilnic.
Sticker in Dimaijev (1996) sistem uporablja funkcijo, ki daje vec teze na osrednjo ovalno regijo - pomembnost se progresivno zmanjsuje, ko gremo stran od centra. Sistem je neobcutljiv za devetdeset-stopinjske rotacije. Izpostavljeno je pomembno vprasanje, kako naj sistem, ki omogoca poizvedovanje v prostoru znacilnic, uposteva vizualne predmete, ki so geometrijsko rotirani, razlicno osvetljeni ali vidni pod razlicnim kotom, v smislu, da so znacilnice, ki jih uporablja, invariantne za tovrstne spremembe.
3 Shranjevanje in poizvedovanje
Ze vrsto let se soocamo z eksplozijo rasti kolicine vizualnih informacij. Vsak dan nastane veliko stevilo medicinskih, satelitskih in drugih vrst slik. Te slike so pretezno v digitalni obliki, kar omogoca enostavno obdelavo, shranjevanje, vzdrzevanje in prenos slik. Za dobro izrabo teh slik pa je pomembno, da so organizirane tako, da omogocajo hitro poizvedovanje na zahtevo.
Vkljucevanje racunalnikov v upravljanje s slikami datiramo v leto 1965, ko je Ivan Sutherland v odmevnem projektu Sketch Pad demonstriral izvedljivost racunalniske kreacije, spreminjanja in shranjevanja slik1. A vse do srede osemdesetih let je draga strojna oprema omejevala uporabo racunalnikov v tovrstne namene. Takrat je hitro rastoci trg racunalniskih iger povzrocil skokovit padec cen racunalniske opreme, in podrocja, tradicionalno odvisna od slik, so kmalu uvedla racunalnike v svojo dejavnost. Sledilo je obdobje elektronskih zbirk z omejenim dostopom, v zgodnjih devetdesetih pa je internet omogocil uporabnikom enostaven dostop do velike kolicine vizualnih podatkov.
Potrebo po ucinkovitem shranjevanju slik in poizvedovanju po njih so med prvimi prepoznali upravljavci velikih slikovnih zbirk. Leta 1992 so na delavnici, sponzorirani s strani ameriske nacionalne znanstvene fundacije, izpostavili nekaj podrocij, kjer je bilo raziskovanje najbolj potrebno. Med drugim so izpostavili podrocja ekstrakcije znacilnic iz slik, indeksiranja in izgradnje ucinkovitega uporabniskega vmesnika. Eden glavnih izpostavljenih problemov je bila tezavnost lociranja zelene slike v veliki in raznoliki zbirki. Medtem ko je dokaj enostavno identificirati zeleno sliko v majhni zbirki, s preprostim brskljanjem, ali pa identificirati zeleno sliko v homogeni zbirki, kjer so lahko predmeti iskanja vnaprej doloceni, pa se se vedno isce ucinkovite tehnike identificiranja slik v velikih raznolikih zbirkah.
3.1 Indeksiranje slik
Tradicionalno so bile slike shranjene v analogni obliki, vecinoma v mapah, urejenih po policah. Stopnja indeksiranja v takih zbirkah je bila mocno povezana s pomembnostjo zbirke, nacinom uporabe in s stevilom cloveskih kadrov, ki so bili na voljo. Iskanje posameznih slik v takih zbirkah je bilo neizogibno naporno opravilo in znanje o zbirki je bilo pogosto nelocljivo povezano z osebo, ki jo je vzdrzevala, mnogo manj pa z dejanskimi uporabniki. Danes je v slikovnih podatkovnih zbirkah se vedno najbolj obicajno opisovanje slik z uporabo kljucnih besed, pri cemer upravitelji za pomoc pri klasifikaciji pogosto uporabljajo indeksne sheme, ki so jih razvili sami ali v sodelovanju z uporabniki in odrazajo specificno naravo teh zbirk. Tehnike indeksiranja slik z uporabo kljucnih besed imajo stevilne prednosti. Tako indeksiranje ima visoko izrazno moc, s kljucnimi besedami lahko opisemo skorajda vse aspekte se tako kompleksne vsebine slike, enostavno je dodajati nove koncepte in procesa poizvedovanja ni tezko avtomatizirati, saj obstajajo za ta namen stevilni ze razviti programi.
Postopek intelektualnega indeksiranja slik ima tudi pomembne pomanjkljivosti. Gre za delovno-intenziven proces, in natancen opis ene slike lahko traja tudi do 40 minut (Eakins in Graham, 1999). V okolju zbirke z milijon in pol slikami to pomeni milijon ur dela. Naslednji problem je subjektivnost. Obstajajo siroka razhajanja v pogledu razlicnih posameznikov na to, katere kljucne besede ustrezajo opisu neke slike. Celo pri indeksnih jezikih, ki so bili izdelani z namenom tocno dolocene zbirke, so raziskovalci (Enser in McGregor, povzeto po Eakins in Graham, 1999) ugotovili slabo ujemanje med uporabniskimi poizvedbami in indeksnim jezikom. Mozne so tudi slovnicne napake pri zapisovanju kljucnih besed, katerim pa se lahko indekser izogne, ce besede izbira s seznama, uporabnik pa, ce mu je sistem sposoben predlagati pravilno besedo. Problem je vecplasten. Katalogizatorjev opis iste slike lahko variira tudi glede na razlicna casovna obdobja, v katerih opisuje isto sliko. Poleg tega se skozi cas besednjak nekega podrocja razvija in spreminja skupaj z razvojem podrocja samega. se en problem je nedvoumnost - nekatere strukturne lastnosti slike so le tezko opisljive z besedami, tako ima npr. vsaka barva sirok razpon intenzitet, kar je tezko opisati z besedami, se tezje pa je semanticno oznaciti oblike in teksture. Vsebino slike je prakticno nemogoce opisati tako, da bi zajeli poglede vseh razlicnih uporabnikov in vse razlicne nacine mozne uporabe slike.
Avtomatsko indeksiranje po vsebini slik ima potencialno stevilne prednosti pred intelektualnim indeksiranjem. Je neprimerno hitrejse, cenejse in povsem objektivno. A najbolj pomembna ostaja ucinkovitost poizvedovanja. Obeh tehnik se ne da smiselno primerjati, ker sta izgrajeni, da odgovarjata na razlicne tipe poizvedb, je pa mozno v nekaterih primerih podrocno specializirane uporabe zakljuciti, da se tehnike CBIR bolje obnesejo kot tehnike indeksiranja in poizvedovanja po kljucnih besedah. Tipicen primer so zbirke logotipov blagovnih znamk, saj so logotipi sami po sebi pretezno brezpomenski in ne morejo biti ustrezno opisani s tekstovnimi oznakami.
3.2 Hibridni pristop
Ker imata oba pristopa svoje prednosti in slabosti, je zanimivo vprasanje, kako ju integrirati v enem sistemu tako, da bi docela izkoristili prednosti obeh. Eksperimentalni rezultati so pokazali, da ima integriran pristop boljse zmogljivosti poizvedovanja kot katerakoli od obeh tehnik uporabljena sama zase (Hove, 2004). Tekstovno poizvedovanje in poizvedovanje na osnovi vsebine slik se lahko dobro dopolnjujeta. Tekstovne tehnike lahko zajamejo visoko stopnjo abstrakcije, enostavno je izvesti poizvedbo, so pa tekstovni opisi subjektivni in nepopolni in niso zmozni poizvedovanja na osnovi vsebinske podobnosti slik. CBIR sistemi lahko zajamejo enostavne znacilnice slik in sprejemajo slikovne poizvedbe, toda ne zmorejo zajeti kompleksnih konceptov. Pri CBIR je za uporabnika ponavadi zahtevno podati zacetni vnos, navesti mora namrec ustrezne vrednosti posameznih znacilnic, ali pa podati sliko za primer oziroma narisati skico.
Hibridni pristop naceloma ne resuje problemov, ki izhajajo iz dolocanja kljucnih besed, zato je idealno okolje za implementacijo hibridne tehnike svetovni splet, kjer je mozen avtomatski tekstovni opis slik na podlagi teksta, ki se nahaja v HTML dokumentu, ki vsebuje sliko (Lu, Williams in You, 2001). Za natancnejse opisovanje so na voljo algoritmi, ki obtezijo posamezne elemente HTML dokumenta, kar je relativno enostaven postopek, saj so v spletnih dokumentih posamezni elementi oznaceni s tocno dolocenimi oznakami (angl. tags). Tako znacilnice kot tekstovni opis slik sta torej pridobljena z avtomatskim indeksiranjem. Uporabniki lahko poizvedbo enostavno zastavijo z vnosom kljucnih besed in iz rezultatov izberejo slike, s katerimi nato operirajo skladno s CBIR zmoznostmi sistema. Seznam zadetkov temelji na kombiniranemu ujemanju znacilnic in teksta. Implemantacija hibridne tehnike bi bila verjetno primerna za okolje digitalne knjiznice, mnogi raziskovalci jo vidijo kot moznost obvladovanja ogromne kolicine slik na svetovnem spletu (Chang, Smith, Beigi in Benitez, 1997).
Podrobnejsi pregled hibridnih sistemov so opravili Yanai, Shindo in Noshita (2004). Podan je vpogled v njihovo delovanje in predstavljene so mozne naprednejse resitve.
3.3 Indeksne strukture
Od sistemov podatkovnih zbirk se pricakuje, da bodo podpirali ucinkovit dostop do podatkov in omogocili hitro iskanje, ne glede na velikost podatkovne zbirke. Za te sisteme je izjemnega pomena kratek odzivni cas. CBIR indeksiranje slik se bistveno razlikuje od tekstovnega nacina indeksiranja. Slike so predstavljene z vec znacilnicami, katerih vrednosti naseljujejo indeksne strukture. Ko dodajamo v sistem nove slike, se poseljenost prostora veca. To je informacijski prostor, v katerem poteka iskanje. V primeru velikih podatkovnih zbirk, z vecdimenzionalnimi indeksnimi strukturami, se uporabljajo metode za zmanjsevanje prostora znacilnic, v katerem se poizveduje, s cimer se izboljsa hitrost iskanja podatkov (Müller, Michoux, Bandon in Geissbuhler, 2004). Razlicne tehnike indeksiranja in zmanjsevanja tega prostora skrbijo za ucinkovit dostop do slik v zbirki. Pri procesiranju poizvedbe sistem na podlagi teh tehnik izloci nerelevantne slike, brez da bi moral za to prehajati skozi celotno zbirko (Del Bimbo, 1999).
3.4 Iskanje po slikah
Poizvedovanje po slikah zajema sirok spekter moznih tipov poizvedb. Lahko poizvedujemo le po enostavnih atributih slike (npr. kolicina dolocene barve). Lahko poizvedujemo po prisotnosti ali ureditvi dolocenih predmetov na sliki (npr. stoli okrog mize). Lahko poizvedujemo po sliki, ki prikazuje tip dogodka (npr. avtomobilska dirka). Lahko poizvedujemo po konkretnih osebah, lokacijah ali dogodkih (npr. papez na obisku v Ljubljani). Lahko poizvedujemo po custvenih stanjih, s katerimi sliko povezujemo (npr. sreca na obrazu). Lahko pa poizvedujemo po atributih, ki jih ni mogoce pridobiti iz same slike (npr. kje je slika nastala in kdaj). Tako sirok razpon tipov poizvedb je eden od razlogov, zakaj je indeksiranje slik tako zahtevno opravilo.
Iskanje slik na spletu poteka vecinoma se prek splosnih, prostotekstovnih iskalnikov. Ti imajo sicer vgrajene specificne iskalnike slik, a princip je isti, vnos so kljucne besede, ki opisujejo sliko, dodatne moznosti se nanasajo le se na velikost in tip slik.
Pri CBIR razlicni sistemi uporabljajo razlicne znacilnice, kombinacije znacilnic in obtezitve znacilnic. Dobro je, ce lahko uporabniki dolocijo pomembnost posameznih znacilnic pri iskanju. Problem CBIR tehnologij je, kako ucinkovito priklicati iz zbirke nabor slik cimbolj podobnih temu, kar je podano v poizvedbi. Tu se kaze povsem drugacen princip delovanja CBIR v primerjavi s tekstovnimi sistemi, kjer je podani deskriptor bodisi prisoten bodisi pa odsoten v opisu, shranjenem v zbirki. Procesiranje poizvedbe v takem primeru vecinoma sestoji iz prepoznavanja tistih dokumetov, ki vsebujejo podani deskriptor oziroma so povezani z njim.
Santini in Jain (1997) pravita, da je najvaznejsi cilj tradicionalnih tekstovnih sistemov pri poizvedovanju razdelitev zbirke na dva dela: na relevantne in nerelevantne dokumente, cetudi so pripadniki prve skupine lahko rangirani po vecji ali manjsi relevantnosti. V nasprotju s tem pa je primarni cilj CBIR sistema, da glede na uporabniski vnos celotno zbirko razvrsti po podobnosti.
CBIR poizvedovanje se danes v praksi odvija predvsem na stopnji 1, ki je najnizja od treh stopenj CBIR poizvedovanja, kot jih navaja Eakins (1996). Tako poizvedovanje obsega uporabo enostavnih znacilnic kot so barva, tekstura, oblika, prostorski odnosi in njihovo kombiniranje. Z uporabo teh parametrov je moc najti slike, na katerih npr. prevladuje oranzna barva, v desnem spodnjem kotu pa se nahaja zelen predmet. Poizvedovanje na tem nivoju najpogosteje poteka po principu »najdi mi vec slik podobnih tej«. Sistemom je skupno zanasanje na avtomatizirano ekstrakcijo znacilnic iz slik, brez navezave na zunanjo zbirko znanja pri indeksiranju ali drugih opravilih. Uspesno se tako poizvedovanje uporablja predvsem v zbirkah, kjer slike same po sebi pretezno nimajo pomena (npr. v zbirki logotipov blagovnih znamk).
Sistemi, ki bi v praksi uporabljali poizvedovanje na eni izmed dveh visjih stopenj, so redki in so predmet raziskovanja. stevilni raziskovalci menijo, da bo ravno razvoj teh sistemov razsiril uporabo CBIR tehnologije. Stopnja 2 obsega poizvedovanje po logicnih znacilnicah, ki vsebujejo doloceno stopnjo logicnega sklepa o identiteti predmetov, prikazanih na sliki. Poizvedovanje na tem nivoju zajema prepoznavanje prizorov in predmetov (npr. dolocenih tipov zgradb). Pogosto je pomembno, da identificiramo skupen tip prizora, ki ga prikazuje slika, saj je to lahko pomemben filter pri iskanju in pomoc pri prepoznavanju predmetov na sliki. Stopnja 3 obsega poizvedovanje po abstraktnih atributih. Ti zajemajo razglabljanje o pomenu in namenu predmetov, ki jih scene na slikah prikazujejo. Poizvedbe znotraj te stopnje lahko delimo na poizvedovanje po imenovanih dogodkih ali tipih aktivnosti (npr. najdi mi slike slovenskih ljudskih obicajev) in poizvedovanje po slikah s custvenim ali religioznim pomenom (npr. najdi mi slike, ki prikazujejo trpljenje).
Medtem ko stopnji 2 in 3 pogosto obravnavamo skupaj, je razkorak med poizvedovanjem na stopnjah 1 in 2 zelo velik. Stopnji 2 in 3 je moc povezati pod pojmom semanticno poizvedovanje, razkorak med stopnjama 1 in 2 pa lahko poimenujemo semanticni prepad. Ta klasifikacija sicer ignorira nekatere tipe poizvedovanja po slikah, kot je npr. poizvedovanje po metapodatkih, ne ker bi bili ti podatki nepomembni, ampak ker so izkljucno tekstovne narave. Kobinacija CBIR in tekstovnih oznak lahko izboljsa iskanje, vendar ne naslavlja problemov na stopnjah 2 in 3.
4 Uporabniski vmesniki
Sposobnost, da uporabniki enostavno in natancno izrazijo svojo iskalno zahtevo, je v vsakem poizvedovalnem sistemu kljucnega pomena. Poizvedovanje po slikah ni izjema, ni pa jasno, kako to v praksi izvesti. Uporaba poizvedovalnih jezikov, kot je SQL in temu podobnih, je bila prisotna v nekaterih zgodnjih CBIR sistemih, a njihova uporaba se ze takrat ni zdela optimalen nacin oblikovanja poizvedb po vizualni vsebini. Danes je v CBIR sistemih najbolj razsirjena uporaba slike za primer.
Nacini poizvedovanja se lahko med sabo razlikujejo tudi glede na posameznikov pristop k iskanju. Pri ciljnem iskanju uporabnik natancno ve, katero sliko isce, in da jo locira, mora samo pravilno podati sistemu ustrezne podatke. ce uporabnik priblizno ve, kaj isce, bo najbrz najlazje iskal znotraj skupine dolocenih slik. ce ima sliko za primer ali pa mu sistem v nakljucnem zacetnem naboru slik ponudi sliko, ki priblizno ustreza, mu bo to dobro izhodisce za iskanje. Pri splosnem brskljanju je uporabniku zeleni rezultat nejasen ali celo neznan. Uporabnik isce v smislu »vedel bom, ko bom videl«. Uporabnik lahko pregleda veliko kolicino slik v zbirki, preden bo ugotovil, kaj je tisto, kar isce.
Izbira uporabniskega vmesnika je pomemben korak pri nacrtovanju CBIR sistema, saj je uporabniski vmesnik neposredni stik uporabnika s sistemom. V danasnjih CBIR sistemih poznamo naslednje oblike vmesniskih interakcij med uporabnikom in sistemom.
Podajanje slike za primer
Gre za vrsto vmesniske interakcije, ki omogoca uporabniku relativno enostaven vnos. Slika za primer je vzorec, ki pokaze, kaksen rezultat je zazelen, in naprosa sistem, naj najde nadaljnje podobne primere slik. Ta pristop sta ze leta 1981 opisala Chang in Fu (povzeto po Eakins in Graham, 1999) s svojim QPE vmesnikom (angl. query by pictorial example). Treba je vedeti, da uporabniki nimajo vedno pri roki slike za primer, zato je zazeleno, da lahko uporabnik sliko za primer izbere iz vec virov. Mozna je izbira slike za primer iz lastnega racunalnika, izbira z uporabo spletne povezave in izbira ene izmed slik iz zbirke same. Zadnja moznost je v praksi najpogostejsa, sistem uporabniku ponudi nakljucen ali tipicen nabor slik iz zbirke in uporabnik s klikom miske na eno izmed slik pricne poizvedbo.
Izbira (in obtezevanje) znacilnic
Pri takem vmesniku uporabnik sam izbere znacilnice, po katerih poizveduje, in sam doloci njihove zelene vrednosti. Gre za vrsto vmesnika, ki je naporen za uporabo, gledano s stalisca povprecnega uporabnika. Naprednejsa razlicica omogoca, da uporabnik obtezi pomembnost posameznih izbranih znacilnic, kar pa ne olajsuje uporabe vmesnika, prej nasprotno. Seveda uporabnik obtezuje posamezne znacilnice tudi pri drugih tipih vmesnikov, a le pri tem tipu to pocne z vnasanjem stevilcnih vrednosti. Tak vmesnik lahko za zelo izkusenega uporabnika pomeni prednost, moznost natancnejsega podajanja poizvedbe. Razlicica tega tipa vmesnika je podajanje vrednosti v obliki histograma, kjer lahko namesto z vnasanjem stevilk uporabnik poda poizvedbo z graficno ponazoritvijo npr. kolicine barve, kar pa je ze zelo podobno vnasanju lastne skice ali slike za primer.
Podajanje slike za primer + izbira regij in znacilnic za regije
Pri tem vmesniku gre za kombinacijo zgornjih dveh z dodatkom segmentacije. Uporabnik izbere sliko za primer in oznaci pomembne regije znotraj nje. Dobro je, ce lahko uporabnik oznaci poljubne regije in ce lahko obtezi pomembnost posameznih znacilnic v izbranih regijah. Tak tip vmesnika je redkejsi kot iskanje z uporabo slike za primer, ceprav da boljse rezultate. Podobne rezultate lahko dobimo v sistemu, kjer je izhodisce slika za primer, nato pa izboljsamo rezultate z uporabo povratne zanke.
Kreacija lastne skice
Uporabnik sam, ponavadi s pomocjo miske, narise skico, ki cim bolj nakazuje na iskano sliko. Sistem lahko pri procesiranju poizvedbe uposteva samo obris oz. obliko, pri vecini vmesnikov pa lahko uporabnik narise barvno skico in tako ponazori tudi zelene barve in po moznosti se njihov polozaj na iskani sliki. Da so rezultati poizvedbe ustrezni skici, morajo biti barvne informacije o sliki povezane z njihovo lokacijo v skici. Taksni vmesniki ponujajo razlicne nacine skiciranja. Uporabnik lahko izbira tanjse ali debelejse crte, v skico lahko vstavi razlicne geometrijske oblike ipd. Varianta pristopa s skico so slikovne ikone, kjer uporabnik skice ne narise sam, ampak jo ustvari z izbiranjem in kombiniranjem razlicnih preddefiniranih ikon.
4.1 Povratna zanka
Ker ne moremo realno pricakovati, da bo uporabnik v prvem iskanju nasel ustrezne mere ujemanja, dober sistem omogoca interakcijo z uporabnikom, v kateri ta izrazi zadovoljstvo s predlaganimi rezultati poizvedbe. Iskanje s povratno zanko gre korak dlje od zgoraj nastetih tipov vmesnikov, saj odstrani breme rocnega utezevanja znacilnic. Princip povratne zanke obicajno poteka tako, da uporabnik razvrsca slike, ki so rezultat poizvedbe, glede na njihovo relevantnost. Sistemu pove, katere slike so zanj relevantne in katere niso. Sistem na podlagi novih podatkov uporabniku ponudi izboljsan nabor zadetkov. Povratna zanka je lahko enkratna, ali pa se ponavlja v vec zaporednih korakih. Nekateri sistemi omogocajo uporabo povratne zanke ze v samem zacetku oblikovanja poizvedbe, pri nekaterih pa je potrebno najprej priklicati iz zbirke nabor zadetkov, nakar je omogoceno izboljsevanje poizvedbe z uporabo povratne zanke.
4.2 Poklicne skupine kot tipicni uporabniki slik
Z vsakdanjo uporabo slik se srecujejo stevilne poklicne skupine. Ker so te, vsaka zase, mnogo bolj homogene, kot to velja za prostocasne uporabnike slik, je mozno ugotoviti, na kaksen nacin so slike uporabljene v nekaterih poklicih in ali to zajema tudi uporabo CBIR sistemov. Tipicna podrocja s kljucno uporabo slik so: kriminalistika (zbirke prstnih odtisov, slike prizorisc zlocinov, zbirke obrazov, DNK verig, odtisov podplatov cevljev ali avtomobilskih gum in zbirke ukradenih predmetov), medicina (velike zbirke rentgenskih posnetkov), zaloznistvo (ilustracije, spremne fotografije k clankom v casopisju) ter zgodovina in arheologija (nadomestki originala, slike izkopanin).
Uporaba slik je pogosta in pomembna tudi na podrocju bibliotekarstva in njemu sorodnih ved. ze pri vseh zgoraj navedenih podrocjih se lahko z uporabo slik sooci bibliotekar v specialni knjiznici. Na podrocju splosnih knjiznic pa se od knjiznicarja pricakuje odlicno poznavanje sistemov za poizvedovanje in tudi poznavanje CBIR sistemov in njihove uporabe ne bi smelo biti izjema. Poleg tega je znana ideja, da bi se s pomocjo CBIR izgradili filtri, ki bi zaznavali prisotnost pornografskega materiala in onemogocali dostop do njega. To je pomembno podrocje moznega povezovanja CBIR funkcionalnosti in knjiznic, saj knjiznice svojim uporabnikom, tudi mladoletnim, nudijo prost dostop do interneta. Na podrocjih sorodnih ved se ne moremo izogniti asociaciji na muzeje in arhive, kjer so se tudi ze izvajali projekti, povezani s CBIR funkcionalnostjo. Tako muzeji kot arhivi se soocajo z gradivom, ki se ga pogosto obdeluje izkljucno v digitalnem okolju, saj je obdelava originala izkljucena zaradi namena njegovega ohranjanja.
5 Primerjava prostodostopnih sistemov na Internetu
V nadaljevanju primerjamo vecino CBIR sistemov prostodostopnih na internetu. Za sirsi opis priporocam ogled diplomskega dela (Kranjc, 2006). Rezultate raziskave predstavljamo v dveh velikih primerjalnih tabelah. V Tabeli 1 so zdruzene naslednje karakteristike:
- seznam sistemov, primerjava razvojnih okolij in drzav, v katerih so bili razviti,
- primerjava znacilnic, ki jih uporabljajo sistemi, kateri sistemi uporabljajo katere znacilnice in koliko sistemov uporablja iste oz. razlicne tipe znacilnic,
- primerjava nacinov predstavitev rezultatov, ali je podobnost stevilcno opredeljena.
5.1 Razvojna okolja
Vecina sistemov (skoraj 70 %) je plod znanstvenih raziskav in izvirajo iz akademskega okolja. Skoraj vsi ti sistemi so nastali v okviru racunalniskih oddelkov univerz, nekateri so nastali v specializiranih centrih pod okriljem univerz, nekateri pa v povezavi z zunanjimi instituti (2 sistema). Avtorji variirajo od studentov, ki pripravljajo diplomsko ali magistrsko nalogo in v okviru tega ustvarijo CBIR sistem, do priznanih znanstvenikov, ki okoli sebe zberejo ugledno raziskovalno skupino.
Manj sistemov nastane v drugih raziskovalnih ustanovah, kot so instituti (4 sistemi). Komercialnih sistemov je bistveno vec, toda niso prosto dostopni, ampak so zaprti sistemi. V raziskavo so tako vkljuceni stirje komercialni sistemi, od katerih je en demonstracijski sistem (Image-seeker) z nepopolno CBIR funkcionalnostjo, eden je sistem, ki ni vec aktualen, pa se vedno zivi v zbirki muzeja Hermitage, dva pa sta eksperimentalna sistema (Tiltomo in Retrievr), ki za svoj razvoj uporabljata spletno skladisce slik Flickr, in sta v tej eksperimentalni razlicici prosto dostopna, saj je njuna uporaba v interesu avtorjev.
Edini sistem, ki ne prihaja iz ZDA ali Evrope, je imgSeek, ki prihaja iz Brazilije, a je razvit na osnovi dela (algoritma) ameriskih znanstvenikov. Sicer je izvor sistemov po drzavah tak, da 8 sistemov (35 %) prihaja iz ZDA, 14 sistemov (60 %) pa iz razlicnih evropskih drzav, pri cemer ni nobena drzava zastopana vec kot z dvema sistemoma. Vsi sistemi, ki prihajajo iz ZDA so nastali v akademskem okolju, kar je posledica zgodnje raziskovalne dejavnosti na tem podrocju, ki se je odvijala prav tam. stevilni sistemi, ki so nastali v devetdesetih, niso vec aktualni in niso vkljuceni v raziskavo, prihajajo pa v veliki vecini prav tako iz ZDA.
5.2 Poizvedovanje v sistemih
Enostavne znacilnice, ki jih uporabljajo posamezni sistemi, so razvidne iz Tabele 1. Potrjuje se predpostavka, da je barva najpogosteje uporabljena znacilnica, saj znacilnic barve ne uporabljajo le trije (specializirani) sistemi. Edini sistem, ki uporablja barvo kot edino znacilnico, je WeebSEEk, imgSeek in retrievr uporabljata poleg barve se robove, kot kompleksno znacilnico. Podobno stevilo sistemov uporablja znacilnice teksture in oblike, kar je zanimivo, saj so znacilnice oblike naceloma tezje izracunljive in se vcasih uvrscajo med kompleksnejse znacilnice (Johansson, 2000). Sistem LCPD se v celoti zanasa na znacilnice teksture.
Nacini oblikovanja poizvedb so prikazani v Tabeli 2. Iz nje je razvidno, katere in koliko razlicnih moznosti zastavljanja poizvedb omogocajo uporabniski vmesniki posameznih sistemov. Poudarek je na preglednosti prikaza in dobri primerljivosti podatkov.
Rezultati potrjujejo domnevo, da je osnovni nacin podajanja vnosa pri CBIR poizvedovanju slika za primer. Tak nacin podpira kar 87 % sistemov. Pri tem je dalec najbolj pogosto podajanje slike za primer iz obstojece zbirke, ki jo uporablja sistem (omogoca 78 % sistemov), redkejse pa podajanje slike iz osebnega racunalnika (omogoca 17 % sistemov) in s podajanjem URL-ja na povezavo s svetovnega spleta (omogoca 13 % sistemov).
Manj sistemov omogoca druge nacine oblikovanja poizvedb. Sedem sistemov (30 %) omogoca uporabniku vnos lastne skice, pri cemer en sistem omogoca uporabo preddefiniranih ikon (ImageScape). sest sistemov omogoca uporabniku, da rocno obtezi posamezne znacilnice, pogosto se to zgodi v kombinaciji z uporabo slike za primer. Najmanj sistemov (dva) omogoca iskanje s sliko za primer in izbiranjem regije v sliki. QuickLook omogoca tovrsten nacin, toda uporabnik mora predhodno v nastavitvah sistema dolociti, kateri segementi slike bodo upostevani.
En sistem (Viper) ne omogoca nobenega od zgoraj nastetih nacinov. V njem je mozno poizvedovanje zgolj z uporabo principa povratne zanke. Ta princip sicer uporablja 10 sistemov, kar je manj kot polovica vseh sistemov. To je presenetljivo, saj povratna zanka po nasi oceni izjemno pozitivno vpliva na skladnost uporabnikovih pricakovanj in rezultatov, ki jih na osnovi njegovega vnos vrne sistem. Uporabnik namrec izrazi nezadovoljstvo nad rezultati oziroma zanj tipicno videnje, kaksni naj bodo rezultati, in na ta nacin se manjsa semanticni prepad.
Pri predstavitvi rezultatov ugotavljamo, da so v vseh sistemih rezultati razvrsceni po podobnosti. Iz Tabele 1 je razvidno, kateri sistemi ob tem podajo tudi stevilcne vrednosti za podobnost. Takih sistemov je le pet oz. 22 %. Po nasi oceni gre za informacijo, ki je lahko za uporabnika zelo uporabna, saj mu omogoca boljse razumevanje rezultatov. Rangiranje, ko v zbirki ni podobnih slik, lahko uporabnika pusti v misli, da je sistem slab, stevilcno rangiranje pa mu omogoca ustreznejse vrednotenje rezultatov.
5.3 Uporaba sistemov
Posamezni sistemi se zelo razlikujejo po nacinu uporabe. Vecina sistemov obstaja samo v spletni demonstraciji, bodisi da jih avtorji razvijajo z moznostjo kasnejse uporabe (npr. Tiltomo) bodisi so ze deloma zastareli (spletna demonstracija pa se vedno deluje in pogosto je se vedno mozno kontaktirati avtorje). Nekateri sistemi so odprtokodnega znacaja, in jih lahko v svojih aplikacijah uporablja kdor hoce (npr. imgSeek).
Nekateri sistemi so presegli demonstracijski namen, in se uporabljajo v sirsem kontekstu, npr. v organizacijah, kot so instituti in podjetja. Bodisi so to sistemi, ki so bili razviti z namenom konkretne uporabe in si gresta razvoj in uporaba z roko v roki (npr. IRMA), bodisi so to sistemi, ki so izrazito komercialne narave (npr. Image-seeker), bodisi so to sistemi, kot je SIMPLIcity, kjer je bil prisoten mocan interes razvijalcev za razlilcne oblike konkretne uporabe.
Glede na sam namen uporabe gre izpostaviti se eno vrsto sistemov. Gre za sisteme, katerih osnovni namen je soocanje z veliko kolicino slik, ki so prisotne na internetu. Tovrstni pionirski sistem je bil WebSEEk, danes pa iskanje v vec kot 10.000.000 slik s spleta omogoca Cortina. Tovrstni sistemi avtomatsko indeksirajo velike kolicine slik s svetovnega spleta po hibridnem principu, pri cemer spretno uporabljajo strukturo spletnih dokumentov.
5.4 Omejitve
Sistemi so lahko omejeni zaradi razlicnih razlogov:
- neuporabe povratne zanke (npr. SIMPLIcity),
- prepocasnega delovanja (npr. IRMA),
- premajhne ali premalo heterogene zbirke slik (razen ce je taka s posebnim namenom),
- nezadovoljivega uporabniskega vmesnika (npr. LCPD),
- pretirane zapletenosti (npr. COMPASS),
- zastarelosti (npr. ImageScape),
- preslabih navodil za uporabo (npr. Pic2Seek),
- neskladja med uporabnikovimi pricakovanji in dejanskimi rezultati, ki pa ni nujno odraz slabega algoritma, ampak je lahko v eksperimentalnih sistemih pogosto odraz premajhne zbirke (ze navedeno v tretji alineji) ali pa posledica slabih mer.
Uporabniski vmesniki pogosto delujejo v javanskem okolju, kar v veliko primerih pomeni tudi pocasno delovanje. Sistemi, kot je Viper, kazejo smernice za razvoj hitrejsih vmesnikov, napisanih v skriptnem jeziku PHP, in s tem bolj prilagojenih podajanju spletnih vsebin.
5.5 Trendi
Znanstveniki, ki raziskujejo na podrocju racunalniskega vida, so se v veliki meri ze preusmerili stran od sistemov, ki delujejo na principih enostavnih znacilnic, in iscejo naprednejse resitve. Nadaljuje pa se tudi razvoj tovrstnih sistemov. Ta razvoj poteka v dve smeri. Na eni strani so sistemi, ki se razvijajo za specificen namen uporabe v homogenih zbirkah, na tipicnih podrocjih, kot sta medicina in kriminalistika. Na drugi strani gre razvoj v smer razvoja hibridnih sistemov, v katerih se avtomatsko zdruzita vsebina in tekstovni opis slik.
Trend razvoja slednjih je se posebej aktualen, saj se ta razvoj odvija zdaj, zanimiv pa je tudi za naso stroko, saj se navezuje na indeksiranje spletnih vsebin. Retrievr in Tiltomo sta mocno povecala zanimanje za uporabo CBIR sistemov med splosnimi uporabniki slik. ce se zgodi, da Flickr vgradi CBIR sistem v svoj spletni servis, kar je povsem verjetno, bomo doziveli veliko povecanje stevila zainteresiranih uporabnikov in v trznem okolju interneta bo to vodilo v nove raziskave in predvsem v nove nacine uporabe, predvsem imamo v mislih velike spletne iskalnike, kot je Google.
Tak razvoj lahko vodi tudi v se bolj intenzivno znanstvenoraziskovalno dejavnost na podrocju CBIR. V vsakem primeru pa bodo vidiki konkretne uporabe sistemov vedno bolj zanimivi za naso stroko, kot teorija, ki je za algoritmi njihovega delovanja.
6 Zakljucek
CBIR je princip, ki je in bo ostal soudelezen pri soocanju z velikimi zbirkami slik. ce ima danes pogosto se stransko vlogo, je iz raziskovalne vneme, ki ga obdaja, jasno razvidna narascajoca potreba po tovrstnem pristopu. Principi CBIR so ze dolgo trdno umesceni v podrocja, kot je biomedicinska informatika, a glavne omejitve CBIR sistemov se navezujejo na uporabo v velikih heterogenih zbirkah slik. Ker CBIR sistemi se vedno niso zmozni uspesno zajeti logicnih konceptov in semanticnih pomenov iz slik, so z uporabniskega stalisca pogosto bolj ali manj neuporabni. Znanstvena skupnost vidi resitev predvsem v iskanju naprednejsih resitev, dolocen segment raziskovalcev (med njimi tudi akademski) pa se osredotoca na razvoj hibridnih sistemov, kjer se tekstovni opisi, tako kot vsebina, avtomatsko pridobijo iz strukture spletnih dokumentov in ovrednotijo skozi algoritem.
Poznavanje problematike CBIR je pomembno za bibliotekarje, saj se kot informacijski strokovnjaki umescamo v sisteme pretoka informacij, tudi slikovnih. Poleg splosnega poznavanja sistemov vidimo se nekaj razlogov, zaradi katerih bi morali poznati CBIR problematiko. En je uporabniski vidik, povsem mozno je, da bo v bliznji prihodnosti interakcija z uporabniki zahtevala od nas osnovno poznavanje CBIR sistemov. Drug je vidik informacijske pismenosti, ki zajema tudi zmoznost uporabe razlicnih sistemov za poizvedovanje, tretji je vidik proste dostopnosti informacij, ki zajema tudi omogocanje spletnih vsebin in v povezavi s tem tudi omogocanje uporabe prosto dostopnih CBIR sistemov. Pomemben vidik pa je tudi bodoca integracija CBIR sistema v digitalno knjiznico, ki bo sicer verjetno potekala v izvedbi racunalniskega strokovnjaka, a zagotovo tudi ob sodelovanju informacijskega strokovnjaka. V vsakem primeru je pomembno, da smo bibliotekarji v koraku s casom in da imamo ustrezna znanja za delo s kakrsnimikoli sistemi za poizvedovanje.
KRANJC, Tomaz; Jasna MAVER. Subject search of images. Knjiznica, Ljubljana, 51(2007)3-4, p. 41-66
* clanek je nastal na osnovi diplomske naloge, za katero je Tomaz Kranjc leta 2007 prejel Bercicevo nagrado.
1 Obsirneje na http://en.wikipedia.org/wiki/Sketchpad
Viri
1. BIRD, C. L., ELLIOTT, P. J., HAYWARD, P. M. (1999). Content-based retrieval for European image libraries. [online]. V Challenge of image retrieval, Newcastle upon Tyne, UK, 25-26 Februar 2006. Pridobljeno 6. 10. 2005 s spletne strani http://ewic.bcs.org/conferences/1999/imageret/papers/paper2.pdf
2. CAWKELL, T. (2000). Image indexing and retrieval by content. Information Services and Use, vol. 20, no. 1, str. 49-58.
3. CHANG, S-F., CHEN W., SUNDARAM, H. (1998). Semantic visual templates: linking visual features to semantics. [online]. V International Conference on Image Processing (ICIP 98), 4-7 Oct 1998, str. 531-535. Pridobljeno 6. 5. 2005 s spletne strani http://ame2.asu.edu/faculty/hs/pubs/icip98.pdf
4. CHANG, S-F., SMITH, J. R., BEIGI, M., BENITEZ, A. (1997). Visual information retrieval from large distributed online repositories. Communcations of the ACM, vol. 40, no. 12, str. 63-71.
5. Content-Based Image Retrieval (CBIR) of Biomedical Images: a report to the Board of Scientific Counselors. (2002). [online]. Communications Engineering Branch, Lister Hill National Center for Biomedical Communications, National Library of Medicine. Pridobljeno 16. 8. 2005 s spletne strani http:// archive.nlm.nih.gov/pubs/reports/bosc02/
6. DEL BIMBO, A. (1999). Visual information retrieval. San Francisco: Morgan Kaufmann Pub.
7. EAKINS, J. P. (1996). Automatic image content retrieval: are we getting anywhere? [online]. Newcastle: Department of computing. University of Northumbria. Pridobljeno 24. 4. 2005 s spletne strani http://www.unn.ac.uk/iidr/papers/ elvira3.ps.Z
8. EAKINS, J. P., GRAHAM, M. E. (1999). Content-based image retrieval: a report to the JISC technology applications programme. [online]. Newcastle: Institute for image data research. University of Northumbria. Pridobljeno 27. 4. 2005 s spletne strani http://www.unn.ac.uk/iidr/CBIR/report.html
9. FINN, R. (1996). Querying by image content. [online]. Pridobljeno 8. 6. 2005 s spletne strani http://domino.research.ibm.com/comm/wwwr_thinkresearch. nsf/pages/image396.html
10. FORSYTH, D. A. (1999). Computer vision tools for finding images and video sequences. Library trends, vol. 48, no. 2, str. 326-355.
11. GERADTS, Z. (2002). Content-based information retrieval from forensic image databases. [online]. Utrecht: Proefschrift Universiteit. Pridobljeno 21. 6. 2005 s spletne strani http://forensic.to/Dissertation.pdf
12. GEVERS, T., SMEULDERS, A. (2004). Image search engine: an overview. V Emerging topics in computer vision. Upper Sadle River: Prentice Hall.
13. GROSKY, W. I., STANCHEV, P. L. (2000). An image data model. V Proceedings of the fourth international conference on advances in visual information systems, lecture notes in computer science. [online]. London: Springer-Verlag. Pridobljeno 8. 5. 2005 s spletne strani http://www.kettering.edu/~pstanche/ Visua2000.pdf
14. GUPTA A., SANTINI, S, JAIN R. (1997). In search of information in visual media. Communcations of the ACM, vol. 40, no. 12, str. 35-42.
15. HOLT, B., WEISS, K., NIBLACK, W., FLICKNER, M., PETKOVIC, D. (1997). The QBIC project in the department of art and art history at UC Davis. [online]. V Proceedings of the sixtieth annual meeting of American Society for Information Science, November 1-6, 1997, Washington DC. Pridobljeno 5. 5. 2005 s spletne strani http://www.asis.org/annual-97/holt.htm
16. HOVE, L-J. (2004). Extending image retrieval systems with thesaurus for shapes: master thesis. [online]. Bergen: Institute for information and media science. University of Bergen. Pridobljeno 17. 7. 2005 s spletne strani http:// www.nik.no/2004/bidrag/Hove.pdf
17. JACOBS, C. E., FINKELSTEIN., A., SALESIN, D. (1995). Fast multiresolution image querying. [online]. V Proceedings of SIGGRAPH 95. Pridobljeno 20. 6. 2005 s spletne strani http://grail.cs.washington.edu/projects/query/ mrquery.pdf
18. JAIN, R. (1997). Visual information management. Communcations of the ACM, vol. 40, no. 12, str. 31-32.
19. JOHANSSON, B. (2000). A survey on: content based image search in image databases. [online]. Pridobljeno 2005-04-16]. S spletne strani http://www.cvl. isy.liu.se/ScOut/TechRep/Papers/LiTHISYR2215.pdf
20. KONAK, E. S. (2002). A content-based image retrieval system for texture and color queries: a thesis. [online]. Bilkent: Department of computer engineering, Bilkent university. [Pridobljeno 2005-06-10]. S spletne strani http://www.cs.bilkent. edu.tr/tech-reports/2002/BU-CE-0212.pdf
21. KRANJC, T. (2006). Poizvedovanje po slikah na podlagi vsebine: s pregledom obstojecih prosto dostopnih sistemov: diplomsko delo. Ljubljana: [samozal T. Kranjc].
22. LEHMANN et al. (2004). Content-based image retrieval in medical applications. [online]. Methods Inf Med, vol. 43, str. 354-361. Pridobljeno 21. 3. 2006 s spletne strani: http://phobos.imib.rwth-aachen.de/irma/ps-pdf/ MIM_2004-43(4)354-361.pdf
23. LU, G., WILLIAMS, B., YOU, C. (2001). An effective World Wide Web image search engine. Journal of Information Science, vol. 27, no. 1, str. 27-37.
24. MÜLLER, H., MICHOUX, N., BANDON D., GEISSBUHLER, A. (2004). A review of content-based image retrieval systems in medical applications: clinical benefits and future directions. International Journal of Medical Informatics, vol. 73, str. 1-23.
25. QUACK, T., MÖNOCH, U., THIELE, L., MANJUNATH, B.S. (2004). Cortina: a system for large-scale, content-based web image retrieval. [online]. V Proceedings of the 12th annual ACM international conference on Multimedia. Pridobljeno 17. 3. 2006 s spletne strani: http://www.vision.ee.ethz.ch/ ~tquack/quack04.pdf
26. RUI, Y, HUANG, T. S., CHANG, S-F. (1999). Image retrieval: current techniques, promising directions and open issues. [online]. Journal of Visual Communication and Image Representation, vol. 10, str. 39-62. Pridobljeno 18. 5. 2005 s spletne strani: http://www.cs.princeton.edu/courses/archive/ spr05/cos598E/bib/rui99_cbir_survey.pdf
27. STANCHEV, P. L. (2001). Content-based image retrieval systems. [online]. CompSysTech, Bulgarian computer science conference, 21-22.06.2001, Sofia. Pridobljeno 21. 6. 2005 s spletne strani http://www.kettering.edu/~pstanche/ comosys2001.pdf
28. STANCHEV, P. L., GREEN, D. (2002). Current state and research trend in the image database systems. [online]. Mathematics and education in mathematics. Pridobljeno 6. 8. 2005 s spletne strani http://www.kettering.edu/~pstanche/ borovez.pdf
29. STICKER, M., DIMAI, A. (1996). Color indexing with weak spatial constraints. V Symposium on Electronic Imaging: Science and Technology - Storage & Retrieval for Image and Video Databases IV, str. 29-41.
30. SWAIN, M. J., BALLARD, D. H. (1991). Color indexing [online]. International Journal of Computer Vision, vol. 7, no. 1, str. 11-32. Pridobljeno 4. 10. 2005 s spletne strani: http://www.stanford.edu/~simonb/papers/Swain%20Ballard %20Color%20Indexing%20n231l41541p12l1g.pdf
31. VASCONCELOS, N., KUNT, M. (2001). Content-based retrieval from image databases: current solutions and future directions. [online]. V IEEE International Conference on Image Processing, Thessaloniki, Greece, October 2001. Pridobljeno 11. 8. 2005 s spletne strani http://www.svcl.ucsd.edu/~nuno/ ICIP01/Vasconcelos_Kunt.pdf
32. VELTKAMP, R. C., TANASE, M. (2002). Content-based image retrieval systems: a survey. [online]. Pridobljeno 27. 4. 2005 s spletne strani http://givelab. cs.uu.nl/cbirsurvey/cbir-survey.pdf
33. WANG, J. Z., LI, J., WIEDERHOLD, G. (2001). SIMPLIcity: Semantics- Sensitive Integrated Machine for Picture Libraries [online]. V IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 9, str. 947-963. Pridobljeno 24. 6. 2005 s spletne strani http://www-db.stanford.edu/~wangz/ project/imsearch/SIMPLIcity/TPAMI/wang2.pdf
34. WEES, M. (2002). How to find images of art on the internet? Zaandijk: [samozal. M. van Wees].
35. YANAI, K., SHINDO M., NOSHITA, K. (2004). A fast image-gathering system from World-Wide-Web using a PC cluster [online]. Image and vision computing, vol. 22, str. 59-71. Pridobljeno 22. 3. 2006 s spletne strani http:// skynet.liacs.nl/downloads/MIR.RL1/Yanai.Shindo.Noshita.IVC04.pdf
Tomaz Kranjc je diplomant Oddelka za bibliotekarstvo, informacijsko znanost in knjigarstvo na Filozofski fakulteti Univerze v Ljubljani.
Naslov: Kuzeletova 8, 1000 Ljubljana
Naslov elektronske poste: [email protected]
Izr. prof. dr. Jasna Maver je predavateljica na Oddelku za bibliotekarstvo, informacijsko znanost in knjigarstvo na Filozofski fakulteti Univerze v Ljubljani.
Naslov: Pletersnikova 26, 1000 Ljubljana
Naslov elektronske poste: [email protected]
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
Copyright Zveza Bibliotekarskih Drustev Slovenije 2007





