U radu se prikazuje izrada leksikona hrvatskih glagola CroDeriV i teorijske postavke na kojima ona pociva. CroDeriV je racunalni leksikon koji sadrzava podatke o morfoloskoj strukturi gotovo 14.000 hrvatskih glagola. U prvom dijelu clanka prikazuju se postupci morfoloske analize glagola i me|usobnoga povezivanja glagola s istim korijenom. Glagoli su u prvoj fazi izrade CroDeriV-a automatski segmentirani s pomocu pravila. U drugoj fazi rezultati segmentacije i svo|enja na isti korijen rucno su provjereni. U drugome dijelu clanka obrazlaze se uopceni prikaz morfoloske strukture hrvatskoga glagola utemeljen na podatcima dobivenima iz CroDeriV-a, pri cemu se posebna pozornost pridaje vrstama, funkciji i znacenju sufikasa. Naposljetku se iznose empirijski podatci o mogucim kombinacijama afikasa koji sudjeluju u tvorbi hrvatskih glagola, kao i o njihovoj frekvenciji utvr|enoj analizom glagola iz CroDeriV-a.
CroDeriV and the morphological analysis of Croatian verb
The paper discusses the procedures in building of CroDeriV, the computational lexicon containing data on morphological structure of Croatian verbs. CroDeriV is the first morphological resource dealing with derivational phenomena of Croatian. In the first part of the paper, after the motivation for building this kind of lexicon and the brief overview of the existing morphological resources for Croatian, procedures for morphological segmentation of verbs in CroDeriV are presented. Each verb in CroDeriV is segmented into lexical and derivational morphemes. Verbs of the same root are mutually linked. This procedure enables the recognition of derivationally related families of verbs and, at the same time, the detection of full derivational spans of particular base forms. The second part of the paper focuses on the morphological structure of Croatian verbs based on the analysis of almost 14000 verbal lemmas currently included in CroDeriV. The analysis enabled the recognition of generalized morphological structure applicable to all Croatian verbs. It consists of four slots for derivational prefixes and three slots for derivational suffixes on each side of a lexical morpheme, and these slots are provided for every verbal lemma in CroDeriV. This structure is compared with other approaches dealing with morphology of Croatian verbs. The three suffixal slots and their semantics are explained in more detail, since this kind of segmentation has so far not been introduced in Croatian morphological literature. First suffixal slot comprises suffixes with specialized meanings (e.g. diminutive, pejorative), second slot suffixes with aspectual meaning, and third slot suffixes denoting conjugational class. The final part of the paper describes attested combinations of derivational affixes in CroDeriV and indicates the frequency of their occurrence.
Kljucne rijeci: CroDeriV, morfologija glagola, racunalni leksikon, hrvatski jezik
Key words: CroDeriV, morphology of verbs, computational lexicon, Croatian language
1. Uvod1
Razvoj racunaine lingvistike i racunainih aplikacija koje se koriste prirod- nim jezikom tijekom posljednjih tridesetak godina potaknuo je izradu jezicnih resursa za citav niz jezika, pa tako i za hrvatski. Racunalni resursi za hrvatski jezik obuhvacaju jednojezicne i paraielne korpuse vecega ili manjega opsega, banku stabala i leksikone poput morfoloskoga leksikona, leksikona glagolskih valencija i semanticke mreze.2 Takvi se resursi mogu koristiti u razvoju aiata za obradu prirodnoga jezika i raznim racunaino potpomognutim jezikoslovnim istrazivanjima. Izrada jezicnoga resursa, bez obzira na njegovu svrhu, pret- postavlja prikupljanje i obiljezavanje jezicnih podataka. Vrsta i nacin obrade jezicnih podataka u pravilu se razlikuju prema jezicnoj razini na koju se od- nose (npr. morfoloski, sintakticki ili semanticki leksikoni). Na pojedinoj razini jezicni resursi cesto su specijalizirani, odnosno obuhvacaju samo odredene po- datke (npr. flektivni leksikon na morfoloskoj razini ili valencijski leksikon na sintaktickoj razini). Na tako uze odredenim podrucjima jezicni se resursi mogu razlikovati prema teorijskome okviru unutar kojega se podatci analiziraju i obiljezavaju. U ovome clanku opisuje se izrada racunalnoga leksikona CroDeriV koji sadrzava morfoloske podatke o hrvatskim glagolima. U prvome dijelu clan- ka obrazlaze se motivacija za sastavljanje takve vrste jezicnoga resursa i opi- suju se teorijske pretpostavke na kojima pociva analiza i obiljezavanje jezicnih podataka. Na temelju analiziranih glagola izvodi se i argumentira uopcena morfemska struktura hrvatskoga glagola. Morfemska struktura hrvatskoga glagola sastoji se od konacnoga broja utora s pripadajucim znacenjima Utori se dijele na prefîksalne, sufîksalne, korijenske i interfîksalne. Posebno se detaljno opisuju tri sufîksalna utora predvidena unutar morfemske strukture hrvatskih glagola. U drugome dijelu clanka prikazuju se moguce kombinacije prefîkasa i sufîkasa dobivene analizom glagola u CroDeriV-u. Te su kombinacije prvi put u hrvatskoj lingvistici sustavno prikazane i potkrijepljene egzaktnim podatcima o njihovoj frekvenciji dobivenima analizom opsezna uzorka glagola Na kraju, raspravlja se o daljnjim mogucnostima koristenja prikazanoga morfoloskog leksikona.
2. Motivacija
Inicijalni poticaj za izradu morfoloskoga leksikona CroDeriV pojavio se tijekom rada na Hrvatskome WordNetu, racunalnome leksikonu cija je te- meljna jedinica skup sinónima - sinskup. Sinskupovi su medusobno povezani odnosima poput hiponimije, meronimije i antonimije. U izradi takve leksicko- -semanticke mreze, a posebice tijekom izrade glagolskih sinskupova, uoceno je da se znacenjske veze izmedu hrvatskih glagola koji sluze kao tvorbena osnova za tvorbu drugih glagola derivacijskim afíksima u velikome broju slucajeva ne mogu obuhvatiti odnosima koji se koriste izmedu glagolskih sinskupova kao cjelina. Odnosi izmedu glagolskih sinskupova, koje dalje nazivamo semantickim odnosima, obuhvacaju hiponimiju/hiperonimiju (A je ? na odredeni nacin, npr. zderati - jesti), antonimiju (A je suprotno od ?, npr. postiti - jesti), uzrok (A uzrokuje B, npr. hraniti - jesti) i poddogadaj (A je dio ?, npr. zvakati - jesti). Ti semanticki odnosi pokazali su se nedovoljnima, odnosno preuskima za obu- hvacanje cijeloga spektra odnosa koji proizlaze iz tvorbene, a time i znacenjske povezanosti hrvatskih glagola. Temeljni odnos na kojemu pociva struktura leksickih hijerarhija u Hrvatskome WordNetu jest hiperonimija/hiponimija. Prilikom izrade leksickih hijerarhija za hrvatske glagole moze se postaviti pi- tanje je Ii glagol uplivati hiponim glagola plivati ili uci, s obzirom na to da je semanticki povezan s obama. Nadalje, moze se postaviti pitanje kako oznaciti odnose izmedu glagola poput plivati i isplivati, preplivati, uplivati, kao i prepli- vavati, uplivavati itd. Zbog specificna i unaprijed zacrtana oblika leksikona sva- ki sinskup moze imati samo jedan hiperonim pa je sinskup s glagolom uplivati oznacen kao hiponim sinskupa s glagolom uci.3 Takva su se rjesenja pokazala nedostatnima za opis glagolskoga dijela hrvatskoga leksika i potaknula razra- du dodatnoga skupa odnosa koji se nazivaju morfosemantickim odnosima.4 Njihova karakteristika jest da se ne protezu izmedu cjelokupnih sinskupova, vec izmedu njihovih pojedinih clanova.5 Morfoloska se komponenta tih odnosa temelji na zajednickome korijenu i tvorbenoj povezanosti clanova razlicitih sinskupova. Njihova se semanticka komponenta temelji na vrsti semanticke veze izmedu tvorbeno povezanih clanova razlicitih sinskupova. Morfoloski uvjetovana semanticka interpretacija i oznacavanje morfosemantickih odnosa relativno su jednostavni kod predvidljive i jednoznacne modifîkacije osnovnoga oblika, kao npr. kod tvorbe imenicnih umanjenica, mocijskih parova, imenica koje oznacavaju vrsitelja radnje itd. U izradi semanticke mreze prema ocr- tanim nacelima znatno je veci problem odredivanje odnosa izmedu tvorbeno povezanih glagola. To vrijedi ponajprije za glagole koji se derivacijskim afiksi- ma tvore od drugih glagola jer se od osnovnih oblika u pravilu razlikuju i u glagolskome vidu. Kako bi se uopce moglo pristupiti razradi morfosemantickih odnosa, npr. izmedu neprefigiranih i prefigiranih oblika glagola, a i prosirenju i obogacivanju Hrvatskoga WordNeta, potrebno je znati koji derivirani oblici odredenoga glagola uopce postoje, odnosno koji afiksi mogu sudjelovati u deri- vaciji odredenih glagola. Buduci da konkretni podatci o tvorbenim procesima vece skupine glagola dosad nisu objavljeni ili nisu javno dostupni, nametnula se potreba za izradom jezicnoga resursa koji bi pruzio uvid u sto veci broj ovjerenih kombinacija derivacijskih afíkasa i polaznih oblika. Takav bi resurs s jedne strane zadovoljio gore navedene potrebe, dok bi s druge strane barem djelomicno popunio nedostatak racunalnoga resursa posvecenoga izuzetno bo- gatoj tvorbi rijeci u hrvatskome jeziku.
2.1. Racunalna obrada morfologije hrvatskoga jezika
Racunalna obrada morfologije hrvatskoga jezika dosad je primarno bila usmjerena na fleksiju. Na tome podrucju prednjaci Hrvatski morfoloski leksi- kon6 (dalje u tekstu HML), koji sadrzava 120.000 lema i sve njihove flektivne oblike. Podsastavnica HML-a jest Hrvatski lematizacijski posluzitelj,7 koji omo- gucava generiranje i prepoznavanje svih oblika rijeci iz HML-a. Tadic i Ful- gosi (2003) razmatraju mogucnost prosirenja HML-a uvodenjem derivacijske sastavnice leksikona, odnosno njegovom podjelom na flektivni i derivacijski dio. Buduca derivacijska sastavnica HML-a temeljila bi se na automatskome ge- neriranju kombinacija leksickih i derivacijskih morfema propisanim pravilima. Preduvjeti za prosirenje HML-a derivacijskom komponentom jesu popis mor- fema koji se kombiniraju i popis pravila za generiranje ovjerenih kombinacija, pri cemu bi popis morfema koji se kombiniraju trebao biti razdvojen na deri- vacijske i leksicke. Popis derivacijskih morfema moze se relativno jednostavno utvrditi pregledom postojecih gramatika i Babiceve Tvorbe (2002), ali je znatno teze skupiti opsezan popis leksickih morfema. Cavar i dr. (2008) navode da u Institutu za hrvatski jezik i jezikoslovlje postoji popis od 250.000 leksickih, derivacijskih i flektivnih morfema. Ta leksicka baza, koja izmedu ostaloga sadrzava gotovo 77.000 imenica i 25.000 glagola segmentiranih na morfeme, sluzi kao podloga alatu za morfolosku analizu i lematizaciju CroMo (Cavar i dr. 2008; Cavar i dr. 2009). Nazalost, resursi na temelju kojih je izgraden taj preoblicivac s konacnim brojem stanja nisu javno dostupni, kao ni nacin na koji su ti resursi prikupljeni.
Navedena leksicka baza i HML rueño su izgradeni resursi. Snajder (2008) prikazuje postupke strojne obrade morfologije hrvatskoga leksika i automatske izrade morfoloskoga leksikona. Flektivna se sastavnica modela koristi za izra- du flektivnoga leksikona iz neoznacena korpusa, a derivacijska za grupiranje tvorbeno povezanih unosaka flektivnoga leksikona. Derivacijska sastavnica obuhvaca imenice, glagole i pridjeve povezane sufîksalnom tvorbom. Obje se sastavnice radi automatskoga crpljenja podataka koriste za morfolosku nor- malizaciju, odnosno lematizaciju i korjenovanje rijeci. Korjenovanje oznacava postupak uklanjanja afíkasa iz oblika tvorbeno povezanih rijeci kako bi se dobio zajednicki korijen. Pritom su afíksi koji se uklanjaju u pravilu sufîksi, a dobiveni oblici nisu leksicki morfemi rijeci negó oblicne ili tvorbene osnove. Korjenovatelji za hrvatski jezik koji funkcioniraju na slicnim principima pri- kazani su u Ljubesic i dr. (2007) i Pandzic (2012). Svi navedeni korjenovatelji usmjereni su na prepoznavanje derivacijskih i flektivnih sufîkasa, dok poveza- nost osnova i prefîksalno deriviranih oblika ni kod jednoga nije obuhvacena. Iako su ti alati u vecoj ili manjoj mjeri temeljeni na lingvistickim pravilima, njihov cilj nije morfoloska rasclamba i stoga se ne mogu koristiti za opseznija istrazivanja tvorbe rijeci. Cinjenica da za jezik s izrazito razvijenim i razgra- natim derivacijskim procesima, kao sto je hrvatski, ne postoji racunaini resurs koji bi dao uvid u tvorbene uzorke i tvorbene porodice,8 poticaj je za njegov razvoj.
2.2. Teorijske postavke
Na samóme pocetku, prije anaiize dosadasnjih postavki na podrucju tvorbe rijeci hrvatskih jezikoslovaca i vlastita opisa morfoloske strukture hrvatskoga glagola, vazno je razgraniciti osnovne pojmove kojima cerno se koristiti. Ponaj- prije vaija razlikovati morfem i morf. Pod pojmom morf podrazumijevaju se razliciti fîzicki ostvaraji nekoga morfema u povrsinskoj postavi, a za prikaz, predocenje toga morfema u dubinskoj postavi uzima se morf koji se smatra osnovnim ili temeljnim (Markovic 2012: 38) i iz kojega se glasovnim promjena- ma uz primjenu pravila mogu izvesti svi njegovi alomorfi u hrvatskome jeziku (v. npr. Markovic 2012: 37, 361, Babic, ?. 1991: 10). Morfem cini skup svih morfova istoga sadrzaja u komplementarnoj distribuciji. U CroDeriV-u prikaza- ne su i povrsinska i dubinska postava svake lerne, pri cemu se na povrsinskoj postavi nalaze morfovi koji su spojeni na zajednicki morfem u dubinskome prikazu. Drugim rijecima, kada govorimo o povrsinskome prikazu, govorimo o morfovima, a kada govorimo o dubinskome prikazu, govorimo o morfemima koji obuhvacaju sve svoje potvrdene ostvaraje - alomorfe - u hrvatskome jezi- ku. Na kraju, vaija razlikovati izmedu tvorbene osnove i korijena (leksickoga morfa). Tvorbena je osnova ona koja sudjeluje u jednome derivacijskome pro- cesu i na koju se izravno dodaje derivacijski afiks, a korijen je dio rijeci koji nastaje kad se odstrane svi ostali morfovi i koji je nositelj temeljnoga znacenja rijeci (v. i Markovic 2012: 50). Tvorbena osnova i korijen mogu se i ne moraju podudarati (npr. bac- u baciti istovremeno je i korijen i tvorbena osnova, dok je u razumjeti tvorbena osnova razum, a korijen um). Termini morf i morfem, osnova i korijen nerijetko u literaturi nisu jasno defînirani, pa se cini da bi ja- sno razgranicenje moglo pridonijeti boljemu razumijevanju teorijskih postavki, a onda i iz njih izvedene morfoloske strukture hrvatskoga glagola koji ce se prikazati u ovome i sljedecem poglavlju.
Osim Babiceva kapitalnoga djela Tvorba rijeci u hrvatskome knjizevnome jeziku 01986, ovdje se koristi trece izdanje iz 2002) i prilicno opsezna po- glavlja posvecena tvorbi rijeci u Mareticevoj Gramatici i stilistici hrvatskoga ili srpskoga jezika iz davne 1899. opisu je tvorbenih fenomena hrvatskoga jezika posveceno relativno malo prostora. Ni samo mjesto tvorbe rijeci u gramatickome opisu nije jednoznacno odredeno. Neki tvorbu rijeci promatraju kao dio morfologije, koju onda dijele na flektivnu i derivacijsku, a neki kao izdvojenu od morfologije ili kao dio leksikologije.9 U Baric i dr. (2003) tvorba se rijeci obraduje kao zasebno poglavlje, odnosno odvojeno od morfologije. U Akademijinoj gramatici tvorba rijeci i fleksija obraduju se u zasebnim svesci- ma.10 U nastavi hrvatskoga jezika tvorba rijeci tradicionalno se poucava kao dio leksikologije.11 Silic i Pranjkovic (2005) tvorbu rijeci promatraju kao dio morfologije, koju dijele na tvorbu oblika rijeci i tvorbu rijeci, dok Raguz (1997) u svojoj Prakticnoj gramatici uopce ne spominje tvorbu. Osim sto je tvorbenim procesima hrvatskoga jezika u cjelini posveceno samo jedno cjelovito djelo, opis tih procesa i jezicnih jedinica koje sudjeluju u njima moze se razlikovati kod razlicitih autora. Autori se znatno razlikuju u opisu morfoloske strukture hrvatskih glagola, odnosno u odredivanju jezicnih jedinica i njihovih funkcija u tvorbenim procesima. Te razlike odnose se na 1) nerastavljanje tvorbenih sufîkasa na morfove ili 2) razlicito rastavljanje tvorbenih sufîkasa na morfove, sto za izravnu posljedicu ima 3) razlicit broj morfova, a onda i morfema infî- nitivne osnove.
S jedne strane, nerastavljanje sufîkasa karakteristicno je u prikazu tvorbe- nih procesa kod Babica (2002) i Baric i dr. (2003). U opisu sufîksalne tvorbe u pravilu se koriste kombinacije sufîkasa, pri cemu se kod opisa glagolske sufîk- salne tvorbe takoder nerijetko ne odvaja ni infînitivni sufîks, pa se kao sufîksi navode npr. -uckati, -uskati, -injati. S druge strane, Silic i Pranjkovic (2005) i Markovic (2009, 2012) tvorbene sufîkse rastavljaju na morfove, ali se njihove kombinacije prikazuju kao uc-k-a-ti i uck-a-ti, a glagoli se prikazuju segmen- tirani na morfove kao kup-ov-a-ti, ali i kup-o-va-ti. Prilikom promisljanja strukture derivacijskoga leksikona CroDeriV zakljuceno je da se tvorbeni postupci koji postoje kod hrvatskih glagola najbolje mogu uociti i opisati na temelju rasclambe vece skupine glagola na morfove i supostavljanjem njihove strukture, iz cega ce biti moguce izvesti uopcenu dubinsku morfemsku struk- turu hrvatskoga glagola. Tako pripremljena grada znatno olaksava prepozna- vanje i opis tvorbenih sredstava koja se koriste u odredenome derivacijskom procesu, kao i slijed pojedinih tvorbenih postupaka. Slijed tvorbenih postupaka kod glagola moze se odnositi na odredivanje koja se tvorbena osnova koristi za prefîksaciju ili za sufîksaciju, odnosno koja osnova uopce moze derivacijom dobiti prefîks ili sufîks. Osim toga, tako pripremljena grada omogucuje i uvid u razne kombinacije prefîkasa i sufîkasa u tvorbi hrvatskih glagola. Napokon, tako pripremljena grada vrijedna je podloga za istrazivanje tvorbenih procesa u hrvatskome jeziku koji nadilaze samo prefîksalnu tvorbu glagola od glagola, sto je bio pocetni poticaj za izradu CroDeriV-a. Specifîcni postupci obrade jezicne grade i postavke na kojima se temelje navode se u sljedecemu poglavlju.
3. CroDeriV - morfoloski leksikon hrvatskih glagola12
Na samom je pocetku izrade CroDeriV-a bilo potrebno donijeti nekoliko odluka povezanih:
a) s polaznom jedinicom u leksikonu,
b) s dubinom tvorbene, odnosno morfoloske rasclambe,
c) s dubinskom i povrsinskom postavom morfoloske strukture jedinica.
Polazni oblik u izradi leksikona jest glagol u infinitivu. U pocetnoj je fazi prikupljeno oko 14.000 glagolskih lema iz postojecih dostupnih rjecnika za hrvatski jezik.13 Taj ce se popis u sljedecoj fazi izrade nadopuniti lemama iz hrWaC-a, lematiziranoga i morfosintakticki oznacenoga hrvatskoga web-kor- pusa.14 Radi sto vece buduce iskoristivosti CroDeriV-a, rastavljanje lema na morfove i analiza morfoloske strukture zahtijevali su nesto vise promisljanja. Kako bi se u buducnosti omogucio uvid u cjelovite tvorbene porodice, odnosno porodice koje obuhvacaju razlicite vrste rijeci, odluceno je da se morfoloska rasclamba infinitiva preko tvorbene osnove protegne i do korijena Buduci da izravna rasclamba do korijena cesto rezultira tvorbenim uzorcima koji ukljucuju sufikse koji se ne koriste u tvorbi glagola, taj je postupak razdijeljen na dva koraka. Primjerice, glagol godistiti tvoren je od imenice godiste sufiksom -i- pa njegova tvorbena rasclamba izgleda ovako: godist-i-ti. S obzirom na to da je imenica godiste tvorena sufiksalnom tvorbom od imenice god i sufiksa -ist-e, potpuna bi morfska rasclamba glagola godistiti izgledala ovako: god-ist-i-ti. Zbog takvih je primjera odluceno da se u prvome koraku odvajaju afiksi koji se koriste u tvorbi glagola (dakle: godist-i-ti), a da se u drugome koraku lema spaja na korijen zajednicki cijeloj tvorbenoj porodici, u ovome slucaju na god-. Na slican je nacin rijesen problem alomorfije, i prefiksalne i sufiksalne, a i korijenske, odnosno alomorfije osnove. Za svaku je lemu predviden dvorazinski prikaz. Na prvoj razini povrsinska je postava lema rastavljena na morfove od kojih je svaki na drugoj razini, u dubinskoj postavi, spojen na zajednicki, te- meljni morfem. Za dubinski prikaz morfema odabran je onaj njegov morf iz ko- jega se glasovnim promjenama u hrvatskome jeziku uz primjenu pravila mogu izvesti ostali morfovi. Tako se npr. povrsinska rasclamba glagola rasciscavati moze prikazati kao ras-cisc-ava-ti, dok je u dubinskoj strukturi, primjerice, morf ras- povezan s raz-, a -eise- s -cist-. Korijen cist sluzi kao poveznica s tvorbeno povezanim lemama poput cistiti ili prociscavati. Takva dvorazinska notacija omogucava: a) detekciju tvorbenih uzoraka jer se prefiksalni i sufiksal- ni alomorfi svode na zajednicki oblik; b) detekciju tvorbeno povezanih rijeci jer se prepoznaju rijeci s istim korijenom.
Ako se lema sastoji od kombinaeija nekoliko prefikasa i sufikasa, prefiksi i sufiksi medusobno su razdvajani. Popisi prefikasa i sufikasa koji sudjeluju u tvorbi glagola preuzeti su iz Babiceve Tvorbe rijeci (2002: 503-557) i dodatno su modificirani. Znatnija modifikaeija odnosila se na analizu sufikasa, sto je detaijnije objasnjeno u poglavlju 4.3. Osnovna modifikacija Babiceva pristupa jest u trojemu:
1. infinitivni je sufiks odvojen (pri cemu se -ci promatra kao aiomorf od -ti),
2. sufiksi koji se dobivaju nakon odvajanja infinitivnoga sufiksa proma- traju se kao dvomorfski15 (npr. -uck-a-, -us-i-, -0-a-),
3. sufiksi koji se razlikuju samo u pocetnome j (npr. -java-/ -?νa-, -jiva-l -iva-) promatraju se kao alomorfi.16
Na temelju utvrdenih popisa derivacijskih afíkasa izradena su pravila za automatsku segmentaciju glagola na morfove. Jedan skup pravila odnosio se na odvajanje prefîkasa, a drugi na odvajanje sufîkasa od tvorbene osnove.17 Nazalost, rezultat primjene tih postupaka velik je broj pogresno segmentiranih glagola zbog glasovne podudarnosti afíkasa i korijena Automatskim prepozna- vanjem i odvajanjem prefîkasa, izmedu ostaloga, glagol privilegirati rastavljen je na pri-vileg-ir-a-ti umjesto na privileg-ir-a-ti, a glagol snijeziti na s-nijez- i-ti umjesto na snijez-i-ti. Problemi kod automatskoga odvajanja sufîkasa i osnove mogu se ilustrirati primjerima poput glagola pobjeci koji je rastavljen na po-b-0-je-ci umjesto na po-bje-0-0-ci ili glagola urastati koji je rastavljen na u-ras-t-a-ti umjesto na u-rast-0-a-ti. Zbog velikoga broja slicnih slucajeva rezultati automatske rasclambe rueño su provjereni.
U velikom broju slucajeva takoder nije bilo moguce automatski prepo- znati homografne korijenske morfove i s njima toeno povezati sve glagole koji ih sadrzavaju, odnosno rasclambom je cesto dobiveno nekoliko znacenjski razlicitih korijena istoga fonemskog sastava. Na primjer, rastavljanjem gla- gola bojati se 'osjecati strah' i glagola bojiti/bojati 'nanositi boju' dobiveni su homografni oblici. Prilikom ruene provjere dobivenih podataka ti su oblici oznaceni razlicitim oznakama kako bi se naznacile znacenjske razlike, a time i pripadnost razlicitim tvorbenim porodicama Dakle, korijen glagola bojati se oznacen je kao bojl, a korijen glagolâ bojiti i bojati oznacen je kao boj2. Dodat- ni problem u povezivanju lema na zajednicki korijen bili su homografi koji uz isti korijen imaju istu morfolosku strukturu, ali se razlikuju naglasno i vidski. Takvi su slucajevi rijeseni unosom dviju lema koje se razlikuju u obiljezju vida, a naglasna razlika nije vidljiva u ovako strukturiranome leksikonu (npr. poglé- clati (IPF) i pdgledati (PF)). Osim povrsinske i dubinske postave, svakoj je lemi pridano i obiljezje glagolskoga vida. Nesvrsenost je oznacena s IPF, svrsenost s PF, a dvovidnost s BI, cime je moguenost visestruke interpretacije kao u navedenome primjeru uklonjena.
4. Strukture CroDeriV-a
Pri izradi CroDeriV-a vodilo se racuna o njegovoj iskoristivosti u daijnjim istrazivanjima hrvatskoga jezika, a samim time i o razlicitim mogucnostima pretrazivanja podataka. Rastavljanjem lema na sve morfove, a ne samo na tvorbene osnove i afíkse, omogucen je uvid u dosad slabo istrazeno podrucje kombiniranja prefîkasa i sufikasa s istim ili razlicitim korijenom. Preduvjet za utvrdivanje polozaja i funkcije nekoga derivacijskog afíksa i usporedbe s njegovim polozajem i funkcijom kod drugih glagola jest uniformno prikazana morfoloska struktura svih glagola u leksikonu. To znaci da je za konzistentan opis hrvatskih glagola prema navedenim nacelima na dubinskoj razini bilo potrebno utvrditi jedinstvenu morfemsku strukturu u koju se mogu uklopiti svi glagoli. Prikaz takve uopcene morfemske strukture glagola u CroDeriV-u, utemeljene na prethodno napravljenoj morfoloskoj analizi glagola, donosi se u sljedecim poglavljima.
4.1. Tvorbene osnove i korijeni
Razdioba glagola na morfove odvijala se u dvama koracima. U prvome koraku odvojeni su svi prefîksi i svi sufiksi koje navodimo u poglavljima 4.2. i 4.3. Tako su dobivene tvorbene osnove glagola koje mogu biti a) jedno- morfske - oblikom jednake korijenu i b) dvomorfske (u nekim slucajevima i visemorfske) - sastavljene od korijena i derivacijskoga sufiksa za tvorbu oblicne osnove neke vrste rijeci koja nije glagol i koja sluzi kao osnova za tvorbu glagola. Prvi slucaj nije problematican jer se korijen lako moze povezi- vati s drugim rijecima razlicitih vrsta rijeci kojima je zajednicki. U drugome je slucaju detektiranje tvorbenih porodica otezano jer se ne radi o korijenu zajednickome cijeloj tvorbenoj porodici. Na primjer, tvorbena osnova od koje se izvodi glagol moze biti imenica, poput ribar - ribariti pa je sufîks -ar u tome slucaju sufiks za tvorbu imenice, a ne glagola Kako bi se olaksalo buduce stvaranje tvorbenih porodica medu rijecima razlicitih vrsta rijeci, u drugome su koraku morfoloske rasclambe glagola izdvojeni korijeni i svi su glagoli koji dijele isti korijen povezani na njega U slucaju homografnih korijena, kao sto je naznaceno u poglavlju 3, uvedene su brojcane oznake za njihovo razlikovanje (npr. skupiti i kupovati spojeni su na korijene kupl i kup2).
4.2. Prefiksacija
Pri odvajanju prefîkasa od osnova koristio se skup od 24 prefíksa iz Babiceve Tvorbe rijeci (2002: 536-557) i svi njihovi alomorfi koji su povezani na temeljni oblik Ti su prefiksi: cío-, bez-, iz-, mimo-, na-, nad-, naj-, o-/ob-,18 od-, pa-, po-, pod-, pre-, pred-, pri-, pro-, protu-, raz-, s-, su-, suprot-, u-, uz-, za-. Njima je dodan i prefîks ne-, koji Babic ne navodi, a moze se pojavljivati na razlicitim prefiksalnim pozicijama unutar prefiksalnih kombinacija: nestati, ne- mati, onemoguciti, onespokojiti. Iako Babic (ibid.) navodi prefiks obez- kao cje- linu, u CroDeriV-u je taj prefiks rastavljen nao- + -bez-, Prefiksi u glagolima stranoga podrijetla (de-, dis-, re- itd.) nisu odvajani jer u hrvatski sustav ulaze kao cjelina s glagolima i u pravilu ne sudjeluju u tvorbi glagola slavenskoga podrijetla. Kako bi se omogucio uvid u ovjerene kombinacije prefîkasa pri tvorbi hrvatskih glagola, svaki je prefiks odvajan kod osnova na koje je dodano vise prefîkasa. U CroDeriV-u je zabiljezeno gotovo 10.000 glagola u cijoj tvorbi sudjeluje samo jedan prefiks, dok je glagola s dvama prefiksima petstotinjak. Svega trinaest glagola tvoreno je s pomocu pet potvrdenih troclanih kombinaci- ja prefîkasa (iz-po-raz-, po-iz-pre-, ob-raz-po-, pre-raz-po-, ob-ne-s-). Glagoli s cetirima prefiksima potvrdeni su u dvama slucajevima (kombinacije: ob-ne- raz-po-, pre-po-iz-od-w). Glagoli s pet prefîkasa u CroDeriV-u nisu potvrdeni. Detaljniji podatci o kombinacijama prefîkasa navode se u poglavlju 5.1. Prikaz prefiksalne strukture na temelju analize vece skupine glagola omogucuje uvid u potvrdene kombinacije prefîkasa,20 ali i empirijske podatke o plodnosti poje- dinih prefîkasa te mogucnosti njihova spajanja s pojedinim korijenima. Drugim rijecima, CroDeriV omogucuje detekciju svih glagola sa zajednickim korijenom i svih prefîkasa koje odredene glagolske osnove mogu primiti. Vezane osnove,21 odnosno osnove koje se dobivaju nakon odbacivanja prefîkasa i sluze u tvorbi najmanje dvaju glagola, a ne mogu stajati kao samostalni glagoli, posebno su izdvojene i oznacene kao nesamostalne kombinacije.
4.3. Sufiksacija
Nakon analize i odvajanja prefîkasa, slican je postupak primijenjen na glagolske sufîkse. Iako su se prvotne postavke za sufiksalnu analizu temeljile na morfoloskim razdiobama koje su za hrvatski najbolje razradili Silic (2002, 2005), Zrinka Babic (1991) i Markovic (2012), nakon segmentacije sufikasa i strukturiranja podataka u CroDeriV-u postalo je jasno da te postavke treba modificirati. Postojece razdiobe krecu od pretpostavke o minimalnoj tromorf- skoj strukturi hrvatskih glagola, odnosno o minimalnoj dvomorfskoj strukturi glagolskih osnova (Silic 2002: 17, Markovic 2012: 371). No, pritom se ne uzi- maju u obzir sufîksi sa specificnim, ponajprije deminutivnim znacenjem, koji tu strukturu povecavaju za jedno sufiksalno mjesto (npr. pjev-us-i-ti). Oblicna bi se osnova u torn slucaju trebaia prikazivati kao sastavljena od korijenskoga morfa i dvaju sufikasa, no opci konsenzus o tromorfskoj strukturi osnova ne postoji. Naime, osim sto se moze naici na rasclambe poput rad-i-ti ili kop-a-ti (Silic i Pranjkovic 2005: 45), odnosno na rasclambe koje pretpostavljaju dvo- morfsku strukturu osnove, postoje i rasclambe poput bic-ev-a-ti ili smanj-iv- a-ti (Silic i Pranjkovic 2005: 45), odnosno klju-v-a-ti (Baric i dr. 2003: 23522), koje pretpostavljaju tromorfsku strukturu osnove, a kad bi se tomu dodao i deminutivni sufîks, doslo bi se do cetveromorfske strukture (npr. jad-ik-ov- a-ti, za-muc-k-iv-a-ti). Iako Markovic (2012: 366) istice da bi opis morfoloske strukture glagola trebao biti dovoljno apstraktan, ali istovremeno i sveobuhva- tan kako bi omogucio »promatranje svih hrvatskih glagolskih vrsta na jednak nacin (korijen + tematski sufiks + fleksijski sufîks)«, polozaj onoga sto se naziva tematskim i fleksijskim sufiksom nije precizno definirán u sufiksalnoj strukturi glagola. Tako se na istome mjestu, odmah uz korijen, navode sufiksi koji se koriste za promjenu glagolskoga vida, ali i derivacijski sufiksi kojima primarna funkcija nije vidska ili uopce ne utjecu na njegovu promjenu, npr. kup-ov-a-ti vs. pjev-us-i-ti (v. Silic i Pranjkovic 2005: 45, 15123). Analizom sufiksalne strukture infinitivnih osnova24 odluceno je da se za sve glagole u CroDeriV-u ona modelira na temelju glagola s najkompliciranijom strukturom, odnosno glagola s najvise zabiljezenih sufikasa. Na temelju analize zakljuceno je da je potrebno predvidjeti tri mjesta za sufiksalne morfove, odnosno mor- feme25 kako bi se sustavno zabiljezila i prikazala struktura glagola u takvu racunalnom leksikonu. Pocevsi od korijena, prvo mjesto do njega predvideno je za derivacijske sufikse koji uglavnom izrazavaju deminutivnost i rjede pejo- rativnost. Sljedeca su dva mjesta predvidena za sufikse koje Markovic (2012: 366-367) naziva tematskima i fleksijskima U CroDeriV-u je drugo mjesto od korijena predvideno za sufiks kojim se izrazava komponenta trajanja radnje (svrsenost ili nesvrsenost). Trece mjesto zauzima sufiks koji odreduje glagol- sku vrstu i koji se kadsto naziva i tematskim samoglasnikom ili sufiksom.26 Morfemska struktura glagola s desne strane korijena u CroDeriV-u izgleda ovako:
tvorbena osnova + sufiks1 + sufiks2 + sufiks., + infinitivni sufiks
Primjeri sufîksalne strukture glagola na povrsinskoj razini u CroDeriV-u prikazani su u tablici 1.
Razlozi za takvu podjelu obrazlazu se u poglavljima 4.3.1., 4.3.2. i 4.3.3.
4.3.1. Sufiks1
Kao sto je navedeno, utor sufiksj zauzimaju sufiksi koji se obicno opisuju kao sufiksi za tvorbu deminutivnih, odnosno pejorativnih glagola (npr. -k-, -ak-, -UC-, -uck-, -us-, -usk- itd. ).27 Ti sufiksi dolaze i u glagola nesvrsenoga i u glagola svrsenoga vida (npr. u-sut-k-0-a-ti - u-sut-k-av-a-ti). U litera- turi se katkad nailazi na tumacenja o dvomorfskome sastavu takvih sufikasa. Primjerice, Markovic (2009: 221) glagol grebuckati rastavlja kao greb-uc-k-a-ti. Takva interpretacija mogla bi biti potaknuta oprekom glagolskovidskih par- njaka poput greb-uck-0-a-ti - greb-uc-n-u-ti.28 U tim se primjerima odsjecak uc, s obzirom na to da je zajednicki nepromjenjiv dio, namece kao samostalna jedinica u analizi. To bi pak znacilo da se -uck- i -usk- trebaju rastavljati na dva morfa: -uc- + -k-, odnosno -us- + -k- (dakle greb-uc-k-0-a-ti, a prema tome onda za nase potrebe i greb-uc-0-n-u-ti.). U konacnici bi analiza prema takvim nacelima zahtijevala uvodenje peteromorfske strukture infinitivne osno- ve u CroDeriV. Buduci da je znacenjskom analizom glagola koji sadrzavaju su- fikse poput -uc- ili -uck- utvrdeno da nema razlike u znacenju izmedu glagola koji sadrzavaju jedan ili drugi29 te da potencijaini sufîks -k- ne nosi nikakvu dodatnu znacenjsku razliku, odluceno je da se navedeni primjeri promatraju kao razliciti, odnosno zasebni sufîksi. Navedeno se moze ilustrirati i sufîksima -usk- vs. -us- u primjerima poput ljulj-usk-0-a-ti vs. pjen-us-0-a-ti. I u tim primjerima ti sufîksi nose samo dodatno znacenje smanjena intenziteta glagol- ske radnje.30 Uvodenje dodatnoga utora previse bi zakompliciralo opis, posebice kada se ima na umu izrada racunalnoga resursa i racunalna obradba u njemu zapisanih podataka. Osim sufîkasa s deminutivnim i pejorativnim znacenjima, u utoru sufiksj nalaze se i sufîksi koji sluze u tvorbi glagola od ostalih vrsta rijeci, npr. -ud- (krivudati), -c- (kmecati), -inj- (glavinjati) i sufîksi koji imaju specifîcna znacenja poput -ik- (voz-ik-0-a-ti). Broj glagola kod kojih u tome utoru nije -0-, kao i distribucija pojedinih sufîkasa navode se na dijagramu 5. u poglavlju 5.2.
4.3.2. Sufiks2
Utor sufiks2 zauzimaju sufîksi koji nose podatak o glagolskome vidu.31 Ti su sufîksi: -0-, -η-, -?ν-, -iv-, -ον-, -ev-, -ijev-, -ir-, -ficir-, -ificir-, -izir-, Osim -0-, navedeni sufîksi odgovaraju sufîksima -nu-, -ava-, -iva-, -ova-, -eua-, -ijeva-, -ira-, -ficira-, -ificira-, -izira- koji se u takvim oblicima navode u literaturi (npr. Babic 2002: 5181F, Baric i dr. 2003: 3721F). U skladu sa Silicem i Pranjkovicem (2005: 45) i Markovicem (2012: 367), smatramo da je rijec o dvomorFskim32 strukturama, odnosno da sufîkse poput -ava- ili -ificira- treba promatrati kao sastavljene od dvaju morFova: -av-+-a-, odnosno -ificir-a-. Silic i Pranjkovic (2005: 45) sufîkse -ava-, -iva-, -ova-, -eva- prikazuju kao dvomorFske i navode da se »jedino tako mogu uspostaviti odnosi -ov- // -ev- / -iv- : -u-«. Takvim iskazivanjem medusobnoga odnosa navedenih sufîkasa u infînitivnoj i prezentskoj osnovi uspostavljena je jasna ekvivalencija prema njihovu znacenju i Funkciji. Medutim, takav odnos nije uspostavljen za glagole druge vrste jer se infînitivni sufîks -nu- u pravilu promatra kao jednomorFski. Iako Silic i Pranjkovic (2005: 44) ne odvajaju -nu- u infînitivu na morFove -n- i -u-, odnosno tumace ga kao jednomorFsku strukturu, daljnji prikaz i dis- kusija o prezentskoj osnovi ostavljaju mogucnost drugacijih interpretacija. Silic i Pranjkovic (ibid.) navode:
»Infinitivna osnova druge vrste zavrsava sufîksalnim morfemom riu, a pre- zentska sufîksalnim morfemom ë. Izmedu prezentskoga sufiksainog morfema ë i korijenskoga morfema intervenira umetak η. Druga vrsta ima jedan razred: -nu-ti / n-ë-: mfz-nu-ti / mfz-n-ë-m.«
Iz toga proizlazi da razlika izmedu infînitivne i prezentske osnove nije samo u sastavu morfova, negó i u njihovu broju, buduci da ostaje nejasno je Ii navedeni »umetak n« zaseban morf (all i zaseban morfem, sto ce se pokazati iz daljnje rasprave). Dalje u tekstu, u tablici sa svim glagolskim vrstama, pa tako i s drugom glagolskom vrstom, Silic i Pranjkovic (2005: 47) prezentski sufîksalni morf ë i spomenuti »umetak n« prikazuju kao jedan morf u prezen- tu glagola koji supostavljaju infînitivnomu -nu-. Na taj su pak nacin dobiveni jednomorfski sufiksi i u infînitivu i u prezentu pa se moze postaviti pitanje djeluje Ii umetak η i u infînitivu, ili pak, gledano s druge strane, postoji Ii u infînitivnoj osnovi morf nu, a u prezentskoj morf ë ispred kojega se umece n. S obzirom na to da je ono sto Silic i Pranjkovic (2005: 44) nazivaju umetkom nepromjenjiv dio i u infînitivnoj i u prezentskoj osnovi, smatramo da je pri- hvatljivije promatrati infînitivno nu kao sastavljeno od dvaju morfova, a isto- vremeno i od dvaju morfema. Prvi je od njih -n- koji daje podatak o glagolsko- me vidu i nacinu vrsenja glagolske radnje, a drugi je -u- koji daje podatak o konjugacijskome tipu, odnosno glagolskoj vrsti, analogno sufîksima -a- u citati ili -î- u misliti (dakle: met-0-n-u-ti ili drem-uc-n-u-ti prema cit-0-0-a-ti i misl-0-0-i-ti).
Takvom segmentacijom utor sufîks2 u CroDeriV-u odreden je za sufîkse koji nose znacenje glagolskoga vida. Sufîksi -au-, -iv-, -ov-, -eu-, -ijev- sluze za tvorbu nesvrsenih glagola (npr. kup-0-0-i-ti - kup-0-ov-a-tï), a sufîksi -ir-, -ficir-, -ificir-, -izir- u pravilu za tvorbu dvovidnih glagola stranoga pod- rijetla.
Sufîksom -n- u utoru sufîks2 tvoreno je ukupno 775 glagola koji se trenutacno nalaze u CroDeriV-u. Od toga je tek 15 nesvrsenih glagola To su glagoli: brinuti, ceznuti, cvrsnuti, gasnuti, ginuti, greznuti, mrknuti, mrznuti, plahnuti, sahnuti, tonuti, trnuti, trunuti, tvrdnuti, venuti, sto cini tek 1,9% od ukupnoga broja glagola sa sufîksom -n-, Zbog toga se cini opravdanim tvrditi da sufîks -n- ima primarno znacenje svrsenosti glagolskoga vida, uz iznimku tih 15 zabiljezenih glagola Osim svrsenosti, -n- nerijetko ima i znacenjsku komponentu jednokratnosti i umanjenosti, koje mogu postati i jedina njegova znacenja Takoder je zabiljezeno 20 glagola koji zavrsavaju na -njivati, a ko- jima -n- nije dijelom osnove, nego sufîksa Svi su takvi glagoli nesvrseni, a njihov se vid kodira sufîksom -jiv-.33 Sufîks -n- u tim glagolima ne sadrzava podatak o glagolskome vidu, nego samo podatak o visestrukome ponavljanju kratke radnje. Tim svojim specifîcnim znacenjem odgovara opcemu sadrzaju sufîksa^ i u tim slucajevima smjesten je u taj utor. Takvi su nesvrseni glagoli koji oznacavaju visestruko ponavljanje radnje, npr. zabljesnjivati, nadahnjivati, otvrdnjwatiß4
Kao sto je receno, sufiks2 daje podatak o glagolskome vidu. Pritom je najslozeniji slucaj sufiks -0- jer moze imati i znacenje svrsenosti, nesvrsenosti i dvovidnosti, iako je vecina glagola tvorena njime nesvrsenoga vida. Iza sufîk- sa -0-, u utoru sufîksg mogu doci sufîksi -?-, -i- i -0-,
Glagola kod kojih iza sufîksa -0- u utoru sufiks2 slijedi -0- u utoru su- fîksg, odnosno sa sufîksalnom strukturom -0-0-0-ti, vrlo je malo i cine zatvo- renu skupinu od 81 glagola, od kojih se mnogi upotrebljavaju vrlo rijetko. Ta skupina obuhvaca 63 nesvrsena glagola, 15 svrsenih i 3 dvovidna glagola. Svih 15 svrsenih glagola sa sufîksom -0- u utorima sufîks2 i sufîksg ima prezentski oblik na -ne- (npr. dici - dignem, sresti - sretnem, osim dati, koji ima dam uz rjede dadnem). Mnogi od njih infinitivni su oblik prilagodili prema skupini glago- la sa sufîksom -η- na mjestu sufiksa^ o cemu svjedoce dvostruki infînitivi, npr. dici - dignuti ili taci - taknuti. Ti primjeri svjedoce o tendenciji uklapanja glagola iz te zatvorene vrste u paradigme otvorenih i brojnijih vrsta, kao i o tome da se vrsta ocisti od svrsenih glagola koji vec supostoje u dvama oblicima
Sufiks -0- u utoru sufîks2 gotovo uvijek znaci nesvrsenost, osim u vrlo malome broju iznimaka. Glagoli kojima iza sufîksa -0- slijedi -a- svi su nesvrsenoga vida, uz desetak dvovidnih iznimaka (npr. rucati, vecerati, cesti- tati, probati). Glagoli kojima iza sufiksa -0- slijedi -i- mogu biti i svrseni i nesvrseni, no i tu je svrsenih glagola tek oko 6%. Velik broj takvih svrsenih glagola ima svoj nesvrseni parnjak tvoren kombinacijom sufîkasa -0-a- (bacati - baciti; vracati - vratiti; udarati - udariti; lupati - lupiti) i svi su praslaven- skoga podrijetla.35
Broj glagola koji opreku u vidu iskazuju alternacijom sufîkasa -a- i -i- u utoru sufiks,, iza -0- u utoru sufiks2 vrlo je malen (u CroDeriV-u ukupno 46 neprefigiranih glagola, odnosno 23 vidska parnjaka). Naime, nacin izrazavanja vidske opreke sufiksima -a- i -i- u utoru sufiksg dañas vise nije produktivan i moze se pretpostaviti da je takav nacin izrazavanja vidske opreke ostatak starijega stanja koji se zadrzao u toj zatvorenoj skupini.36 Na temelju tih pri- mjera takoder se moze pretpostaviti da je u starijim stanjima jezika osnovna glagolska struktura bila dvomorfska, odnosno da se podatak o vidu nije iska- zivao posebnim sufîksalnim morfom kao sto su -av-, -iv- ili -ου-, negó je bio amaigamiran u morfu koji u CroDeriV-u zauzima utor sufiks3, odnosno u onome sufîksu koji daje podatak o vrsti glagolske konjugacije. Zbog cinjenice da se radi o vrlo ogranicenoj skupini glagola u kojoj je podatak o vidu i gla- golskoj vrsti amaigamiran u jednome morfu, radi dosljednosti unutar sustava odluceno je da ce se i njihova sufîksalna struktura prikazivati kao tromorfska (-0-0-a/i-ti).
4.3.3. Sufiks3
U utoru sufîks3 mogu se naci sufîksi -u-, -a-, -i-, -je- i -0-, koje Zrinka Babic (1991:19ff) naziva tematskim samoglasnicima, odnosno oni sufîksi koji glagol obiljezavaju »kao glagol«. No, ako oni obiljezavaju glagol kao glagol, dru- gim rijecima, ako je njihov sadrzaj 'glagol' i govore o glagolskoj vrsti, preciznije bi bilo govoriti o sufîksima, a ne o tematskim samoglasnicima.3,7 Alternacije morfova u utoru sufîksg izmedu infînitivne i prezentske osnove prikazane su u tablici 2.38 Glagoli sa sufîksom -0- u utoru sufîksg nemaju pravilnu podjelu pa prezentski morf ovisi o pojedinacnome glagolu.
Na temelju iznesenoga sufîksalnu strukturu infînitivne osnove glagola u CroDeriV-u prikazujemo kao tromorfsku i tromorfemsku: utor sufîksj zauzi- maju sufîksi koji imaju specifîcna znacenja poput deminutivnosti ili pejorativ- nosti, utor sufiks2 sufîksi kojima se kodira glagolski vid, a utor sufîks3 sufîksi koji govore o glagolskoj vrsti. Iako ne moraju sva tri predvidena sufîksalna mjesta kod svih glagola biti popunjena nekim drugim sufîksom osim -0-, ona su u sustavu predvidena radi laksega prikazivanja morfoloske strukture svih zabiljezenih glagola Zakljucno, cjelokupna predvidena struktura glagola u Cro- DeriV-u izgleda ovako:
prefiks4 + prefiksg + prefiks2 + prcfiks ( +
(tvorbena osnova2 + interfiks) + tvorbena osnovaj +
sufiks1 + sufiks2 + sufiks., + infinitivni sufiks
Tvorbena osnova^ uvedena je zbog glagolskih slozenica poput zlopamtiti (zl-o-pamt-0-0-i-ti), no njihov je broj neznatan39 pa se ovdje nismo detaljno bavili njihovom strukturem.
5. Dobiveni podatci
U sadasnjemu se obliku CroDeriV sastoji od 13.780 lema Od toga je broja 11.746 prefigiranih glagola i 2034 neprefigirana glagola. Vezanih tvorbenih osnova, to jest osnova koje nisu samostalne rijeci, aii sluze u tvorbi najmanje dvaju glagola, ima 1175. Segmentacijom na morfove ustanovljena su 3292 korijena. Kao sto smo naveli, prednost koju ovakav leksikon omogucava jest uvid u podatke o frekvenciji i mogucnostima kombiniranja pojedinih afikasa. U ovome poglavlju iznose se podatci o kombinacijama pojedinih prefikasa i sufîkasa u tvorbi hrvatskih glagola. Koliko je nama poznato, podatci takve vrste dosad nisu sustavno obradeni i prikazani u literaturi o tvorbi hrvatskih glagola.
5.1. Kombinacije prefikasa u CroDeriV-u
Najcestotniji su prefîksi u kombinacijama tvorbene osnove i jednoga pre- fiksa: zn-, ob-, u-, iz-, po-, raz-, na-, s-, pro-, pre-. Cestotnost tih prefikasa prikazana je na dijagramu 1. Deset najcescih kombinacija dvaju prefikasa i broj njihovih pojavljivanja u CroDeriV-u prikazani su na dijagramu 2. Sve zabiljezene kombinacije triju i cetiriju prefikasa i njihova frekvencija prikazane su na dijagramima 3. i 4.
5.2. Kombinacije sufikasa u CroDeriV-u
Popunjen utor sufiksj nekim drugim sufîksom osim -0- zabiljezen je kod 707 glagola. Sufîksi u utoru sufiksi; a da taj sufiks nije -0-, koje sadrzava naj- manje deset glagola iz CroDeriV-a i cestotnost njihova pojavljivanja u takvim slucajevima prikazani su na dijagramu 5.
Utor sufiks2 i sufiks,, u CroDeriV-u zauzimaju sufiksi koji oznacavaju dvije kategorije inherentne svim glagolima u hrvatskome - glagolski vid i glagolsku vrstu. U utoru sufiks2 najbrojniji je sufiks -0- (9867), a u utoru sufiks3 sufiks -a- (9376 glagola). Medu kombinacijama sufiksa2 i sufiksa, najcesce su kombi- nacije -0-n- (5207 glagola), -0-i- (3614 glagola) i -?υ-?- (1058 glagola).
6. Zakljucak
U radu su prikazani postupci primijenjeni pri izradi leksikona hrvatskih glagola CroDeriV i morfoloska struktura hrvatskih glagola dobivena na temelju analiziranih podataka CroDeriV u sadasnjemu obliku sadrzava otprilike 14.000 glagolskih lema rastavljenih na morfove. Nakon uvodnoga dijela u kojemu se argumentira potreba za takvim resursom, iznesene su teorijske postavke na kojima pocivaju obrada i prikaz podataka. Za sve je glagole utvrden zajednicki korijen i svi glagoli koji ga dijele preko njega su medusobno povezani. S obzirom na to da su se teorijske postavke preuzete iz postojece morfoloske literature pokazale nesustavnima, posebice u opisu sufiksalne strukture hr- vatskih glagola, uvodi se morfoloska rasclamba kojom je moguce obuhvatiti i konzistentno prikazati sve glagole u CroDeriV-u. Takvom je rasclambom omoguceno jasno definiranje izraza i sadrzaja svakoga afiksa u morfoloskoj strukturi glagola Smatramo da predlozeni prikaz sufiksalne strukture glagola u CroDeriV-u moze barem donekle pridonijeti rasvjetljavanju njezina katkad maglovita prikaza u hrvatskome jezikoslovlju.
Plodnost derivacijskih afíkasa u literaturi posvecenoj tvorbi hrvatskih gla- gola u pravilu se opisuje izrazima kao »vrlo je plodan« ili »slabo je plodan« (usp. npr. Babic 2002 ili Baric i dr. 2003), dok empirijski podatci o kombinaci- jama dvaju ili vise afíkasa gotovo da i ne postoje. Prikazanom je rasclambom omogucen uvid u kombinacije derivacijskih afíkasa u sustavu hrvatskih glagola te jasno iskazivanje njihove zastupljenosti na temelju analize i opisa vecega bro- ja primjera. Takoder, prikazanom ce rasclambom nakon unosenja drugih vrsta rijeci u CroDeriV biti omoguceno prepoznavanje tvorbenih porodica s pomocu popisa korijena. Ta sljedeca faza izrade CroDeriV-a obuhvatit ce imenice, pri- djeve i priloge. Naposljetku, jasno utemeljeni kriteriji za morfolosku rasclambu cine CroDeriV pogodnim za unapredenje racunalnih alata na podrucju obrade prirodnoga jezika i iskoristivim u svim istrazivanjima tvorbenih procesa u hr- vatskome jeziku.
1 Zahvaljujemo anonimnim recenzentima na iscrpnim i inspirativnim recenzijaina i mnogo- brojnim dobronainjernim uputama, koje su, nadamo se, ovaj rad uänile jasnijim i kvalitet- nijim. Dakako, sva odgovornost za eventualne pogreske saino je nasa.
2 Svi su resursi dostupni u bazi META-SHAEE (http://meta-share.ffzg.hr/repository/search/). Vise o izradi Hrvatskoga morfoloskoga leksikona (http://hml.ffzg.hr/hml/) v. u Tadic i Ful- gosi (2003), o Hrvatskoj ovisnosnoj band stabala (http://hnk.ffzg.hr/hobs/) u Tadic (2007), o Leksikonu valentnosti hrvatskih glagola (http://theta.ffzg.hr/crovallex/) u Mikelic Preradovic i dr. (2009), a o Hrvatskome WordNetu u Raffaelli i dr. (2008).
3 O strukturi Hrvatskoga Wordneta i metodama njegove izrade vidi Raffaelli i dr. (2008).
4 O morfosemantickim poljima u hrvatskome jeziku vidi Raffaelli i Kerovec (2008) i Katunar i Sojat (2011).
5 Treba napomenuti da se sinskup moze sastojati i od samo jednoga clana.
6 Pretraziv na http://hml.ffzg.hr/hml/. Vise o leksikonu v. u Tadic i Fulgosi (2003).
7 Pretraziv na http://hml.ffzg.hr/hml/info.php?show=hlp (v. i Tadic 2006).
8 Tvorbene porodice ovdje obuhvacaju sve lekseme sa zajednickim korijenom, neovisno o znacenjskim pomacima koji se dogadaju pri tvorbenim procesima. Dakle, u tvorbenu poro- dicu sa zajednickim korijenom bac- ukljuceni su i glagoli baciti, ubaciti, prebaciti (odnosno glagoli koji i dalje oznacavaju bacanje), ali i nahaciti u znacenju 'natuknuti' i pobaciti kod kojega dolazi do potpunoga znacenjskog odmaka od polaznoga oblika u tvorbi.
9 Iscrpan pregled pristupa tvorbi rijeä u hrvatskome jezikoslovlju daje Kuna (2006).
10 U svesku Povijesni pregled, glasovi i oblici hrvatskoga knjizevnoga jezika (poglavlje o mor- fologiji napisali su Stjepan Babic i Stjepko Tezak) obradena je fleksija, a u vec spomenutoj Babicevoj Tvorbi rijeci u hrvatskome knjizevnome jeziku derivacija.
11 Usp. Samardzija (1995), Tafra, Kosutar (2009), Kuna (2006), Markovic (2009).
12 Pretrazivanje CroDeriV-a u skoroj ce buducnosti biti javno dostupno na internetu.
13 Ponajprije iz Velikoga rjecnika hrvatskog jezika Vladimira Anica.
14 V. Ljubesic i Erjavec (2011). hrWaC se sastoji od 1,2 milijarde pojavnica prikupljenih s .hr domeñe.
15 Iako bi se mogli promatrati i kao tromorfski, pa cak i cetveromorfski, o cemu ce vise biti rijeci u sljedecemu poglavlju.
16 Za utvrdivanje jasnih pravila prema kojima bi se iz dubinske nejotirane postave mogla izvesti povrsinska jotirana postava trebalo bi provesti podrobno zasebno istrazivanje, no evo nekoliko argumenata za promatranje tih varijanata kao alomorfa: Petar Skok (1971: 77) kao zasebne natuknice navodi saino sufikse -?υ-?-ti, -eu-a-ti, -iv-a-tt, -ου-?-ti, dok jotirane varijante ne navodi; Silic (2002: 19) kaze da bismo osnovski morfem (!) -ja- mogli nazvati alomorfom morfema -a-, a ostale morfeme navodi kao -(j)ava- i -(j)iva-, iz cega se moze zakljuciti da ih smatra alomorfima.
17 Detaljan prikaz izrade i primjene tih pravila nalazi se u Sojat, Srebaäc i Tadic (2012).
18 Pitanje jesu li prefiksi o- i ob- alomorfiili zasebni morfemi nije jednoznacno rijeseno, posebice jer postoje valjani argumenti za oba motrista (usp. npr. Belaj 2008: 31 ili Babic 2002: 543). Ovdje, u skladu sa Srebacic (2011), o- i ob- promatramo kao alomorfe.
19 Oneraspolozitt i prepoizodnositi. Drugi je glagol, kao sto je poznato, iz Slamnigove pjesme, no govornik bi se vrlo Iako mogao prisjetiti i drugih glagola koji dodatno svjedoce o mogucnosti dodavanja do cetiriju prefîkasa na hrvatske glagolske osnove, npr. pre-is-po-na-pijali ili na-is-pri-pouijedati se, koji navodi i Markovic (2012: 132).
20 Moguce je da ce se s unosom novih lema u CroDeriV broj potvrdenih kombinacija povecavati.
21 Babic (2002: 37). Iako je termin nespretan jer su gotovo sve osnove promjenjivih rijeci u hrvatskome jeziku vezane, ovdje se misli na glagolske osnove koje ne mogu stajati samo- stalno, a da im se ne doda prefiks. Npr. *vijestiti kao osnova glagola navijestiti, izvijestiti ili *ceti kao osnova glagola poceti, zaceti, naceti ne postoje kao samostalni glagoli. Markovic (2012: 45) za korijene tipa *ce kaze da ih »kadsto smatramo jedincatima«. »Jedincati ili unikatni morf, ili unifiks (engl, unique morph), onaj je koji se pojavljuje samo u jednoj rijeci ili u jednoj kolokaciji.« No, znacenja korijena -ce-, kako kaze Markovic (2012: 45), »domisljamo tek iz izvedenica«, pa ga je zbog toga opravdano smatrati jedincatim morfom. Znacenje, pak, korijena -uijest- jasno je i iz samoga korijena jer se radi o imenickoj tvorbenoj osnovi za tvorbu glagola. Stoga, uz navedenu ogradu, smatramo termin vezana osnova ipak prikladnijim od jedincatoga morfa.
22 Jedan od rijetkih primjera morfoloske rasclambe u toj gramatici, dok se u Babicevoj Tvorbi rijeci (2002) glagoli ne rastavljaju na morfove. Zbog toga smo se u pocetnoj razradi teorijskih postavki najcesce oslanjali na Silica i Pranjkovica (2005) i Markovica (2012).
23 Glagoli se u poglavlju o deminutivnim sufiksima ne rastavljaju na morfove, negó se usiti navodi kao -;ïs(iti), iz cega je jasno da su dva sufiksalna mjesta popunjena na nacin na koji je ovdje prikazano. Baric i dr. (2003: 375), primjerice, u deminutivnih sufikasa ne razdvajaju ni tematski sufiks (-usi(ti)). Markovic (2009: 221) ima greb-uc-k-a-ti. Time se jos jednom potvrduje neusustavljenost morfoloskoga opisa u hrvatskih gramatika.
24 U CroDeriV-u se zasad barata samo infinitivnim osnovama, koje se dobivaju odbacivanjem infinitivnoga sufiksa -ti ili njegova alomorfa -ci (usp. Babic, Z. 1991: 12). Prezentskim se ili drugim oblicima dosad nije bavilo.
25 Morfem 'deminutivnost/pejorativnost', morfem 'glagolski vid', mortem 'glagolska vrsta'.
26 »Izraz osnove plodnih glagola jasno je oznacen zavrsetkom - jednim od cetiri samoglasnika, tzv. tematskim samoglasnikom, koji ga upravo obiljezava kao glagol.« (Babic 1991: 19). Markovic (2012: 367) taj samoglasnik naziva tematskim sufiksom.
27 Smatramo da je kod glagola primjerenije govoriti o smanjenu intenzitetu radnje osnovnoga glagola, a ne o umanjenosti ili deminutivnosti te radnje (usp. Sojat, Srebaäc, Tadic 2012).
28 Razlozi za razdvajanje morfema -nu- navode se u poglavlju 4.3.2.
29 Smatramo da glagoli prduckali i prducali ili kasljuckali i kasljucali znace isto i da govornik ima Slobodan izbor izmedu sufîkasa -uck- i -uc-
30 Ispadanje suglasnika k u supostavljenim primjerima poput greb-uck-0-a-ti i greb-uc-n-u- ti ili drem-uck-0-a-ti i drem-uc-n-u-ti moze se takoder tumaciti fonoloski uvjetovanim ispadanjem unutar suglasnickoga skupa ckn. Naime, medijalni slijed ckn nije potvrden u hrvatskome jeziku (Turk 1992). Osim toga, ispadanje suglasnika k ispred sufiksa -nu- moze biti ostatak staroga pravila prema kojemu »su ispadali suglasnici p, t, k, b, d, g ispred η (u sufiksu -nu-)« (Turk 1992: 152).
31 Pod pojmom glagolskoga vida ovdje se misli samo na svrsenost i nesvrsenost glagolske radnje. Prema kategoriji glagolskoga vida kako je ovdje shvacena, hrvatski glagoli mogu biti svrseni, nesvrseni i dvovidni.
32 I dvomorfemskim jer odgovaraju morfemima 'glagolski vid' i 'glagolska vrsta' u dubinskoj strukturi.
33 Alomorf sufîksa -iv-,
34 Cinjenica da se u tih glagola sufîks -n- ne nalazi u okolini sufiksa -u- dodatno opravdava njihovo razdvajanje na dva morfa. Glagola s -njiva- vrlo je malo (tek 20) i nerijetko su nerazumljivi izvornomu govorniku hrvatskoga jezika (npr. pricveknjivati, oseknjivati).
35 Moze se postaviti pitanje o opravdanosti uvodenja sufiksa -0- na utor sufiks,,, s obzirom na to da nije jednoznacan, odnosno glagoli sa sufîksom -0- u tome utoru mogu biti svih vidova. Njegova je opravdanost posebno upitna u sustavu u kojemu postoje sufiksi koji jednoznacno oznacavaju samo jedan glagolski vid, poput -iv-, -cw- i si. No, kod takvih glagola (npr. is-ät-0-?υ-?-Η) sufiks -a- u utoru sufiks3 oznacava samo glagolsku vrstu, pa smatramo da ima isto znacenje i u ostalih glagola. U tim glagolima glagolski vid oznacava sufiks -0-, koji u neprefigiranih glagola ima osnovno znacenje nesvrsenosti, a u prefigiranih svrsenosti i stoji na istome mjestu u strukturi kao i spomenuti sufiksi -iv-, -?υ- i si. Isto tako, iako bi se prema strukturi amalgamiranih znacenja sufîkasa moglo tvrditi da sufiksi -a- i -i- koji dolaze u utoru sufiks3 nose podatak o glagolskome vidu, oni to takoder ne cine jednoznacno (npr. misliti vs. kupiti).
36 Ovo su zabiljezeni glagoli koji opreku u vidu tvore na opisani nacin: baciti - bacati, dipiti - dipati, hititi - hitafí, javiti - javljati, lupiti - lupati, obratiti - obracati, opojiti - opajati, oporaviti se - oporavljati se, platiti - placati, primiti - primati, pruziti - pruzati, pustiti - pustati, razoriti - razarati, roditi - radaJi, sjetiti se - sjecati se, snimiti - snirnati, skociti - skakati, staviti - stavíjati, stupiti - stupati, turiti - turati, udariti - udarati, vratiti - vracati, zabaviti - zabavljati.
37 V. i biljesku 26.
38 U CroDeriV-u se nalaze samo lerne u infînitivu, prezentski oblici ili oblici drugih glagolskih vremena i nacina, barem zasad, nisu uneseni ni obradeni.
39 128 od 13.780 glagola, sto cini tek 0,92% ukupnoga broja lema.
Literatura
Anic, Vladimir (2006). Veliki rjecnik hrvatskog jezika. Zagreb: Novi Liber.
Babic, Stjepan, Dalibor Brozovic, Milan Mogus, Slavko Pavesic, Ivo Skaric, Stjepko Tezak (1991). Povijesni pregled, glasovi i oblici hrvatskoga knjizevnoga jezika. Zagreb: HAZU : Nakladni zavod Globus.
Babic, Stjepan (2002). Tvorba rijea u hrvatskome knjizevnome jeziku. Zagreb: HAZU : Nakladni zavod Globus.
Babic, Zrinka (1991). Generativni opis konjugacijskih oblika. Zagreb: Hrvatsko filolosko drustvo.
Baric, Eugenija, Mijo Loncaric, Dragica Malic, Slavko Pavesic, Mirko Peti, Vesna Zecevic, Marija Znika (2003). Hrvatska gramatika. Zagreb: Skolska knjiga.
Belaj, Branimir (2008). Jezik, prostor i konceptualizacija. Shematicna znacenja hrvatskih glagolskih prefiksa. Osijek: Filozofski fakultet u Osijeku.
Cavar, Damir, Ivo-Pavao Jazbec, Sinisa Runjaic (2008). Interoperability and Rapid Bootstrapping of Morphological Parsing and Annotation Automata. U: Eijavec, Tomaz, Jerneja Zganec Gros (ur.) Proceedings of the Sixth Language Technologies Conference, October 16th-17th, 2008: Proceedings of the 11th International Multiconference Information Society - IS 2008, volume C. Ljubljana: Institut »Jozef Stefan«, 2008. 80-85.
Cavar, Damir, Ivo-Pavao Jazbec, Tomislav Stojanov (2009). CroMo - Morphological Analysis for Standard Croatian and its Synchronic and Diachronic Dialects and Variants. U: Piskorski, Jakub, Bruce Watson, Anssi Yli-Jyrä (ur.) Finite-State Methods and Natural Language Processing - Post-proceedings of the 7th International Workshop FSMNLP 2008. Italija: IOS Press. 183-190.
Katunar, Daniela, Kresimir Sojat (2011). Morphosemantic fields in the building of the Croatian WordNet: The verbs of movement. U: Brdar, Mario, Marija Omazic, Visnja Paviäc Takac, Tanja Gradecak-Erdeljic, Gabrijela Buljan (ur.) Space in Time and Language. Frankfurt am Main, Berlin, Bern, Bruxelles, New York, Oxford, Wien: Peter Lang GmbH. 79-89.
Kuna, Branko (2006). Proucavanje tvorbe rijeä u hrvatskom jeziku tijekom 20. stoljeca. U: Hr- vatski jezik u XX. stoljecu. Zagreb: Matica hrvatska. 339-365.
Ljubesic, Nikola, Damir Boras, Ozren Kubelka (2007). Retrieving information in Croatian: Bu- ilding a simple and efficient rule-based stemmer. U: Seijan, Sanja, Hrvoje Stanäc (ur.) INFuture2007: Digital Information and Heritage. Zagreb: Odsjek za informacijske znanosti Filozofskoga fakulteta. 313-320.
Ljubesic, Nikola, Tomaz Eijavec (2011). hrWaC and slWaC: Compiling Web Corpora for Croatian and Slovene. U: Habernal, Ivan, Vaclav Matousek (ur.) Text, Speech and Dialogue 2011. Lecture Notes in Computer Science. Berlin/Heidelberg: Springer. 395^i02.
Maretic, Tomo (1899). Grarnatika i stilistika hrvatskog ili srpskog knjizevnog jezika. Zagreb: Markovic, Ivan (2009). Tri nehrvatske tvorbe: infiksacija, reduplikacija, fuzija. Rasprave Instituto, za hrvatski jezik i jezikoslovlje. 35, 217-241.
Markovic, Ivan (2012). Uvod u jezicnu morfologiju. Zagreb: Disput.
Mikelic Preradovic, Nives, Dainir Boras, Sanja Kisicek (2009). CROVALLEX: Croatian Verb Va- lence Lexicon. U: Proceedings of the 31st International Conference on Information Technology Interfaces, 533-538.
Pandzic, Ivan (2012). Oblikovanje korjenovatelja za hrvatski jezik u svrhu pretrazivanja informaci- ja. Diplomski rad. Sveuäliste u Zagrebu, Filozofski fakultet, Odsjek za lingvistiku.
Raffaelli, Ida, Barbara Kerovec (2008). Morphosemantic fields in the analysis of Croatian vocabu- lary. Jezikoslovlje 9.1-2, 141-169.
Raffaelli, Ida, Marko Tadic, Bozo Bekavac, Zeljko Agic (2008). Building Croatian WordNet. U: Proceedings of the Fourth Global WordNet Conference, Szeged, 349-359.
Raguz, Dragutin (1997). Prakticna hrvatska grarnatika. Zagreb: Medicinska naklada.
Samardzija, Marko (1995). Leksikologija s povijescu hrvatskoga jezika udzbenik za 4. razred gi- mnazije. Zagreb: Skolska knjiga.
Silic, Josip (1998). Morfonologija hrvatskoga glagola: Tipovi osnova. Rijecki filoloski dani 2, 241-274.
Silic, Josip (2002). Ustrojstvo glagolske osnove uvjetovane glagolskovidskim promjenama. U: Zbor- nik Zagrebacke slavisticke skole. Zagreb: FF Press. 16-21.
Silic, Josip, Ivo Pranjkovic (2005). Grarnatika hrvatskoga jezika za girnnazije i visoka ucilista. Zagreb: Skolska knjiga.
Skok, Petar (1971). Etimologijski rjecnik hrvatskoga ili srpskoga jezika. Deanovic, Mirko, Ljudevit Jonke (ur.). Knjiga prva: A-J. Zagreb: JAZU.
Srebacic, Matea (2011). Morfosemanticki opis glagola promjene u Hrvatskom.e WordNetu. Di- plomski rad, Sveuäliste u Zagrebu, Filozofski fakultet, Odsjek za lingvistiku i Odsjek za kroatistiku.
Snajder, Jan (2008). Morfoloska nonnaHzacija tekstova na hrvatskome jeziku za dubinsku analizu i pretrazivanje informaàja. Doktorska disertacija. Sveuäliste u Zagrebu, Fakultet elektro- tehnike i racunarstva.
Sojat, Kresimir, Nives Mikelic-Preradovic, Marko Tadic (2012). Generation of Verbal Stems in Derivationally Rich Language. U: Proceedings of the 8th International Conference on Langu- age Resources and Evaluation (LREC ?2), 928-933.
Sojat, Kresimir, Matea Srebaäc, Marko Tadic (2012). Derivational and Semantic Relations of Croatian Verbs. Journal of Language Modelling, 0(1), 111-142.
Tadic, Marko, Sanja Fulgosi (2003). Building the Croatian Morphological Lexicon. U: Proceedings of the EACL2003 Workshop on Morphological Processing of Slavic Languages (Budimpesta 2003), ACL, 41^6.
Tadic, Marko (2006). Croatian Lemmatization Server. U: Koeva, Svetla, Mila Dimitrova-Vulcha- nova (ur.) Proceedings of the 5th Formal approaches to South Slavic and Balkan· languages Conference (FASSBL2006). Sofija: Bugarska akademija znanosti, 140-146.
Tadic, Marko (2007). Building the Croatian Dependency Treebank: the initial stages. Suvremena lingvistika, 63, 85-92.
Tafra, Branka, Petra Kosutar (2009). Rjecotvorni modeli u hrvatskome jeziku. Suvremena lingvi- stika. 67, 87-107.
Turk, Marija (1992). Fonologija hrvatskoga jezika. Rijeka - Varazdin: Izdavacki centar Rijeka - Tiskara Varazdin.
UDK 811.163.42'373.611
811.163.42'322.2
Izvorni znanstveni clanak
Prihvaceno za tisak 22. ozujka 2013.
Kresimir Sojat
Sveuciliste u Zagrebu
Matea Srebacic
Sveuciliste u Zagrebu
Vanja Stefanec
Sveuciliste u Zagrebu
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
Copyright Croatian Philological Society Jul 2013
Abstract
The paper discusses the procedures in building of CroDeriV, the computational lexicon containing data on morphological structure of Croatian verbs. CroDeriV is the first morphological resource dealing with derivational phenomena of Croatian. In the first part of the paper, after the motivation for building this kind of lexicon and the brief overview of the existing morphological resources for Croatian, procedures for morphological segmentation of verbs in CroDeriV are presented. Each verb in CroDeriV is segmented into lexical and derivational morphemes. Verbs of the same root are mutually linked. This procedure enables the recognition of derivationally related families of verbs and, at the same time, the detection of full derivational spans of particular base forms. The second part of the paper focuses on the morphological structure of Croatian verbs based on the analysis of almost 14000 verbal lemmas currently included in CroDeriV. The analysis enabled the recognition of generalized morphological structure applicable to all Croatian verbs. It consists of four slots for derivational prefixes and three slots for derivational suffixes on each side of a lexical morpheme, and these slots are provided for every verbal lemma in CroDeriV. This structure is compared with other approaches dealing with morphology of Croatian verbs. The three suffixal slots and their semantics are explained in more detail, since this kind of segmentation has so far not been introduced in Croatian morphological literature. First suffixal slot comprises suffixes with specialized meanings (e.g. diminutive, pejorative), second slot suffixes with aspectual meaning, and third slot suffixes denoting conjugational class. The final part of the paper describes attested combinations of derivational affixes in CroDeriV and indicates the frequency of their occurrence. [PUBLICATION ABSTRACT]