O projektu - SPOT

Example of a dependency tree in the Spoken Slovenian Treebank.

V skladu s celostnim pristopom k preučevanju jezika, znotraj katerega sta govorjeno in pisno sporazumevanje razumljena kot dva konca istega kontinuuma, smo bili v zadnjih treh desetletjih priča skokovitemu porastu korpusnojezikoslovnih raziskav govorjenega jezika, ki si prizadevajo za sistematičen opis tipično govorjenih skladenjskih pojavov, kakršni so bili v tradicionalnih slovničnih opisih večinoma prezrti ali opisani nezadovoljivo. Ta trend je bistveno manj izrazit v slovenskem jezikoslovju, kjer so raziskave skladenjskih značilnosti govorjene slovenščine še vedno redke ter se po načelu ‘od zgoraj navzdol’ prevladujoče osredotočajo predvsem na preučevanje posamičnih skladenjskih pojavov na podlagi kvalitativnih analiz nereprezentativnih vzorcev jezikovne rabe.

Da bi zapolnili to vrzel in vzpostavili nujno potrebne empirične temelje za nadaljnje slovnične raziskave govorjene slovenščine, nameravamo v okviru projekta SPOT sistematično raziskati metodološki potencial skladenjsko razčlenjenih korpusov (t. i. drevesnic) za jezikoslovne raziskave govorjene slovenščine, in sicer tako, da bomo (1) vzpostavili metodološke temelje za skladenjsko označevanje korpusov govorjene slovenščine, (2) izdelali visokokakovostno drevesnico govorjene slovenščine, (3) razvili metodologijo za statistično podprto jezikoslovno analizo drevesnic govorjenega jezika po načelu ‘od spodaj navzgor’ ter pri tem (4) promovirali uporabo skladenjsko razčlenjenih korpusov v jezikoslovju nasploh.

V okviru projekta bomo tako izdelali bistveno izboljšano različico odvisnostne drevesnice SST, doslej edinega skladenjsko razčlenjenega korpusa govorjene slovenščine, ki jo bomo nadgradili tako z vidika obsega in dokumentiranosti kot kakovosti vsebovanih oznak. Novo različico drevesnice bomo nato uporabili za razvoj povsem nove korpusnojezikoslovne metode za prepoznavo tipično govorjenih skladenjskih vzorcev, ki temelji na statistični primerjavi s primerljivo drevesnico pisne slovenščine. Pričakujemo, da bodo rezultati po eni strani empirično potrdili že znane, prototipične in kognitivno najbolj izstopajoče skladenjske pojave v govoru, po drugi pa utegnejo razkriti morebitne nove, doslej neidentificirane, a statistično značilne vzorce govorjene rabe.

Rezultati projekta bodo tako pomembno prispevali k znanstvenemu napredku slovenskega jezikoslovja, z vzpostavitvijo novih virov, metod in analiz za preučevanje govorjene slovenščine, pa tudi korpusnega jezikoslovja nasploh, kjer metodološki potencial skladenjsko razčlenjenih korpusov za raziskave govorjenega jezika in raziskave jezikovne variantnosti nasploh ostaja povsem neraziskan.

Financiranje

Raziskovalna organizacija

Vodja projekta

Področje

Trajanje

Obseg