Drevesnica govorjene slovenščine SST

Korpus SST (angl. Spoken Slovenian Treebank) je doslej edina skladenjska drevesnica govorjene slovenščine, ki je bila z namenom uporabe v jezikoslovnih in jezikovnotehnoloških raziskavah slovenskega govora zasnovana kot reprezentativni vzorec referenčnega korpusa govorjene slovenščine Gos. Vsebuje ročno oblikoslovno in skladenjsko označene transkripcije spontanega govora v najrazličnejših vsakodnevnih situacijah, od predavanj do pogovorov med prijatelji, v okviru projekta SPOT pa bo še bistveno povečana in nadgrajena. Drevesnica je označena po medjezikovno usklajeni shemi Universal Dependencies, kar omogoča njeno neposredno primerjavo s številnimi drugimi enako označenimi korpusi v več kot 140 jezikih sveta.

Drevesnica pisne slovenščine SSJ

Korpus SSJ, poimenovan po istoimenskem izvornem projektu, je doslej največji ročno razčlenjeni korpus slovenskega jezika, ki vsebuje oblikoslovno in skladenjsko označene povedi iz leposlovnih, strokovnih, publicističnih in enciklopedičnih besedil. Poleg uporabe v jezikovnih tehnologijah, kot so programi za strojno slovnično označevanje slovenskih besedil, se drevesnica SSJ vse bolj uporablja tudi za potrebe eno- in večjezičnih jezikoslovnih raziskav. Temelji namreč na medjezikovno usklajeni shemi Universal Dependencies, kot del referenčnega učnega korpusa SUK pa vsebuje jezikoslovne oznake tudi na številnih drugih ravneh. V okviru projekta SPOT bo drevesnica SSJ uporabljena kot referenčni korpus za samodejno odkrivanje skladenjskih posebnosti oz. odstopanj v enako označenem korpusu govorjene slovenščine, drevesnici SST.