( ! … ? )
Portal Govorjena slovenščina je namenjen zbiranju posnetkov vsakdanje slovenščine. Posnetki bodo uporabljeni za raziskave govora, razvoj digitalnih orodij za naš jezik in kot arhiv jezikovne kulturne dediščine.
Uporabniki
Uporabniki posnetkov bodo večinoma raziskovalci, ki preučujejo slovenski govorjeni jezik v jezikoslovju ali sorodnih družboslovnih in tehničnih vedah.
Uporabniki bodo tudi razvijalci jezikovnih in govornih tehnologij, kot so razpoznavanje govora, strojno razumevanje pomena govora in strojno prevajanje govora.
Uporabniki bodo lahko tudi vsi ostali, ki bi želeli posnetke uporabiti za svoje raziskave ali razvoj tehnologij za slovenski jezik.
Anonimnost govorcev
Govorci bodo označeni z anonimno kodo, ki ne bo razkrivala njihove identitete. Podatek o imenu in priimku govorca in kontaktni podatki ne bodo javno objavljeni skupaj s posnetkom, ampak bodo dostopni samo urednikom zbirke za potrebe upravljanja baze oziroma pravic posameznikov in nagradnega tekmovanja.
Posnetki in zapisi bodo povezani s podatki o okoliščinah snemanja in anonimnimi kodami govorcev.
Obdelava posnetkov
Posnetki bodo del govorne baze slovenščine. K posnetkom bodo lahko dodani zapisi govora, ki ga slišimo na posnetkih.
Zapisi govora bodo lahko dodatno označeni s podatki o izgovoru, oblikah besed, stavčnih strukturah, pomenu, čustvenem tonu in podobno.
Dostopnost posnetkov
Posnetki iz govorne baze slovenščine bodo dostopni prek nacionalnega repozitorija za jezikovne vire in tehnologije CLARIN.SI. Bazo bo mogoče prenesti pod eno od odprtih licenc, kot je Creative Commons.
Dostop do posameznih izjav v posnetkih bo mogoč tudi prek specializiranih iskalnikov za jezikovne vire, imenovanih konkordančniki. Primer takšnega dostopa je govorni korpus Gos, ki je dostopen prek konkordančnikov CJVT, Clarin noSketch Engine ali Clarin Kontext.