Snemanje govora

Darinka VERDONIK

Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko
Avgust 2025

Da lahko govor raziskujemo, potrebujemo veliko količino avtentičnih posnetkov govora. V arhivih na internetu, pri televizijskih in radijskih hišah ter v državnih parlamentih je takih posnetkov že zelo veliko. Toda to je večinoma javni govor. Tudi če ni formalen, je še vedno precej bolj enoličen, kot je vsakdanja govorica ljudi iz različnih regij Slovenije in zamejstva.

1      Čemu posnetki vsakdanjega govora

Posnetki vsakdanjega govora so pomembni za mnoge znanstvene discipline. Njihove cilje lahko združimo v štiri točke.

Kulturna dediščina:Posnetki avtentičnega govora so pomembni za ohranjanje zapisov kulturne dediščine za naše potomce. Jezik, še posebej govorjeni, se spreminja z veliko večjo hitrostjo, kot se zavedamo. Naši stari starši so govorili drugačno slovenščino, kot jo govorimo mi. Uporabljali so besede za pojme in stvari, ki so bile pomembne v času njihovega življenja, frazeme in pregovore, v katerih so bili skriti drobci njihovega razumevanja in razlaganja sveta in človeka v njem, imeli izreko in melodijo govorice edinstveno, kot je edinstvena glasba nekega prostora in časa. Če bi imeli priložnost prisluhniti jim, bi poleg tega iz posnetkov izvedeli zelo veliko tudi o tem, kako so živeli, kakšna je bila takrat družba, kaj je bil izvor njihovega veselja, kaj izvor skrbi in strahov, kako so se spopadali z izzivi življenja.

Opis jezika:Posnetki avtentičnega govora so pomembni zato, da spoznamo svoj jezik. Slovnica in slovar slovenskega jezika sta za zdaj osredotočena na knjižni jezik. Besedje in slovnične značilnosti govorjenega jezika je mogoče vključiti v njune opise šele na podlagi gradiv s terena. Govorjeni jezik do neke mere opisuje dialektologija, a že na najnižji ravni opisa, pri popisu glasov, ki jih pozna slovenščina v različnih narečjih, se zatika. Čeprav se slovenski dialektologi aktivno trudijo izdelati opis glasov slovenskih narečij in njihove prostorske razširjenosti, bi kvalitetni dodatni posnetki s terena in prehod na njihovo delno avtomatizirano obdelavo omogočila bistveno hitrejši razvoj in bolj zanesljive opise.

Govorne tehnologije za slovenščino: Posnetki govora so nujni za razvoj digitalnih orodij za slovenski jezik. Z nastopom tehnologije globokih nevronskih mrež in velikih jezikovnih modelov so v naša življenja silovito vstopila orodja umetne inteligence, ki za nas besedila pišejo, popravljajo, povzemajo, prevajajo, odgovarjajo na naša vprašanja in še kaj. Čeprav danes večinoma ta orodja uporabljamo pisno, hkrati vidimo, da se kot uporabniki jezika od besedila vedno bolj obračamo k posnetku in sliki. Razlag, opisov, informacij ne želimo brati z zaslona, ampak jih raje slišimo in pogledamo v sliki, ker si jih tako lažje predstavljamo. Tehnologija že dolga desetletja razvija govorno komunikacijo človeka s strojem: avtomatski zapis (razpoznava) govora, tvorjenje govorjenega besedila, tvorjenje (sinteza) govora … Da bi te tehnologije zadovoljile pričakovanja uporabnika, morajo pri tem znati posnemati naš vsakdanji govor, ki je zelo različen od zapisanega besedila. Posnemati pa se ga lahko naučijo samo iz posnetkov avtentičnega govora, sicer bo naša izkušnja uporabnika nezadovoljiva ali – še slabše – nam tehnologija sploh ne bo na voljo in bomo morali z njo komunicirati v angleščini.

Učinkovitejše terapije in obravnave govornih težav: Posnetki govora imajo ključno vlogo pri razumevanju in obravnavi ljudi, ki se soočajo z govornimi težavami – bodisi zaradi razvojnih posebnosti, kot so jecljavost ali motnje pri usvajanju jezika v otroštvu, bodisi zaradi zdravstvenih razlogov, na primer po možganski kapi, pri nevroloških boleznih ali po poškodbah. Z zbiranjem in analizo posnetkov tako tipičnega kot tudi atipičnega govora lahko strokovnjaki oblikujejo sodobne, podatkovno podprte pristope, ki temeljijo na dejanskih potrebah govorcev. Tako se razvijajo učinkovitejše logopedske terapije, diagnostična orodja in tudi digitalne rešitve, ki osebam z govorno-jezikovnimi motnjami pomagajo pri komunikaciji in izboljšujejo kakovost življenja.

2      Kako do posnetkov vsakdanjega govora

Posnetke vsakdanjega govora lahko dobimo samo tako, da ljudi prosimo za sodelovanje in jih pri njihovem govorjenju posnamemo. Brez sodelovanja širše skupnosti ne gre. Največ posnetkov vsakdanjega govora za slovenski jezik je zbranih v referenčnem govornem korpusu Gos. Ta je bil v prvi različici posnet v letih 2009 in 2010. Poleg posnetkov javnega govora je bilo vanj vključenih tudi približno 60 ur posnetkov vsakdanjega govora bodisi zasebno bodisi v različnih nejavnih situacijah, kot so prodaja, informacije, storitve, sestanki, izobraževanje in podobno. V drugi različici je bil izdan leta 2023. Ponovno so bili poleg javnih posnetkov vključeni tudi posnetki vsakdanjega govora, kot so razlage, opisi in pogovori, ponovno v obsegu okrog 60 ur. V obeh primerih je snemanje potekalo tako, da so študentje, ki so se odzvali za sodelovanje prek študentskega servisa, posneli govor svojih družinskih članov ali prijateljev in tudi samih sebe. Tretja serija snemanj za govorni korpus Gos je vzpostavljena kot dolgoročnejša aktivnost zbiranja posnetkov prek portala Govorjena slovenščina. Tukaj poteka zbiranje posnetkov vsakdanjega govora z veliko manjšo intenzivnostjo kot v prvih dveh serijah, vendar dolgoročno. Tokrat žal ni na voljo sredstev za plačilo posameznikom, ki prispevajo posnetke, ampak poteka zbiranje ob prostovoljnem sodelovanju širše skupnosti. Če berete te vrstice in vas kateri od razlogov, opisanih zgoraj, nagovori, zato ne oklevajte in prispevajte posnetek svojega govora ali govora svojih bližnjih tudi vi.

Pri posnetkih vsakdanjega govora je pomembno predvsem dvoje: prvič, da govor na posnetku ni prisiljen, ampak čim bolj sproščen in tak, kot je običajno, in drugič, da je govor na posnetku dobro slišen, drugih šumov pa je čim manj ali nič. V preteklosti smo za snemanje uporabljali kvalitetnejše diktafone ali prenosne snemalnike, danes pa večina pametnih telefonov zajame zvok dovolj dobro, da ni potrebna druga naprava. Zadošča namestitev katere od aplikacij, ki jih priporočamo na portalu Govorjena slovenščina, in že lahko snemate. Paziti pa je treba, da je prostor snemanja miren in tih, da je snemalna naprava dovolj blizu govorcem in da je glasnost snemanja ustrezna.

Deliti svoj govor seveda ni povsem lahkotno dejanje, saj gre za zelo osebno stvar. Konec koncev je govor tudi bibliometrični osebni podatek. Vsak govorec, ki ga posnamemo, mora biti s snemanjem dobro seznanjen in izrecno privoliti v snemanje in zbiranje drugih podatkov, ki so pomembni za raziskave, z izpolnitvijo in podpisom posebne izjave. Prav tako se bo posneti govorec soočil z vprašanjem, kaj naj na govori oziroma o čem naj se pogovarja za posnetek. Na portalu Govorjena slovenščina pomagamo z nekaj namigi za teme, ki naj bodo splošne in nevtralne, kot so šport in rekreacija, hrana, zdravje, potovanja, okolje, domače živali, prazniki in običaji, tehnologija in podobno. Zlasti paziti je treba, da ne se ne omenjajo druge osebe iz zasebnega življenja na način, da bi lahko iz posnetka razbrali, o kom je govora. Prav tako ni sprejemljiv sovražni ali žaljiv govor. Oblika govora je lahko vsakdanji pogovor ali pa morda diskusija, dajanje navodil, razlaganje, pripovedovanje ali tudi intervju.

3      Govorni korpusi

Posnetke govora njihovi upravljalci uredijo v računalniško berljivo zbirko, ki se imenuje govorni korpus. Ta ne vključuje samo posnetka govora, ampak tudi zapis govora na posnetku, o čemer pišemo podrobneje v članku Zapisovanje govora na portalu Govorjena slovenščina. Ena prvih vidnejših akcij zbiranja posnetkov vsakdanjega govora je potekala v Angliji okrog leta 1990, ko so jezikoslovci poleg pisnega izdelali tudi govorno enoto korpusa britanske angleščine British National Corpus. Govorjeni vsakdanji jezik v tej enoti obsega okrog 500.000 besed.

Kasneje je sledilo še veliko tovrstnih akcij, in čeprav jih je bilo največ za angleščino, obstajajo danes govorni korpusi za veliko večino vseh jezikov Evropske unije. Od manjših jezikovnih skupnosti v Evropi po obsegu govornih korpusov izstopajo na primer velški, estonski, češki in slovaški jezik. Zbirka posnetkov vsakdanjega govora v slovenščini, ki jo najdemo v referenčnem govornem korpusu slovenščine Gos, je sicer zgledno podprta, kar se tiče njene dostopnosti za raziskovalce, a po obsegu še vedno zelo zaostaja za največjimi.

Snemanje in zbiranje posnetkov vsakdanjega govora ni le tehnična naloga, ampak skupni projekt, v katerega smo vabljeni vsi govorci slovenščine. Le iz posnetkov govora veliko govorcev lahko natančneje spoznamo bogastvo in raznolikost svojega jezika in podpremo razvoj digitalnih orodij, ki bodo na voljo uporabniku tudi v slovenščini in njenih narečjih. Hkrati s posnetki svojega govora prispevamo k ohranjanju kulturne dediščine in spodbujamo boljše razumevanje govora v izobraževanju, logopediji in zdravstvu.

4      Literatura

Škofic, J. (2009). Slovensko narečno besedje na stičišču kultur (po gradivu za SLA). V Ponovne objave člankov s kartami za Slovenski lingvistični atlas (do leta 2008). Inštitut za slovenski jezik Frana Ramovša ZRC SAZU. 51–66.

Verdonik, D., & Zwitter Vitez, A. (2020). Slovenski govorni korpus Gos. Založba Univerze v Ljubljani. https://doi.org/10.4312/9789610603528.

Verdonik, D. (2023). Zbiranje gradiv za govorne korpuse med Scilo in Karibdo. V Arhar Holdt, Š. (ur.), Krek, S. (ur.). Razvoj slovenščine v digitalnem okolju. Ljubljana: Založba Univerze. 15-37. https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/522/852/9447.

Wikipedia. British National Corpus. https://en.wikipedia.org/wiki/British_National_Corpus.

To delo je ponujeno pod licenco Creative Commons: Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna.

This work is licensed under the Creative Commons Attribution-ShareAlike 4.0 International.

https://creativecommons.org/licenses/by-sa/4.0