Web Analytics
More
    Reklāma

    Radīts mākslīgā intelekta rīks latgaliešu valodas runas atpazīšanai un transkribēšanai

    Jaunākie raksti

    LU Matemātikas un informātikas institūta (LU MII) Mākslīgā intelekta laboratorijas pētnieki apmācījuši pirmo mākslīgā intelekta (MI) modeli latgaliešu valodas runas atpazīšanai un uz tā bāzes izstrādājuši praktiski izmantojamu latgaliešu valodas runas transkribēšanas rīku. Jaunais MI modelis un rīks ir brīvi pieejami gan galalietotājiem, gan valodu tehnoloģiju risinājumu izstrādātājiem.

    “Latgaliešu valoda ir neatņemams Latvijas lingvistiskais un kultūrvēsturiskais mantojums un būtiska nacionālās identitātes daļa aptuveni 165 000 mūsu valsts iedzīvotāju, tādēļ ir svarīgi nodrošināt latgaliešu valodas pilnvērtīgu pastāvēšanu un attīstību arī digitālajā telpā,” norāda LU MII Mākslīgā intelekta laboratorijas vadītājs Normunds Grūzītis. “Esam gandarīti, ka kopā ar partneriem mums ir izdevies izveidot pirmo praktiski izmantojamo MI modeli, kas spēj saprast un pierakstīt latgaliešu valodā runāto. Latviešu valodai šādi risinājumi ir pieejami jau vairāk nekā desmit gadus, un nu arī latgaliešu valodai runas tehnoloģiju nodrošinājums pietuvinājies līmenim, kāds tas ir latviešu valodai.”

    Jaunā MI modeļa mašīnapmācība latgaliešu valodas runas atpazīšanai tika paveikta vien mēneša laikā, sagatavojot vairāku gadu laikā iegūtos valodas datu paraugus modeļa apmācībai un izmantojot LU MII mākslīgā intelekta skaitļošanas infrastruktūru. Lai iegūtu nepieciešamos datus, Valsts pētījumu programmā “Letonika” kopš 2022. gada tika veidoti runas korpusi latviešu un latgaliešu valodai – daudzveidīgi runas datu paraugi ar transkripcijām un lingvistisko marķējumu, kopumā vairāku simtu stundu apjomā. Tas ietver arī sabiedrisko iniciatīvu “Balsu talka” un “Bolsu tolka” laikā savāktos latviešu un latgaliešu valodas runas paraugus. Paralēli tam ES finansētajā izglītības un pētniecības projektā “Valodu tehnoloģiju iniciatīva” tika izveidota tehnoloģiskā bāze valodas modeļu mašīnapmācībai.

    “Pirms MI modeļa izveides latgaliešu valodai vispirms izveidojām šādu modeli latviešu valodai, jo tai ir pieejams ievērojami vairāk apmācības datu. Pēc tam izveidoto latviešu valodas modeli turpinājām apmācīt ar latgaliešu valodas datiem,” piebilst Normunds Grūzītis.

    LU MII izstrādātais latgaliešu valodas runas transkribēšanas rīks LATE-LTG ir brīvi pieejams vietnē https://ltg.late.ailab.lv, savukārt apmācītais MI modelis ir pieejams ar atvērtā pirmkoda licenci, tostarp komerciālai izmantošanai. LATE platforma paver plašas pielietojuma iespējas, tostarp teksta diktēšanai, audio un video ierakstu atšifrēšanai, subtitru veidošanai, kā arī  latgaliešu rakstu valodas apguvei.

    Latgaliešu un latviešu valodas MI modeļu apmācībai nepieciešamo runas korpusu izveidē un attīstībā piedalās Rēzeknes Tehnoloģiju akadēmijas, LU Matemātikas un informātikas institūta un LU Literatūras, folkloras un mākslas institūta pētnieki, savukārt Latvijas Atvērto tehnoloģiju asociācijai bijusi būtiska loma “Balsu talkas” veiksmīgā organizēšanā un īstenošanā.

    Reklāma
    Paziņot par jaunumiem
    Paziņot par
    20 komentāri
    Hašvaldis Blokčeins-Halvenings (HBH)
    28.03.2025 10:57

    Lobs!

    Biteme
    28.03.2025 13:23

    Vai bitkoinu latgaliski šis atpazīst, pārbaudīji? Blokķēdi?

    Ivis
    28.03.2025 13:53

    Būtu interesanti zināt, kura valoda ir izplatītāka – elfu vai latgaliešu?

    Kursors.lv
    28.03.2025 14:17
    Reply to  Ivis

    Latvijā vai globāli raugoties?

    Hašvaldis Blokčeins-Halvenings (HBH)
    28.03.2025 17:30
    Reply to  Ivis

    Ir tā:

    1. Quenya
    2. Lotgolīšu
    3. Sindarin

    Ir vārdam vieta
    28.03.2025 18:39

    Principā, ja proti krievu valodu, tad apt. 30% no šīs “universālās” latgaļu “valodas” jau tu saproti. Fakts. Un valodniecībā tas joprojām ir dialekts, valodas esamība šajā jautājumā tiek pseidopolitizēta un, visticamāk, ir bīstama. To diemžēl var izmantot kā Latvijas Donbasa analogu.

    Kursors.lv
    28.03.2025 18:45

    Nameiz! ;)

    Name*
    29.03.2025 06:46

    Valodniecībā tiek izmantots latgaliešu rakstu valoda nevis dialekts. Tādēļ rakstīt, ka tas ir dialekts ir aplami.

    Likumos ir arī rakstīts, ka latgaliešu rakstu valodu valsts apņemas saglabāt, aizsargāt un attīstīt.

    Ir vārdam vieta
    29.03.2025 18:00
    Reply to  Name*

    Augšzemnieku dialekts. Palielam skaidrs, kad valoda teu tiek izmantots kak valoda. Interpunkcija valodniekam ceļšā no Preiļi uz Rāzekne arī kaut kur nomaldījies.

    Kursors.lv
    29.03.2025 19:04

    Atlikt glupību runāšanu!

    Ir vārdam vieta
    31.03.2025 08:40

    Atcelt Rēzeknes paradumu runāt trīs valodās vienlaikus, un mēģināt to ieskapēt par saistītu ar latviešu valodu.

    Kursors.lv
    31.03.2025 09:37

    Lūdzu, uzraksti vēl kaut ko stulbu. Tev diezgan labi sanāk.

    JRage
    31.03.2025 10:01

    Ja nopietni, ir zināma taisnība šajā Ir_vārdam_vietas nozākājumā. Pārvaldu un cienu latgaliešu valodu, taču šajā jau pēc Latvijas neatkarības atgūšanas sastādītajā Rēzeknes vietvārdu, krievu (un citu lamuvārdu) samaisījumā + divskaņu ieviešanā rakstu valodā visur, kur vien nav slinkums, “a” vietā “y”, utt. vairs neatpazīstu to latgaliešu valodu, ko mācījos bērnībā. Salīdzinājumam – “tīrai” latgaliešu valodai, skat. P. Stroda “Latgalīšu volūdas gramatika”. P.S. Biju arī gribējis iesaistīties šajā LUMII projektā, taču nevarēju projekta aprakstu tajā lauzītajā dialektā līdz galam izlasīt, nenoveļoties no krēsla.

    Kursors.lv
    31.03.2025 10:56
    Reply to  JRage

    Kurš tev liedz runāt tādā latgaliešu valodā, kādu uzskati par pareizu?

    JRage
    31.03.2025 12:01

    A vot negribu! :D (un to pašu pajautā sev par latviešu valodu)

    JRage
    31.03.2025 12:06

    Īstenībā jau neviens neliedz un es to arī daru. Taču šeit mēs runājam par to, kāda tā tiek virzīta un lietota plašāk. Un tāpēc jebkurai valodai izstrādā pareizrakstības likumus, lai katrs nerunātu, kā ienāk prātā.

    Kursors.lv
    31.03.2025 12:09
    Reply to  JRage

    Likumi, protams, ir svētīgi un jauki, bet valoda ir dzīva un cilvēki runā tā, kā viņiem ērtāk.

    JRage
    31.03.2025 16:39

    Par runāšanu varu piekrist. Problēmas sākas, kad sāk rakstīt tā_kā_runā :) Mani tieši latgaliešu rakstu valodas izkropļošana satrauc, t.i. tagad ir norma uzlikt uz papīra visu, kas galvā – tā vairs nav literāra valoda kā agrāk, līdz 90-tajiem.

    Kursors.lv
    31.03.2025 19:38
    Reply to  JRage

    Kā var zināt par pareizu rakstīšanu, ja to nemāca? Nodzīvoju visu bērnību Latgalē, izskolojos vairākās skolās un nevienā brīdī nebija nekādas norādes uz to, kur iemācīties pareizi rakstīt latgaliski. Tāpēc rakstām tā, kā runājam.

    JRage
    01.04.2025 09:56

    Kas vēlas iemācīties, atradīs. Jau minēju P. Stroda “Latgalīšu volūdas gramatika”.
    Mani vecvecāki runāja tīrā valodā un necieta dažādus izkropļojumus un pārkrievojumus – gan runājot, gan rakstot, taču nevairījās no sulīgākiem Latgalē lietotiem vārdiem (ar to es nedomāju lamuvārdus :)) 90tajos pēc valodnieku viedokļu sadursmēm uzvarēja pārveidota (laikam L.Leikumas) pareizrakstība ar divskaņiem platā ē un garā ō vietā, atsakoties no pirmās brivvalsts laikā radītās pareizrakstības, kura bija daudz tuvāka latviešu valodas gramatikai (bija gan pāris atšķirīgi burti, kā garais ō un y). Iepriekš, saprotot dažus principus, kuri patskaņi ar ko jāaizvieto, jebkurš latvietis ātri varēja iemācīties saprast latgaliešu valodu (piemērs: skola, skolotājs -> skūla, skūlotōjs). Tagadējā pareizrakstība ar divskaņiem drīzāk izskatās tuvāka lietuviešu valodai ar 2x garākiem vārdiem. Oficiāli tiek lietoti daudzi pārkrievojumi (skola -> škola) un vietvārdi/jaunvārdi, ko pat liela daļa latgaliešu nelieto un nesaprot.

    Reklāma