Грамадства22

Праект SONORA шукае тых, хто дапаможа «падключыць» беларускі голас да BigTech

У канале «TTS па-беларуску» з'явілася аб'ява аб запуску SONORA. Гэта праект, дзе ўдзельнікі запісваюць адкрыты беларускі датасэт для TTS — «каб беларуская гучала натуральна ў сучасных AI-сэрвісах», піша тэлеграм-канал Dzik Pic.

Здымак ілюстрацыйны. Фота: freepik.com

У чым праблема? Як сцвярджаецца на сайце, сёння ў свеце амаль не існуе якасных беларускамоўных галасавых датасэтаў, спецыяльна запісаных для навучання сучасных TTS-мадэляў. Пры гэтым у беларускай мове тысячы амографаў: аднолькавае напісанне, але розны сэнс у залежнасці ад націску. Калі мадэль памыляецца з націскам, ламаецца і гучанне, і сэнс. 

Другая праблема — фанетычная карэктнасць: мяккасць, «ў», «дз/дж», інтанацыя і рытм:

«Без якаснага студыйнага матэрыялу мадэлі паўтараюць памылкі і гучаць менш натуральна».

Так, сёння ўжо існуюць падобныя ініцыятывы, напрыклад, Donar.by альбо мадэль BexTTS. Але Sonora працягне іхні шлях і «выведзе яго на студыйны ўзровень».

Таму энтузіясты запусцілі супольнае фінансаванне, каб «арганізаваць прафесійны студыйны запіс беларускага маўлення на спецыяльна падабраных тэкстах». Карыстацца датасэтам змогуць даследчыкі, энтузіясты, стартапы і адукацыйныя ініцыятывы.

Акрамя таго, каманда плануе партнёрства з Google, OpenAI і ElevenLabs — «каб наш датасэт узмацніў іх рашэнні для беларусаў».

SONORA шукае цёплыя інтры/прамыя кантакты ў:

  • Google;
  • OpenAI;
  • ElevenLabs;
  • Speechify;
  • Meta.

«Калі ведаеце каго-небудзь у гэтых кампаніях і можаце зрабіць інтра — напішыце, калі ласка, у прыват, альбо напішыце зварот ад нас самі. Тэкст звароту тут», — просяць стваральнікі.

Вы можаце паслухаць, як гучыць беларуская мова ў тэхналогіях сёння, на стартавай старонцы.

Каментары2

  • ???
    09.03.2026
    Чаму напрыклад гэтым не займаецца Каардынацыйная Рада? Ці гендарныя квоты і лгбт важней чым беларуская мова?
  • Чарговы веласіпед
    10.03.2026
    Так а ў чым розніца паміж дадзеным праектам і Donar.by? Donar.by ж спецыяльна пашыраў функцыянал Common Voice, каб былі датасэты не толькі на распазнаванне гаворкі, але і на агучку.

    Ну а наконт "амаль не існуе якасных беларускамоўных галасавых датасэтаў", то наогул хлусня, на адным толькі Common Voice на дадзены момант запісана і праверана 1800 гадзін ад больш як 8000 чалавек. Такія вялікія датасэты ў свабодным доступе мала для якой мовы існуюць.

Цяпер чытаюць

У Беларусі рэзка вырасла доля стратных прадпрыемстваў — такіх ужо траціна. Чаму так адбываецца?16

У Беларусі рэзка вырасла доля стратных прадпрыемстваў — такіх ужо траціна. Чаму так адбываецца?

Усе навіны →
Усе навіны

Расія страціла яшчэ адзін самалёт Су-341

Забудзьцеся пра нафту і газ. Як вада можа стаць зброяй у вайне ЗША і Ізраіля супраць Ірана

«Сала як масла, такога нідзе не знайсці». Як сям'я са слуцкай вёскі ператварыла хатнюю гаспадарку ў брэнд9

Мерц хоча выправіць з Германіі дахаты 80% сірыйцаў. Яго ўжо моцна раскрытыкавалі29

Заходнія вятры прынеслі ў Беларусь першыя пылкі-алергены1

«Няма магчымасці далей цягнуць бясплатны фармат». Фестываль Tutaka ўпершыню будзе браць грошы за ўваход7

Літовец паехаў наведаць сваякоў у Беларусь — яго арыштавалі і далі 15 гадоў. Кажуць, што за шпіянаж2

Анархісту Мікіту Дранцу дадалі год зняволення

Памочніца Ціханоўскай Ганна Златкоўская пакінула працу ў Офісе27

больш чытаных навін
больш лайканых навін

У Беларусі рэзка вырасла доля стратных прадпрыемстваў — такіх ужо траціна. Чаму так адбываецца?16

У Беларусі рэзка вырасла доля стратных прадпрыемстваў — такіх ужо траціна. Чаму так адбываецца?

Галоўнае
Усе навіны →

Заўвага:

 

 

 

 

Закрыць Паведаміць