Google Deepmind Cloud Text-to-Speech чита текстови со скоро природен текст; вистински звук

Со нервните мрежи, сега е можно да се има читање со природен звук. Тимот Deepmind на Google разви алгоритам текст во говор што програмерите можат лесно да го вклучат во своите проекти - вклучително и 32 гласови на многу јазици како што се англиски, германски и јапонски.

Google ја претстави својата услуга во облак текст во говор во бета верзија. Овој систем има за цел да ги претвори пишаните текстови во јазик што звучи што е можно поприродно. За да го направите ова, Google го користи Deepmind, оддел кој се занимава со нервни мрежи за разни задачи - покрај Go игри и Starcraft 2, исто така зборува и текстови.

Програмерите треба да можат да користат Cloud Text-to-Speech за свои проекти. За оваа цел, Google обезбедува програмски интерфејс (API) што може да добие и адресира претходно обучени модели од облакот. Компанијата ја користи технологијата Wavenet за да генерира говор што звучи што е можно поприродно. Ова е нервна мрежа која генерира аудио сигнали од различни неврони. Во моментов ова е достапно само за гласовите на САД.

Видео: Гугл ТТС се испроба [1:26]

Повеќето гласови на англиски јазик

Услугата работи на мобилни уреди како што се паметни телефони и компјутери, звучници и телевизори. Во моментов, тој исто така нуди избор од 30 различни гласови. Сепак, голем дел е поврзан со британски или американски англиски јазик. Друг дијалект во САД може да се користи и со самиот Wavenet. Разликата е маргинална. Меѓутоа, на германски јазик има само два гласа без поддршка на Wavenet: една жена и еден маж. Смешен несакан ефект: Читањето на англиски текстови со германски глас работи со типичен акцент на германски звук. Другите јазици вклучуваат шпански, португалски, француски, турски и јапонски. Квалитетот може да се испроба во веб-алатка со тест-текстови.

Покрај изборот на глас, може да се променат и други параметри. Корисниците можат да ја прилагодат висината и брзината на говорот. Сепак, и двете контроли исто така го искривуваат звукот на гласот, така што, на пример, читателот со брз говор звучи повеќе како компјутер. Изворните текстови на JSON исто така можат да бидат прикажани во веб-алатката, така што на развивачите им е лесно да вметнат текстови во нивните апликации. Текстовите можат да се извезуваат во разни аудио датотеки како што се MP3, Linear16 и Ogg Opus. Дадена е и поддршка за SSML. Покрај тоа, интонацијата и паузите за време на говорот можат рачно да се прилагодат со употреба на ознаки.

Облак-текст во говор може да се тестира бесплатно. Сепак, ова бара сметка на Google и членство во Google Cloud Platform, што исто така може да се тестира дванаесет месеци со кредит од 300 американски долари.