Историја на синтезата на говорот

Зборувачка машина на Волфганг фон Кемпелен

Првите обиди да се генерира човечки јазик со машина се направени во втората половина на 18 век. направени Г. Кратценштајн, професор по физиологија во Копенхаген, претходно во Хале и Петербург, успеа да произведе самогласки со резонантни цевки поврзани со органски цевки (1773). Во ова време, Волфганг фон Кемпелен веќе започнал експерименти што го навеле да изгради машина за зборување. Фон Кемпелен бил Ингениј во служба на Марија Тереза во Виена. Роден е во 1734 година во Пресбург, тогашната престолнина на Унгарија, и почина во Виена во 1804 година. Иако стана попознат по други дела, проучувањето на производството на човечки говор беше негова примарна грижа, имајќи ги предвид и терапевтските апликации. Тој е наречен прв експериментален фонетичар. Во неговата книга Механизам на човечки јазик и опис на машина за зборување (1791), тој исто така ја опиша својата јазична машина многу детално за другите да можат да ја пресоздаваат и подобруваат. Шесте цртежи прикажани подолу десно се земени од оваа книга. (Кликнете за да видите зголемени - и назад со соодветното копче на вашиот прелистувач.)

Машината на Фон Кемпелен беше првата со која беше можно да се произведат не само индивидуални говорни звуци, туку и зборови и пократки реченици. Според Кемпелен, можете да „стекнете восхитувачка вештина во играњето во период од три недели, особено ако преминете на латински, француски или италијански јазик, бидејќи германскиот јазик е многу потежок“ (поради честите затворени слогови и Сноп согласка).

Машината се состои од мев управувана со десната подлактица, која ги симулира белите дробови (горен цртеж). За „вдишување“ се грижи противтежа. На двата цртежи подолу се прикажани „ветровите гради“ со некои лостови со кои може да се управува со прстите на десната рака, како и гумената „уста“ и „носот“ на уредот. Двете ноздри мора да бидат затворени ако не треба да се произведува нос.

Протокот на воздух не само што се води во устата преку трска, туку и преку тесна цевка наредена паралелно со неа. Ова овозможува да се зголеми притисокот на воздухот во усната шуплина ако отворот на прицврстувачката цевка е целосно затворен за да се создадат безгласни говорни звуци. Мал мев тогаш обезбедува дополнително издувам воздух кога ќе се ослободи бравата.

Со левата рака, врз резонантните својства на устата може да се влијае и со покривање на неговото отворање на различни начини. Ова им овозможува на самогласките и согласките да бидат симулирани доволно. Затоа не е имитација на природна артикулација, бидејќи обликот на цевката за прицврстување на машината е инхерентно непроменлив. Одредени самогласки и особено согласките [d t g k] не можат да се имитираат, но во најдобар случај може да се симулираат. [L] се произведува со ставање на палецот во устата.

Функцијата на вокалните набори е симулирана со трска направена од слонова коска (лев цртеж). Верзијата опишана во книгата сè уште зборува монотоно, но веќе постоеше можност за промена на ефективната должина на трската, а со тоа и на висината на гласот.

Две од лостовите што треба да ги управува десната рака се користат за генерирање на фрикативните [и] [], како и [z] и [] со помош на засебни цевки за подсвирквување (цртање десно). Штракање [R] се произведува од уред што испушта жица врз вибрирачката трска (цртеж во средина).

Последната верзија на машината Кемпеленс е зачувана до ден-денес. Тоа беше сè до 1906 година во К. к Конзерваториум за музика во Виена, а потоа пренесен како фондација во Германскиот музеј (на ремек-дела од природна наука и технологија) во Минхен, основан само три години порано. Оттогаш е изложен во одделот за музички инструменти. Овој уред се разликува од верзијата опишана во книгата со тоа што должината на занишаната трска може да се менува со бравата што може да се управува од десната дланка. Потоа можете да се обидете да симулирате природен тек на интонацијата.

Зборувачката машина на Волфганг фон Кемпелен, како што може да се види во Дојческиот музеј во Минхен, и се гледа одозгора, со отстранет капак на кутијата. Погледи на механизмот за фонација

На 8 јули 1997 година, уживав привилегија да ја испробам машината на Кемпелен. Нивниот механизам за подесување сè уште функционираше, а контролата на теренот сè уште имаше ефект. Гласот беше сличен на едно дете и доста гласен. Сепак, неколку основни детали за уредот веќе не беа во работна состојба.

Реплика на машината, демонстрирана од Витстоун во Даблин во 1835 година, се разликуваше од онаа опишана во книгата на Кемпелен по тоа што има податлива млазница и лост за потиснување на гласот, но немаше механизам за промена на висината на последната верзија на Кемпелен.

Во 19 век Конструирани се уште неколку машини од сличен тип, но фундаменталните иновации во областа на синтезата на говорот всушност не се забележани за овој век. Вреди да се спомене, сепак, е уредот претставен од Josephозеф Фабер во 1835 година, кој, во споредба со машината на Кемпелен, претставуваше напредок со тоа што исто така имаше јазик и фаринкс кој ја менуваше формата и беше исто така погоден за синтеза на пеењето. Нејзините мевчиња ги возеше педалата за нозе, а остатокот од операцијата беше извршен преку тастатура.

„Еуфонија“ на Josephозеф Фабер, како што беше прикажана во Лондон во 1846 година. Машината произведуваше обичен и шепотеше говор и пеење, вклучувајќи ја и химната „Бог ја спаси кралицата“.

Во 1937 година, Р. Р. Риш (САД) сè уште градеше уред со сличен концепт на Кемпелен, но со суштински животен облик на продолжената цевка.

Механичкиот модел на генерација на говор конструиран од Рис (1937).

Иако Кемпелен веќе сфати дека тоа е само а Ако сакате да користите цевка за продолжување ако сакате да создавате континуиран говор, уредите со посебни резонатори за секоја самогласка се изградени за други цели дури и повеќе од сто години подоцна. „Сиринес а воајелите и росаторите“ од Г.Р.М. Мараж (Париз, 1900 година).

ВОДЕР на Хомер Дадли

Развојот на електротехниката на почетокот на 20 век овозможи да се произведе звук за говор со електрични средства. Првиот уред од ваков вид кој предизвика голема вознемиреност беше оној развиен од Хомер Дадли ПРЕД, кој беше претставен пред јавноста на Светскиот саем во 19ујорк во 1939 година. Сепак, ова бараше многу долг период на вежбање за да може успешно да се користи.

Функционален дијаграм на VODER и презентација на уредот на Светскиот саем во 1939 година.

Рачно управувани уреди за синтеза на говор, како што се Кемпеленс и ПРЕД Тие беа претежно за забава, но имаа подлабока позадина. Уредот на Кемпелен е создаден паралелно со неговото проучување на генерацијата на човечки говор, а уредот на Дадли прераснал во ВОКОДЕР (Voice Coder), чија цел беше да се намали опсегот што е потребен при пренесување на глас преку телефон за да може да се остварат поголем број повици на далечина преку дадена телефонска линија.

Репродукција на моделот на Френк Купер

Извор на светлина создава зрак што радијално удира во ротирачки диск. Дискот има 50 концентрични звучни записи, како во звучен филм, преку кој се репродуцираат 50 парцијални тонови со основна фреквенција од 120 Hz. Светлината модулирана на овој начин се проектира на спектрограм чија рефлексија или, во друг режим на работа, чиј пренос на светлина одговара на нивото на звук на парцијалните тонови и се напојува до фотоелемент со кој светлосните флуктуации конечно се претвораат во флуктуации на звучниот притисок. Спектрограмот се поместува покрај светлосниот зрак на валјаците. Ова дава звучен сигнал сличен на оригиналниот говорен сигнал, но барем монотон. Наместо точни спектрограми, може да се користат и „спектрограми“ насликани рачно во бела боја. Експериментите за перцепција со вакви генерирани сигнали доведоа до голем број нови откритија за перцептивната улога на различните детали во звучните спектри.

Електрични модели на производство на говор

Во моделите, развиени од неколку истражувачи од 1950 година, сигналот од електрично симулиран извор на звук се испраќа преку филтер. Изворниот сигнал е или периодичен звук, како во звуците на изразен говор, или апериодичен шум.

Филтерот ги симулира резонантните својства на вокалниот тракт. Може да се направи разлика помеѓу два вида. Во еден случај, артикулацијата е симулирана со голем број електрични кола споени во серија, секој од нив претставува краток дел од продолжената цевка (на пример, 5 мм), при што нејзината пресечна површина е одлучувачка (аналогна линија, аналоген далекувод) Со другиот, формантите, т.е. резонансите на цевката за прицврстување, се симулираат директно со круг (синтеза на формат, аналоген на терминал).

Гунар Фант, од Кгл. Технички универзитет во Стокхолм, со неговиот OVE, Формант синтисајзер за самогласки, во кој фреквентната позиција на двата најважни формата може да се менува рачно со уред за водење.

Со Параметарски вештачки производител од Волтер Лоренс (1953) може да се произведат и полноправни согласки.

Компјутеризирана синтеза на говор

Очигледна е идејата за производство на јазик со спојување на зачувани зборови или пократки сегменти. Сепак, индивидуалните говорни звуци не можат едноставно успешно да се поврзат со зборови и реченици, бидејќи акустичните својства на говорниот звук се определуваат и од соодветната средина на звукот. Подобро работи со таканаречените дифони, кои се состојат од втората половина на говорен звук и првата од следново. Сепак, ова потоа резултира со голем број елементи што треба да се зачуваат. Со такви методи на меѓусебно поврзување, може да се постигне висок степен на природност без да се бара целосен опис на нивната акустична основа. Сепак, овие методи немаат флексибилност на синтезата контролирана од правилата.

Со денешната уметност, границите на достижната разбирливост и природност на синтетичкиот јазик тешко се дадени од фактори од техничка природа, туку од нашето ограничено познавање на акустиката и перцепцијата на јазикот. Во истражувањето, синтезата на говорот може да се искористи за да се тестира ова знаење. Сега постојат автоматски методи за акустична анализа и повторна синтеза на говорот. Може да се направат одредени интервенции пред повторната синтеза, на пример, обидувајќи се да ја смените очигледна возраст на говорникот. Успехот зависи од тоа колку добро ги познавате клучните фактори. Слушнете ги ваквите манипулации и проценете сами колку се успешни: Манипулации во возраста на говорникот и полот (шведски примери).

Еве уште неколку покажувачи на оваа тема

Волфганг фон Кемпелен на Интернет, на пример, за неговата виртуелна машина за шах. Опис на неговата книга можете да најдете во есеј на Славомир Ондрејовиќ (словачки и англиски).
Горенаведените примери за синтеза од VODER, Pattern Playback и OVE се некои од оние собрани од Денис Клат (1987). Повеќе демонстрации.
Опис на моделот Репродукција и некои од експериментите што беа извршени со него се достапни на Интернет-серверот Хаскинс Лабс. Таму е разјаснета врската помеѓу фонацијата, артикулацијата и акустичните својства на говорните звуци: Артикулаторна синтеза.
Можете исто така да испробате неколку системи за синтеза на говор контролирани од текст од разни видови преку мрежата. Избор на врски може да се најде во Он-лајн синтеза.
Повеќе примери за синтеза на говор.
Институтот за фонетика и јазична комуникација на Универзитетот во Минхен има неколку подготвени текстови за изучување на акустична фонетика: Акустична фонетика (Х.Г. Тилман и Ф. Шил), Сонограми за читање (Кирстен Мекелет и Х.Г. Тилман) и вовед во синтезата на говорот ( Даниел Зборил).
Можете да најдете повеќе врски на оваа тема на СОКРАТЕС.

Литература:

Волфганг фон Кемпелен (1791) Механизам на човечки јазик и опис на машина за зборување, Виена: V.В. Деген, исто така објавен таму на француски јазик, Le Mйchanisme de la parole, suivi de la опис на машина за парлет. Факсимилно препечатење на германската верзија, со вовед од Херберт Е. Брекл и Волфганг Вајлдгрен, беше објавено од Фромман-Холцбог во Штутгарт во 1970 година. Постојат и понови преводи на унгарски и словачки јазик.

Jamesејмс Л. Фланаган (1965) Анализа на говор: Синтеза и перцепција, Берлин: Спрингер.

Јенс-Питер Кцстер (1973) Историски развој на синтетички апарати за генерирање на статички сигнали и самогласки, заедно со студии за синтеза на германски самогласки (Дисертација), Хамбург: Х. Баске.

Денис Х. Клат (1987) Преглед на конверзија на текст во говор за англиски јазик, Весник на акустичното друштво на Америка, 82: 737-793.

Јоаким Гесингер (1994) Уво за око. Студии за проучување на јазикот кај луѓето 1700-1850, Берлин, N.ујорк: Де Гројтер. Хартмут Траунмалер | Одделение за фонетика | Институт за лингвистика | Универзитет во Стокхолм | во август 1997 година.