Принципи, состојба на уметноста, препознавање на единствен збор зависен од говорник - спектар на наука

Принципи, состојба на уметноста, препознавање на еден збор зависен од говорникот

Јазичната комуникација е многу сложен процес. Едно лице го разбира говорот не само од она што го слуша; наместо тоа, тој го користи целото свое јазично искуство, како и претходното познавање на предметот и партнерот; Тој исто така ги проценува невербалните компоненти како што се гестовите, изразите на лицето и емоционалниот тон на гласот. Овие дополнителни информации може да бидат дури и поважни од формулацијата. На крајот на краиштата, природниот јазик се карактеризира со висок степен на вишок (т.е. што всушност е излишно), така што вербалните навестувања или фрагменти од јазикот честопати се доволни за комуникација. Ова објаснува зошто е можен и разговор во бучна средина.

Ако некој сакаше да ја реализира оваа феноменална изведба за препознавање преку технички систем, тоа на крајот ќе мора да го има знаењето, искуството и интелигенцијата на една личност. Човек може да филозофира долго време за тоа дали ова е остварлива или значајна цел. За развивачот на систем за препознавање говор, кој секогаш треба да ги земе предвид техничките напори (а со тоа и трошоците), тоа сигурно не е така; тој мора пред сè и најважно да ја види конкретната примена. Ова покажува дека многу ограничените форми на препознавање на говор честопати се доволни; клучно е да се најде најсоодветно решение за специфичната примена.

Комуникација со машини преку природен јазик - наместо вообичаената тастатура и екран, општо преку прекинувачи и уреди за прикажување - нуди низа предности: Корисникот не мора да учи нова технологија, туку работи со најпозната форма на комуникација; тој ги држи очите и рацете слободни за други активности, не е врзан за одредено место и може дури и да ја контролира машината од далечина преку телефон. Внес и излез на глас се исто така можни во темни, валкани и правливи простории и можеби единственото средство за комуникација со машината за лица со посебни потреби кои не можат да користат тастатура. Во спротивна насока, говорениот исказ од машината допира и до расеаниот или невнимателен корисник.

Она што зборува против употребата на оваа форма на комуникација е дека перформансите и сигурноста сè уште не се задоволителни за некои апликации. Покрај тоа, постојат слабости на секоја јазична комуникација: непријатност на бучавата од не вклучени луѓе, непожелни можности за слушање и мешање од позадински звуци, што во моментов е сè уште голем проблем за системите за препознавање говор.

Најважните апликации може да се најдат во следните полиња:

- Внесување броеви и списоци со зборови: Ако треба да напишете долги колони на броеви или зборови од образец, треба постојано да го менувате погледот помеѓу образецот, тастатурата и екранот, што е досадно, заморно и извор на грешки на долг рок. Непосредно вербално внесување без да се погледне подалеку, се избегнува овој проблем. Излезот на говорот преку машината може да се користи за лекторирање.

Дури и денес, некои контролори за квалитет во производството на автомобили ги пренесуваат своите извештаи за дефекти директно преку радио врска до компјутер што препознава глас, кој не само што чува дневник, туку исто така испраќа соодветна порака до одговорната страна - можеби компјутерски производ. Предноста во однос на подоцнежната писмена проценка е брз одговор; ова ја намалува стапката на одбивање.

- Контрола на машини и компјутери. Системот не само што препознава внесена команда, туку и ја извршува со активирање на акција. Гласовно контролирани машински алатки веќе се на пазарот. Постојат автомобили во кои отворачите на прозорци, бришачите на шофершајбната, радија и телефони следат говорни команди. Одредени функции за контрола и корекција во персоналните компјутери, исто така, можат да се активираат со помош на препознавачи на говор. Постојат инвалидски колички контролирани од глас за лица со тешка попреченост во моторот. Гласовната контрола сè уште не е користена за безбедносни функции, бидејќи прашањето за одговорност во случај на дефект на системот сè уште не е разјаснето.

- Информациони и нарачки системи. Корисникот изразува одредени барања или желби, а системот дава говорен одговор (видете ја статијата на Хелмут Манголд на страница 97).

- Системи за диктат. Секој течно изговорен текст треба да се претвори во пишан текст. Оваа апликација бара најобемна форма на препознавање говор (видете ги написите на Маркус Спиз на страница 90 и Волкер Штајнбиќ на страница 94).

Методите за препознавање говор обично се поделени во три класи: препознавање на единечни зборови, на клучни зборови во течен текст или на континуиран говор. Според именуваниот редослед, тешкотијата и напорот драматично се зголемуваат. Друг критериум е зависноста од звучникот. Вообичаените системи треба да бидат прилагодени на соодветниот звучник пред тие да се искористат. Независноста на звучникот може да се постигне со обука на системот однапред со што повеќе звучници. Напорот за ова е значителен; сепак, сигурноста на откривање обично се намалува.

Подолу е прикажано подетално препознавање на еден збор зависен од звучникот. Во моментов е најшироко користена и технички напредна форма на препознавање говор.

Процесот во суштина се состои од две фази (Слика 1): претходна обработка, која ги извлекува параметрите релевантни за препознавање од говорниот сигнал и класификација, која го наоѓа поврзаното значење преку споредби на модели помеѓу тест и референтни обрасци.

Пред-обработка

Првата фаза вклучува ограничување на фреквенцијата (филтрирање), нормализирање на јачината на звукот и аналогно-дигитална конверзија; второто е потребно за понатамошна обработка (денес исклучиво дигитално). Говорниот сигнал дигитализиран на овој начин веќе се состои од дискретна низа од броеви, од кои секоја ја опишува звучната енергија во одредена временска точка. Сепак, овие времиња на земање мостри се толку блиски што се задржуваат основните својства на првично континуираниот сигнал; се зборува за квази-континуиран сигнал.

Количината на податоци, која е премногу голема во оваа форма, сега мора да се намали така што информациите ослободени од излишна баласт да ги карактеризираат релевантните својства на говорниот сигнал што е можно попрецизно. Меѓу бројните можности за овој чекор, ја разгледуваме екстракцијата на параметарот од спектарот на говорот во следново заради јасност. Земете го зборот Тат како пример, изговорен еднаш кратко и еднаш долго. Во временскиот сигнал (Слика 1а), plosive t може да се препознае според неговата ниска енергија на сигналот и нејзиниот неправилен тек; второто укажува на компоненти на сигналот со висока фреквенција. Самогласката а се карактеризира со висока сигнална енергија и прилично редовен, периодичен тек.

Можете исто така да видите дека зборувањето полека ја издолжува самогласката, но не и гласилото. Значи, збор што се кажува бавно не е едноставно забавена верзија на збор изговорен брзо, што треба да се земе предвид при обработката.

Звучниот сигнал сега е поделен на фреквенции; Математички ова одговара на Фуриевата трансформација, применета на временски интервали од околу 20 до 30 милисекунди. На фреквентниот дисплеј (Слика 1б), како и претходно со самогласките, има големи енергии кои се концентрирани во опсегот на пониски фреквенции (околу 1000 херци); таквите енергетски максимуми се нарекуваат форманти. Спротивно на тоа, опсегот на фреквенција за лековите е многу широк и се протега до околу 10 килохерци. Скоро и да нема енергија пред т на крајот од зборот; ваквите паузи ги карактеризираат фазите на натрупување на притисокот што обично се потребни за зборување на росиви.

Временската скала е веќе збиена на решетката на интервалите споменати со трансформацијата на Фурие. Во повеќето случаи, намалувањето на податоците се зема уште подалеку со комбинирање на бројни вредности на квази-континуираната скала на фреквенција со просек од над 8 до 20 релативно широки фреквентни опсези. Останатите броеви, за возврат заокружени, го формираат таканаречениот вектор на одлики: многу груба слика на оригиналниот спектар, што е сосема доволна за процесот на препознавање (слика 1 в).

Говорниот сигнал, на пример говорен збор, стана временска низа на вектори на одлики. Паузите на говорење пред и по секој збор, кои чинат само непотребен простор за складирање, се одредуваат и елиминираат со посебен детектор за пауза; Тогаш се зачувува само соодветниот збор. Со ова завршува претходната обработка.

Учење и препознавање

Со цел да се прилагоди системот на одреден звучник, говорникот зборува збор што се претвора во низа на вектори на одлики на опишаниот начин, кој оттогаш формира референтна шема. Значењето на изговорениот збор обично му се соопштува на системот преку тастатура. Значењето и поврзаниот говорен сигнал сега се зачувани во меморијата за референтна шема. Неколку референтни обрасци за ист збор може да се комбинираат во еден со просек, што компензира за случајни отстапувања во снимањето на гласот. Продолжувате на ист начин со сите зборови што системот би требало да ги научи.

Кога, по завршувањето на фазата на учење, корисникот зборува некој од научените зборови, системот го претвора звучниот сигнал на ист начин во низа од вектори на одлики - тест-шема. Ова се споредува еден по друг со сите зачувани референтни обрасци, се одредува оној кој е најсличен на сегашната шема и го произведува неговото значење (Слика 1 десно).

За оваа споредба, двата образека мора да се донесат на заедничка временска скала, бидејќи никој не го изговара истиот збор двапати со иста иста брзина. Едноставно компресирање или истегнување на временската оска ќе биде бесмислено, бидејќи - како што споменавме - промената на брзината на говорот има различни ефекти врз различни звуци. Таканареченото динамичко прилагодување на времето се покажа како многу ефикасен метод: Секој мал временски период е индивидуално растегнат или компресиран на таков начин што кореспонденцијата помеѓу тест и референтни примероци е што е можно поголема (слика 2). Резултирачката функција не-линеарна адаптација се нарекува функција на динамично искривување на времето; зборот искриват (да ветер) опишува многу јасно како функцијата за адаптација се врти низ координатниот систем.

Конечен чекор за обработка е повторно прилагодување. Со оглед на тоа што гласот на говорникот се менува со текот на времето, тест-моделите што се сигурно препознаени се користат за освежување на зачуваните референтни обрасци со формирање на соодветно пондерирана средна вредност и за обете. Како резултат, системот работи не само со зборовите зачувани за време на фазата на учење, туку и со неодамна изговорените зборови.

Понатамошни постапки

Две други, многу успешни методи работат со прилично индиректна споредба на моделот наместо директната споредба на тест и референтни обрасци прикажани овде.

Препознавањето со таканаречените скриени модели на Марков е моментално јасен фаворит. Овие се враќаат назад кај рускиот математичар Андреј Андрејевич Марков (1856 до 1922). Работите со проценки за веројатноста со која состојбата на системот (на пример, вектор на одлики) е проследена со друга - па дури и истата (видете ја особено статијата на Маркус Спиз на страница 90).

Вториот од овие концепти се нервните мрежи. Тие се состојат од паралелна, мрежна структура на примитивни елементи на преклопување кои се моделирани според вистински нервни клетки. Одредени параметри на овие елементи можат автоматски да се постават во фаза на учење на таков начин што одредени вектори на карактеристики присутни на влезот даваат одреден резултат на излезот (видете „Како невронските мрежи учат од искуството“ од offефри Е. Хинтон, Спектар на науката, ноември 1992 година, страница 134 ) Нервните мрежи се многу соодветни за препознавање на говор; тие се особено успешни кога тест моделите се фалсификувани со мешање (како што е амбиенталниот шум).

Сè уште е нејасно која од овие стратегии ќе преовладува на долг рок. Скриените модели на Марков лесно може да се надминат со нови видови на нервни мрежи оптимизирани за препознавање на говор.

Со цел понатамошно подобрување на перформансите на препознавачите на говор, покрај акустично-фонетските информации содржани во векторите на одликите, се оценуваат и дополнителни извори на информации. Многу важно е знаењето поврзано со задачите. Во повеќето апликации, областа на употреба е ограничена во однос на содржината, така што има само релативно малку дозволени зборови. Од оваа причина, програма за препознавање говор за контрола на машината, на пример, лесно може да исправи команда што погрешно беше препознаена како „машинска шума“ во валидна наредба „машинско запирање“.

Тесно поврзано со ова е прагматичното знаење: програмата за препознавање говор прима информации за состојбата во нејзината околина и го регистрира препознавањето засновано на фонетско значење како неточно ако е во спротивност со условите на животната средина. Ако, на пример, системот за препознавање за контрола на машината знае (преку извештај од мерните сензори) дека работи машината, таа ќе ја препознае командата „вклучи машина“ како бесмислена и ќе ја замени со „стоп машина“ - или ќе предизвика пребарување.

Држава на уметноста

Препознавачи на еден збор зависен од звучникот за мал вокабулар (до неколку стотици зборови) сега може да се имплементираат без никакви проблеми. Повеќето од моментално достапните системи се од овој тип.

Во некои случаи се нудат препознавачи на еден збор независни од говорник со до 50 зборови; но многумина се уште се во фаза на истражување или развој. Постои итна потреба за овие системи во телекомуникацискиот сектор со неговите постојано нови корисници, од кои е очигледно дека не може да се бара фаза на обука секој пат пред употреба. Телефонските информациони системи се типична апликација.

Во првите редови на развојот се малку препознавачи како системот „Диктат-30К“ од американската компанија Dragon Systems, кој се базира на скриени модели на Марков и има капацитет до 30 000 зборови. Ова е генерално доволно за создавање на стандардни текстови, дури и ако земете предвид дека зборот обично има различни форми на флексија и секоја форма се смета за независен збор. Бидејќи системот се прилагодува на звучниците кои се непознати за него без фаза на обука, тој има скоро својства на препознавач независен од звучници. Хардверот е сместен на картичка што може да се вклучи во персонален компјутер. Главната апликација е во канцелариската област. Недостаток е секако дека корисникот треба да прави пауза помеѓу секои два збора (бидејќи тоа е единствен препознавач на зборови), што бара нејасен, неприроден начин на зборување.

Особено интересна задача е препознавање на клучните зборови на течно говорен јазик, т.н. Тој формира премин кон континуирано препознавање на говор, но во никој случај не бара негов пресметковен напор. Ги расплетува своите јаки страни каде што се важни само специјалните информации - како што се команди, пребарувања, имиња или броеви. На пример, корисникот на информативен систем за летање кој користи забележување на зборови има значителна слобода да го формулира својот одговор на прашањето каде би сакал да лета; системот правилно ќе го разбере ако правилно го препознава зборот „Хамбург“ во изговорениот текст. На овој начин, може да се постигне високо ниво на прифаќање на корисникот.

Неверојатно, има само неколку такви системи. Една од причините може да биде дека забележувањето на зборови е особено погодно за слушање на гласовни канали (особено телефонски линии) и затоа истрагите подлежат на доверливост.

Најпогодна, но и убедливо најтешка техника е таа за препознавање на континуиран говор. Проблемите произлегуваат пред се од фактот дека границите на зборовите честопати не се препознаваат во текот на јазикот или воопшто не постојат: „Во понеделник“ се зборува како „понеделник“. Тоа ја прави невозможна споредбата врз основа на зборови, така што треба да се префрли на единечни звуци.

Постојат многу малку системи во светот кои можат да се справат со овие проблеми; повеќето од нив сè уште се во фаза на лабораторија или прототип. Покрај „Системот за обработка на говор 6000“ од Филипс (споредете ја статијата на Волкер Штајнбиќ на страница 94), особено треба да го споменат системот „Сфинкс“, кој Каи-Фу Ли и неговите колеги од Универзитетот Карнеги Мелон во Питсбург (Пенсилванија). Во суштина се заснова на скриени модели на Марков и не содржи значително нови стратегии или компоненти; Наместо тоа, неговите високи перформанси се должат на фактот дека најдобрите од познатите алгоритми за препознавање се комбинирани едни со други на елаборат. „Сфингата“ може да препознае континуиран говор со вокабулар од околу 1000 зборови и точност од околу 95 проценти. Системот во моментов е сè уште во лабораториска фаза.

Автоматското препознавање на говорот е несомнено една од најважните технички иновации во областа на комуникација човек-машина. Достапните системи сè уште се далеку од перформанси за препознавање кои би биле споредливи со оние на луѓето, но веќе може да се користат за различни задачи. Како и да е, повеќето технички апликации имаат многу ограничени барања за системот за препознавање говор. Сепак, сè уште постои значителна потреба за истражување и дејствување во нетехничка област: оптимален дизајн на дијалог човек-машина.

Библиографија

- Обработка на говор и пренесување на говор. Од Клаус Фелбаум. Спрингер, Хајделберг 1984 година.

- Автоматско препознавање на говор. Од Г. Руске. Олденбург, Минхен 1988 година.

- Јазична комуникација човек-машина. Изменето од Хелмут Манголд. Олденбург, Минхен 1992 година.

- Препознавање и разбирање на говорот. Неодамнешни достигнувања, трендови и апликации. Изменето од П. Лафас и Р. де Мори. Спрингер, Хајделберг 1992 година.

- Напредок во обработка на говорен сигнал. Изменето од Садаоки Фуруи и М. Мохан Сонди. Марсел Декер, Newујорк/Базел/Хонг Конг 1992 година.