Континуирано препознавање на знаковниот јазик на голем вокабулар - PDF бесплатно преземање

Континуирано препознавање на знаковниот јазик на голем вокабулар Филип Дреув, Мортеза Заеди, Дејвид Рибах, Томас Дезеларс, Херман Неј [email protected] Работилница за знаковен јазик 27 октомври 2006 година Претседател на компјутерски науки 6 RWTH Универзитет во Ахен, Германија П. Дреув и др.: Континуирано Препознавање на знаковен јазик 1 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

континуирано

Преглед 1 Вовед 2 Преглед на системот 3 Моделирање на зборови 4 Резултати 5 Заклучок П. Дреув и сор.: Континуирано препознавање на знаковниот јазик 2 Работилница за знаковен јазик 2006 27 октомври 2006 година

1 Вовед Сличности: препознавање говор/препознавање на знаковен јазик говорен јазик временска низа на звуци временски редослед на знаци/гестови звучен сигнал временска низа на акустични вектори, (акустична реализација на звуци) временски редослед на визуелни сигнали на визуелни вектори, (визуелна реализација на знаци) разлики: граматика Паралелизам на употреба и индексирање на просториите на знаковниот јазик П. Дреув и сор.: Континуирано препознавање на знаковниот јазик 3 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

Проблеми на робусните системи за препознавање Јазик Изолирани знаци Континуирани знаци Број на звучници 00 11 00 11 000 111 000 111 0000 1111 00000 11111 00000 11111 000000 111111 0000000 1111111 0000000 1111111 00000000 11111111 000000000 000000000 111111111 111111111 0000001100 разлики на проблеми Брзина меѓучовечки разлики Родов дијалект коартикулација молк Што е значително различно во препознавањето на говорот? Што ни недостасува? Податоци: прибл. 400 часа говор наспроти 5 10,7% 8,7% 8,7% 26,2% Фреквенции на зборови на обука П. Дреув и сор.: Континуирано препознавање на знаковен јазик

Примена: Следење на главата Проблеми: 2.3 Рацете за следење честопати се наоѓаат пред лицето Ротација на главата, силни изрази на лицето Позадина: бои на кожата, структура. Идеја: комбинирајте информации за бојата на кожата и карактеристиките на лицето П. Дреув и сор.: Континуирано препознавање на знаковниот јазик 12 Работилница за знаковен јазик 2006 27 октомври 2006 година

Примери за следење Следење на главата и рацете на базата на податоци RWTH-Бостон-104 Следење на главата на базата на податоци RWTH-Феникс со модел на тело П. Дреув и сор.: Континуирано препознавање на знаковниот јазик 13 Работилница за знаковен јазик 2006 27 октомври 2006 година

2.4 Употребени одлики Рачни карактеристики (од следење): Позиција на рацете Движење на рацете Траектора на рацете utut 1 ut 2 Основно поставување: Карактеристики на сликата заснована на изглед Сликите се намалени на 32 32 пиксели и служат како добар основен резултат во бројни проблеми со препознавање на слики, успешни во препознавање на гестови користени P. Dreuw et al.: Континуирано препознавање на знаковниот јазик 14 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

3 Моделирање на зборови Препознавање на голем вокабулар: Моделите со цели зборови не се корисни, достапен е недоволен материјал за обука. Потребно е поголемо количество меморија. Решение: Креирајте модели на зборови со спојување на под-единици на зборови. Предности: Податоците се поделени меѓу зборовите, па затоа повеќе податоци за обука по збор Лексикон за изговор признаен xyz:: x: x: Набervationудување 1: yz: x Набervationудување 2: yxx: z: y: Набervationудување 3 x, y, z: Етикети на под-единиците P. Dreuw и сор.: Континуирано препознавање на знаковниот јазик 15 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

Моделирање на зборови Проблеми во препознавањето на знаковниот јазик: Фонемите сè уште не се јасно дефинирани нема достапна лексика за изговор Фонемите се случуваат истовремено (повеќенасочни) значително повеќе фонеми во препознавањето на знаковниот јазик отколку фонемите при препознавање говор Пристап кој не може лесно да се пренесе до препознавање на знаковен јазик Изолирани граници Зборови познати континуирано Знаци, непознати граници на зборови, ефекти на контекст при преминување на зборови, пентеза на движење, тишина П. Дреув и сор.: Постојано препознавање на знаковниот јазик 16 Работилница за знаковен јазик 2006 година, 27 октомври 2006

4 резултати Резултати од основната линија и комбинација со карактеристики на рацете Пример реченици Карактеристична стапка на грешка прилагодена слика 37,0 PCA-трансформирана слика 27,5 + траекторија на рацете 23,6 Windows 21,9 Комбинација на модел 17,9 ALL BOY ДАВИ НАСТАВНИК АПЛЕЛ СИЛО ОЧИЕ ДАВАТ НАСТАВНИК АПЛЕН HОН НЕ ТРЕБА ДА КУПИ КУА HОН ИДНИНА КУOА АНН ЈА УНИМИ МАРИ ЕН ГИ ПОГЛЕДНЕ BОН КНИГА ПРОЧИТАЈ КНИГА ЗА ПРОЧИТАЈ HОН ИДНИНА П. Дреув и др.: Континуирано препознавање на знаковен јазик 17 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

5 Заклучок Резултатите се добиени на јавна база на податоци Системот не бара посебен хардвер или ракавици Препознавање на знаковен јазик со ажуриран систем за препознавање говор Карактеристики на сликата заснована на изглед, исто така, постигнуваат добри резултати во препознавањето на знаковниот јазик. ал.: Континуирано препознавање на знаковниот јазик 18 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

Изгледи Испитајте ги натамошните откритија за препознавање на говор и слика: Адаптација на звучникот Други карактеристики за препознавање Моделирање на зборови Интеграција на просторни информации од препознавање во превод Препознавање ЈОХ IX ДАВИ ЧОВЕК IX нов палто COон ДАВИ IX НОВ ПЛОК Превод без просторни информации givesон му дава на човекот превод на палто со Информации за собата Johnон на човекот му дава палто. P. Dreuw et al.: Континуирано препознавање на знаковниот јазик 19 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

Ви благодариме за вниманието Филип Дреу [email protected] http://www-i6.informatik.rwth-aachen.de/ П. Древ и др.: Континуирано препознавање на знаковниот јазик 20 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

Додаток: Правило за одлука на Бајес, видео влез X T 1 Анализа на одлики x T 1 Глобална < Search: argmax Pr(w N 1 ) Pr(xT 1 wn 1 )>w1 N Pr (x T 1 wn 1) Pr (w N 1) Модел на јазик за инвентар на модели на зборови ŵ N 1 признаена низа на зборови P. Dreuw и сор.: Континуирано препознавање на знаковен јазик 21 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

Додаток: Eigenfaces Сликата X може да се проектира да се соочи со просторот со линеарна трансформација φ: φ (x) = VT (X µ) каде V = [v 1. vm] е матрицата на првите m сопствени вектори и μ е средна лице пресметано на множеството слики за обука. Проекцијата од просторот на лицето до просторот на сликата е: φ 1 (X f) = V X f + μ каде X f е претстава на сликата во просторот на лицето φ (x). Растојанието помеѓу сликата и нејзината напред и назад проектирана верзија се нарекува растојание на лицето. Може да се користи како мерка за убавина. d f (X) = X φ 1 (φ (x)) 2 P. Dreuw et al.: Континуирано препознавање на знаковен јазик 22 Работилница за знаковен јазик 2006 27 октомври 2006 година

Додаток: Eigenfaces Пример за проектирани слики и добиено растојание: X φ 1 (φ (x)) X φ 1 (φ (x)) df (X) 278 432 Ние ја користиме растојанието на лицето како резултат на функцијата за да откриеме и следиме глави: sf (ut 1, ut; X tt 1) ​​= df (X t (ut)) каде што X t (ut) означува правоаголна лепенка на слика X t центрирана во позиција u t. P. Dreuw et al.: Континуирано препознавање на знаковниот јазик 23 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

Додаток: Акустичкиот модел и јазичниот модел на LM Scales имаат исто влијание врз правилото за одлука на Bayes Експериментите во препознавање на говор покажаа дека препознавањето може значително да се подобри ако моделот на јазик има посилно влијание од акустичниот модел Тежина α за моделот на јазик и тежина β за акустичен модел: аргмакс w N 1 < p(w N 1 xt 1 )> < = argmax p α (w N w1 N 1 ) pβ (x T 1 wn 1 )> < >α = аргмакс w1 N β log p (wn 1) + log p (xt 1 wn 1) Факторот α β се нарекува фактор на јазичен модел. P. Dreuw et al.: Континуирано препознавање на знаковниот јазик 24 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

Додаток: LM збунетост Збунетоста на јазичниот модел и тест-корпусот w N 1 се дефинира како: PP = p (w N 1 1) N [N = p (wnhn) n = 1 Бидејќи збунетоста е обратна веројатност, може да се толкува како просечен број на можни зборови на секоја позиција во текстот. Логаритмот на збунетоста е еднаков на ентропијата на текстот, т.е. вишок на зборови во тест-корпусот во однос на овој модел на јазик. ] 1 N дневник P P = 1 N N дневник p (w n h n) n = 1 P. Dreuw и сор.: Континуирано препознавање на знаковниот јазик 25 Работилница за знаковен јазик 2006 27 октомври 2006 година

Додаток: Карактеристиките на траекторијата на раката ги пресметуваат глобалните карактеристики што ги опишуваат геометриските својства на проценката на траекторијата на раката на матрицата на коваријанса Σ t за положбите на рацете во одреден временски прозорец 2 + 1 μ t = Σ t = 1 2 + 1 1 2 + 1 t + t = t t + t = tut Σ tvt, i = λ t, ivt, ii (ut μ t) (ut μ t) Т сопствени вредности λ t, i и сопствени вектори vt, i на матрицата на коваријанса може да се користат како глобални одлики. P. Dreuw et al.: Континуирано препознавање на знаковниот јазик 26 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

Додаток: Карактеристики на траекторијата на рацете 40 60 80 100 120 0 позиции на рацете како сопствени вектори vi 20 40 60 80 100 120 140 160 160 позиции на рацете како сопствени вектори vi 140 60 80 20 40 60 80 100 60 позиции на рацете како сопствени вектори vi 180 0 20 40 60 80 100 120 140 160 180 70 70 позиции на рацете како сопствени вектори vi 100 120 140 80 90 100 160 40 60 80 100 120 140 110 50 60 70 80 90 100 P. Dreuw и сор.: Континуирано препознавање на знаковен јазик 27 Работилница за знаковен јазик 2006 27 октомври 2006 година

Додаток: Резултати - контекстни информации 40 големина на прозорец = 5 големина на прозорец = 3 големина на прозорец = 7 35 WЕ [%] 30 25 20 50 100 150 200 250 300 димензија Комбинација со прозорец на слики трансформирани во ПЦА П. Дреув и др. 28 Работилница за знаковен јазик 2006 година, 27 октомври 2006 година

Додаток: Резултати - Јазично моделирање 80 70 60 нулаграм униграм биграм триграм WER [%] 50 40 30 20 10 0 100 200 300 400 500 LM резултати од скалата за различни јазични модели и фактори за скалирање 2006 година