Паметни простории - спектар на наука

Паметни простории

Понекогаш посакувате куќата да знае каде се наоѓаат децата во секое време и да ве извести ако направат нешто опасно; или канцеларијата автоматски би знаела кога трае важен состанок и да не се јавува преку повици. А што ако вашиот автомобил препознае дека сте се заморувате по долго патување и ве поттикна да направите пауза во добро време?

Одамна се прават обиди за развој на компјутерски системи со ваква изведба. Наскоро машините може да преземат некои од задачите на бебиситерките или секретарите.

Зошто не сте биле во можност да го направите ова одамна? Главната причина за ова ја гледам во фактот дека компјутерите се глуви и слепи: Можете да добиете информации за светот само преку тастатура и глувче. Дури и микрофонот и камерата не помагаат сè додека податоците што ги даваат се транспортираат или складираат само, но не се толкуваат во смисла на нивното значење. Верувам дека машината треба да сфати што прави нејзиниот корисник во многу поширока смисла, пред да може да му биде од голема корист. Уште повеќе, тоа исто така мора да може да ја препознае неговата личност и да може да ги открие неговите намери - барем во ограничена мера во која може друго лице или дури и куче.

За да се приближам до оваа цел, мојата истражувачка група неодамна разви системи кои препознаваат лица, изрази на лицето и гестови. Веќе можеме да го користиме за да изградиме средини кои се однесуваат во одредени аспекти како куќата, канцеларијата или автомобилот опишани погоре.

Овие интелигентни простории, како што ги нарекуваме, се опремени со камери и микрофони, од чии податоци мрежата на компјутери изработува проценка за тоа што луѓето велат и прават во снимената област. Тој може да користи движења на телото, говорење и изрази на лицето за да му даде упатства на системот, да повика мултимедијални информации или да влезе во виртуелни светови - без тастатура и глушец и без несмасни нараквици за податоци и кациги.

Главната идеја е: Бидејќи интелигентните простории знаат нешто за нивните станари - од директна перцепција или од други извори - тие можат интелигентно да реагираат на нивните постапки.

Во соработка со Пети Мејс и јас, докторантите Тревор Дарел и Брус М. Блумбер ја изградија првата интелигентна просторија во нашата медиумска лабораторија на Технолошкиот институт во Масачусетс во Кембриџ во 1991 година. Ова наскоро резултираше со експеримент во кој учествуваат неколку работни групи. Сега има пет такви простории, сите поврзани преку телефонски линии: три во Бостон, една во Јапонија и една во Велика Британија. Планирани се понатамошни инсталации во Париз, Newујорк и Далас.

Секоја од овие простории е опремена со неколку компјутери. Ниту еден од овие уреди не е помоќен од нормалниот компјутер; секој е дизајниран и одговорен за одредена задача, на пример, една за анализа на слики, друга за онаа на звуците и трета за онаа на гестовите. Доколку се потребни повеќе вештини, ние едноставно додаваме повеќе машини.

И покрај разликите, сите услуги за препознавање се засноваат на истиот статистички принцип: максимизирање на веродостојноста (анализа на максимална веројатност). Компјутерите ги споредуваат дојдовните податоци со зачуваните модели, го пресметуваат степенот на кореспонденција и конечно го одредуваат моделот што најдобро одговара на податоците.

Пред интелигентна просторија да открие што прави нејзиниот корисник, таа мора да го лоцира. За да го направите ова, развивме систем наречен Pfinder (за пронаоѓач на лица) кој ги регистрира и следи локациите на една личност се додека се движи во просторијата.

Во овој случај, на системот му треба модел на човечко тело за анализа на максимална веројатност: опис со што помалку нумерички вредности, што сепак е доволно точен за да може да се спореди со податоците од видео камерата. Нашиот модел се состои од неколку едноставни, меѓусебно поврзани геометриски форми што ги нарекуваме капки (буквално: капки или грутки). Седум топчиња - за рацете и нозете, како и главата, горниот и долниот дел од телото - се доволни (слика 1). Еден меур се карактеризира со својата боја и со геометриски димензии за позиција, ориентација и форма. Покрај тоа, има информации за тоа колку оваа информација е точна или веродостојна: Наместо единствен број за координата за позиција или спецификација на боја, постои распределба околу средната вредност (поточно: матрица на коваријанса).

До одредена мерка, резултатот е концепт на модел што системот го прави за просторијата и луѓето во неа: дебеличка споена кукла со правилна позиција и држење на телото, вметната во текстурален модел на позадината на просторијата. Со оваа слика Pfinder ја споредува секоја нова снимка на видео камерата; Програмата создава список што покажува кои растерски точки (пиксели) треба да припаѓаат на кој капак според моделот, а кој не.

Екстраполира од минатото: ако горниот дел од телото на корисникот се помести за една десетина од секундата порано надесно со еден метар во секунда, Пфиндер се сомнева дека центарот на ударот што го моделира горниот дел од телото е десетина метар подалеку надесно за следната десетина секунда. Овие предвидувања се модифицираат со нивно споредување со типичните модели на движење што системот ги извлече од набудување на илјадници луѓе. На пример, екстраполацијата вклучува искуство дека горниот дел од телото може да се свитка во однос на долниот дел од телото, но не може да се надомести, или дека рацете и нозете обично се движат значително побрзо од трупот.

Во следниот чекор, програмата ги споредува презентационата слика и сликата на фотоапаратот со одземање на бојата и осветленоста на двете слики пиксел по пиксел и проценка на резултатот во смисла на изјавата за веројатност. На пример, ако разликата во осветленоста за пиксел е 10 проценти, а во исто време функцијата на дистрибуција на поврзаниот меур вели дека таквата разлика се јавува само во 1 процент од случаите, тогаш шансата овој пиксел да припаѓа на оваа топка е само 1 во 100.

Потребни се дополнителни прилагодувања. Ако дел од телото на корисникот е во сенка, има разлики во осветленоста што немаат никаква врска со споменатата веројатност. Затоа Pfinder ги лоцира сенките - дефинирани како области што се потемни отколку што се очекуваше - и ги коригира вредностите на боите на нивните пиксели до униформа светлина.

Промените во осветлувањето или распоредот на предметите во просторијата исто така може да предизвикаат системот неправилно да ги додели. На пример, ако корисникот извади книга од масата и ја стави на полицата, позадината се менува на две места: старото и новото место на книгата. Затоа Pfinder континуирано ги ажурира податоците за позадината - т.е. пикселите што не ги окупираат капки - со просек помеѓу старата и новата вредност на бојата.

После сите овие различни пресметки и компензации, Pfinder конечно ја одредува топката на која најмногу и припаѓа за секој пиксел на новата слика. Ова, за возврат, добива нови вредности за податоците на моделот на блокови и позадината, како и за моменталните брзини, кои се користат за екстраполација на следната слика. На овој начин, системот секогаш останува ажуриран благодарение на непрекината интеракција помеѓу моменталната слика и имагинарното.

Кој и како?

Следната задача е да се утврди кој е во собата и што велат тие. Веќе има многу алгоритми за препознавање на говорот (Spektrum der Wissenschaft, март 1994 година, страница 86). Буквално сите овие системи работат задоволително само кога микрофонот е во непосредна близина на звучникот. Просторијата што ја разбира само личноста што стои во одредена точка - имено пред микрофонот - не би се сметала за особено интелигентна; Говорот исто така треба да биде препознатлив кога звучникот се движи слободно во просторијата и сè уште има звуци.

Нашето решение за овој проблем се заснова на тоа што Pfinder ја знае позицијата на корисникот во секое време. Ова е причината зошто може да се пресметаат времињата на транзит на звукот од неговата уста до неколку трајно инсталирани микрофони. Електронските кола за одложување гарантираат дека сите звучни сигнали на звучникот во системот се здружуваат истовремено и со тоа се собираат, додека сите други се просечни. Така добивате сигнал со доволен квалитет; се споредува со оние со познати зборови, а оној со максимално совпаѓање се смета за изговорен.

Честопати исто толку важно колку и разбирањето на инструкцијата е да се знае кој ја дава. Најбрзиот начин да препознаете личност е секако неговото лице. На системот прво му требаат модели на сите лица што треба да ги идентификува. Математички метод од линеарна алгебра, сопствена векторска анализа, произведе нешто како вештачки стандардни лица; ги нарекуваме Ајгенски лица. Секое лице се создава со множење на секое поединечно лице со одреден фактор и потоа надминување на сите нив како додаток; моделот на лице кое е потребно за анализа е системот на овие фактори на пондерирање.

Ако камерата на интелигентната просторија сега открила личност, системот за идентификација го изолира лицето што претходно го наоѓал Пфиндер од околината и го нормализира неговиот контраст. Програмата потоа пресметува колку е слична на секоја сопствена површина или, што е еднакво на истата работа, кои фактори за пондерирање треба да се користат за да се состави од сопствените површини. Овие вредности на сличност резултираат во модел што се споредува со зачуваните модели на луѓе кои се веќе познати. Нашите интелигентни соби ја најдоа вистинската личност од тест-групи од неколку стотици луѓе со хит стапка од 99 проценти.

Згора на тоа. На пример, упатство треба да знае дали студентите се заинтересирани или досадни. Нашата интелигентна просторија затоа го анализира нејзиниот израз веднаш штом најде и препознае лице (слика 2). За да го направите ова, специјализиран компјутер ги споредува движењата на лицето со директориумите на движења што се типични за одредени емоции (слики 3 и 4). Лице кое се насмевнува ги врти аглите на устата и крева одредени делови од челото; ако само имитираш насмевка, само ја мрдаш устата. Нашиот систем успеа правилно да ги одреди избраните изрази на лицето кај мала група испитаници до 98 проценти.

На крајот на краиштата, за куќите, канцелариите и автомобилите да бидат навистина корисни, тие треба да ги поврзуваат основните сфаќања за идентитетот на лицето, изразот на лицето и јазикот. На крајот на краиштата, едно и исто движење може да се толкува многу поинаку, во зависност од тоа на што мисли неговиот почетник. Возач кој ќе ја тргне ногата од гасот можеби ќе сака да застане - или да се сврти. Меѓутоа, постои забележителна разлика: ако сакате да свртите, го земате индикаторот и ги ставате рацете на воланот на поинаков начин за да се подготвите за вртење. Компјутерскиот систем затоа мора да земе предвид комбинација на движења на струја и непосредно претходни.

За да го направите ова, усвоивме принципи од технологијата за автоматско препознавање на говор: Во рамките на таков систем, зборот е моделиран со низа состојби - фонеми (индивидуални звуци) или делови од фонеми - со одредени веројатности за транзиција од една во друга држава: т.н. ланец Марков Спектар на наука, март 1994 година, страница 90). Со цел да препознае изговорен збор, системот се обидува да го донесе звучниот сигнал во хармонија со различните синџири на Марков; на крајот одлучува во корист на оној што работи најдобро со него.

Го генерализиравме овој пристап за да им овозможиме на автоматите да ги заклучат своите намери од движењата на некоја личност. Одредени елементарни движења го заземаат местото на фонемите. На пример, мора да се направи разлика дали некое лице само се лигави со испружена рака или покажува кон нешто. За прикажување, системот има внатрешен модел составен од три состојби: подигнете ја раката, задржете се и брзо повлечете се. За само продолжување на раката, сепак, се очекува само едно континуирано движење.

Од системите за интерпретација на дејствија што се развиени досега, наједноставните од нив му овозможуваат на корисникот да влијае врз виртуелната средина преку движења на телото. ALIVE (Artificial Life Interaction Environment), заеднички напор на групата Пети Мејс и рудникот, го претвора описот на корисникот обезбеден од Pfinder во видео модел кој е населен со сите видови компјутерски форми на живот Environmentивотната средина е жива. Animalsивотните од фантазијата ги проценуваат информациите за гестовите, јазикот и положбата на корисникот и реагираат на тоа (слика 1). Ако се движи како да земал стап и го фрлал далеку, сликата од видеото во IVEИВА околина го прави истото - и Силас, виртуелно куче, бега и носи. Силас исто така може да седи или да се преврти самиот по команда.

Излезните податоци на интелигентна просторија исто така може да се користат многу подиректно. На пример, позицијата на корисникот може да се пренесе во виртуелна контролна просторија; збор или движење на рацете потоа дејствуваат директно како упатства за компјутерска програма.

Ова може да биде видео игра во замислено тродимензионално опкружување што го прави без вообичаени контроли како што се џојстици. Ако непријателот се приближи од лево во сценографијата, играчот - во вистинската просторија - треба само да се сврти лево, да ја крене раката со виртуелен пиштол и да викне „тресок“ - и противникот ќе скрика.

Сепак, постојат и сериозни намени. Прилично комплицираниот американски знаковен јазик (ASL) е добар тест за можностите на нашата соба; затоа, конструиравме систем за нивно толкување (слика 6). Создадовме модели на индивидуални карактери со комбинирање на бројни записи за релевантните движења на рацете - анализирани од Пфиндер. Досега, системот препозна 40 ASL зборови во реално време со точност од 99,2 проценти. Со постојана стапка на препознавање и зголемен вокабулар, треба да биде можно да се создаде систем за препознавање говор за глуви и неми.

Не случајно го споменав автомобилот неколку пати: Повеќето сообраќајни несреќи се предизвикани од грешки направени од возачот. Затоа, развиваме интелигентен кокпит заедно со Енди Лиу, научник од основниот истражувачки институт на компанијата Нисан во Кембриџ (Масачусетс). Долгорочна цел е возило што ги следи постапките на возачот и дава корисни информации: за правилна траса и ракување со возилото до предупредувања за опасности.

Развојот започна повторно со моделирање. Од движењето на рацете и стапалата на бројни возачи на симулиран курс, извлековме модели на однесување за типични активности: избегнување на пречка, следење на друго возило, вртење, запирање, палење и менување ленти (слика 5). Со ова, системот треба да ги класифицира предвидените активности на тест возачот што е можно побрзо. На наше изненадување, стапката на хит беше 86 проценти по половина секунда и 97 проценти по две секунди.

Барем во едноставни ситуации, можно е да се следат движењата на една личност, да се идентификуваат и да се толкуваат одредени изреки и изрази на лицето - и сето тоа во реално време со скромен пресметковен напор. Способностите на нашите системи можат да се комбинираат на многу начини. Така развиваме очила што луѓето ги препознаваат и ги шепотат своите имиња во увото на носителот. Ние работиме на телевизиски екрани кои се регистрираат кога некој бара. И ние планираме да развиеме кредитна картичка која ќе го познава нејзиниот сопственик - а со тоа исто така знае дали е украдена.

Други истражувачки групи во нашата медиумска лабораторија работат на опремување на интелигентни простори со подлабоко разбирање на човечките активности и мотиви. Со понатамошен напредок, компјутерските системи се повеќе ќе се однесуваат како автономни, внимателни асистенти.

Библиографија

- Визуелно контролирана графика. А. Азарбајејани, Т. Старнер, Б. Хоувиц и А. Пентланд во: Трансакции на IEEE за анализа на моделот и машинска интелигенција, том 15, број 6, страници 602 до 604, јуни 1993 година.

- Системот ALИВО: интеракција со цело тело со автономни агенти. Од П. Мејс, Т. Дарел, Б. Блумбург и А. Пентланд во: Зборник на трудови по компјутерска анимација '95, 1995 г.

- Препознавање на израз на лице со употреба на динамичен модел и енергија на движење. Од I. A. Essa и A. Pentland во: Зборник на трудови од Петтата меѓународна конференција за компјутерска визија. Прес на IEEE компјутерско општество, 1995 година.

- Кон зголемените системи за контрола. Од А. Пентланд и А. Лиу во: Зборник на трудови од симпозиумот за интелигентни возила '95. Друштво за индустриска електроника IEEE, септември 1995 година.

- Американски знаковен јазик во реално време од видео со употреба на скриени модели на Марков. Од Т. Старнер и А. Пентленд во: Меѓународен симпозиум за компјутерска визија, 1995 година. IEEE Press Society Press, 1995.

- Pfinder: Следење на човечкото тело во реално време. Од Кристофер Врен, Али Азарбајејани, Тревор Дарел и Алекс П. Пентланд во: Прашања за интеграција во големите системи за испорака на комерцијални медиуми. Изменето од A. G. Tescher и V. M. Bove. ШПИЕ, том 2615, 1996 година.

- Лабораторијата за медиуми во Технолошкиот институт во Масачусетс има бројни написи и извештаи за Светската мрежа на http: // www-white. медиуми.mit.edu/vismod.