Дигитално аудио кодирање Намалувањето на податоците

Од воведувањето на аудио компактниот диск (ЦД) и појавата на дигиталната аудио лента (DAT), дигиталната технологија станува сè попопуларна во аудио секторот. И ЦД и ДАТ користат модулација на пулсниот код (PCM) како основен процес на дигитализација. Оваа технологија го преведува оригиналниот аналоген аудио сигнал во дигиталниот свет преку земање примероци, квантизација и кодирање. Бидејќи PCM не користи намалување на податоците, се постигнува одличен квалитет на звукот - но се купува по цена на високи побарувања за меморија. Во PCM, ЦД може да содржи максимум 80 минути аудио податоци.

Зошто да ги намалите аудио податоците?

Особено високите мемориски побарувања на PCM ја направија директната употреба на оваа технологија во дигитални радио или мултимедијални системи неефикасна, скапа или невозможна. Овие системи бараат радикална диета за слабеење на аудио сигналите. Причините за ова се недоволните преносни капацитети во радиодифузијата, ограничената стапка на пренос на денешните автобуски системи (PCI, IDE, SCSI) и, пред сè, сè уште недостаток на простор за складирање. Не само што недостасува простор на хард дискот, туку и главната меморија во денешните компјутерски системи има недоволни резерви за да се овозможи разумна работа со PCM аудио податоци. Ако сметате дека 6-минутно музичко парче во PCM бара меморија до 60 MB (WAV-датотека), лесно е да се замисли дека пренесувањето на ова парче преку Интернет, на пример, е ништо друго освен профитабилно, да не ги спомнувам класичните дела што траат неколку часа . Исклучително долгите времиња за преземање ќе бидат резултатот.

Од друга страна, дигиталната технологија има непобедливи предности во однос на аналогната технологија. Многу добар квалитет на звукот, имунитет на пречки и релативно лесна техничка управуваност беа доволни причини за различни истражувачки институции сè повеќе да развиваат методи во последниве години што овозможуваат намалување на барањата за складирање на дигиталните аудио сигнали и со тоа нивна употреба во нови области како што е дигиталното емитување. Примарната цел беше да се одржи квалитетот на звукот, со ЦД-то како референца. Резултатот е цела низа кодеци, од кои некои заштедуваат значителна количина на податоци. Во моментот најверојатно е најпознат MP3 кодекот, развиен од Motion Pictures Expert Group (MPEG), кој е широко распространет на Интернет, но MPEG 2, AC-3, ATRAC и други се исто така познати техники на дигитално аудио кодирање.

Количината на меморија што ја бара дигиталниот аудио сигнал првенствено се одредува според битната стапка и брзината на земање примероци. Двата параметри можат да се прилагодат додека сигналот се кодира. Следниот дел ги испитува ефектите од промената на брзината на земање примероци и брзината на бит при обработка на сигналите.

Барања за складирање во зависност од земањето примероци и брзината на бит

Со цел да се претвори аналоген сигнал во негов дигитален еквивалент, треба да се земе примерок од оригиналната функција. Процесот на земање мостри е познат и како земање мостри. Точните врски помеѓу земањето мостри, квантизација и кодирање може да се најдат во нашата статија „Складирање на дигитални податоци и производство на аудио-компактен диск“ во областа на технологијата на нашата почетна страница http://www.burosch.de

Втората можност за кодирање на дигитални аудио податоци со ниски побарувања за меморија е користење на ниска брзина на бит. Земањето примероци и квантизацијата произведуваат дискретни вредности на оригиналниот аналоген сигнал. Додека земањето примероци го дискретизира оригиналот во временскиот домен, квантизацијата ги ограничува вредностите на напонот измерени во времето на земање мостри до фиксен број на вредности. Ако вредноста на напон се мери со земање примероци во одредено време, оваа напонска вредност се заокружува на најблиската достапна вредност за време на квантизацијата. Ако има само неколку вредности на кои може да се заокружи, резултатот е само неколку различни дигитални вредности за да се опише оригиналната аналогна функција. Доволни се неколку бита за бинарно кодирање на овие вредности.

Сепак, оригиналната функција е само недоволно приближена со неколку вредности на квантизација. Поради силното заокружување на измерените вредности на напон, се јавуваат грешки во заокружувањето, што може да се слушне со меки музички премини. Шумовите што се случуваат се познати и како бучава за квантизација. Сепак, постојат широки опсези на фреквенции кои можат безбедно да се зачуваат со помалку податоци. Овие области првенствено се одредени од чувствителноста на човечкото уво. Можете да дознаете повеќе во следниот дел.

Човечкиот слух - пристап кон компресија на аудио податоци

Медицинските и физичките прегледи на човечкото уво и обработката на бучавата во мозокот покажаа дека слушниот апарат има свои перцептивни карактеристики. Под одредени околности, звуците не се или само делумно регистрирани од мозокот. Многу од компонентите на сигналот што се присутни во акустичниот сигнал, луѓето дури и не ги перцепираат. Таканаречената психоакустика се занимава со истражување на овие факти. Следниве дефицити досега се откриени во перцепцијата на човечкото уво:

Опсег на видливост на слухот:
Бранови може да се емитуваат преку широк спектар на фреквенции. Сепак, човечкото уво може навистина навистина да согледа мал дел од овој фреквентен опсег, опсегот на аудио фреквенцијата. Теоретски, луѓето можат да слушаат звуци со фреквенции помеѓу околу 20Hz и 20kHz. Во пракса, сепак, се покажа дека чувствителноста на увото значително се намалува кон ниските и високите фреквенции. На горната слика, амплитудата, т.е. звучниот притисок, е нацртана во однос на фреквенцијата. Мерењата покажаа дека сите сигнали што се целосно под прагот на слухот во мирување (црвена линија) не се слушаат. Амплитудата на овие тонови (зелени врвови на сликата) е премала, така што нивниот волумен е премал за да се согледа. Интересно е да се види дека прагот на тивок слух не е константен при одредена вредност на амплитудата, туку се менува со фреквенцијата. Многу ниски тонови (помалку од 50Hz) може да се слушнат само од многу високи амплитуди, исто како и тоновите над 15kHz. Исто така, треба да се напомене дека не секој има ист праг на тивок слух. Децата можат да слушаат високи фреквенции многу подобро отколку старите луѓе.
Маскирање:
Друг недостаток на помагалото за слушање кај луѓето е неможноста да се направи разлика помеѓу тоновите со многу слична фреквенција и многу различен волумен што се случуваат во исто време. Овој ефект е исто така наречен аудитивно маскирање или германско истовремено маскирање. Сигнал со голема амплитуда (темно сина на горната слика), исто така познат како маскирач, крие потивки сигнали кои имаат слична фреквенција. На сликата, сите овие сигнали се наоѓаат во областа обележана со жолто. Некои тиркизни врвови се прикажани како пример. Theолтата област е врамена со индивидуален праг на маскирање во портокалова боја. Индивидуален праг на маскирање и тивок праг на слух може да се комбинираат за да се формира т.н. глобален праг на маскирање. Сите сигнали што се под глобалниот праг на маскирање се нечујни. Во пракса, аудитивното маскирање не значи ништо друго освен што гласните музички сигнали покриваат тивки делови и ги прават нечујни.
Друг ефект на маскирање се јавува кога два тона се следат едни со други за многу кратко време. Од овие два тона, се перцепира само оној со поголема амплитуда, т.е. поголем волумен. Интересно, дури и ако мекиот звук прво стигне до увото, само гласниот сигнал што пристигнува подоцна е регистриран во мозокот. Овој втор важен ефект на маскирање се нарекува и во технички жаргон временско маскирање (временско маскирање).
Дефицити во локализацијата на ниски фреквенции:
Додека човечкото уво е во состојба добро да го локализира потеклото на тоновите на средни и високи фреквенции во просторијата, се појавуваат проблеми во областа на пониските фреквенции. Мозокот ја пресметува локацијата на изворот на звук од разликите во времето на транзит на сигналот помеѓу левото и десното уво. Ако има извор на звук десно, брановите што ги емитира овој извор се перципираат порано од десното уво отколку од левата страна. Потеклото на тоновите потоа се пресметува од временскиот интервал помеѓу перцепцијата на левото и десното уво. Звучните сигнали со многу мала фреквенција, сепак, имаат многу долги бранови должини, што ја прави невозможна јасна локализација. Затоа, практично нема тонска разлика помеѓу моно-изворот на звук за сигнали со ниска фреквенција и стерео-извор на звук за звуци со многу ниска фреквенција. Ова е исто така познато како заеднички стерео ефект. Се користи, на пример, во конструкцијата на сабвуфер сателитски системи и е исто така почетна точка за аудио компресија во областа на ниски тонови.

Човечкото уво може само несоодветно или воопшто не согледува цела низа опсези на фреквенции. Во електротехниката, областа на обработка на дигитален сигнал се занимава (обработка на дигитален сигнал, DSP), меѓу другото, со математички процеси кои, во комбинација со психоакустичниот модел на слушниот апарат, доведуваат до намалување на податоците. Таквите процеси се познати под терминот психоакустично кодирање или перцептивно кодирање сумирани.

Математички методи за намалување на податоците:

Математичките методи за намалување на податоците разгледани во овој дел имаат за цел или да ги отстранат вишоците од податоците што треба да се компресираат, односно да ги преуредат повторувачките делови на таков начин што тие треба да се зачуваат само еднаш, или да се отстранат излишни податоци според психоакустичниот модел фундаментално во техниките без загуби и загуби. Треба да се спомене дека техниките без загуби доведуваат само до намалување на податоците под одредени услови. Честопати, добивката на компресија преку овие методи е прилично ограничена. Предноста на техниките без загуби е јасно дека тие не го менуваат квалитетот на оригиналот.

Сепак, прво мора да се утврди колку често индивидуалните симболи се појавуваат во низата податоци. Една можност е да ги кодира индивидуалните податоци според дадена статистичка фреквенција. На пример, германски текст може да се кодира со користење на овој метод ако е јасно колку често одделните букви се појавуваат во просек на германски јазик. Проблемот со овој вид определување на фреквенцијата е што во пракса има отстапувања од очекуваните појави според статистичките податоци. Ова може да доведе до бескорисно кодирање ако количината на податоци остане постојана пред и по процесот на кодирање, или во екстремни случаи (неточна статистика) алгоритмот дури доведува до ситуација кога по кодирањето побарувачката за меморија е зголемена. Овој начин на одредување на фреквенцијата на одделните симболи е потполно невозможен за кодирање на непознати информации, како што е присутен во аудио сигналите, на пример. Тука треба да се оди по друг пат.

Предноста на поделбата на одделни фреквентни опсези е дека методите за компресија на податоците можат поефикасно да напаѓаат. Ако целиот фреквентен опсег требаше да биде намален со податоци за еден излив, компресијата може да биде што е можно поголема без звучни загуби што е можно во критичните опсези (особено фреквенциите помеѓу 2 kHz и 5 kHz). Тоа би значело, сепак, дека треба да се заштедат помалку забележливи фреквентни сегменти (повеќе од 15 kHz и под 50 Hz) со поголемо барање за меморија отколку што е навистина потребно Поради оваа причина, опсегот на фреквенции е поделен на одделни делови и само тогаш секој компонентен опсег е компресиран и кодиран за да се обезбеди максимална ефикасност.

Декодерот за кодирање на под-опсегот (види слика подолу) има многу слична структура со кодирачот. Прво, влезниот бит-проток (Y (n)) поминува низ демултиплексер, кој ја распаѓа низата податоци во одделните под-опсези. Потоа се одвива фаза на декодирање. Во филтерот за интерполација што следи, примероците што се пресметани далеку се обновуваат пред банката за синтеза на филтерот да го формира излезниот сигнал Z (n) од под-опсезите со собирање.