Дистрибутивна семантика
Дистрибутивна семантика Дали зборовните значења се во вашата глава? Питер Колб 9 декември 2010 година

Преглед Семантика на одлики (MS) Дистрибутивна семантика (DS) Метод Апликации Споредба на MS MS
возење коњ се хранат коњ мозочен удар коњот галопира коњ спие коњ јаде брз коњ стар коњ див коњ * формат коњ * железо коњ * издува коњ * коњот тврди * коњ телиња * коњот се храни * обратно Коњ * шумски коњ * аголен коњ
Ограничувања за избор на модел со семантички карактеристики: сон за коњ се расправа [+ жив] [- човечки] SUBJ: [+ жив] SUBJ: [+ човек] коњот спие * коњот тврди
Читање на двосмисленост: коњ 1 [+ жив] [- човечки] коњ 2 [-живо] спиење SUBJ: [+ жив] аргумент SUBJ: [+ човек] коњот спие коњ 1
Пастув коњски пастув [+ возрасен] [+ маж] пастув кобила [+ возрасен] [+ женско] кобило ждребе [-возрасен] ждреб [-возрасен] [+ женски] фили [-возрасен] [+ машки] колте црн [+ црно ] црн коњ сив [+ бел] бел коњ [+ сив] сив коњ лисица [+ црвено-кафеава] киселица
Методи за објаснување на зборовите: (1) Покажи: Ова е коњ (2) Преведи: Коњ значи „коњ“ (3) Дефинирај: Белиот коњ е бел коњ
Методи за објаснување на зборови: (1) Покажи: Ова е коњ (2) Преведи: Коњ значи „коњ“ (3) Дефинирај: Белиот коњ е бел коњ Може ли да се дефинира целиот вокабулар? Зборови објаснети со зборови: опасност од кружни дефиниции
круг = облик на круг, покажувајќи сфера Круг = рамномерно кружна, самостојна линија сфера = целосно заоблено тело (Duden Deutsches Universal приближно во 1996 година)
Се подразбира дека семантичките одлики се апстрактни, теоретски единици кои претставуваат сложени, психички структури. [] Термините [] не смеат да водат до претпоставка дека самите карактеристики се повторно лексички единици на некој природен јазик. Сите семантички структури [на крајот] можат да се пронајдат [] во карактеристиките што ги претставуваат основните склоности на структурата на мислата и перцепцијата на човечкиот организам. (Манфред Биервиш 1969)
Коњ [+ K027] [-S143] [+ B415] [+ R024].
Последици: значењата се состојат од семантички одлики; тие не се јазични и се вродени.
Значењата се ментални претстави: поими, концепти, прототипични слики во главата
семантички објективизам: зборовите претставуваат нешто што е веќе дадено во перцепцијата или во размислувањето, т.е. дали е таму без оглед на јазикот. Значењето им претходи на јазичните знаци. Зборовите се како таблети со имиња кои се прикачени на значењата (Витгенштајн)
Проблеми: (1) практична имплементација: како да го пронајдам zeitgeist назад до осетните или логични градежни блокови? Кои се тие и онака? (2) многу категории имаат стереотипи за нејасни граници, не мора да има карактеристика што се однесува на сите претставници на категорија, некои претставници на категорија се порепрезентативни отколку другите природни категории немаат остри граници (на пр. Дрво наспроти грмушка)
Преглед Семантика на одлики (MS) Дистрибутивна семантика (DS) Метод Апликации Споредба на MS DS
возење коњ се хранат коњ мозочен удар коњот галопира коњ спие коњ јаде брз коњ стар коњ див коњ * формат коњ * железо коњ * удар коњ * коњ тврди * коњ телиња * коњ храни * обратна Коњ * шумски коњ * аголен коњ
возење коњ хранат коњ коњот галопира коњ спие коњ јаде брз коњ стар коњ див коњ * формат коњ * железо коњ * издува коњ * коњот се расправа * коњ телиња * коњот се храни * обратно Рос * шумски коњ * аголен коњ
* возете пилешко храна со пилешко мозочен удар пилешко * пилешкото галопира пилешко спие пилешкото јаде брзо пилешко старо пилешко диво пилешко * формат пилешко * пегла пилешко * дува пилешко * пилешкото тврди * пилешките телиња * пилето се храни * превртено пилешко * пошумено пилешко * аголно пилешко
* вози чаша * нахрани чаша галење чаша * стакло галоп * стакло спие * чаша јаде? стакло стакло стакло * диво стакло * формат чаша * железо чаша * издувам чаша * стаклото тврди * стаклото телиња * стаклото се храни * обратно стакло * дрвено стакло аголно стакло
Дистрибутивна хипотеза (Харис 1968): Зборовите што се користат во слични контексти имаат слично значење. Користете значење Користете = дистрибуција во корпусот = збир на сите контексти
Што значи контекст? заеднички зборови Што значи заедничко? Синтаксичка врска на далечина
Дистрибуција утврди согласност:
Прозорец words 3 зборови (обрнете внимание само на содржините):
Прозорец words 3 зборови (обрнете внимание само на содржините):
Прозорец 3 зборови (обрнете внимание само на содржините):
Прозорец 3 зборови (обрнете внимание само на содржините):
Прозорец words 3 зборови (обрнете внимание само на содржините):
Список на вообичаени зборови со фреквенција: Профил на колокација (= дистрибуција на зборот) претворање на апсолутни фреквенции со статистичка мерка на значење во значајни вредности Коњ возеше 18,7 возеше 16,9 возеше 15,2 јавач 14,5 камила 13,1 магаре 13,0 возеше 12, 3 возеле 12,1 планински 10,8 слон 10,8 мазги 10,8 узди 10,6
Список на вообичаени зборови со фреквенција: Профил на колокација (= дистрибуција на зборот) претворање на апсолутни фреквенции со статистичка мерка на значење во значајни вредности Коњ возеше 18,7 возеше 16,9 возеше 15,2 јавач 14,5 камила 13,1 магаре 13,0 возеше 12, 3 возеше 12,1 планински 10,8 слон 10,8 мазги 10,8 узди 10,6. Возачот на Рос 14,4 искачи 11,7 стабилни 9,9 уздите 9,7 стапки 8,2 белиот 7,9 возач 7,6 чуван 6,8 златни 6,8 брзи 6,7 скокање 6,3 камили 6,2.
Список на вообичаени зборови со фреквенција: Профил на колокација (= дистрибуција на зборот) претворање на апсолутни фреквенции со статистичка мерка на значење во значајни вредности Коњ возеше 18,7 возеше 16,9 возеше 15,2 јавач 14,5 камила 13,1 магаре 13,0 возеше 12, 3 возеле 12,1 планински 10,8 слон 10,8 мазги 10,8 узди 10,6. Возачот на Рос 14,4 искачи 11,7 стабилни 9,9 уздите 9,7 стапки 8,2 белиот 7,9 возач 7,6 чуван 6,8 златни 6,8 брзи 6,7 скокање 6,3 камили 6,2.
Споредба на сите зборови (колони во табели) едни со други: високи вредности за зборови што се користеле во слични контексти за секој список на зборови со најслични зборови коњ: коњски коњ магаре животно овци куче камила стакло: чаши шишиња чаша голтка пиво.
срамежлив: срамежлив се плаши колеблив се двоуми тивко нервозен тажен исплашен скромен незгоден возбуден несигурен iteубезен добродушен страшен. Капитализам: социјализам комунизам демократија империјализам фашизам капиталистичка пазарна економија либерализам сталинизам. крик: плач, завивање, смеење, липање, повик, пеење, рикање, лаење, дожд, пискање, стенкање, крварење, крик, кашлица, пцуење, кажи, зборување.
Преглед Семантика на одлики (MS) Дистрибутивна семантика (DS) Метод Апликации Споредба на MS MS
Ограничувања за избор на модел со дистрибутивна сличност (Ерк и сор. 2010)
Предвидување на активност на мозокот при обработка на именки (Мичел и сор. 2008) Активност на мозокот измерена со магнетна резонанца (МРИ) 25 глаголи: видете слушнете слушајте вкус мирис јадете допир трчајте поттик кажете страв носат абење.
60 именки: авион од целер од пченка во заедничката корпусна појава на 60-те именки со 25-те глаголи ги одредуваат вредностите на значењето на пр. целер: јадете 0,84 вкус 0,35 пополнете 0,32 врз основа на овие вредности и моделите на научена активност на 25 глаголи модели на активност на именките предвидуваат стапка на успех 77%
Распределба на простори за зборови на различни јазици Превод на колокациите (редови на табелата), колку што е познато: Коњ: јавање возење кас, возач на камила, камила, камила, монтирање камила, монтирање на нова колона во табела со споредба на целниот јазик со сите колони на целниот јазик најслична колона = превод
Експериментирајте двојазичен речник на германски и англиски јазик од германски и англиски јазик Википедија со 16.000 записи 800 тест зборови со познат превод Именки: 60% точен (очекуваниот превод се најде како најсличен збор) Глаголи: 45% точни Придавки: 66% очекуван превод меѓу 20-те најслични кај именките: 87% Глаголи: 78% Придавки: 93% од случаите.
значи: што значи 0,046 означува 0,034 значи 0,033 означува 0,032 глагол 0,031 наставка 0,030 изведува 0,030. Тиква: авокадо 0,084 зелка 0,081 лубеница 0,080 пченка 0,078 тиква 0,077 јагода 0,076 неопходна: неопходна 0,150 доволна 0,103 соодветна 0,097 соодветна 0,080 потребна 0,079. годишно: годишно 0,151 годишно 0,135 годишно 0,099 месечно 0,073 неделно 0,060 фер 0,058.
Векторските вселенски модели се веројатно досега најуспешниот пристап кон семантиката. (Турни и Пантел 2010)
Преглед Семантика на одлики (MS) Дистрибутивна семантика (DS) Метод Апликации Споредба на MS MS
Августинска слика на јазикот (по Витгенштајн ПУ 1) Зборовите на јазикот именуваат предмети Секој збор има значење што му е доделено на зборот. Тоа е објектот за кој се залага зборот. Учење на јазикот како детето да има веќе јазик, како да може веќе да праша: Кој предмет го мислат возрасните со зборот „дрво“? како возрасен човек кој веќе зборува јазик и доаѓа во странска земја
возрасниот го учи јазикот: „сино“ значи сино „дрво“ значи радикално толкување на дрвото (Д. Дејвидсон). како детето да е дојдено во странска земја и да не го разбира јазикот на земјата; т.е .: како веќе да има јазик, само не овој. (ПУ 32), но детето нема јазик пред јазик: „сино“ значи X X = не збор, туку нешто вон-јазично, предмет за кој стои зборот
Рубен ван де Вијвер: Фонологија. Звуците немаат никакво значење. Во комбинација тие формираат зборови што имаат значење. Говорен звук мора да биде различен од другите звуци. Само тогаш може да се изгради вокабулар. Структуралисти: Разлика и спротивставување Во структурата сè има смисла само од целината. Зборовите на еден јазик не стојат индивидуално како носители на значење, но секој има свое значење само затоа што другите имаат значење покрај него. (Трир 1931, стр. 643)
Самите знаци се состојат само од разлики кои не се дефинираат позитивно според нивната содржина, туку негативно од односите кон другите членови на системот. Нивниот најопределен белег е дека тие се нешто што другите не се. (Сосир 1916, стр. 139) што значи целосни релативно индивидуални зборови не можат да имаат никакво значење независно од другите значења дадени во рамките на јазичното значење = место во јазичниот систем
четврти метод на дефиниција: структурна идентификација (Карнап 1961) секој збор јасно препознатлив со вградување во структурата на зборот простор работи и покрај циркуларноста, зборот простор произлегува од употребата на зборови во текстовите, јазикот е самореферентен систем, зборовите не ја содржат својата функција преку припишување однадвор Значењето не е нешто надворешно или предјазично што е прикачено на зборовите, туку нивната употребливост во системот
Прашањето „Што всушност е збор?“ е аналогно на „Што е шаховска фигура?“ (Витгенштајн 1953, 108) Јазикот не содржи ниту идеи ниту звуци што би постоеле во однос на јазичниот систем, туку само идејни и фонетски разлики што произлегуваат од системот. (Сосир 1916, стр. 143)
Каде е значењето? Значењето е во дискурсот. (Теуберт 2005)
Литература Биервиш, Манфред: Структурна семантика. Во Хофман, Л. (уредник), Лингвистика: Читател. Де Гројтер 1996. Карнап, Рудолф: Логичката структура на светот. Феликс Мајнер Верлаг, 1961. Ерк, Катрин, Падо, Себастијан и Падо, Улрике: Флексибилен, управуван со корпус модел на редовни и инверзни изборни преференции. Компјутерска лингвистика 2010. Харис, Зелиг: Математички структури на јазикот. Interscience Publishers 1968. Mitchell, Tom M. et al.: Предвидување активност на човечки мозок поврзана со значењата на именките. Наука, том 320, 2008. Путнам, Хилари: Важноста на значењето. Клостерман 1979-ти де Сосир, Фердинанд: Основни прашања од општата лингвистика. Де Гројтер 1967 година.
Литература Теуберт, Волфганг: Моја верзија на корпус лингвистика. Меѓународен весник за лингвистика на корпус 10: 1, 2005. Трир, Јост: Јазични полиња. Во Хофман, Л. (уредник), Лингвистика: Читател. De Gruyter 1996. Turney, Peter and Pantel, Патрик: Од фреквенција до значење: Векторски вселенски модели на семантика. Весник за истражување на вештачка интелигенција, 37, 2010 година. Велмер, Албрехт: Спрахфилозофија. Suhrkamp 2004. Витгенштајн, Лудвиг: Филозофски истраги. Работно издание том 1, Суркамп 1984 година.