База на податоци на уралски јазик
suihkone /). Написот се состои од предавања на Деновите на науката, организирани од Универзитетот во Хелсинки на 9 и 10 јануари 1997 година, и конгресот на IFUSCO 1997 на 24 април 1997 година. Германскиот превод го направија г-ѓа Ирмели Хелин и доктор Хелмут Дикман се загрижи. Би сакал да изразам срдечна благодарност и на двајцата. Би сакал да се заблагодарам и на проф. Ins Cornelssen за вашите коментари на овој напис.

Мапа 1. Јазичните области на јазикот на Урал 5
12 CONJ_a = mutta ADV_öni = nyt PRN-NEG_n'ekod_SG_NOM = e kukaan V-NEG_oz_PRES_3SG-PL = e V_tydav_NEG_SG = nkyä. # Alakuloisia ajatuksia nytä. Материјал во Ерженишен со морфолошко кодирање (Ruек Рутер 1994) 00080025 V_Uchost'_IND_PT1_SUBJ-3PL_FAB = ОЧЕКУВА NЕ N-P_Mat'an'_GEN-OBJ_IDF = (ДАВО ИМЕ), PRN-REL_kona_SG_NOM_AB1F = WHN _GEN-OBJ_IDF = LIQUOR V_veshn'eme_INF-OBJ = БАРАЈТЕ. # ОЧЕКУВААТ МАТЈА КОЈ ОБЕДИНА БАРАЕ НА МЕСЕЧНИЧКО БЛЕСКИЕ. ATR IDF = ЕДЕН КОЈ Е ПРАЗЕН N kedt 'PL NOM-COM IDF = РАЦЕ. # СЕ ВРАAMEЕ ПРАВО-РАЦЕДЕН. # 00080027 N kedt' PL NOM-COM IDF = РАКА 00080027 NUM_Kavto_SG_NOM_IDF = ДВЕ N_kudoso_INE_IDF = HO_NO_IN_IDF = '_IND_PT1_SUBJ-1SG_FAB = БЕ, PRN-_mez'ejak_SG_NOM_IDF_PCL-INCL = НИШТО PCL-NEG1_a = НЕ V_maksit'_IND_PRS_SUBJ-3PL_FAB = ПОДАРУВАЈ ПР N-PER тон 'SG2 GEN = ВИЕ N_kasol'ent'_SG_GEN-OBJ_DEF = ГРАВИ POP_kise_INE_IDF = ЗА, N-P_Pakhom_SG_NOM = (ДАВЕНО ИМЕ). # ИМАВ ДВА КУА, ПАХОМ, АМА ОДАМ СЕ Грав. #
Sölkupic corpus со морфолошко и синтаксичко кодирање и германски превод (Jarmo Alatalo 1998) 13 Itja and Pünegusse. (А8) Т: А8. iicjä immrljantrsä urrkäsjprkkaqr. Итја живееше со тетка си. имиџ N SG NOM SBJ immrljantrsä N SG KOM 3S LDM SAD urrkäsjprkkaqr V AOR 3DS FRE KNT VER T: A8. okkrr taaqrn iicjä mykka immrljaqrntr: Итја еднаш и рече на тетка: okkrr P ATR taaqrn N SG LOK SAD iicjä N SG NOM SBJ mykka V AOR 3SS FRE VER immrljaqrntr N SG DAT 3S LDM SAD T: A8: „ман којаланг qarrngtrlj aaqqrn poqlontr“. „Одам во заливот на наклон на коритото на реката“. man P SBJ kojalang V OPT 1SS VER qarrngtrlj P IP TRA ATR aaqqrn N SG GEN ATR poqlontr N SG DAT SAD Udmurtisch (Pirkko Suihkonen 1998b: 30-31, 48-49, тест кодирање) (1) Морфолошко кодирање со зборови на превод на основните форми Dzhog_ADV_MAN брзо, наскоро ortts '+ i + z_v_-cont_-tra_ + fin_ind_past_sg3 да помине (далеку) zarn'i_n_-count_sg_nom A_SCAL_SG_NOM златни kuaro_a_scal_sg_nom, z_v_-cont_-tra_ + fin_ind_past_sg3 да помине (далеку) zarn'i_n_-count_sg_nom A_SCAL_SG_NOM златни kuaro_a_scal_sg_nom, z_v_a_scal_sg_nom со лисја dyr_G_sg_nom + z_m_vhu-cont_sg_nom + dyr_G_SG_NOM + time_s_vhu работно време + z_vhu-AN_CO -tra_ + fin_ind_past_pl3 да дојде zhob_a_scal_sg_nom непријатен, непријатен siz'yl_n_ + count_-anim_sg_nom A_SCAL_SG_NOM ADV_TIME есенски нунал + jos_n_ + count_-anim_pl_nom ден. Во + ez_N_ + COUNT_-ANIM_SG_ACC рај, небо
15 автоматската анализа прво ја дава зборот форма во корпусот, потоа е наведено толкувањето на односната форма на збор, т.е. нејзините значења. Толкувањето ја содржи основната форма на зборот и морфолошката анализа на зборот форма. Сите значења на соодветната форма на збор заедно формираат група (Карлсон 1992: 3; Карлсон 1995: 46). Програма за автоматска анализа на фински јазик се користи во UHLCS. Автоматска анализа на фински (Коскениеми 1983) (мачката спиеше на стабилните скали и сонуваше за лето) * kissa nukkui tallin portailla ja uneksi kesästä. (") (" ("kissa" N NOM SG)) (" ("nukkua" V PAST ACT SG3)) " ("talli" N GEN SG)) ("
"(" porras "N ADE PL)) (" "(" ja "COORD C)) (" "(" uneksia "V IMPV ACT SG2) (" uneksia "V PRES ACT NEG) (" uneksia "V PAST ACT SG3 ) ("уни" N TRA SG)) (" ("kesä" N ELA SG)) (") Ако е програмирано автоматско кодирање за анализа на јазик, оваа програма може да се користи за кодирање на понатамошен материјал Задачата на кодирање, без разлика дали е автоматска или рачна, е да обезбеди што е можно посигурно знаење за соодветниот јазик. Понатаму, кодирањето треба да се изврши толку внимателно што да не се изгуби ниту една информација во оригиналниот текст. Кодираниот материјал исто така треба да се пренесе на друг, Може да се имплементираат системи за концепт или кодирање обработени за типолошки различни јазици 5. Употреба на материјалот за истражувачки цели Материјалот може да се користи на многу начини
16 јазици и уредување на материјалот за речници и граматики. Оваа категорија го вклучува удмуртскиот речник, создаден од материјалот на удмуртскиот текст. Речникот подоцна ќе биде достапен на серверот за електронски корпорации. Во следниот пример, удмуртскиот збор е прв, а потоа е проследен со превод на англиски и фински јазик. Електронски корпуси како материјал за речници (Suihkonen, Zagulyayeva & Tronina 1995: 17) UDMURT/UDMURTTI ENGLISH/ENGLANTI FINNISH/SUOMI ad'ami, Н човек, човечко суштество; лице. химинира; лошо; henkilö. addz '+ em, 1-ви V PCPL
, 2. N 1. s. Addz'yny. 2. гледање. 1. ks. addz'yny 2. Näkeminen. addz'empoton, N сакате да видите. халу зашиениä. addz'empot + on + tem, ADJ ks. addz'empoton; омраза; гнасен. КС addz'empoton; вихатава; огромен миелинен, инхотава. addz'empotostem = addz'empotontem. addz'em # тенџере + y + ny, V INF да сакате да видите. халута зашиенаä. addz'is'k + is ', V PCPL
s. addz'is'kyny. КС addz'is'kyny addz'is'k + вклучено, N 1. видливост. 2. состанок, средба. 3. дух. 1. Näky (väi) сиеви. 2. кохтаус; тапаамини. 3. авеј addz'is'k + on + tem, PCPL
s. addz'is'kyny. КС addz'is'kyny addz '+ is'k + y + ny, V INF
уралилаистен ладен тиетопанки оват Оса Хелсингин илиопистон> талтеила олеваа ери ладна тиетопанкија. 19 Програмата kw-alg ги бара присвојните наставки -ez и -yz на 3-то лице во sg. И pl. Of Udmurt како низа од карактери, кои исто така можат да бидат наставки за acc. Внесената датотека на согласноста е морфолошки анализиран дел од текстот на удмуртскиот корпус. Примерокот материјал прелистува текст без конверзии за големи букви и интерпункциски знаци. kw-alg '\ + (ez hez yz)' целна датотека 104: Anaj + ez kosem + ys 'gine kyti-oti tölatis'ky + ny 125: a, inzhen'er + ly dyshetskon s'ures + ez. 118: i + z t'ehn'its'eskoj l'it'eraturaj + ez. 48: 'ko + d + -a, myn + a + m tshukaz'e berpum + yz Erkyn nunal + e kyl' + i + z. 69: Виктор Ивановитс + лен питс е дјр + јз село + ја + мој ортс + и + з. 91: Esh + jos + yz uram + yn kalg + o, Следниот пример е извадок од целиот материјал на корпусот Северен Лапиш. Како параметри за програмата за согласност, покрај дефиницијата на влезните и целните датотеки, броевите се даваат и како индикатори за зборови, низи на знаци помеѓу две интерпункциски знаци и должина на контекстот. Целта датотека KWIC 4 4 е најзначајна, но е скандинавала, и е био буоремус довдомеарка леи, не е потребна, туку е и тоа како сака да биде, te sámec'earddaid gaskkas nu, viimmát nuortasámiid stii lmmos 'sáhttá govviduvvot nu, váldá ovdan iez'as árbevi ápmelac'c'at leat jurddas'an, vuoinjnjat lattditat sivdnidinjnjato да vuovdit "sámegovaid", maidda ássi vuoinjnjaide vuo uduvve dán dihtui luonddu gierd n goit bázii s'addat dovddusin sámi dáiddac'eahppin, id álgovu oleamus dáiddah'ágágágagada, hvangaga -a sada, новинарка Мати (1872-1929) lei vuos Институтот за лингвистика при Универзитетот во Хелсинки ги одржува капацитетите и гарантира дека користените програми се ажурирани и оптимално применливи. Институтот, исто така, учи основно познавање на оперативниот систем UNIX и употреба на електронски тела како истражувачки материјал. Јазичните институти на универзитетот Хелсинки, исто така, нудат еден за време на семестарите