Дигитални ресурси j

ресурси

ј почетна страница на Беренике Херман

дигитални ресурси

Херман, J.Б. & Лауер, Г. КОЛИМО. Корпус на литературниот модернизам (бета) („Корпусен литературен модернизам“). (повеќе информации подолу *)

Месерли, Т., Ротенхауслер, К., Ребора, С. & B.Б. Херман. LoBo. Корпусот LovelyBooks. Колекција на дигитални прегледи за книги за лежери (+1 милиони прегледи).

Herrmann, J.B., Gabay, S., & S. Rebora. Повеќејазичен швајцарски роман корпус 1850-1920, дел од ELTeC (Акција на ТРОШОЦИ „Далечно читање за европска книжевна историја“, CA16204).

Херман, J.Б. (2016). ЕАК. Наративно тело за отворање. Корпус на почетни делови на литературната фикција. Рачно кодирано за метафора.

Steen, G.J., Dorst, A.G., Herrmann, J.B., Kaal, A.A., and T. Krennmayr (2010). VU Амстердам метафора корпус. Архиви на текст во Оксфорд.

блогови и викија

Herrmann, J.B., Bageritz, I., Hannemann, L., Heimann, P., Kleinschmidt, L., Mattner, C., Roth-Kleyer, G., Weller, R. (2016). KEXI. Корпус на експресивно и меѓучовечко пишување. (Изразен и меѓучовечки пишување).

Херман, J.Б. (Уредување) (2012 година) Пресметувачка литература („Компјутерска литература“). Вики за анализа на дигитален текст. („Вики дигитална анализа на текст“).

* колимо

ЕКистидб-корпусот „КОЛИМО“ моментално се ремонтира за повторно лансирање. Изграден е на Универзитетот во Гетинген 2015-2017 година. Она што следува подолу е архивираното „за дел“ од поранешната веб-страница на https://kolimo.uni-goettingen.de/about.html .

Акронимот КОЛИМО

… Се залага за „Корпус на литературниот модернизам“. Поточно, КОЛИМО е дигитален компаративен корпус на германскиот наративен литературен модернизам. Направивме корпус за анализа на сопствениот стил, но бидејќи сме убедени дека таквиот ресурс треба да се сподели со истражувачката заедница, составувањето на корпусот е извршено со публикација на ум. Сепак, забележете дека КОЛИМО НЕ „корпус алатка“. Веб-интерфејсот им овозможува на истражувачите да извршуваат пребарувања, но не да спроведуваат соодветна анализа. Подготвуваме опција за преземање на веб-страница.

Зошто „бета“?

„Бета“ значи дека сè уште не сме целосно таму, но се чувствуваме доволно сигурни за да го споделиме она што го имаме со вас.

Што значи „дигитален компаративен наративен корпус на германскиот литературен модернизам“?

Ние го дизајниравме KOLIMO како таков со причина:

Значи, КОЛИМО е компаративен наративен корпус. Од оваа причина, ни треба повеќе од литература, повеќе од модернизмот, но само наративни текстови.

КОЛИМО е за анализа на стилот

КОЛИМО е столбот на тековниот корпус-стилски проект Q-LIMO (квантитативна и квалитативна анализа на литературниот модернизам). Како такво, има за цел да биде на крајот репрезентативен корпус на модерната германска наративна литература. Исто така, има за цел да биде збогатено со повеќе метаподатоци, како и повеќеслојни јазични и книжевно-естетски прибелешки.

Нашата цел во правењето на КОЛИМО е да овозможиме квантитативни и квалитативно-херменевтички анализи на стилот на германските наративни текстови од возбудливиот период на крајот на 20 век - низ варијабли како наративниот жанр, авторот и времето. На пример, нè интересираат спецификите на стилот на Франц Кафка - какви зборови, фрази и естетски фигури се индикативни за неговото пишување? Можеме ли да откриеме какви било можни влијанија од не-литературните дискурсни домени (како што е правниот дискурс), од други литературни писатели (како што е современиот Роберт Валсер и еден век порано, Хајнрих фон Клаист), па дури и неканонични литературни жанрови (како како авантуристичка литература)? Забележете дека КОЛИМО го содржи КАРЕК, „референтниот корпус на Кафка“. Во нашиот истражувачки проект, каде што модернизмот е срцето на КОЛИМО, Кафка беше срцето на модернизмот. Ова не е вредносна проценка, туку е од истражувачки интерес: За да кажеме нешто за стилот на Кафка, ни требаат посовремени автори, а исто така и „постари“, за споредба. KOLIMO е направен од постојни дигитални извори, но ги надминува.

КОЛИМО е составен ресурс

Ние го извлековме главниот дел од нашите текстови од дигитални ресурси кои се слободно достапни. Можеби ќе речете: ако се таму, зошто да се мачам? Па: Иако постојат неколку постојни складишта (на пример, Складиштето на TextGrid, Германската архива на текст [ДТА], Гутенберг-ДЕ и Гутенберг.org), ние ги споивме, бидејќи така, тие се повеќе од збирот на нивните делови.

Пред КОЛИМО, и покрај бројните иницијативи, недостасуваше дигитален корпус на германскиот наративен Литературен модернизам. Сигурно, оној што тежнее да биде репрезентативен, дизајниран за компаративна анализа (види погоре) и носи конзистентни и рачно подобрени метаподатоци. Уште повеќе, КОЛИМО доаѓа со првиот сет на јазична прибелешка. КОЛИМО е оттука единствен ресурс. Среќни сме што го направивме јавно достапен. Мета податоците првично произлегуваат од истите извори како и текстовите - но ние напорно работевме на нивно подобрување, на пример, додавање и валидирање на GND на „авторот“ на метадата; пополнување на празни места за „година на објавување“ - и имаше многу - по груба, но практична постапка. KOLIMO е зачувана во база на податоци XML, eXist-db (апликација eXist-db за извори на KOLIMO: Пребарување и уредување на метаподатоците). Секој документ има стандардизиран заглавие на TEI што опфаќа секакви корисни информации за секој поединечен текст, вклучувајќи ги метаподатоците, како и избрани маркери за стилови.

Какви маркери за стилови можам да најдам во КОЛИМО?

KOLIMO дозволува извршување квантитативни профили за употреба на јазик. Ова значи суштински „броење работи на јазичната површина“. Ние работиме со основната претпоставка дека „стилот“ може да се процени со помош на броење на фреквенции на оние текстуални одлики што лесно се разликуваат од компјутерот: карактери, слогови, зборови, реченици и така натаму, комбинирајќи се со мерки како што се должината на зборот, должина на реченицата, соодноси на типот на знак, најчести списоци со зборови, итн. Изобилното стилометриско истражување покажува дека овој директен пристап кон стилот е доста плоден. Се разбира, секоја понапредна анализа може да започне тука, вклучително и анализа на кластери на сличноста на текстот заснована врз најчестиот број на зборови (на пример, делта) или мерките на ентропијата на лексичката варијација. Сè оди, сè додека имаме задршка на дискретните мантили што ги сочинуваат текстовите (карактери, жици и сл.).

Ова, рече, ние исто така веруваме во вредноста на јазичното (и другите видови на) прибелешка: KOLIMO е обележан за дел од говорот (POS) и извршивме анализи за читливост (Flesh-Index, Wiener Sachtextformel). Вредностите на читливост се зачувани во заглавјата на TEI, како и основната описна статистика за бројот на зборови. Се појавуваат повеќе видови на прибелешки (на пример, работиме на метафора и експериментиравме со прибелешка за говорот/претставата за мислата).

Ние веруваме во корист на прецизноста, на пример, кога анотаторите соработуваат на контролиран начин, нивниот договор е тестиран со мерки за сигурност меѓу кодерите. За да внесеме нови прибелешки, од повеќе прибележувачи, избравме stand-off XML формат за нашата база на податоци (eXist). Уште повеќе, eXist овозможува лесно објавување на податоци на веб и моќни пребарувања (xQuery). Исто така, експериментиравме со апликации за коментари за eXist.

Нашето истражување во дигитален стил е во суштина отворен процес на истражување, со тестирање на хипотезата, засновано на нови и критички перспективи што произлегуваат од анализите.

Информации за лиценца и атрибуција

КОЛИМО е само за истражувачки цели. Ние го составивме КОЛИМО како збир на текстови на германски јазик, извлекувајќи текстуални и метаподатоци од изворите наведени во заглавието на ТЕИ (и подолу). Поправивме некои од постојните метаподатоци и додадевме нови метаподатоци за (некои) автори, (некои) датуми на објавување и жанр, како и статистика за стилот. Складиштата од кои ги извлековме нашите податоци, содржат текстови чиешто авторско право е истечено.

КОЛИМО е достапен под лиценца на Криејтив комонс, во согласност со лиценците на складиштата за извори. Текстовите од TextGrid се достапни под дозвола за атрибуција CC-BY (видете дигитална библиотека на textgrid). Сепак, документите на Deutsches Textarchiv се ставени на располагање под лиценца CC BY-NC 3.0 (некомерцијално, видете креативни прописи), што значи дека комерцијалната употреба на тие текстови е забранета (видете ги условите за употреба dta). Документите од Гутенберг-ДЕ се достапни на начин што го разбираме како дозвола CC-BY-NC-SA (некомерцијална, споделувајте слично, видете креативни комони), што значи дека е забрането комерцијално користење на тие текстови и ремиксирање, трансформација, или изградба на материјал само ако ја користи истата лиценца како и оригиналот. Кога користите корпус, ве молиме осигурете се да ги цитирате изворите на текстовите, како што се бара од посебните изјави, и дајте му признание на тимот КОЛИМО наведени подолу, за правење компилација, коментар и за работа на метаподатоците.

Делот „Гутенберг“ е извлечен од ДВД-РОМ-от Гутенберг-ДЕ Едиција 13 (објавен во ноември 2013 година, видете Гутенберг-ДЕ) и претворен од HTML во XML и TXT; делот „Deutsches Textarchiv“ е извлечен од „Референтниот корпус на новиот високогермански јазик“ (види Верзија 8 јули 2015 година; и делот „TextGrid“ е изваден од „Верзија на текстови Korpus II“ (види дигитална библиотека за текст-мрежа).

Како да се цитира KOLIMO бета

Кога укажувате на корпусот во научната комуникација, наведете:

Повеќе информации за КОЛИМО и неговиот под-корпус, Кафка/референтен корпус (КАРЕК), може да најдете тука: