Големи податоци Дојде време “- ГАЛП

Интервју со Сергеј Рисев, раководител на развој на софтвер и администрација на системот во ГУЛП

GULP не само што ги обединува експертите и компаниите, туку и вработува самиот развивач на софтвер. Нејзините задачи вклучуваат одржување и развој на технологијата што стои зад околу 90.000 профили на хонорарни преведувачи, над 200.000 проектни истражувања годишно и секоја илјада понуди за работа и проекти секој ден. Сергеј Рисев, раководител на развој на софтвер и системска администрација во ГУЛП и неговиот тим ги поддржуваат внатрешните колеги во ГУЛП да ги пронајдат вистинските експерти во овој огромен базен на податоци и да ги зближат со компаниите. За нашата серија Биг податоци, го замоливме за проценка на моменталната состојба на развој и прашањето што треба да донесе специјалист за големи податоци.

ГУЛП: Како го проценувате моменталниот развој на големи податоци во моментот?

Сергеј Рисев: Количината на податоци експлодира во најразновидните области од нашите животи: Безброј податоци за сензорите во нашите автомобили, трансакции со клиенти, информации за купување со картички за попуст, пренесување податоци од нашите паметни телефони и многу повеќе. Општеството произведува сè повеќе податоци, така што повеќе не може да се оценува со користење на традиционални методи, дури и со најдобрата база на податоци на Oracle.

Основните концепти за управување со големи податоци се познати подолго време, но досега едноставно постоеше недостаток на технички услови за да се примени теоријата во пракса. Во изминатите неколку години, технологиите за складирање и компјутери направија огромен скок и станаа поевтини, па тоа треба да се промени.

Големите ИТ компании како Google, IBM и Amazon Web Services завршија важна пионерска работа овде. Тие сè почесто носат на пазарот „нуспроизводи“ од сопствениот развој, што ги прави Биг-податоците сè посоодветни за масите. Примери се Amazon Machine Learning, IBM Watson или Lex од Amazon, што ги обезбедува основните функции на Alexa за сопствени апликации.

Често цитирана реченица е: „Податоците се новото масло“. И токму тоа е: Податоците се основа за многу апликации. Сепак, самата сурова нафта сè уште има релативно мала употреба; таа мора да се преработи пред да може да се користи како гориво или пластика, на пример. Како и да е: Кој ги поседува податоците или маслото има одлучувачка предност. Тие донесуваат побрзи и подобри одлуки во споредба со оние кои не го прават тоа. На пример, тој подобро знае што се однесува на клиентите и каде можат да се најдат потенцијални клиенти.

ГУЛП: Која е разликата помеѓу проект за големи податоци и нормален ИТ проект?

Сергеј Рисев: Особено кога проектите за големи податоци се поставуваат од нула, тие имаат посилен истражувачки карактер бидејќи сè уште нема толку докажани методи и пристапи. Знаете дури и помалку отколку во традиционалните проекти што да очекувате и каков ќе биде крајниот резултат.

Точка што не треба да се занемари е темата: Од кого потекнуваат податоците, кој е надлежен за податоците и како тие можат да се контролираат и да им се пренесат на членовите на проектниот тим со соодветни права за пристап? Клучот тука не е само да се создадат технички соодветни интерфејси, туку и да се вклучат сите на бродот.

ГУЛП: Што треба да донесат со себе експертите за големи податоци?

Сергеј Рисев: Многу искуство и интуиција. Тие треба да можат да проценат дали можат да извлечат вредни или релевантни информации од достапните податоци. Или, ако тоа не е случај, како „геолог“ кога барате масло - во технички жаргон: „брокер за податоци“. Тие знаат каде се интересните податоци, и внатрешно и надворешно, на пример, во Федералниот завод за статистика, Евростат, итн. И тие знаат кои податоци се релевантни. На експертите за големи податоци им е потребен и одреден дух на истражување со сите поврзани карактеристики: curубопитност, подготвеност за учење, издржливост и упорност.

И од чисто техничка гледна точка: технологијата на големи податоци не постои, бидејќи има многу различни пристапи за реализирање на проекти за големи податоци. Јазиците како што се Python и R, како и системите за бази на податоци noSQL околу Hadoop, како што се Касандра, HBase или MongoDB, се особено важни. Оние кои се заинтересирани за големи податоци, исто така треба да се занимаваат со алатки за SQL пребарувања на кластерите Hadoop, на пример Hive, Impala или Phoenix. (Белешка на уредникот: aе се занимаваме со вештини за големи податоци во посебна статија.)