ТСМ - Како; разбираме коментари на клиенти за хотели

Мајкл Матушек - Наука за водечки податоци во тимот @ TrustYou

Замислете дека сакате да патувате на рајски одмор и сакате да бидете сигурни дека хотелот што го избравте нуди безбеден детски базен, добар појадок и чисти простории, и покрај ниската цена на веб-страницата. резервации. Можеби најдовте некои прегледи кои се или добри или лоши, но можеби некои од нив не беа многу корисни или не се однесуваа на она што ве интересира. Сигурно немате време да ги поминете најдобрите 100 прегледи само за да видите дали она што го пронајдовте се несреќни исклучоци или замки за маркетинг на порталот.

Зарем не би било добро некој да ви даде резиме за тоа што мислат клиентите наместо да го направите целото истражување сами? Зарем менаџерите на хотели не треба да сакаат да знаат што ценат повеќето клиенти во споредба со другите места? Што ги прави клиентите несреќни?

Во TrustYou, ние нудиме токму ваков тип на информации, како услуга за хотели или хотелски ланци. Ги собираме сите прегледи на клиенти од стотици илјади хотели низ целиот свет како терабајти податоци, потоа ги анализираме и автоматски ги оценуваме за да видиме што е добро и посебно за секој хотел и да им овозможиме на хотелиерите да откријат што можат да подобрат за да обезбедат услуги. подобро нивните клиенти.

Нашите развојни тимови во Минхен, Клуж и Мадрид се одговорни за различни аспекти на обработка на податоци и имплементираат веб-алатки за хотелиерите да пристапат и да ги разберат перформансите на нивниот хотел.

Индексирање - дознаваме што пишуваат клиентите

Целиот процес започнува на Интернет. Таму пишувате мислења за резервации на портали, страници со посветени прегледи, социјални медиуми, хотелски страници и многу повеќе.

Сите овие извори имаат различни нивоа на доверба. Кога станува збор за социјалните мрежи, секој може да објави скоро се. Хотелските страници обично имаат модератори, кои имаат за цел чист јазик и добра презентација. Интернет-страниците за преглед можат или не откриваат лажни прегледи издадени од малициозен хотел на вашите соседи и може да го сторат тоа во различен степен на напор и успех. Од друга страна, порталите за резервации можат да утврдат сосема јасно дали прегледувачот навистина резервирал соба, но овие портали се ограничени на вистински корисници, а нивните комерцијални интереси за продажба на што е можно повеќе ноќи влијаат на начинот на филтрирање. и ги презентира своите прегледи.

И покрај овие работи, сите овие извори ги даваат сложувалките потребни за да се разбере целиот спектар на мислења што луѓето ги имаат за тоа каде го поминале својот одмор или деловен престој. Луѓето претпочитаат различни места да ги остават своите мислења, од причини што се разликуваат од личните склоности, од стимулацијата што ја добиваат од одреден портал по нивниот престој, до техничката позадина потребна за разбирање и користење на вистинито Само целосната слика што ги зема предвид сите извори може да доведе до холистичко разбирање на перформансите и специфичноста на одреден хотел.

Некои можеби ќе речат дека ползењето е проблем овие денови. Бидејќи повеќето веб-страници вложуваат огромни напори да ја направат нивната содржина лесно достапна на Google, постои перцепција дека ползењето не треба да биде тешко. Но, не секој е Гугл. Порталите за резервации и хотелските групи имаат сите причини да ги споделат своите податоци со компании како TrustYou, но другите веб-страници се многу попретенциозни во дозволувањето обиди за ползење. Затоа, индексирањето на содржината е огромен простор за маневрирање за деловни деловни партнери кои ги споделуваат своите податоци преку специјализирани, структурирани веб-API и произволни веб-страници што го ограничуваат пристапот до HTML-индексирање.

Кога станува збор за парсирање на HTML страници, не сите веб-страници го олеснуваат извлекувањето содржина. Некои се многу добри во обезбедувањето семантички метаподатоци и обележување, овозможувајќи лесен пристап до содржина од интерес. Другите се тотален HTML хаос чија структура постојано се менува поради A/B тестовите насочени кон корисниците.

Сите овие проблеми бараат да се користи голема фарма на роботи за справување со големиот број извори и ограничувања. Потребна ни е брза и робусна алатка за парсирање на HTML, што го олеснува брзото дефинирање и прилагодување на правилата за извлекување, и солиден процес на чистење и дедуплирање, кој собира мали, но чести варијации на презентирање на истиот преглед на различни места со текот на времето. Програмскиот јазик Python и пакетот со алатки lxml ни помогнаа да бидеме во чекор со ова постојано менувачко поле на барања/спецификации. Со посета на милиони веб-страници дневно, можеме да собереме постојан прилив на милиони нови прегледи неделно.

Семантичка анализа - ние разбираме мислења

Откако ќе бидат извлечени и исчистени прегледите, тие ги обработува нашиот мотор за семантичка анализа, кој е напишан целосно во Python и се базира на бесплатната библиотека NLTK (пакет со алатки за природен јазик). Обемот на работа е дистрибуиран на кластерот Hadoop со стотици јазли кои ги исполнуваат нашите потреби за обработка.

Основната цел е да се направи анализа на чувствата, но не само на ниво на документ (за да може да се одлучи дали прегледот е негативен или позитивен), туку и на ниво на објект. Затоа, не можеме само да ги скенираме изразите што означуваат чувства, како што се „добро“ или „лошо“ и да ги квантифицираме. Напротив, ние се обидуваме да ги идентификуваме субјектите од интерес за кои луѓето пишуваат во прегледите (соби, кревети, појадок, услуги и сл.) И да ги идентификуваме зборовите или изразите поврзани со овие предмети што се однесуваат на чувствата. Едноставен пример би бил „[собата] беше многу [чиста]“, што доведува до позитивна поврзаност, но речениците и изразите можат да бидат произволно сложени или двосмислени во зависност од контекстот. На пример, „[соба] [мала]“ е негативен коментар, но „[цена] [мала]“ не е - така што за максимална точност, ние користиме внимателно избрани природни граматики, хиерархиски организирани граматики и лексички ориентиран стил и терминологија прегледи во хотели.

Така, можеме да опфатиме над 20 јазици, за повеќето да достигнат точност од над 90%. Така, можеме да создадеме точна и детална слика за пријатните и непријатни аспекти поврзани со одредено место, управувајќи, истовремено, да издаваме пресуди за општа вредност со пријавување во хиерархијата. На пример, ако луѓето се жалат дека има туш под туш, можеме да вметнеме дека има проблем со чистотата на просторијата. Благодарение на овој висок степен на точност и покриеност, ние нудиме непроценлива услуга за менаџерите на хотели кои сакаат брзо да знаат што се случува и што треба да се промени за да се подобри задоволството на клиентите.

Класификација на хотели

Надвор од повеќе или помалку позитивни аспекти на хотелот, како што се големината и чистотата на собата, се одлики на хотел кои можат да бидат од интерес само за некои патници. На пример, да речеме дека сакате да поминете романтичен викенд со вашиот партнер - ќе сакате да побарате хотел различен од оној што би го барало семејство со мали деца. Алтернативно, некои од вас би сакале да бараат одредена карактеристика за хотел, како казино, велнес центар или поглед на езеро.

За да им помогнеме на патниците со своите одлуки, им нудиме на секој хотелски значки за заслуги, кои укажуваат на хотелите со најдобри велнес услуги, најромантични, најсоодветни за семејства, врз основа на рејтингот на клиентот. За да го направите ова, првото прашање на кое треба да одговориме е дали хотел е од одреден тип или не, односно треба да ги класифицираме хотелите.

Класификацијата е основно прашање за машинско учење. Сепак, алгоритмите за машинско учење можат да се применат на ниво на вектори на броеви, додека ние се занимаваме со текстот (содржината на хотелските прегледи). Како можеме да претставиме текст во форма на нумерички вектор?

Постојат неколку пристапи кон ова, секој со предности и ограничувања. Едноставен, но многу ефикасен пристап е TF-IDF, скратено од Term Frequency - Инверзна фреквенција на документот. Резултатот TF-IDF на термин во документ е вредност што означува колку е „важен“ терминот за специфичен документ во споредба со колекција на други документи (или корпорации). На пример, ако нашиот корпус е колекција на прегледи во хотели, може да очекуваме зборови како „соба“ или „прием“ да имаат голема фреквенција во корпусот. Но, ако зборовите „казино“ или „машини за чипови“ се појавуваат со неочекувано висока фреквенција за одреден хотел (но не и за други), можеме да научиме важни работи за хотелот.

Други методи што се користат за претставување на текст преку вектори се таканаречените вградувања на word2vec. Основната идеја е да се земе предвид контекстот во кој се појавува некој збор, со „контекст“ што значи елемент во документот што е непосредно пред или по еден збор. Синоними како „паметен“ или „паметен“ ќе се појават во слични контексти (на пример, проследени со зборови како „личност“, „момче“ или „девојче“). Векторите што произлегуваат од вградувањата на word2vec се блиску еден до друг кога се појавуваат во слични контексти и можат да ја доловат врската помеѓу поимите: синоними, антоними или аналогии. Типичен пример е равенката "крал" - "маж" + "жена" = "кралица".

Мета осврти - ние ја извлекуваме суштината

Целта на сите овие чекори е да им се обезбеди на клиентите брз, точен и концизен преглед на хотел. Ние ја извлекуваме суштината во она што се нарекува Мета преглед (Мета преглед), резиме на прегледи, но повеќе од тоа.

Од семантичката анализа на прегледите, добиваме не само најчести поплаки и пофалби што ги прават клиентите за хотелот, туку наоѓаме и интересни детали кои се издвојуваат. Врз основа на овој статистички пристап, нашиот мотор за генерирање природен јазик (NLG) создава течен, лесен за читање текст, што е најважната карактеристика на сите прегледи што ги разгледавме - вистински „мета“ преглед. Покрај тоа, бидејќи создаваме неекстрактивно резиме на застапеност на еден вид знаење/разбирање што е независно од јазикот (т.е. не користиме реченици од реални прегледи директно), НЛГ лесно се прилагодува на различните природни јазици на излез при собирање прегледи од сите прегледи, на сите јазици што ги анализираме семантички. Со други зборови, дури и ако одите во хотел кој има прегледи само на јапонски, може да имате корист од мета-прегледот на англиски, шпански или на други јазици, за да дознаете дали локалното население го смета хотелот за добар.

Од податоци до знаење

Откако необработените текстуални податоци ќе бидат обработени во структурирана информација, многу може да се направи со нив. На пример, хотелите можат да ги користат информациите за детално да ги разберат нивните перформанси и да преземат активности по поплаките на клиентите, без разлика дали се непријателски расположени пред бирото, неуредниот базен или недостаток на тоалетна хартија во собите. Позитивно е што хотелиерите можат да разберат што ги прави посебни во споредба со другите хотели, за да можат да се фокусираат на најрелевантниот сегмент на клиенти.

Од друга страна, страниците за резервации можат да ги користат информациите што ги даваме за да ја потврдат и подобрат презентацијата на хотелот, така што препораките и специјалните понуди полесно ќе допрат до заинтересираните.