ANALÝZA KVALITY VYHLEDÁVÁNÍ Zvýšení přesnsti pmcí Hdncení vyhledávače a Prediktivní analýzy Pavel Kcurek SEARCH TECHNOLOGIES, frmerly INCAD INFORUM 2016 26. 5. 2016 1
Cincinnati Lndn, UK Frankfurt, DE Prague, CZ San Dieg San Jse, CR Washingn (HQ) 180+ knzultantů Hlubké znalsti vyhledávání 800+ zákazníků Knzistentní růst Search engines & Big Data Nezávislst na technlgii 2 2
SQA analýza kvality vyhledávání 3
TYPICKÁ KONVERZACE SE ZÁKAZNÍKEM Hmm Na stupnici Jak mc špatné? d 1 d 10? Jak špatné? Naše sučasné dst mžná pčkejte n vyhledávání řekněme sm pravdu až devět devět 9,23 špatné a půl je špatné 4
Na draka? ale t je t c si uživatel pravdu myslí. Chybí kvantifikace Způsb měření Srvnání Hdncení Zákazník pravděpdbně nereprezentuje uživatele 5
SOUČASNÉ METODY JSOU NEDOSTATEČNÉ C se pužívá? Vybrané dtazy Glden Query Set - a klíčvé dkumenty Analýza Tp 100 / Tp 1000 dtazů Dtazy bez výsledků Zer result queries Míra puštění stránky Dtazy s kliknutím Knverzní pměr A dbré statistiky (pr tent účel) je časvě nárčné připravit 6
ČEHO CHCEME DOSÁHNOUT? Splehlivé metriky pr hdncení vyhledávání Prvedení ff-line analýzy (bez nasazení na prdukci!) Mžnst přesnéh srvnání dvu vyhledávačů (stejný, verze, rzdílné) Rychlst = agilitu= kvalita Zvládnutí rzdílných uživatelů / mžnst persnalizace Pskytnut data pr další analýzy - trendy Data pr rzhdnutí, jak nejlépe vylepšit systém 7 7
VYUŽITÍ LOGŮ PRO HODNOCENÍ Lgy - dtazy Lgy - kliknutí Big Data Framewrk Search Hdncený Search Engine vyhledávací Search Engine Under Engine Under Evaluatin systém Under Evaluatin Evaluatin Hdncení vyhledávače Ostatní matice & histgramy DB hdncení 8 8
OD DOTAZU K UŽIVATELI Kncentrace na uživatele Změna zaměření Slučení aktivit pdle relace a/nebi uživatele Set aktivity Slučení dat relací a uživatelů Využití Big Dat pr analýzu VŠECH uživatelů Neexistují špatné dtazy ani hlupí uživatelé Celkvý výkn zalžený na zkušensti uživatelů Dtazy Ostatní aktivita Uživatel Kliknutí Slučvání dat 9 9
HODNOCENÍ VYHLEDÁVAČE Slučení aktivit (Queries & Clicks) Určení relevantních dkumentů C si uživatel zbrazil? Vlžil d kšíku/schránky? Objednal? Vrátil vyhledávač, t c uživatel naknec chtěl? Určení skóre pr dtaz, zalžené na phledu uživatele Σ pwer(factor, psitin)*isrelevant[user, searchresult[psitin].dcid] (případně řada dalších algritmů, MRR, MAP, DCG, etc.) Průměr hdncení pr všechny dtazy uživatelů = user scre Průměr hdncení napříč uživateli = engine scre 1 10
FAKTOR K 11
OFF-LINE ANALÝZA Σ pwer(factor, psitin)*isrelevant[user, searchresult[psitin].dcid] Je mžné spčítat tut hdntu pr všechny dtazy? Lgy dtazů Offline Re-Query Search Engine Nvé Výsledky Big Data Array mžnst zahrnut vyhledávač pr interakci 12
CYKLUS PRŮBĚŽNÉ OPTIMALIZACE Mdifikace vyhledávače Prvedení dtazů Výpčet hdncení vyhledávače Evaluace výsledků Vyhledávací systém Search Lgy Hdncení jedntlivé verze 1 13
PRŮBĚH 14
Prediktivní analýza 15
PRAVDA O HODNOCENÍ RELEVANCE Vesměs nemá u vyhledávačů příliš vědecký základ Náhdné ad-hc algritmy Chybí statistické neb matematické základy TF / IDF A další typy předsudků Předsudek veliksti dkumenty (malý / velký) Předsudek vzácných slvech (překlepy? archaismy?) Nelze škálvat (různá hdncení v různých index shards) Stejné d 70-tých let 16
POUŽITÍ BIG DATA PRO PREDIKCI RELEVANCE DATOVÉ ZDROJE SEARCH ENGINE Prject Dcs Cnnectrs Cntent Index INDEX Prcessing SEARCH Search Op Web Site Pages Supprt Pages Kpie bsahu Query Lgs Click Lgs Relevancy Mdel Query Lgs Search Click Lgs Landing Pages Financial Data Business Data BIG DATA CLUSTER 17
PRAVDĚPODOBNOSTNÍ HODNOCENÍ Predikuje pravděpdbnst relevance Hdnta je v rzmezí 0 1 C nepužít (threshld prcessing) Všechny dkumenty nedstatečné? Zkuste něc jinéh! Kmbinvání výsledky z různých zdrjů Identifikuje pdstatné Machine learning ptimalizuje parametry - Identifikuje dpady a každéh z parametrů Pkud parametr nemá vliv na zlepšení relevance ODSTRAŇTE HO Hdncení se stává bjektivním A VĚDECKY ZALOŽENÝM Umžňuje experimentvání s parametry 18
SOUHRN 19
ZKUŠENOSTI Z PRAXE Naše prjekty s e-cmmerce a nline vydavatelstvími vykazují následující výsledky: Kvalitu vyhledávání lze psunut 20% až 55% s dtazy vracejících nejlepší mžné výsledky Lze zlepšit spkjenst uživatelů s výsledky na stránkách Lze zlepšit kmunikaci a sulad mezi bchdním záměrem a vývjem Výrazný nárůst knverzníh pměru a bratu 20
SOUHRN SQA přístup vám umžní zlepšit výsledky vyhledávání a uživatelský kmfrt. Pmůže vašim uživatelům nalézat t, c hledají prstřednictvím ptimalizace dtazů a ptimalizace zpracvání bsahu. Pr implementaci metd je třeba: rzumět vašim datům pchpit záměry uživatele/zákazníka rzumět vyhledávací technlgií 21
Find better Answers www.searchtechnlgies.cm/cz 22