Indexování a vyhledávání matematických formulí

Podobné dokumenty
Indexování a vyhledávání matematických formulí

þÿ O k t á v o d i g i t á l n í k n i h o v n a F F

Co je (staro)nového v DSpace

Modely vyhledávání informací 4 podle technologie. 1) Booleovský model. George Boole Aplikace booleovské logiky

materiál č. šablony/č. sady/č. materiálu: Autor: Karel Dvořák Vzdělávací oblast předmět: Informatika Ročník, cílová skupina: 7.

KAM SMĚŘUJE VYHLEDÁVÁNÍ. Pavel Kocourek SEARCH TECHNOLOGIES, formerly INCAD INFORUM

Systémy pro tvorbu digitálních knihoven

Vývoj moderních technologií při vyhledávání. Patrik Plachý SEFIRA spol. s.r.o.

MARUSHKA. Vyhledávání parcel. Marushka je webová mapová aplikace pro zobrazování map a informací z GISu města Plzně.

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 21.

Internetové vyhledávače

co uživatel? Vilém Sklenák Vysoká škola ekonomická, fakulta informatiky a statistiky, katedra informačního a znalostního inženýrství

Vyhledávání hudbou aneb YouTube trochu jinak. Mgr. Ondřej Voců ÚISK FF UK

Sémantický web 10 let poté

- otevřený přístup k výsledkům vědy. Mgr. Zdeňka Firstová a Mgr. Anna Vyčítalová Univerzitní knihovna ZČU v Plzni

Vyhledávání. doc. Mgr. Jiří Dvorský, Ph.D. Katedra informatiky Fakulta elektrotechniky a informatiky VŠB TU Ostrava. Prezentace ke dni 12.

Vyhledávání na portálu Knihovny.cz

Quo vadis, vyhledávání (na webu)?

Dozvíte se mimo jiné, jak přinutit internetový vyhledávač, aby našel přesně to, co potřebujete.

Web of Science. Přednáška kurzu informační a databázové systémy v rostlinolékařství

MBI - technologická realizace modelu

2014 Dostupný z Licence Creative Commons Uveďte autora-zachovejte licenci 4.0 Mezinárodní

Reálné gymnázium a základní škola města Prostějova Školní vzdělávací program pro ZV Ruku v ruce

Seminář pro vedoucí knihoven a SVI ústavů AV ČR. Aleph

ProArc. open source řešení pro produkci a archivaci digitálních dokumentů. Martina NEZBEDOVÁ Knihovna AV ČR, v. v. i., Praha nezbedova@knav.

Vybraná zajímavá Lotus Notes řešení použitelná i ve vašich aplikacích. David Marko TCL DigiTrade

Reranking založený na metadatech

Česká digitální matematická knihovna

Máte to? Summon jako základní vyhledávací nástroj NTK

Elektronické publikování. doc. RNDr. Petr Šaloun, Ph.D. katedra informatiky FEI VŠB TU Ostrava

Klíčová slova: dynamické internetové stránky, HTML, CSS, PHP, SQL, MySQL,

DIGITÁLNÍ ARCHIV VZDĚLÁVACÍCH MATERIÁLŮ

Začínáme s Tovek Tools

Jak se dělá digitální matematická knihovna

Kde hledat odborné články?

ANL+ Veronika Ševčíková Národní knihovna ČR

SCOPUS a WEB OF SCIENCE

Д1Х3Digit Ґln knihovna FF MU

Microsoft Office. Excel vyhledávací funkce

Fakulta elektrotechnická

Vyhledávání na Internetu

Zpráva o zhotoveném plnění

Google Site Search Webové vyhledávání Google pro vaši organizaci

ANOTACE vytvořených/inovovaných materiálů

EU-OPVK: VY_32_INOVACE_FIL17 Vojtěch Filip, 2013

Vyhledávání nebo nalezení informací

Velká data v knihovnách Open source tools and their use in Czech libraries

Obecná informatika. Matematicko-fyzikální fakulta Univerzity Karlovy v Praze. Podzim 2012

NÁVOD PRO VYHLEDÁVÁNÍ V DATABÁZI C.E.E.O.L. (CENTRAL AND EASTERN EUROPEAN ONLINE LIBRARY) / /

IntraVUE Co je nového

Otevřený katastr (OK)

VYHLEDÁVÁNÍ V NOVÉM PROSTŘEDÍ MEDVIK : ZÁKLADNÍ HLEDÁNÍ. Adéla Jarolímková Národní lékařská knihovna, referát metodiky a vzdělávání

1. Umístěte kurzor do sloupce Datový typ na řádek s polem, ve kterém vytvořit chcete seznam.

Milí rodiče a prarodiče,

Maturitní otázky z předmětu PROGRAMOVÁNÍ

Digitální knihovny v České republice

Nové funkce a technologie v současných a budoucích verzích Invenia. Jiří Kunčar

Novinky IPAC 3.0. Libor Nesvadba Karel Pavelka

Digitální knihovna MZK: její vývoj, mobilní aplikace a uživatelé

aplikační software pro práci s informacemi

FUNKCE A VYHLEDÁVÁNÍ NA PORTÁLE KNIHOVNY.CZ PhDr. Iva Zadražilová, Moravská zemská knihovna

Úvod do matematiky profesora Hejného. VISK Praha

ZÁKLADNÍ ŠKOLA PŘI DĚTSKÉ LÉČEBNĚ Ostrov u Macochy, Školní 363 INOVACE VÝUKY CZ.1.07/1.4.00/

AMPHORA - NÁSTROJ PRO INDEXOVÁNÍ WEBOVÝCH STRÁNEK.

Středoškolská technika SCI-Lab


Espacenet

Vyhledávání a georeferencování map

InternetovéTechnologie

Uživatelský návod Historiana

KTE / PPEL Počítačová podpora v elektrotechnice

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Google Web Toolkit. Martin Šurkovský, SUR března Katedra informatiky

Anotace. Klíčová slova. 1. Úvod

Digitalizace a digitální knihovny v České republice

MapleCloud a jeho použ ití. Vladimír Žák

DESET LET S THESES.CZ Ing. Jitka Brandejsová

si.shimano.com Uživatelský návod

Pro vnitřní potřeby KSČM vypracoval Aleš Kejval lekce 3: VYHLEDÁVAČ(E) je:

RETROBI Softwarová aplikace pro zpřístupnění digitalizované lístkové kartotéky Retrospektivní bibliografie české literatury

Vyučovací předmět: informatika a výpočetní technika

InternetovéTechnologie

OptimiDoc dokáže takové dokumenty zpracovat a distribuovat napříč firmou.

InternetovéTechnologie

NOVÉ ONLINE SLUŽBY NÁRODNÍ LÉKAŘSKÉ KNIHOVNY Filip Kříž, Lenka Maixnerová, Ondřej Horsák

Nástroj pro monitorování a analýzu českého internetu a sociálních médií

Učební osnovy Vzdělávací oblast: Matematika a její aplikace Vzdělávací obor: Matematický kroužek pro nadané žáky ročník 9.

Manuscriptorium jako základ pro virtuální badatelské prostředí

Pro přístup k aplikaci Bristol-Myers Squibb pro vyhledávání faktur, spusťte Internetový prohlížeč.

Domino 10 nové komponenty a související témata (node.js, ES )

rychlý vývoj webových aplikací nezávislých na platformě Jiří Kosek

Digitalizace a oběh dokumentů VUMS LEGEND, spol. s.r.o.

Vyhledávání v citační databázi Web of Science (WOS)

Michal Krátký, Miroslav Beneš

Jak definovat pravidlo pro více buněk naráz

Česká digitální matematická knihovna vznik, fungování a vyhlídky

Metodika korelační analýzy výsledků vyhledávače Seznam.cz

DIGITÁLNÍ KNIHOVNY, JEJICH ORGANIZACE A SLUŽBY

Metadata, sémantika a sémantický web. Ing. Vilém Sklenák, CSc.

kuncova/, 2x + 3 (x 2)(x + 5) = A x 2 + B Přenásobením této rovnice (x 2)(x + 5) dostaneme rovnost

Transkript:

Indexování a vyhledávání matematických formulí Vlastimil Krejčíř, krejcir@ics.muni.cz Inforum 2018, 29. 30. května 2018, Praha V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 1 / 25

Kvíz: poznej rovnici V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 2 / 25

Motivace Jak to vlastně začalo? Rok 2005: Česká digitální matematická knihovna (DML-CZ). Rok 2008: Evropská digitální matematická knihovna (EuDML). Přirozeně vyvstala otázka: A co hledání matematických formulí? Normální plnotextové hledání na formulích nefunguje. V matematice jsou myšlenky vyjádřeny formulemi. Matematikům (a příbuzným disciplínám) to může přinést prospěch. (Je to zajímavý problém, pojďme se tím zabývat.) V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 3 / 25

Motivace II Q: What functionality and incentives would made a working mathematician to login and use a modern DML as EuDML? A: Math formulae search. Prof. James Davenport, CEIC member, MKM 2011 PC chair, on panel at DML 2011 workshop in Bertinoro as a reply. V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 4 / 25

Jak na to Hledáme odpovědi na následující otázky: Proč matematika nefunguje na normálním vyhledávání? Jak to tedy vyřešit? Jak zakódovat matematické formule, aby byly strojově zpracovatelné? Jak matematické formule extrahovat z textů (např. historických skenovaných)? Jak získané matematické formule indexovat a následně porovnávat? Jakým způsobem zapsat formuli jako vyhledávací dotaz? Jak třídit a vážit výsledky vyhledávání? V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 5 / 25

Jak funguje běžné vyhledávání běžné vyhledávání v textu je snadné známé algoritmy, dostupný software umí to téměř každý informační systém nebo web V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 6 / 25

= = = = = = = = = = = Jak funguje běžné vyhledávání II Příklad: hledám informace o konferenci Inforum 2018 do Google zadám text Inforum 2018 Google jej porovnává s obsahem svého indexu který si průběžně buduje procházením webu např. text Inforum 2018 je na URL https://www.inforum.cz/ počítač (Google) porovnává způsobem znak po znaku: I n f o r u m 2 0 1 8 (hledaný dotaz) se rovná I n f o r u m 2 0 1 8 (index Googlu) V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 7 / 25

Matematika a textové vyhledávání Uvedené normální textové porovnávání u matematiky selhává. Matematika používá abstraktní symboly (proměnné), operace, čísla,... Formule vyjadřující jednu myšlenku lze zapsat různými způsoby, ale stále to bude pro člověka totéž. Pro počítač to z pohledu textového vyhledávání totéž není! V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 8 / 25

Příklad s čísly 0, 5 = 1 2 = 2 1 8 = 2 2 Google má v indexu modrý zápis ve zlomku, uživatel zadal dotaz červeně, porovnáváme znak po znaku: znak 0 znak 1, znak, znak -, Již první znak nesouhlasí! Google nic nenašel, ale měl by V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 9 / 25

Příklad: známé vzorce Pythagorova věta a 2 + b 2 = c 2 V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 10 / 25

Příklad: známé vzorce Pythagorova věta je totéž co a 2 + b 2 = c 2 b 2 + a 2 = c 2 V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 10 / 25

Příklad: známé vzorce Pythagorova věta je totéž co je totéž co a 2 + b 2 = c 2 b 2 + a 2 = c 2 x 2 + y 2 = z 2 V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 10 / 25

Příklad: známé vzorce Pythagorova věta a 2 + b 2 = c 2 je totéž co b 2 + a 2 = c 2 je totéž co x 2 + y 2 = z 2 a jsou to speciální případy Velké Fermatovy věty a n + b n = c n Doporučuji knihu: Simon Singh: Velká Fermatova věta V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 10 / 25

Jak zakódovat matematiku: MathML MathML: reprezentace formule v XML, v podstatě se jedná o HTML zápis matematiky (současné prohlížeče MathML znají) <math> <mfrac> <mn>1</mn> <msup> <mi mathvariant="bold">x</mi> <mn>2</mn> </msup> </mfrac> </math> 1 x 2 V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 11 / 25

Jak získat matematiku ve formě MathML Jak extrahovat matematické vzorce z existující literatury a zakódovat je do MathML: velmi obtížná úloha tištěné a digitalizované materiály Infty Reader (speciální forma OCR) born-digital publikace L A TEXML nástroje pracující přímo s MathML MATLAB rovnou psát v MathML V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 12 / 25

Jak získané matematické formule indexovat a následně porovnávat? formule se rozloží na části (podformule) proměnné a čísla (konstanty) se unifikují, tj. nahradí zástupným symbolem Všechny varianty Pythagorovy věty (např. a 2 + b 2 = c 2 ) nakonec dopadnou přibližně takto: var1 const1 + var2 const1 = var3 const1 V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 13 / 25

Jak zadávat dotazy? matematici jsou uvyklí na systém LATEX, formuli tedy napíší pomocí známé notace tohoto systému píší přímo do vyhledávacího formuláře v prohlížeči (v systému, který matematické hledání podporuje, viz dále) formule je převedena pomocí software LATEXML do MathML a zároveň se při zadávání formule hned vykresluje (systém MathJax) Ukázka z webu EuDML (Evropské digitální matematické knihovny) V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 14 / 25

Porovnání dotazu a indexu Formule dotazovaná uživatelem se zpracuje stejným procesem, jakým se formule indexují. Tj. provede se její rozložení a unifikace. Uživatel se dotazuje na Pythagorovu větu x 2 + y 2 = z 2, ta po zpracování vypadá následovně: var1 const1 + var2 const1 = var3 const1 V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 15 / 25

Porovnání dotazu a indexu Formule dotazovaná uživatelem se zpracuje stejným procesem, jakým se formule indexují. Tj. provede se její rozložení a unifikace. Uživatel se dotazuje na Pythagorovu větu x 2 + y 2 = z 2, ta po zpracování vypadá následovně: var1 const1 + var2 const1 = var3 const1 a v indexu dle formule a 2 + b 2 = c 2 (viz dva slajdy zpět) máme var1 const1 + var2 const1 = var3 const1 V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 15 / 25

Porovnání dotazu a indexu Formule dotazovaná uživatelem se zpracuje stejným procesem, jakým se formule indexují. Tj. provede se její rozložení a unifikace. Uživatel se dotazuje na Pythagorovu větu x 2 + y 2 = z 2, ta po zpracování vypadá následovně: var1 const1 + var2 const1 = var3 const1 a v indexu dle formule a 2 + b 2 = c 2 (viz dva slajdy zpět) máme tedy máme totožné formule! var1 const1 + var2 const1 = var3 const1 V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 15 / 25

Jak třídit a porovnávat výsledky hledání? výsledků hledání je obvykle více je nutné je setřídit dle relevance kromě unifikovaného zápisu se indexují i původní varianty proměnných a jejich pořadí pokud se dotaz shoduje s indexem i v názvech proměnných a jejich pořadí, pak tento záznam má větší relevanci dostává se ve výsledcích hledání na vyšší pozice V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 16 / 25

MIaS: teorie uvedená do praxe MIaS (Math Indexer and Searcher) je volně dostupný open-source software (v jazyce Java) vyvinutý na Fakultě informatiky Masarykovy univerzity, který implementuje předchozí nastíněné techniky a postupy. Technická poznámka pro zvědavé: Z technického hlediska je situace komplikovanější. MIaS používá search engine SOLR a unifikované formule kóduje do tzv. M-Termů, které již umí SOLR přijmout jako prosté textové řetězce. Příklad M-termu: F(N(1)J(I[V=B](1)N(2))) V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 17 / 25

MIaS: schéma pro zájemce indexing canonicalization math processing indexing x y + y 3 searching y 2 +x y ordering x y + y 3 x y + y 2 tokenization x y + y 3, x y, y 3, x, y, 3, + weighting variables unification constants unification x y + y 3, x y, y 3, x, y, 3, +, id 1 id 2+id 2 3, id 1 id 2, id 1 3 x y + y 3, x y, y 3, x, y, 3, +, id 1 id 2+id 2 3, id 1 id 2, id1 3, x y + y const, y const, id 1 id 2+id2 const, id 1 const x y + y 2, id 1 id 2+id2 2 x y + y 2, id 1 id 2+id2 2, x y + y const, id 1 id 2+id2 const attributes handling searching x y + y const, id 1 id 2+id2 const Match! V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 18 / 25

Jak to vypadá v praxi navržené postupy poměrně dobře fungují klíčový problém je získání vstupních dat (zejména pomocí OCR) Nasazené systémy: WebMIaS (webové rozhraní systému MIaS) používá kvalitní vstupní data z arxiv.org EuDML Evropská digitální matematická knihovna DML-CZ (na systému DSpace) technicky jsme zvládli, není veřejně nasazeno pro nekvalitní vstupní data z OCR V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 19 / 25

Příklad WebMIaS Data (matematické formule) vzaty z arxiv.org V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 20 / 25

Jiný příklad WebMIaS Data (matematické formule) vzaty z arxiv.org V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 21 / 25

Vývojový tým MIR Problematiku matematického indexování a vyhledávání řeší výzkumný tým MIR (Maths Information Retrieval) na Fakultě informatiky Masarykovy univerzity: Petr Sojka Martin Líška Michal Růžička V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 22 / 25

Odkazy Domovská stránka týmu MIR: https://mir.fi.muni.cz/ WebMIaS: https://mir.fi.muni.cz/webmias-demo/ EuDML (rozšířené vyhledávání matematiky): https://eudml.org/search V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 23 / 25

Máte-li otázky, sem s nimi :-) V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 24 / 25

Kvíz II: pejsek a kočička v praxi V. Krejčíř Indexování a vyhledávání matematických formulí Inforum 2018 25 / 25