Regulární výrazy Motto: Programátor musel jednou řešit zajímavý problém. Rozhodl se jej vyřešit použitím regulárních výrazů. Nyní musel řešit dva problémy. Rudolf Pecinovský rudolf@pecinovsky.cz Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 1 z 59
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 2 z 59 Obsah 1. Základní seznámení 2. Ověření správnosti navržených výrazů 3. Základní syntaxe vzorů regulárních výrazů 4. Nahrazování textu 5. Pokročilejší syntaxe 6. Použití regulárních výrazů v programu 7. Zdroje
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 3 z 59 1. Základní seznámení Obsah 1.1 Co to je 1.2 Datové typy používané při práci s regulárními výrazy 1.3 Princip použití
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 4 z 59 1.1 Co to je Nejsou regulérní, ale opravdu regulární Zavedené ve verzi 1.4, ale každá další verze je trochu vylepšila Regulární výraz = řetězec popisující vzor (předpis), podle nějž se: Rozhoduje o správné podobě zadaného řetězce V zadaném řetězci se vyhledává řetězec popsaný vzorem V zadaném řetězci se nahrazují výskyty řetězce popsaného jedním vzorem řetězcem popsaným jiným vzorem Příklady využití Validaci vstupů, kontroly formátu dat Dělení řetězce na části podle složitějších kritérií Vyhledávání specifikovaných textů v rozsáhlejších textech Hromadné vyhledávání a nahrazování Hromadné přejmenovávání souborů
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 5 z 59 1.2 Datové typy používané při práci s regulárními výrazy Všechny jsou definovány v balíčku java.util.regex Pattern vnitřní reprezentace programu definovaného daným regulárním výrazem; podle názvu třídy je označován jako pattern vzor MatchResult Rozhraní definující sadu zpráv, na něž musí umět reagovat výsledek hledání Matcher výsledek aplikace programu (vzoru) na zadaný text Implementuje rozhraní MatchResult, ale nabízí ještě další metody PatternSyntaxException výjimka popisující vzniklý problém
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 6 z 59 1.3 Princip použití 1. Uživatel (programátor) definuje zdrojový kód programu = regulární výraz 2. Výraz se přeloží a získá se jeho vnitřní reprezentace, tzv. vzor (pattern) instance třídy java.util.regex.pattern 3. Program aplikujeme na zadaný text a získáme výsledek hledání, který je instancí třídy java.util.regex.matcher 4. Této instance se pak můžeme ptát na nejrůznější informace o výsledku hledání získaného aplikací programu (regulárního výrazu) na zadaný text. Pattern p = Pattern.compile("a*b"); //Vnitřní reprezentace výrazu Matcher m = p.matcher("aaaaab"); boolean b = m.matches(); //Anebo zkráceně boolean c = Pattern.matches("a*b", "aaaaab");
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 7 z 59 2. Ověření správnosti navržených výrazů Obsah 2.1 Možnosti předběžného ověření správnosti vzorů 2.2 Desktopový program 2.3 On-line ověřovač 2.4 Jednoduchý testovací program
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 8 z 59 2.1 Možnosti předběžného ověření správnosti vzorů Regulární výrazy bývají často velmi nepřehledné, a proto je při jejich návrhu velmi vhodné mít možnost si vše někde stranou nezávazně vyzkoušet Testovací program je sice jednoduchý, ale stejně dobře můžete použít i předpřipravené jednoúčelové testery, kterých je plný internet; Mnohé z nich lze získat zdarma Další řada z nich pracuje v on-line režimu, takže ani nepotřebujete příslušné prostředí Při výběru testovacího programu je třeba dát pozor na to, aby pracoval se regulárními výrazy platnými pro vaši platformu (Java, JavaScript,.NET, PHP, Python, Perl, Ruby, ) Programy na následujících stránkách pracují s regulárními výrazy podle definice platformy Java
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 9 z 59 2.2 Desktopový program Jednoduchý program, který najdete na disku I:
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 10 z 59 2.3 On-line ověřovač Aplet dostupný na adrese http:www.myregexp.com/signedjar.html
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 11 z 59 2.4 Jednoduchý testovací program Ekvivalent následujícího programu si můžete napsat sami /*************************************************************************** * V zadaném textu najde a vypíše všechny nalezené výskyty * textu odpovídajícho zadanému regulárnímu výrazu. * @param regexp Regulární výraz definující hledaný text * @param text Prohledávaný text */ public static void findall(string regexp, String text) { System.out.printf("Text: %s%nreg.exp.: %s%n", regexp, text); Pattern pattern = Pattern.compile(regExp); Matcher matcher = pattern.matcher(text); } int i = 0; while (matcher.find()) { System.out.printf ("%2d. [%2d..%2d] «%s»%n", ++i, matcher.start(), matcher.end(), matcher.group()); }
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 12 z 59 3. Základní syntaxe vzorů regulárních výrazů Obsah 3.1 Jednotlivé znaky 3.2 Množiny znaků 3.2.1 Příklad 1 3.2.2 Příklad 2 3.3 Skupinové znaky 3.4 Hranice 3.4.1 Hranice ve víceřádkovém režimu 3.5 Práce se skupinami 3.5.1 Příklad 3.5.2 Pojmenované skupiny 3.6 Kvantifikátory (počet opakování) 3.6.1 Agresivita kvantifikátorů 3.7 Další operátory
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 13 z 59 3.1 Jednotlivé znaky S výjimkou znaků speciálního určení vystupuje každý znak sám za sebe Platí i escape-sekvence Javy: \\ \uhhhh \t \n \r \f \a \' \" Pro znak Escape (\u001b) lze použít \e Řídící znaky typu Ctrl+X je možno zadávat ve tvaru \cx Znak s kódem do 127 lze zadat také pomocí pouhých dvou číslic: \xhh V osmičkové soustavě lze znaky zadat jednou až třemi číslicemi: \0o \0oo \0ooo Znaky. ^ +? * $ ( [ { } ] ) vystupují jako metaznaky, takže chceme-li je zadat, musíme před nimi uvést zpětné lomítko např. \. Příklady text: Okolo "Hradce" v male zahradce Vzor: ad 1. [ 9..11] «ad» 2. [26..28] «ad» Vzor: \u0020\x22 1. [ 5.. 7] «"» Vzor: \x20 1. [ 5.. 6] 2. [12..13] 3. [14..15] 4. [19..20]
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 14 z 59 3.2 Množiny znaků [abc] Jeden ze znaků uvnitř závorek (zde a či b či c) POZOR! Uvnitř závorek se mění význam většiny metaznaků, které zde označují pouze samy sebe [^abc] Žádný ze znaků uvnitř závorek (cokoliv vyjma znaků a či b či c) [a za Z] Rozsah znaků (zde znaky a až z a znaky A až Z včetně) [a d[m p]] Sjednocení (zde znaky a až d nebo znaky m až p) [a z&&[^qw]] Průnik (zde znaky a až z s výjimkou znaků q a w) [a z&&[^m p]] Průnik (zde znaky a až z s výjimkou znaků m až p)
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 15 z 59 3.2.1 Příklad 1 Text: Okolo "Hradce" v male zahradce Vzor: o[^o] 1. [ 2.. 4] «ol» 2. [ 4.. 6] «o» Vzor: [A Z] 1. [ 0.. 1] «O» 2. [ 6.. 7] «H» Vzor: [ ][^A Z][a z] 1. [14..17] «ma» 2. [19..22] «za»
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 16 z 59 3.2.2 Příklad 2 Text : Příliš žluťoučký kůň úpěl ďábelské ódy Vzor: [^\x00 \xff] znaky s diakritikou, které nejsou v západoevropské znakové sadě 1. [ 1.. 2] «ř» 2. [ 5.. 6] «š» 3. [ 7.. 8] «ž» 4. [10..11] «ť» 5. [13..14] «č» 6. [18..19] «ů» 7. [19..20] «ň» 8. [23..24] «ě» 9. [26..27] «ď» Chcete-li v množině povolených znaků uvést také znak (minus), musíte jej zadat buď jako poslední nebo jako escape sekvenci \
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 17 z 59 3.3 Skupinové znaky. (tečka) Libovolný znak (uvnitř hranatých závorek však zastupuje jen sama sebe) \d Číslice, tj. [0 9] \D NEčíslice, tj. [^0 9] \s Bílý znak, tj. mezera, tabulátor, konec řádku, konec stránky \S NE bílý znak \w Znak [A Za z0 9_] \W Znak [^\w] Text: Okolo "Hradce" v male zahradce Vzor: \S\s\S 1: [ 4.. 7] «o "» 2: [13..16] «" v» 3: [20..23] «e z» Vzor:..\s.. 1: [ 3.. 8] «lo "H» 2: [12..17] «e" v» 3: [19..24] «le za» Vzor: \w\w\w\w 1: [ 4.. 8] «o "H» 2: [12..16] «e" v»
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 18 z 59 3.4 Hranice ^ Začátek řádku $ Konec řádku \b Hranice slova \B Není hranice slova \Q Začátek citace od tohoto místa přestávají platit metaznaky \E Konec citace opět začínají platit metaznaky \A Začátek vstupu \z Konec vstupu \Z Konec vstupu bez ukončovacího znaku \G Konec předchozí nalezené skupiny
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 19 z 59 Text: Okolo Hradce v malé zahrádce Vzor: \b\w+\b 1. [ 0.. 5] «Okolo» 2. [ 6..12] «Hradce» 3. [13..14] «v» Vzor: \b.a\s* 1. [15..19] «malé» 2. [20..28] «zahrádce» Vzor:...[eé]\b 1. [ 8..12] «adce» 2. [15..19] «malé» 3. [24..28] «ádce»
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 20 z 59 3.4.1 Hranice ve víceřádkovém režimu Znaky ^ a $ implicitně ignorují ukončení řádků a označují jen jejich začátek a konec, resp. u víceřádkových vstupů začátek a konec celého textu V režimu MULTILINE se jejich význam poněkud mění: ^ označuje pozici na počátku vstupu a za každým ukončením řádku s výjimkou konce vstupu $ označuje pozice před ukončeními řádků a pozici na konci celého vstupu
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 21 z 59 3.5 Práce se skupinami Skupiny jsou části výrazu uzavřené do kulatých závorek Chceme-li v textu hledat kulatou závorku, musím ji uvést zpětným lomítkem \( Skupiny je možno vnořovat Skupiny se označují svým pořadím, přičemž pořadí skupiny se počítá podle její otevírací závorky Java 7 zavedla možnost skupiny pojmenovat Výraz: ((A)(B(C)))(D) obsahuje následující skupiny: 0. ((A)(B(C)))(D) 1. ((A)(B(C))) 2. (A) 3. (B(C)) 4. (C) 5. (D) \n Obsah n-té skupiny Při nahrazování se na danou skupinu odvolává výrazem $n V Javě se nelze odvolávat na skupinu s pořadovým číslem >9, při více skupinách je nutno skupiny pojmenovávat viz dále pasáž Pojmenované skupiny
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 22 z 59 3.5.1 Příklad Vzor pro kontrolu zadání data: \b\d{1,2}([./ ])\d{1,2}\1\d{4}\b Ověří, že mezi dnem a měsícem a mezi měsícem a rokem je stejný oddělovač tečka, pomlčka nebo lomítko. Text: 1.2.3456 2,3,4567 23 4 5678 4.5 6789 15/12/7890 123 45 6789 Hledání 1. [ 0-8] «1.2.3456» 2. [ 20-28] «23 4 5678» 3. [ 41-49] «15/12/7890» Oddělovač 1. [ 0-0] 2. [ 12-12] «2,3,4567» 3. [ 12-12] «4.5 6789» 4. [ 12-12] «123 45 6789»
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 23 z 59 3.5.2 Pojmenované skupiny Od verze 7.0 zavádí Java možnost definovat pojmenované skupiny, tj. skupiny, které lze pojmenovat a poté se na ně odkazovat jménem (?<jméno> ) Pojmenovaná skupina, pojmenování uzavíráme do špičatých závorek za úvodním otazníkem /k<jméno> Odvolávka na dříve se vyskytnuvší pojmenovanou skupinu ve vyhledávacím vzoru Vzor pro kontrolu zadání data nazveme-li skupinu obsahující oddělovač odd, získá výraz z předchozí části podobu: \d{1,2}(?<odd>[.\ /])\d{1,2}\k<odd>\d{4} Na pojmenované skupiny se nadále můžeme odvolávat i jejich indexem Výhody pojmenování oproti indexování Pojmenovaných skupin může být více než 9 Vložíme-li do výrazu další skupinu či z něj nějakou vyjmeme, odkazy na pojmenované skupiny upravovat nemusíme
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 24 z 59 3.6 Kvantifikátory (počet opakování)? 0 nebo 1 výskyt předchozího znaku + 1 a více výskytů předchozího znaku * Libovolný počet výskytů předchozího znaku (včetně 0) {n} Přesně n opakování předchozího znaku {n,} Minimálně n opakování předchozího znaku {m,n} Minimálně m a maximálně n opakování předchozího znaku Uvnitř hranatých závorek vystupují? + * jako obyčejné znaky Text: Příliš žluťoučký kůň úpěl ďábelské ódy Vzor: [\x00 \x7f&&[^ ]]{2,} výsledek je tomto případě ekvivalentní aplikaci vzoru \w{2,} 1: [ 3.. 5] «li» 2: [ 8..10] «lu» 3: [11..13] «ou» 4: [28..33] «belsk» 5: [36..38] «dy» Vzor: \s\s+\s (vzhledem k zahrnutým mezerám se musí nejprve najít další mezera) 1: [ 6..17] «žluťoučký» 2: [20..26] «úpěl»
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 25 z 59 3.6.1 Agresivita kvantifikátorů Přidáme-li za kvantifikátor znak?, převedeme kvantifikátor na zdráhavý (reluctant); ten zabere minimální počet znaků požadovaných vzorem Zdráhavé kvantifikátory se někdy označují jako líné lazy Standardní kvantifikátory jsou označovány jako hladové (greedy), protože spolknou všechny akceptovatelné znaky; pokud by však jejich hladovost měla být příčinou nevyhovění vzoru, jsou ochotny část spolknutých znaků vrátit Přidáme-li za kvantifikátor znak +, převedeme jej na lakomý (possessive); ten pracuje zpočátku stejně jako hladový, ale co jednou schvátí, to už nenavrátí Text: Okolo Hradce v male zahradce Zdráhavý vzor: ([aeo]).*?\1 1. [ 2-5] «olo» 2. [ 8-17] «adce v ma» 3. [ 18-28] «e zahradce» Hladový vzor: ([aeo]).*\1 1. [ 2-5] «olo» 2. [ 8-25] «adce v male zahra» Lakomý vzor: ([aeo]).*+\1 Nic nenalezeno
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 26 z 59 3.7 Další operátory XY X Y Znaky X a Y musí jít za sebou, Buď X nebo Y, kde za X a Y můžeme dosadit nejen znaky, ale i jejich posloupnosti a skupiny znaků \ Další znak nebude považován za metaznak \Q Další znaky až po \E budou citovány, tj. nebudou považovány za metaznaky \E Konec citace Navrhněte vzor, který by zkontroloval pořadové číslo měsíce (nezkontroluje jeho správnost, ale pouze to, že za ně lze dané číslo považovat) \b((1[012]) [1 9])\b Obdobně bychom mohli navrhnout výraz kontrolující základní pravidla pro číslo dne: \b((3[01]) ([12][0 9]) [1 9])\b
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 27 z 59 4. Nahrazování textu Obsah 4.1 Základy 4.1.1 Příklad: Datum 4.1.2 Příklad: Záměna křestních jmen a příjmení
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 28 z 59 4.1 Základy V nahrazovacím regulárním výrazu uvedeme, čím budeme chtít nahradit každý nalezený text odpovídající hledanému výrazu Na skupiny znaků v nalezeném se můžeme odvolávat pomocí $n, kde n je číslo skupiny, jejíž nalezený text chceme na daném místě použít Na pojmenované skupiny se odkazujeme výrazem ${název}
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 29 z 59 4.1.1 Příklad: Datum Úkol: Standardizovat tečku jako oddělovač použitý v datech Hledat: \b(\d{1,2})([./ ])(\d{1,2})\2(\d{4})\b Nahradit: $1.$3.$4 Text: 1.2.3456 2,3,4567 3 4 5678 4.5 6789 5/6/7890 123 45 6789 Výsledek: 1.2.3456 2,3,4567 3.4.5678 4.5 6789 5.6.7890 123 45 6789 Kdybychom skupinu se separátorem oddělujícím části data v předchozím příkladu označili sep (separátor), vypadal by vyhledávací vzor Hledat: \b(\d{1,2})(?<sep>[./ ])(\d{1,2})\k<sep>(\d{4})\b Zbytek se shoduje
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 30 z 59 4.1.2 Příklad: Záměna křestních jmen a příjmení Bez pojmenovaných skupin: Hledat: ((\w+)(\s+(\w+))?)\s+(\w+) Nahradit: $5 $1 Text: John Fitzgerald Kennedy, Elton John, Martin Luther King Výsledek: Kennedy John Fitzgerald, John Elton, King Martin Luther Pokud skupinu pro příjmení pojmenujeme: Hledat: ((\w+)(\s+(\w+))?)\s+(?<surname>\w+) Nahradit: ${surname} $1 Text i výsledek jsou shodné Uvedený výraz ale nelze použít pro znaky s diakritikou; jak na to bude vysvětleno dále
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 31 z 59 5. Pokročilejší syntaxe Obsah 5.1 Speciální režimy a třídy znaků 5.1.1 Nastavení a zrušení speciálních režimů 5.2 Třídy znaků 5.2.1 Příklad: Záměna křestních jmen a příjmení s diakritikou 5.3 Nezachytávající skupiny (?: ) 5.3.1 Příklad 5.4 Nahlížení vpřed či vzad 5.4.1 Příklad: prohození křestního jména (křestních jmen) a příjmení
5.1 Speciální režimy a třídy znaků d UNIX_LINES Jako konec řádku pro metaznaky. ^ $ se bude rozpoznávat pouze znak \n i CASE_INSENSITIVE Při vyhledávání se přestane rozlišovat velikost znaků m MULTILINE Zapíná jinou interpretaci znaků ^ a $. Při zapnutí režimu definují pozice v okolí konců řádků, při vypnutém označují pouze začátek a konec celé sekvence s DOTALL V tomto režimu představuje metaznak tečka opravdu všechny znaky včetně konců řádků, které v běžném režimu nezahrnuje. u UNICODE_CASE V režimu CASE_INSENSITIVE se budou považovat velká a malá písmena za shodná podle definic normy Unicode. Standardně to platí jen pro ASCII znaky U UNICODE_CHARACTER_CLASS Při nastavení režimu se budou třídy znaků klasifikovat podle Unicode Standard #18 x COMMENTS Umožní vkládání komentářů začínajících znakem # a končících na konci řádku Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 32 z 59
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 33 z 59 5.1.1 Nastavení a zrušení speciálních režimů Uvnitř regulárního výrazu se režimy nastavují a vypínají pomocí sekvence (?idmsuxu idmsuxu) v níž se uvádějí na předchozí stránce vypsané znaky pro nastavení, resp. vypnutí (pak předchází znak ) příslušného režimu Režim lze zapnout či vypnout i pouze pro určitou skupinu pomocí sekvence (?idmsuxu idmsuxu:xxx) kde XXX představuje danou skupinu Nastavení režimu se neřadí mezi zachytávané skupiny, a proto se jejich závorky nepočítají Text: Okolo Hradce v malé zahrádce Vzor: hr 1. [22-24] «hr» Vzor: (?i)hr 1. [ 6-8] «Hr» 2. [22-24] «hr»
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 34 z 59 5.2 Třídy znaků \p{lower} Malá písmena \p{ Upper} Velká písmena \p{ ASCII} Znaky ASCII [\x00 \x7f] \p{alpha} Písmena: [\p{lower}\p{upper}] \p{digit} Dekadické číslice: [0 9] \p{alnum} Alfanumerické znaky: [\p{alpha}\p{digit}] \p{punct} Oddělovače Jeden ze znaků!"#$%&'()*+,./:;<=>?@[\]^_`{ }~ \p{graph} Viditelné znaky: [\p{alnum}\p{punct}] \p{print} Tisknutelné znaky: [\p{graph}\x20] \p{blank} Mezera nebo tabulátor: [ \t] \p{cntrl} Řídící znaky: [\x00 \x1f\x7f] \p{xdigit } Hexadecimální číslice: [0 9a fa F] \p{space } Bílý znak: [ \t\n\x0b\f\r]
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 35 z 59 5.2.1 Příklad: Záměna křestních jmen a příjmení s diakritikou Opět prohazujeme křestní jména a příjmení, ale tentokrát chceme aplikovat nahrazování i pro jména obsahující znaky s diakritikou Hledat: (?U:((\p{Alpha}+)(\s+(\p{Alpha}+))?)\s+(?<surname>\p{Alpha}+)) Nahradit: ${surname} $1 Text: John Fitzgerald Kennedy, Elton John, Josef Václav Sládek, Přemysl Oráč Výsledek: Kennedy John Fitzgerald, John Elton, Sládek Josef Václav, Oráč Přemysl
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 36 z 59 5.3 Nezachytávající skupiny (?: ) Doposud probírané skupiny byly zachytávané Zachytávané skupiny se tak jmenují proto, že jejich obsah je zachycen a uložen pro případné budoucí použití. Nezachytávané skupiny specifikují pouze pozici v prohledávaném textu, přičemž tato pozice je určena zadaným výrazem Nezachytávané skupiny se nepočítají, protože se na ně stejně nedá odkazovat, při odkazu na nějakou předchozí skupinu se počítají pouze ty zachytávané Někdy potřebujeme ověřit, že nějaká skupina v prohledávaném textu je, ale nebudeme ji pak už potřebovat, takže si ji ani nemusíme pamatovat Nemusíme-li si skupinu pamatovat, můžeme tím zefektivnit vyhledávání To, že se nečíslují, se hodí v případě více skupin
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 37 z 59 5.3.1 Příklad Text: 1.2.3456 2,3,4567 3.4.5678 4.5 6789 5.6.7890 12.3.4567 12/34/5678 30 12 9876 Budeme-li chtít ověřit základní pravidla zápisu data, může mít vzor tvar:: \b((?:3[01]) (?:[12][0 9]) [1 9])([./ ])((?:1[012]) [1 9])\2(\d{4})\b 1. [ 1-9] «1.2.3456» 2. [ 21-29] «3.4.5678» 3. [ 41-49] «5.6.7890» 4. [ 50-59] «12.3.4567» 5. [ 72-82] «30 12 9876» Pro sjednocení oddělovačů použijeme nahrazovací výraz: $1;$3;$4 1;2;3456 2,3,4567 3;4;5678 4.5 6789 5;6;7890 12;3;4567 12/34/5678 30;12;9876
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 38 z 59 5.4 Nahlížení vpřed či vzad V řadě případů může být naše další rozhodování ovlivněno tím, jestli jsme již narazili na nějaký text anebo jestli na něj v budoucnu narazíme k takovémuto nahlížení slouží konstrukce: (?= ) Pozitivní náhled vpřed (?! ) Negativní náhled vpřed (?<= ) Pozitivní náhled vzad (?<! ) Negativní náhled vzad Pozitivní náhled povolí interpretaci další částí regulárního výrazu v případě, kdy se v daném směru popsaný text vyskytuje, negativní náhled v případě, kdy se popsaný text v daném směru nevyskytuje Náhledy text nekonzumují, pouze zjistí přítomnost či nepřítomnost textu, takže se tento text může stát součástí dalšího zpracování Vhodným použitím náhledů můžeme např. specifikovat pozici, kam se bude vkládat nějaký text Prozkoumávací skupiny probíráme až teď, protože se uplatní především při nahrazování textu
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 39 z 59 5.4.1 Příklad: prohození křestního jména (křestních jmen) a příjmení Text: 12345678 chceme do něj vložit oddělovače tisíců Hledat: (\d)(?=(\d\d\d)+(?!\d)) Nahradit: $1, Text: 123; 1234; 12345; 123456; 1234567; 12345678; 123456789 Výsledek: 123; 1,234; 12,345; 123,456; 1,234,567; 12,345,678; 123,456,789
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 40 z 59 5.5 Atomická nezachytávaná skupina Syntaxe: (?> ) Atomická skupina se chová podobně jako lakomý kvantifikátor: jakmile je tato skupina v textu nalezena, už takovou navždy zůstane, jinými slovy už z ní nebude možno něco odebrat, aby celý výraz vyšel Výhodou lakomých kvantifikátorů oproti atomickým skupinám je to, že lakomé kvantifikátory lze lépe optimalizovat
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 41 z 59 6. Použití regulárních výrazů v programu Obsah 5.1 Třída Pattern 5.1.1 Metody třídy Pattern 5.1.2 Příznaky ovlivňující překlad veřejné atributy třídy Pattern 5.1.3 Rozdělení řetězce na částí 5.1.4 Ostatní metody instancí třídy Pattern 5.2 Rozhraní MatchResult 5.3 Třída Matcher 5.3.1 Metody řídící vyhledávání 5.3.2 Ovlivnění chodu vyhledávače 5.3.3 Nahrazováni 5.4 Příklady 5.4.1 Vodácký pokřik 5.4.2 5.4.3 Rozdělení textu na slova 5.4.4
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 42 z 59 6.1 Třída Pattern Instance třídy Pattern představují vnitřní reprezentace přeložených regulárních výrazů Každý regulární výraz musí být před použitím přeložen Teprve přeložený regulární výraz můžeme požádat o poskytnutí vyhledávače (matcher), který bude analyzovat dodaný text
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 43 z 59 6.1.1 Metody třídy Pattern static Pattern compile(string regex) static Pattern compile(string regex, int flags) Přeloží zadaný text a vytvoří nový vzor při respektování případných zadaných příznaků Příznaky jsou celá čísla s jediným, nahozeným bitem, takže je můžeme skládat prostřednictvím sčítání nebo bitového OR ( ) static boolean matches(string regex, CharSequence input) Přeloží zadaný regulární výraz regex a ověří, zda mu text input vyhovuje static String quote(string s) Vrátí text, jehož překladem vznikne vzor, kterému bude zadaný text vyhovovat
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 44 z 59 6.1.2 Příznaky ovlivňující překlad veřejné atributy třídy Pattern CANON_EQ Písmeno následované akcentem považuje za znak s daným akcentem CASE_INSENSITIVE Nedbá na velikost písmen COMMENTS Ignoruje mezery a povoluje komentáře začínající znakem # DOTALL V tomto režimu zastupuje znak. (tečka) také konce řádků (jinak ne) LITERAL Metaznaky považuje za normální znaky MULTILINE Umožňuje vyhledávat konce řádků
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 45 z 59 UNICODE_CASE Ignorace velikosti znaků odpovídá standardu Unicode UNICODE_CHARACTER_CLASS Novinka Javy 7 umožňuje, aby se do jednotlivých tříd započítávaly i znaky ze sady Unicode Toto nastavení může výrazně zpomalit vyhodnocování výrazů UNIX_LINES Za konec řádku je považován pouze \n
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 46 z 59 6.1.3 Rozdělení řetězce na částí String[] split(charsequence input) String[] split(charsequence inp, int limit) Vrátí pole podřetězců řetězců zadaného textu daným vzorem s respektováním pořadí. Neobsahuje-li text daný vzor, je vrácen celý. Parametr limit specifikuje maximální povolenou velikost pole, tj. počet vyhledávání daného vzoru v textu. Není-li kladný, není počet vracených řetězců omezen, tj. regulárním výrazem zadaný oddělovač se bude vyhledávat až do konce zadaného textu Je-li parametr limit kladný, je posledním vráceným řetězcem veškerý zbylý text za limit-ním nalezeným oddělovačem Předchozí metody lze vyvolat i prostřednictvím metod třídy String public String[] split(string regex) public String[] split(string regex, int limit) Vrátí pole řetězců obsažených v původním řetězci a oddělených texty odpovídajícími regulárnímu výrazu v parametru
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 47 z 59 6.1.4 Ostatní metody instancí třídy Pattern int flags() Vrátí číslo, z nějž lze odvodit nastavené příznaky Použití např.: if (pattern.flags() & Pattern.COMMENTS) { } Matcher matcher(charsequence input) Vytvoří vyhledávač vzoru v zadaném textu String pattern() String tostring() Vrátí text, jehož překladem vznikl daný vzor
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 48 z 59 6.2 Rozhraní MatchResult Instance tohoto rozhraní jsou výsledky aplikace vzoru na text. Jejich metody umožňují jistou analýzu obdrženého výsledku int end() int end(int group) Vrátí index znaku za posledním znakem nalezené/zadané skupiny String group() String group(int group) Vrátí další, resp. zadanou skupinu odpovídající vzoru int groupcount() Vrátí počet nalezených výskytů vzoru v textu int start() int start(int group) Vrátí index prvního znaku nalezené/zadané skupiny
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 49 z 59 6.3 Třída Matcher Instance třídy Matcher fungují jako interprety programu definovaného regulárním výrazem a pracujícími se zadaným textem jako zdrojem dat Při práci se používají tři metody: matches() zjišťuje, zda text přesně odpovídá vzoru lookingat() zjistí, zda je text odpovídající vzoru ve vstupním textu obsažen find() hledá případný další výskyt daného textu Vyhledávač (matcher) nemusí hledat v celém textu, ale lze mu zadat pouhé okénko region Vedle vyhledávání a kontrolování je vyhledávač schopen také ve vstupním textu nahrazovat jedny sekvence znaků jinými. Vyhledávač je možné resetovat a při té příležitosti mu zadat jiný vstupní text Instance vyhledávače nejsou vláknově bezpečné, při použití ve vícevláknových aplikacích je na to třeba myslet
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 50 z 59 6.3.1 Metody řídící vyhledávání boolean matches() Zjistí, jestli (celý) text v oblasti odpovídá danému vzoru boolean lookingat() Zjistí, jestli se v textu nachází pasáž odpovídající danému vzoru; hledá vždy od začátku oblasti boolean find() boolean find(int start) Pokusí se najít další pasáž odpovídající danému vzoru MatchResult tomatchresult() Vrátí objekt s informacemi o výsledcích porovnávání boolean hitend() Oznámí, zda bylo při posledním hledání dosaženo konce vstupu boolean requireend() Oznámí, zda by další vstupující text mohl ovlivnit úspěšnost nalezení textu odpovídajícího danému vzoru
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 51 z 59 6.3.2 Ovlivnění chodu vyhledávače Pattern pattern() Vrátí vzor, vůči němuž se prověřuje zadaný text Matcher usepattern(pattern newpattern) Změní vzor, který bude v textu vyhledáván, nemění se však aktuální pozice v prohledávaném textu Matcher region(int start, int end) Nastaví nové meze prohledávané oblasti v textu int regionend() Vrátí index konce prohledávané oblasti int regionstart() Vrátí index počátku prohledávané oblasti Matcher reset() Matcher reset(charsequence input) Resetuje vyhledávač, v druhém případě jej nastaví na zadaný text. Současně nastaví aktuální oblast (region) na celý text. Neovlivní nastavení ukotvení okrajů (viz dále)
Copyright Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 17:29 52 z 59 boolean hasanchoringbounds() Oznámí, zda má aktuální oblast ukotvené okraje, tj. zda lze její počátek označit metaznakem ^ a konec metaznakem $. boolean hastransparentbounds() Oznámí, zda má aktuální oblast průhledné okraje, tj. jestli dopředné či zpětné nahlédnutí (lookahead, lookbehind) vidí I za ně Matcher useanchoringbounds(boolean b) Nastaví (resp. zruší jejich nastavení) ukotvení okrajů Matcher usetransparentbounds(boolean b) Nastaví (resp. zruší jejich nastavení) průhlednosti okrajů