Petr Čech
Elektronická pošta: Nízké provozní náklady a možnost téměř okamžitého doručení: Elektronická pošta je ideální nástroj předávání nevyžádaných informací. Tak zvaná nevyžádaná pošta. Nevyžádanápošta dnes tvořívíce jak 60%všech přenášených zpráv. Petr Čech: Antispamový filtr 2
Problémy: Snížení pracovních výkonů nutnost třídit poštu Zvýšení zatížení poštovních serverů Zvýšení provozních nákladů Zhoršenívýhodných vlastnostíelektronicképošty jako služby to vše vyžaduje nalezení nějakého řešení Petr Čech: Antispamový filtr 3
Legislativníopatření: Na vládníúrovni definovanéprávnínormy (neefektivní) Obchodníopatření: zpoplatněním elektronické pošty nějakou minimální částkou (efektivní ale nepopulární) Chováníuživatelů: správným chováním vprostředíinternetu můžeme množství přijatých nevyžádaných správ výrazně snížit Technickáopatření Petr Čech: Antispamový filtr 4
Naivní metody Černé listiny Na internetu existuje několik tzv. černých listin odesilatelů Při příchodu každého dopisu je zaslán dotaz, zda stroj, od kterého je zpráva přijímána, nemá záznam v některé černé listině V kladném případě je taková pošta odmítnuta Např. projekt MAPS (Mail Abuse Prevention System) Petr Čech: Antispamový filtr 5
Metody identifikace nevyžádanépošty bez analýzy obsahu zpráv Rozpoznánípodezřelézprávy, anižby bylo třeba analyzovat obsah Např. metoda Greylisting: Poštovníserver při neúspěšném doručenízařadízprávu do fronty a po určitém čase se ji pokusídoručit znovu (oproti tomu rozesílače nevyžádanépošty zprávy rozesílajíjednorázově). Přijímacíserver si zkaždého dopisu zjistíip adresu odesílajícího stroje, adresu odesilatele a adresu příjemce. Vpřípadě, že tuto trojici IP adres jižnalezne ve svédatabázi, zprávu normálnědo ručí. Vopačném případědopis odmítne, informuje o tom odesílajícíserver a novou trojici si zapíše do databáze spříznakem, že po předem určenou dobu nebude dopisy se shodnými parametry přijímat. Petr Čech: Antispamový filtr 6
Identifikace nevyžádané zprávy na základě analýzy obsahu zpráv Na základě výskytu určitých slov, nebo frází. Dokonalejšímetody využívajíheuristicképostupy a snaží se učit na základě předkládaných příkladů. Spolehlivost: u nejlepších kolem 60 70% Při určeníspolehlivosti je důležitánejen schopnost rozpoznat nevyžádanou poštu, ale taképočet tzv. falešných poplachů, kdy program mezi spam zařadí legitimní zprávu. Petr Čech: Antispamový filtr 7
elektronická adresa odesilatele předmět emailové zprávy tělo elektronické zprávy: čistě textový obsah (plain text) webový obsah (html kód) Názvy souborů Obrázky uvnitř webového obsahu Přílohy Petr Čech: Antispamový filtr 8
nepoužíváníklíčových slov častázměna adresy odesilatele nepoužívánínestandardních příznaků(jižse neobjevujízprávy nevyžádanépošty např. s vysokou prioritou) obsah zprávy již nemá čistě textový charakter multimédia maskování(text, který máspamerský charakter je maskován jiným textem) textovétriky Petr Čech: Antispamový filtr 9
jednotlivéznaky, ze kterých se klíčovéslovo skládá, lze oddělovat nějakým jiným znakem: v.i.a.g.r.a, v_i_a_g_r_a, v-i-a-g-r-a, Petr Čech: Antispamový filtr 10
nahrazováníabecedních znakůznakem jiným, který je opticky velmi podobný, různá slova tak lze například zapsat: v1agra (viagra) \/ iagr@ (viagra) w4tch (watch) ord3r (order) Petr Čech: Antispamový filtr 11
Již klasickým trikem se také stalo znásobení některého znaku v klíčovém slově: viiiagra (viagra) ooorder (order) Petr Čech: Antispamový filtr 12
některéznaky vklíčovém slovělze snadno prohodit, pro počítačový program je pak text obtížné čitelný, pro člověka ale nikoliv: vaigra vigara Viagar Petr Čech: Antispamový filtr 13
autor nevyžádané zprávy záměrně rozdělí klíčovéslovo nahodilým vkládáním mezer, například slovo viagralze pak zapsat jako: vi a g r a, vi agra, via gra,. Petr Čech: Antispamový filtr 14
všechny již uvedené triky lze vzájemně kombinovat, vždy však jen do určité míry spameři se musídržet pravidla, že příjemce zprávy musíbýt schopen původnítext zprávy přečíst Petr Čech: Antispamový filtr 15
Velkémnožstvívykřičníků například vykřičník v textu předmětu neníu běžných emailových zpráv příliš obvyklý Apostrofy více jak jeden apostrof v anglickém slově je podezřelé Detekce kritických slov vyhledávání řetězců, kterése velmi často vyskytujíve zprávách nevyžádané pošty Petr Čech: Antispamový filtr 16
Výstupem aplikace je xml soubor, který popisuje analyzovaný email: emails_id_0_details.xml Petr Čech: Antispamový filtr 17
Sestavuji kolekci spamových zpráv pro další testování: pitacz@seznam.cz Nejlépe soubory typu *.eml a zabalené Petr Čech: Antispamový filtr 18