MASARYKOVA UNIVERZITA V BRNĚ FAKULTA INFORMATIKY P <?A <k TV ^ ^4 S M^^ Moderní techniky v boji proti spamu DIPLOMOVÁ PRÁCE Martin Procházka Brno, 2005
Prohlášení Prohlašuji, že tato diplomová práce je mým původním autorským dílem, které jsem vypracoval samostatně. Všechny zdroje, prameny a literaturu, které jsem při vypracování používal nebo z nich čerpal, v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj. 11
Poděkování Děkuji Mgr. Martinu Povolnému za odborné vedení diplomové práce, za spoustu užitečných rad a připomínek a za velkou trpělivost, kterou se mnou měl při jejím vypracování. Poděkování patří také kolegům z Laboratoře zpracování přirozeného jazyka a mým spolupracovníkům za pochopení a technickou podporu a dále všem, kteří mi byli velkou oporou během tvorby této práce, zejména rodičům a Lence. m
Shrnutí Tato diplomová práce popisuje problematiku nevyžádané pošty Zabývá se historií a příčinami jejího vzniku a dále se zaměřuje na osvědčené i moderní techniky rozpoznávání nevyžádané pošty a postupy, jak efektivně bránit jejímu šíření. IV
Klíčová slova e-mail, nevyžádaná pošta, spam, filtrování, RBL, DomainKeys, SPF, bayesovská klasifikace, greylisting
Obsah 1 Úvod 3 2 Problematika spamu 4 2.1 UBE,UCE 4 2.2 Vymezení pojmu spam 4 2.3 Viry 5 2.4 Phishing 6 2.5 Historie 6 2.5.1 RFC 706 6 2.5.2 První spam 7 2.5.3 Green Card incident 8 2.5.4 Spam King 10 2.5.5 Původ pojmu spam" 12 2.6 Negativní dopady spamu 12 2.7 Podmínky existence spamu 13 2.8 Techniky používané při rozesílání spamu 15 2.8.1 Odesílání 15 2.8.2 Databáze adres 17 2.8.3 Modifikace obsahu zpráv 18 3 Techniky pro rozpoznávání spamu 20 3.1 False positives, false negatives 20 3.2 Rozpoznávání podle odesílatele 20 3.2.1 Černé listiny 20 RBL 20 3.2.2 Techniky umožňující ověření odesílatele 23 DomainKeys 24 SPF 26 CallerID 28 SenderID 29 3.2.3 Sociologický přístup 29 3.3 Rozpoznávání podle obsahu 30 3.3.1 Rozpoznávání na základě pravidel 30 3.3.2 Kontrolní součty 30 1
3.3.3 Statistické metody 31 Bayesovská klasifikace 31 Markovovy modely 34 4 Metody omezující šíření spamu 35 4.1 Greylisting 35 4.2 FFB 36 4.3 Pozdržení odesílatele 37 4.4 Placená elektronická pošta 37 4.5 Legislativa 38 4.5.1 Spojené státy americké 38 4.5.2 Česká republika 39 5 Závěr 40 2
Kapitola 1 Úvod V dnešní době se stále více dostává do popředí komunikace pomocí elektronické pošty S trochou nadsázky je možné říci, že kdo nemá e-mail, ten jako by neexistoval. Současně s růstem objemu elektronické komunikace bohužel roste také množství nevyžádané pošty neboli spamu. Odhadování množství nevyžádané pošty, která se po Internetu pohybuje, je předmětem práce mnoha profesionálních týmů bezpečnostních odborníků. Nikomu se však na tuto otázku nedaří odpovědět přesně, jednotlivé společnosti používají odlišné metodiky a tak se různí i výsledné odhady. Nevyžádaná pošta je obecně problematicky vymezitelná a podoba spamu se liší podle prostředí, ve kterém se uživatel pohybuje. Aktivní filtry pro zachycování nechtěné korespondence fungují velmi často na bázi učení podle reakcí uživatele na konkrétní zprávy. V důsledku toho se pro tyto filtry odlišuje podoba spamu i mezi jejich jednotlivými instancemi. U mnoha reklamních zpráv jsme jednoznačně schopni poznat, zda se jedná o nevyžádanou poštou, ale u mnoha jiných je toto určení subjektivně podmíněno. Různé způsoby měření množství spamu jako jsou statistiky filtrů na e-mailových serverech, v klientských poštovních programech, popřípadě manuální reakce uživatelů mohou dávat odlišné výsledky. Jakýkoliv pokus o určení skutečného množství nevyžádané pošty na Internetu je vždy zatím jen odhadem. Stranou dohadů o číslech tvrdících, že sedmdesát až osmdesát procent celkového objemu elektronické pošty tvoří právě spam, je možné se shodnout na tom, že objem nevyžádané pošty každoročně stoupá, a to velmi strmě. Vzhledem k tomuto nepříjemnému trendu je nutné proti spamu důrazně bojovat. E-mailový server bez antispamové ochrany si lze dnes už jen těžko představit. Masové používání antispamových technik sice krátkodobě zvyšuje náklady na rozesílání spamu, ale jeho původci stále nacházejí nové možnosti pro rozesílání spamů, které tyto techniky obcházejí. Z toho důvodu je nutné v boji proti spamu využívat stále sofistikovanější techniky a nástroje. Ve své práci se věnuji právě těmto moderním technikám. 3
Kapitola 2 Problematika spamu 2.1 UBE, UCE UBE je zkratka pro anglický výraz Unsolicited Bulk Email, volně přeloženo nevyžádaný e-mail posílaný ve velkém množství, tedy e-mailová zpráva, která 1. nebyla příjemcem explicitně vyžádána, 2. byla masově rozeslána na velké množství různých adres. UCE (Unsolicited Commercial Email) je nevyžádaný komerční e-mail, tedy zpráva, o kterou opět nebylo výslovně požádáno a která byla rozeslána za účelem reklamy na nějaký produkt nebo službu. UCE sama o sobě nemusí být nebezpečná, pokud není rozesílána hromadně tedy jako UBE. Faktem však je, že téměř každá UCE je poslána jako UBE. Obrácený vztah již není tak zřejmý kromě zpráv komerčního charakteru se můžeme setkat s velkým množstvím UBE zpráv s politickým, náboženským či pornografickým obsahem. Oba dva tyto typy nevyžádané pošty jsou zneužitím e-mailového systému jako celku. Liší se od jednorázových zneužití e-mailu (například sledování nebo odposlech) a ohrožují funkčnost elektronické pošty jako komunikačního média. 2.2 Vymezení pojmu spam Neformálně je možné říci, že termín spam označuje zneužití digitální komunikace, kdy je na obrovské množství adres rozeslána stejná příjemcem nevyžádaná zpráva. Tyto zprávy mají většinou charakter reklamy, ve které se rozesílatel snaží upozornit na nový produkt nebo službu, časově omezenou výhodnou koupi" atd. Typickým příkladem jsou také nabídky různých, ve velkém množství případů nelegálních služeb, návody na rychlé zbohatnutí 4
2. PROBLEMATIKA SPAMU (Make Money Fast, MMF), pornografie, řetězové dopisy (chain letters) nebo poplašné zprávy (hoax). Přesná formální definice spamu je ale předmětem celosvětové diskuze a názory různých komunit se zde mírně odlišují. Například [4] považuje zprávu za spam právě tehdy, když zároveň splňuje obě následující podmínky: identita příjemce a doprovodné informace jsou irelevantní, protože zpráva je bez jakýchkoliv změn určena velkému množství příjemců, příjemce prokazatelně neudělil explicitní a dobrovolný souhlas k poslání této zprávy, Podle [5] je spam synonymum pro UBE a UCE. V červnu roku 1999 vyšlo RFC 2635 1 s názvem Don't spew, které vysvětluje proč je nevyžádaná korespondence velkého objemu pro Internet škodlivá a navrhuje uživatelům, správcům e-mailových serverů a poskytovatelům internetových služeb, jak by měli zacházet s nevyžádanou poštou popřípadě jejími rozesílateli. Toto RFC jednoduše říká, že spam je masově rozeslaná nevyžádaná e-mailová zpráva nebo příspěvek do diskuzních skupin, tzv. usenet news. V dnešní době spam zasahuje mnoho různých forem digitální komunikace, aťuž se jedná o rozesílání spamu faxem, pomocí SMS zpráv nebo dokonce přes služby typu instant messaging (služby poskytující bezprostřední interaktivní textovou komunikaci). Nejvíce jsou však sparném zatíženy tradiční a nejvíce využívané komunikační služby Internetu e-mail a usenet news. 2.3 Viry Specifickým druhem nevyžádané pošty, kterým se ve své práci nebudu zabývat, jsou e-mailové viry. Stejně jako spam, e-mailové viry obtěžují a zahlcují. V ostatních ohledech se však viry od spamu podstatně odlišují. Jedním z hlavních rozdílů je, že zatímco spam vzniká a je rozesílán za účelem dosažení pozornosti a zisku, e-mailové viry žádné zisky nepřináší. Jejich účelem je napadat cílové počítače, škodit a rozšiřovat se na co nejvíce počítačů. K tomu využívají většinou chyb v software hostitelských počítačů. Virům se tak příliš nedaří v různorodém prostředí a používání odlišných 1. http://www.ietf.org/rfc/rfc0706.txt 5
2. PROBLEMATIKA SPAMU operačních systémů a software pro implementaci e-mailových serverů společně s velkým množstvím klientských e-mailových programů šíření virů značně stěžuje. Ve své podstatě jsou viry menším problémem než spam a je možné proti nim úspěšně bojovat pomocí antivirů nebo včasnými bezpečnostními upgrady postiženého software. 2.4 Phishing Dalším pojmem, který je často spojován se sparném je phishing. Jedná se o rozesílání podvodných e-mailů, pomocí kterých se jejich autoři pokouší od příjemců získat důležité osobní informace. Většinou se jedná o čísla kreditních karet, přístupové údaje k bankovním účtům, čísla pojištění atd. Opět se jedná o specifický druh nevyžádané pošty, na rozdíl od běžného spamu se však tyto e-maily snaží vydávat za legitimní zprávy od důvěryhodné instituce, která příjemce žádá o sdělení potřebných informací. I proti phishingu je tedy potřeba bojovat jinými prostředky než proti spamu. 2.5 Historie Počátky spamu v elektronické komunikaci spadají až do dob vzniku celosvětové sítě Internet. Spameři 2 se nejprve orientovali především na diskuzní skupiny, které jsou pro tyto účely snadno zneužitelné. Jejich seznamy jsou volně dostupné a není tak problém sehnat databázi adres pro rozesílání spamu. Navíc každá taková skupina má velké množství čtenářů, což pro spamera znamená vynaložení mnohem menšího úsilí, než kdyby při oslovování stejného počtu lidí použil elektronickou poštu. S postupným rozšiřováním a vývojem Internetu začal spam zasahovat i další síťové služby, zejména e-mail. První ojedinělé pokusy o rozesílání nevyžádaných zpráv byly však pozorovány už v dobách předchůdce Internetu, sítě ARPANET. 2.5.1 RFC 706 Přenos zpráv v ARPANETu zajišťovaly IMP servery (Interface Message Processor), které s tehdejšími počítači komunikovaly pomocí Host/IMP protokolu. V listopadu roku 1975 upozornil jeden z tvůrců ARPANETu John Postel na nedostatek v systému pro přenos elektronických zpráv: v Host/IMP 2. rozesílatelé spamu 6
2. PROBLEMATIKA SPAMU protokolu neexistuje mechanismus, pomocí kterého by mohl počítač odmítat některé příchozí zprávy V RFC 706 3 s názvem On the Junk Mail Problem se potom zmínil, že v takovém případě je možné poslat na adresu jednoho počítače takové množství zpráv, které způsobí jeho zahlcení. Takto napadený počítač potom nebude schopen poskytovat své služby běžným uživatelům. Postel navrhl takové rozšíření IMP protokolu, které by počítači umožnilo předat svému IMP serveru informaci o tom, ze kterých zdrojů nechce přijímat žádné zprávy. K odmítnutí zprávy pro daný počítač by potom docházelo už na IMP serveru, tedy ještě dříve, než by se zpráva dostala k cílovému počítači, a to dvěma možnými způsoby: Pro každý lokální počítač by cílový IMP server udržoval seznam zdrojů, ze kterých daný počítač odmítá zprávy. V případě, že by IMP server obdržel informaci o odmítnutí zprávy odeslané z počítače x, předal by ji odesílajícímu IMP serveru (IMP serveru počítače x). Pro každý lokální počítač by tak IMP servery udržovaly seznam cílů, které odmítají přijímat zprávy pocházející z daného počítače. 2.5.2 První spam V době postupného rozšiřování sítě ARPANET způsobovala nemožnost odmítnout příchozí zprávu jen občasné větší či menší problémy. V té době byly k ARPANETu připojeny pouze některé vládní a vědecké organizace a páteř celé sítě byla pod kontrolou vlády Spojených států amerických, která zakazovala provozovat na síti většinu komerčních aktivit. Občasné porušení tohoto pravidla se rychle a tvrdě trestalo. Příkladem je asi první evidovaný spam, kdy společnost Digital Equipment Corporation 3. května roku 1978 poslala šesti stům uživatelů AR PANETu pozvánku na prezentaci svých nových produktů. Celý obsah této zprávy je na obrázku 2.1. Zpráva byla okamžitě označena jako zjevné porušení vládní politiky s ujištěním, že budou provedena příslušná opatření tak, aby se podobné události neopakovaly". 3. http://www.ietf.org/rfc/rfc0706.txt 7
2. PROBLEMATIKA SPAMU DIGITAL WILL BE GIVING A PRODUCT PRESENTATION OF THE NEWEST MEMBERS OF THE DECSYSTEM-20 FAMILY; THE DECSYSTEM-2020, 2020T, 2060, AND 2060T. THE DECSYSTEM-20 FAMILY OF COMPUTERS HAS EVOLVED FROM THE TENEX OPERATING SYSTEM AND THE DECSYSTEM-10 <PDP-10> COMPUTER ARCHITECTURE. BOTH THE DECSYSTEM-2060T AND 2020T OFFER FULL ARPANET SUPPORT UNDER THE TOPS-20 OPERATING SYSTEM. THE DECSYSTEM-2060 IS AN UPWARD EXTENSION OF THE CURRENT DECSYSTEM 2040 AND 2050 FAMILY. THE DECSYSTEM-2020 IS A NEW LOW END MEMBER OF THE DECSYSTEM-20 FAMILY AND FULLY SOFTWARE COMPATIBLE WITH ALL OF THE OTHER DECSYSTEM-2 0 MODELS. WE INVITE YOU TO COME SEE THE 2 02 0 AND HEAR ABOUT THE DECSYSTEM-2 0 FAMILY AT THE TWO PRODUCT PRESENTATIONS WE WILL BE GIVING IN CALIFORNIA THIS MONTH. THE LOCATIONS WILL BE: TUESDAY, MAY 9, 1978-2 PM HYATT HOUSE (NEAR THE L.A. AIRPORT) LOS ANGELES, CA THURSDAY, MAY 11, 1978-2 PM DUNFEY'S ROYAL COACH SAN MATEO, CA (4 MILES SOUTH OF S.F. AIRPORT AT BAYSHORE, RT 101 AND RT 92) A 2020 WILL BE THERE FOR YOU TO VIEW. ALSO TERMINALS ON-LINE TO OTHER DECSYSTEM-2 0 SYSTEMS THROUGH THE ARPANET. IF YOU ARE UNABLE TO ATTEND, PLEASE FEEL FREE TO CONTACT THE NEAREST DEC OFFICE FOR MORE INFORMATION ABOUT THE EXCITING DECSYSTEM-20 FAMILY. Obrázek 2.1: zpráva společnosti Digital Equipment Corporation 2.5.3 Green Card incident V roce 1993 byla síť ARPANET zprivatizována a postupně se začalo rozšiřovat označení Internet. Změnila se sice pravidla používání sítě, ale i přesto se proti spamu nepřestalo bojovat. Legendou se stala zpráva s předmětem Green Card Lottery - Final One?, která byla v dubnu roku 1994 doručena najednou do všech tehdy existujících usenet news skupin, kterých bylo asi šest tisíc. Paradoxem je, že to byla právnická firma Canter & Siegel z Phoenixu, která touto cestou nabízela služby pro přistěhovalce do Spojených států amerických, viz obrázek 2.2. Tisíce běžných čtenářů těchto usenet news skupin potom zahltilo společnost Canter & Siegel odmítavými e-maily, faxy i telefonáty. Zahlcen stížnostmi byl také poskytovatel připojení k Internetu (ISP, Internet Service Pro- 8
2. PROBLEMATIKA SPAMU Green Card Lottery 1994 May Be The Last One! THE DEADLINE HAS BEEN ANNOUNCED. The Green Card Lottery is a completely legal program giving away a certain annual allotment of Green Cards to persons born in certain countries. The lottery program was scheduled to continue on a permanent basis. However, recently, Senator Alan J Simpson introduced a bill into the U. S. Congress which could end any future lotteries. THE 1994 LOTTERY IS SCHEDULED TO TAKE PLACE SOON, BUT IT MAY BE THE VERY LAST ONE. PERSONS BORN IN MOST COUNTRIES QUALIFY, MANY FOR FIRST TIME. The only countries NOT qualifying are: Mexico; India; P.R. China; Taiwan, Philippines, North Korea, Canada, United Kingdom (except Northern Ireland), Jamaica, Domican Republic, El Salvador and Vietnam. Lottery registration will take place soon. 55,000 Green Cards will be given to those who register correctly. NO JOB IS REQUIRED. THERE IS A STRICT JUNE DEADLINE. THE TIME TO START IS NOW!! For FREE information via Email, send request to cslawoindirect.com ***************************************************************** Canter & Siegel, Immigration Attorneys 3333 E Camelback Road, Ste 250, Phoenix AZ 85018 USA cslaw@indirect.com telephone (602)661-3911 Fax (602) 451-7617 Obrázek 2.2: Green Card Lottery - Final One? vider) firmy Canter & Siegel, v důsledku toho ISP zrušil připojení této firmy k Internetu, Canter byl vyloučen z advokátní komory a společnost se ocitla na pokraji krachu. Po několika dalších pokusech o rozeslání spamu, připojeni jinými ISP, napsali Canter a Siegel knihu Now to Make a Fortune on the Information Superhighway, ve které popisují základní principy spamování 4. 4. rozesílání spamu 9
2. PROBLEMATIKA SPAMU 2.5.4 Spam King Jedním z těch, kteří se po přečtení knihy Cantera a Siegela rozhodli vyzkoušet, zda e-mailové obchodování opravdu funguje, byl Jeff Slaton. Na jaře roku 1995 začat podle návodu v knize sbírat e-mailové adresy, názvy mailinglistů a diskusních skupin a v červnu téhož roku poslal svůj první spam, který obsahoval nabídku na plány prvních atomových bomb testovaných ve Spojených státech amerických. Její text je na obrázku 2.3. Slaton prodával plány za osmnáct amerických dolarů plus poštovné a sám Fifty Years ago the first atomic test blast took place at the Trinity test sit e in New Mexico. I thought you would would have an interest in this. I have a friend who just retired as the Associate Director of Los Alamos Natl Labs in New Mexico. We worked together to obt ain the plans to the FAT MAN & LITTLE BOY Atomic Bombs. (Unique commemorative, declassified and "just" released!) This is a "must have" for anyone interested in Science or History. There is a limi ted amount of Museum quality reproductions (1 st Draft) of these documents. Please let me know if you want a set of these blueprints. I will e-mail you with more details. Please forward t o anyone i/fho might be interested or benefn t. Sincerely, Jeff Slaton 6808 Truchas Dr. NE Albq., NM 87109 Obrázek 2.3: první spam Jeffa Slatona přiznal, že se jich prodalo tisíce po celém světě. Jako bývalý obchodník si Slaton uvědomil, že výrazně větší možnosti a zisk, než obchodování se samostatnými výrobky, přináší reklamní služby. Nabídku na své reklamní služby opět rozeslal jako spam, ve kterém sám sebe označil titulem Spam King", tedy Král spamu". Obsah této nabídky je na obrázku 2.4. 10
2. PROBLEMATIKA SPAMU From: SpAmKiNg@505-821-1945-new.LOW.rates!! (YOU TO CAN SAVE$>>>) Subject: Let Us Help You Spam the Net! Organization: SpAmKiNg 505-821-1945 Spam King on the World! Aproved: spam-king SPAM KING HAS NEW LOW RATES! POST TO LIST SERVE MAILING LISTS. DIRECT E-MAIL. AND NEWSGROUPS! REACH 6 MILLION+ INTERNET SUBSCRIBERS! CALL 505-821-1945!! MASSIVE SPAMS! WE CAN SPAM AS MANY AS 7000 NEWSGROUPS AND MAILING LISTS AT ONE TIME, SO THAT ALL SEE YOUR MESSAGE AT ONCE. CALL US TODAY AT 505-821-1945. WE WILL SEND YOUR FIRST SPAM OUT FOR FREE TO SHOW YOU HOW WELL WE CAN DO THE JOB. ADDITIONAL SPAMS AT OUR LOW, LOW RATES. CALL US COLLECT FOR DETAILS AT 505-821-1945. SPAM KING! YOUR SOURCE FOR SPAM NETWIDE. Obrázek 2.4: nabídka reklamních služeb Jeffa Slatona Slaton tak položil základy spamu v takové podobě, v jaké jej známe dnes. V druhé polovině roku 1995 rozesílal pro různé zákazníky až patnáct spamů týdně, cena jedné inzerce" byla $495. Slayton je také autorem některých dodnes spamery používaných technik: Aby se vyhnul stížnostem a odmítavým e-mailům, začal rozesílat spam z fiktivních adres a domén. Ve spamu nikdy neuváděl skutečná telefonní čísla, vždy jen čísla na hlasové schránky. Protože poskytovatelé internetových služeb vždy rychle zablokovali jeho připojení k Internetu, používal k rozesílání spamu dočasná připojení, která zakládali sami zákazníci. Ti mu po telefonu jen sdělili jméno, heslo a případně telefonní číslo, které má použít. K rozesílání spamu používal vzdálené e-mailové servery. Ze svého počítače odeslal pouze jednu zprávu, kterou potom server rozesílal na jednotlivé adresy. 11
2. PROBLEMATIKA SPAMU 2.5.5 Původ pojmu spam" SPAM je registrovaná obchodní značka americké potravinářské společnosti Hormel Foods označující část jejích masných produktů. Jedná se o konzervované vepřové maso se šunkou s původním názvem Shoulder pork and ham nebo Spiced ham. S nevyžádanými zprávami byl pojem spam spojen díky jednomu z dílů britské televizní show Monty Python's Flying Circus. Krátký skeč se odehrává v restauraci, kde všechno jídlo na jídelníčku obsahuje SPAM. Při popisování jednotlivých jídel zákazníkům číšnice opakuje vícekrát slovo spam, podle toho, kolik SPAMu se v daném jídle nachází. Během jejich rozhovoru začnou v rohu stojící Vikingové zpívat oslavnou píseň na SPAM, jejíž text obsahuje pouze Spam, spam, spam! Lovely spam! Wonderful spam!". Číšnice je několikrát okřikne, aby přestali. Vikingové však začnou pokaždé zpívat znova až úplně přehluší ostatní komunikaci. Jako označení nevyžádaných příspěvků byl tento termín poprvé použit komunitou hráčů víceuživatelských her typu dungeon" nazývaných MUD, multi-user dungeon. Během hraní spolu v reálném čase komunikují hráči připojení z různých počítačů. Někteří hráči vícekrát opakovali svoji zprávu, čímž znesnadňovali čtení ostatní komunikace. Podle výše popisovaného skeče byly tyto opakující se zprávy označovány jako spam". Podle Brada Templetona, jednoho z průkopníků usenet news, bylo označení spam" potom používáno i pro nevyžádané příspěvky do diskuzních skupin. Ke všeobecnému rozšíření termínu spam" jako označení pro nevyžádané zprávy však došlo až po Green Card incidentu. 2.6 Negativní dopady spamu Je zřejmé, že každý spam, který uvízne v e-mailové schránce, nějakým způsobem obtěžuje uživatele. Důvodů, proč je spamování špatné však existuje více a je možné je shrnout do čtyř hlavních bodů: Cena rozesílání spamu je pro spamera finančně velmi nenáročné, neboťpřenáší náklady své činnosti na příjemce, případně poskytovatele internetových služeb. Síťový provoz, procesorový čas nebo disková kapacita, kterou spotřebuje rozesílání, přeposílání či přijímání spamu, stojí poskytovatele internetových služeb nemalé finanční prostředky. Velké množství uživatelů platí své připojení k Internetu podle množství přenesených dat nebo délky připojení. Už samotné přijetí spamu tedy uživatele něco stojí. K těmto nákladům je ještě potřeba 12
2. PROBLEMATIKA SPAMU připočítat čas a prostředky, které musí uživatel vynaložit při třídění e-mailů, mazání spamů atd. Objem množství spamu na Internetu stále roste, čímž se snižuje použitelnost elektronické pošty jako komunikačního média. Velké množství nevyžádané pošty může způsobit kolaps takto zahlcených sítí nebo serverů. Schránka, do které začnou přicházet stovky spamových denně, se stává prakticky nepoužitelnou. V takovém množství spamu je normální e-mail snadno přehlédnutelný. Zátěž většina spamů je reklamou na pochybné produkty nebo služby, které není možné inzerovat jiným způsobem. Pro mnohé uživatele Internetu jsou tyto zprávy pouze zbytečnou přítěží s naprosto bezcenným obsahem. Spam však využívá stavu, že na Internetu jsou nezkušení nebo naivní uživatelé, které tato reklama osloví. Nelegálnost obsahu obsah spamu může být v některých zemích nelegální (například sexuální obtěžování nebo dětská pornografie). O legálnosti vlastního spamování se zmíním později. Každý z těchto bodů je sám o sobě dostatečným důvodem k tomu, aby bylo spamování považováno za velmi nežádoucí aktivitu, proti které je potřeba se bránit a bojovat s ní. 2.7 Podmínky existence spamu Přes všechny negativní dopady spamu a intenzivní boj proti němu však spam stále existuje, navíc se velmi rychle rozvíjí a jeho objem roste. To je možné z následujících důvodů: Poptávka po reklamních službách jak již bylo uvedeno, spam je jedna z mnoha forem reklamy, především na pochybné produkty nebo služby, pro které není možné použít jinou formu inzerce. Poptávka po reklamních službách tohoto typu je však stále velká. Existence profesionálních spamerů tito spameři se živí rozesíláním nevyžádané komerční reklamy, kterou si u nich objedná třetí strana. Spamerovi jde tedy o finanční zisk, který se většinou odvíjí od počtu e-mailových adres, na které se spam podaří doručit. Cílem spamera je doručit reklamu na co nejvíce e-mailových adres, bez ohledu na to, jaké škody touto činností způsobí. 13
2. PROBLEMATIKA SPAMU Těžká právní postižitelnost boj proti spamu v oblasti legislativy je poměrně problematický a podrobněji se mu věnuji ve třetí kapitole. Nízké náklady náklady na rozeslání inzerce pomocí spamu jsou výrazně nižší než u jakýchkoliv jiných běžných způsobů inzerce. Paradoxem je také již zmíněný přenos nákladů na příjemce, kdy oslovovaný zákazník za příjem nevyžádané reklamy platí. Nedostatečná obrana žádné z doposud implementovaných a široce používaných technik nevykazují stoprocentní účinnost. Jisté množství spamu se tedy stále dostává do cílových e-mailových schránek. Zákaznická odezva podle výsledků průzkumu společnosti Radicati Group [6] zveřejněných v březnu roku 2005 je chování uživatelů jedním z největších důvodů neustále se zvětšujících problémů se sparném. Překvapivě velké množství uživatelů stále čte nevyžádanou poštu a dokonce na tyto zprávy i odpovídá. Podle průzkumu navštívilo 31 procent uživatelů minimálně jednu ve spamu uvedenou internetovou stránku. Odpovědí na spam nebo návštěvou zmíněných stránek potvrzují uživatelé spamerům, že tento způsob reklamy stále funguje. Přirozenou reakcí spamerů je potom zvýšení frekvence zpráv posílaných na danou adresu. Nejvíce znepokojující je však statistika, z níž plyne, že více než deset procent uživatelů někdy zakoupilo produkt inzerovaný pomocí spamu. Vzhledem k velmi malým nákladům na rozeslání spamu je toto číslo jistě zajímavým výsledkem, který dokáže udržet celou ekonomiku spamu, a to i přes jeho nízkou efektivitu. Podle [3] je míra odezvy na reklamní nabídky rozesílané formou spamu jen 0,0015 %, což znamená, že z jednoho miliónu rozeslaných spamů je pouze patnáct úspěšných. I takto nízká efektivita je však dostačující, neboťpodle [7] je pro zachování ziskovosti spamu potřebná míra odezvy asi 0,001 %. V dnešní době, kdy se proti spamu bráníme především pomocí filtrování zpráv, se tedy nabízí otázka, zda by velmi dobře fungující filtry dokázaly spam potlačit nebo dokonce úplně vymýtit. Dlouhodobě propagovaná strategie pro filtrování nevyžádané pošty doporučuje zprávy pouze označovat. Ty, které jsou označené jako spam potom nemazat, ale ukládat je do speciálně zřízené složky. Navrhovaný postup se uplatňuje zejména ze dvou následujících důvodů: Při označování zpráv může docházet k takzvaným false-positives, tedy případům, kdy je jako spam označena pro daného uživatele regulérní 14
2. PROBLEMATIKA SPAMU zpráva. Při automatickém mazání by tak mohlo docházet ke ztrátě e-mailů. Většina moderních antispamových filtrů hodnotících zprávy podle jejich obsahu pracuje na principu učení. Zde je vyžadována interakce s uživatelem, který musí předávat učícímu filtru vstupní data v podobě legitimních e-mailů, ale i spamů. V případě automatického mazání spamů by tak chybělo dostatečné množství dat pro učení. Podle výsledků průzkumu prováděného v šesti zemích světa (Brazílie, Francie, Kanada, Německo, Spojené státy americké a Velká británie) společnostmi Forrester Data a Bussines Software Alliance 5, čtou uživatelé průměrně více než 25 % zpráv označených jako spam. Je tedy zřejmé, že pouhé oddělení od normálních e-mailových zpráv nezabrání uživatelům, aby četli spam a reagovali na něj. V případě, že by se pro zvyšování přesnosti antispamových filtrů i nadále využívalo principů učení se, je tedy složka pro nevyžádanou poštu společně s chováním internetových uživatelů důvodem, proč by ani stoprocentně fungující masově používané filtry nedokázaly spam zastavit. 2.8 Techniky používané při rozesílání spamu K rozesílání spamu je potřeba pouze počítač, připojení k internetu, databázi cílových e-mailových adres a propagovaný produkt. 2.8.1 Odesílání Ve většině případů nepoužívají spameři k rozesílání spamu svůj vlastní e-mailový server nebo server svého poskytovatele připojení k Internetu. V takovém případě by byli snadno vystopovatelní. Místo toho se snaží využívat e-mailové servery jiných ISP, popřípadě společností, které nejsou dostatečně chráněny a umožňují tak zneužití jedním z následujících způsobů: Využití open relay serverů. Jedná se o e-mailové servery, které umožňují jakémukoliv uživateli odesílat e-maily kamkoliv do Internetu. E-mailový server sloužící pro danou doménu by měl zajišťovat pouze doručování pošty přicházející do této domény nebo z ní odcházející. V případě, že e-mailový server poskytuje open relaying, jedná se o bezpečnostní chybu. 5. http://blog.cauce.ca/blog/archives/bsaconsumerattitudes.pdf 15
2. PROBLEMATIKA SPAMU Využití open proxy serverů. Jedná se o podobný problém jako u open relay, zde je však bezpečnostní chyba na e-mailovém proxy serveru, který umožňuje spamerům volný přístup k e-mailovým serverům, které jinak open relaying nedovolují. Získání přístupu do vnitřní sítě cizích organizací pomocí nechráněných přístupových bodů pro bezdrátovou síť. Pro rozeslání spamu je potom možné zneužít e-mailový server dané organizace. Napadení nedostatečně zabezpečeného počítače dostupného z Internetu. Na napadeném počítači je nainstalován a spuštěn e-mailový server, který rozesílá spam v omezeném a pro uživatele tohoto počítače nepozorovatelném množství. Kromě zneužívání cizích serverů maskují spameří dále svoji identitu pomocí podvržení údajů v hlavičkách e-mailových zpráv. Nejčastěji podvrhované hlavičky lze nalézt v tabulce 2.1 Hlavička Date: From: To: Received: Content-type: Popis Datum a čas odeslání zprávy. E-mailová adresa případně jméno odesílatele zprávy. E-mailová adresa případně jméno příjemce. Zprávy se nedoručují podle obsahu této hlavičky, ale podle cílové adresy uvedené v jejich obálce. Skutečná adresa příjemce se v doručeném e-mailu nachází v hlavičce Envelope-to:. Může se opakovat vícekrát v jedné zprávě. Každý e-mailový server, přes který daná zpráva prochází, přidává jednu tuto hlavičku. Obsahuje jména případně IP adresy serveru, který zprávu přijal a serveru, ze kterého byla odeslána, čas přijetí a některé nepovinné položky, například with, která udává způsob, jakým byl mezi servery e-mail předán. Typ přenášených dat a příloh. Tabulka 2.1: nejčastěji podvrhované hlavičky e-mailových zpráv 16
2. PROBLEMATIKA SPAMU 2.8.2 Databáze adres Pro rozeslání spamu potřebuje spamer velkou databázi cílových e-mailových adres. Nejjednodušším způsobem je získat databázi od jiného spamera nebo ji koupit. Ve většině případů však spameři nedávají své databáze adres k dispozici a koupě znamená zbytečné náklady navíc. Pro získávání adres tedy spameři používají jiné dva způsoby: 1. Prohledávání Internetu tento způsob je možné dále rozdělit, podle zdrojů, ze kterých jsou adresy získávány: Příspěvky do diskusních skupin pomocí speciálních programů spameři pravidelně prohledávají diskuzní skupiny. Tyto programy získávají adresy přímo z hlaviček (From:, Reply-To: atd.), ale i z obsahu jednotlivých příspěvků. Mailing listy některé servery umožňují získat seznamy adres uživatelů zapsaných do jednotlivých mailing listů. Tyto seznamy většinou obsahují korektní živé adresy, což je pro spamera velmi hodnotná informace. Druhou možností je získat ze serveru seznam adres všech mailing listů a rozesílat spam pouze na tyto adresy. Rozeslání obrovského množství kopií na adresy uživatelů zapsaných v jednotlivých mailing listech už potom zajistí server, na kterém jsou tyto mailing listy provozovány. Webové stránky podobně jako pro získávání adres z diskusních skupin, používají spameři speciální programy, které procházejí webové stránky a vyhledávají v nich e-mailové adresy. Interaktivní komunikační služby typu IRC některé klientské programy pro IRC umožňují získat e-mailovou adresu přihlášeného uživatele. Peer-to-peer sítě na sítích používaných pro výměnu a sdílení dat mezi uživateli se záměrně nebo nedopatřením objevují soubory s adresáři některých e-mailových aplikací. Podle jmen typických pro jednotlivé aplikace lze tyto soubory velmi snadno nalézt. Z výše uvedených zdrojů získávají spameři největší množství e-mailových adres. Výrazně menší měrou jsou potom zastoupeny některé další techniky, jako například získávání adres z formulářů na webových stránkách či pomocí služeb ident nebo finger UNIXových operačních systémů. 17
2. PROBLEMATIKA SPAMU Generování tímto způsobem mohou spameři získat i takové adresy, se kterými jejich majitelé zachází velmi obezřetně a není možné je získat výše uvedenými postupy Generování je možné provádět následujícími způsoby: Hrubou silou postupně jsou vytvářeny předem stanovenou délkou omezené řetězce obsahující všechny kombinace písmen nebo jiných znaků, které se mohou vyskytovat v e-mailových adresách. Tyto řetězce jsou používány jako lokální části e-mailových adres, tedy jako jména jednotlivých e-mailových účtů v různých doménách. Slovníkovou metodou adresy jsou vytvářeny pomocí slov ze slovníku. Jedná se o velmi často používané lokální části e-mailových adres, jako například info, sales, admin, webmaster, křestní jména a příjmení popřípadě jejich kombinace. Touto metodou lze vytvářet i doménové části adres. Kombinací obou předchozích metod na konec lokálních částí adres, které byly vytvořeny slovníkovou metodou jsou přidávány kombinace dalších znaků, většinou písmen nebo číslic, s případným použitím některých oddělovacích znaků jako například tečka nebo spojovník. 3. Viry spameři používají viry vytvořené speciálně za účelem sbírání e-mailových adres. Tyto viry vyhledávají na napadeném počítači adresáře a seznamy kontaktů e-mailových aplikací a údaje z nich získané odesílají spamerovi. 2.8.3 Modifikace obsahu zpráv Ve většině případů obsahuje spam na první pohled zkomolený text, popřípadě více čí méně smysluplný text navíc. Spameři se pomocí záměrného vnášení jistého množství zmatečnosti do textu snaží obcházet antispamové filtry pracující na základě analýzy obsahu zpráv. Nejčastěji používané techniky pro modifikaci obsahu zpráv jsou: Skrývání textu vkládání mezer popřípadě jiných znaků mezi jednotlivá písmena slov, popřípadě nahrazování některých písmen jimi podobnými znaky, například písmeno 1 bývá nahrazováno číslicí 1 nebo znakem, písmeno O číslicí 0, atp. 18
2. PROBLEMATIKA SPAMU Neviditelný text vkládání slov popřípadě větších částí textu, který se může vyskytovat v normálních e-mailech. Tento text je přikládán na konec zprávy, v případě, že tělo spamu není jen obyčejný text, ale je formátováno pomocí jazyka HTML, bývá pro jeho zobrazení použita stejná barva jako pro pozadí. Rozdělování slov rozdělování ve spamu se často vyskytujících slov pomocí vkládání falešných značek jazyka HTML, které nejsou interpretovány Náhodný text vkládání dlouhých řetězců náhodně vygenerovaného nesmyslného textu. 19
Kapitola 3 Techniky pro rozpoznávání spamu 3.1 False positives, false negatives Pro účely této práce budu normální e-mailové zprávy dále nazývat ham". Jedná se o termín převzatý z anglického jazyka, kde je používán jako antonymum pro slovo spam. Cílem technik pro rozpoznávání spamu je určovat, zda e-mailová zpráva je či není spam. Při ohodnocování zpráv může docházet k následujícím chybám: false positive ham, který je ohodnocen jako spam false negative spam, který je ohodnocen jako ham Počet false positive chyb udává celkovou chybovost, zatímco podle počtu false negative se určuje celková úspěšnost. 3.2 Rozpoznávání podle odesílatele 3.2.1 Černé listiny Základem této techniky jsou seznamy častých zdrojů spamu, tzv. černé listiny (přeloženo z původního anglického názvu black lists). Při ohodnocování e-mailové zprávy se porovnávají zdroje, ze kterých zpráva pochází se záznamy v černých listinách. V případě, že jsou zdroje hodnocené zprávy nalezeny v některé z černých listin, je zpráva označena jako spam. Opakem černých listin jsou seznamy důvěryhodných zdrojů, tzv. bílé listiny {white lists). E-mailové zprávy pocházející ze zdrojů uvedených na bílé listině mohou být přijímány bez ohledu na další hodnocení nebo pro ně mohou být při hodnocení uplatňována odlišná pravidla. RBL RBL je zkratka anglického výrazu Realtime Blackhole List. Jedná se černou listinu obsahující aktuální seznam IP adres e-mailových serverů, ze kterých 20
3. TECHNIKY PRO ROZPOZNÁVÁNÍ SPAMU je nebo v nedávné době byl rozesílán spam. Protože spameři běžně falšují hlavičky rozesílaných zpráv za účelem zamaskování své vlastní identity, je právě e-mailový server jediným s jistotou označitelným zdrojem spamu, pro který má smysl vytvářet a udržovat černé listiny. Aktuálnost jednotlivých RBL zajišťují jejich provozovatelé většinou na základě návrhů a požadavků, které přicházejí od uživatelů těchto seznamů. Existuje poměrně velké množství společností, které provozují na Internetu volně dostupné RBL (např. bl. spamcop. net, relays. ordb. org nebo sbl. spamhaus. org). Tyto společnosti spolu však nespolupracují a tak se obsahy jednotlivých RBL od sebe různou měrou liší. RBL funguje na principu DNS, tedy na bázi překladu doménových jmen na IP adresy. Popis principu a protokolu DNS lze najít v RFC 1035 1. Každý RBL je reprezentován jemu odpovídajícím RBL serverem. Hodnocení zprávy pomocí RBL probíhá následujícím způsobem: 1. Z korektních e-mailových hlaviček Received: se zjistí IP adresa poštovního serveru, ze kterého byla zpráva odeslána. 2. Na vybraný RBL server se pošle dotaz, zda je zjištěná IP adresa zapsána na černé listině. 3. Podle obdržené odpovědi se zpráva ohodnotí: v případě, že se daná IP adresa nachází ve zvoleném RBL, je zpráva považována za spam, v opačném případě je považována za ham. Dotaz na RBL server má podobu DNS dotazu. Jako doménové jméno se použije doménová báze vybraného RBL, před kterou se vloží tečkou oddělená IP adresa ověřovaného poštovního serveru. Jednotlivá pole IP adresy se uvádí v opačném pořadí. V případě, že je testovaná IP adresa zapsána na vybraném RBL, odpovědí serveru je A záznam s IP adresou 127. 0. 0.2. Jestliže se na jednom serveru nachází více různých RBL, může být odpovědí jiná IP adresa v rozmezí 127. 0. 0. 2 až 127. 0. 0. 254 podle toho, ve kterém RBL byla testovaná adresa nalezena. IP adresy v odpovědích se pro jednotlivé RBL servery liší a jejich význam bývá popsán v dokumentaci. Podrobnější informace o blokování IP adresy je možné zjistit z TXT záznamu daného doménového jména. Na obrázku 3.1 je příklad dotazu, zda je IP adresa 82.226.163.38 zapsána na RBL bl. spamcop. net. Odpovědí RBL serveru je A záznam s IP adresou 127.0.0.2. Následuje dotaz na TXT záznam daného doménového jména. 1. http://www.faqs.org/rfcs/rfcl035.html 21
3. TECHNIKY PRO ROZPOZNÁVÁNÍ SPAMU kybela:~/> host 38.163.226.82.bl.spamcop.net 38.163.226.82.bl.spamcop.net A~127.0.0.2 kybela:~/> host -t TXT 38.163.226.82.bl.spamcop.net 38.163.226.82.bl.spamcop.net TXT "Blocked - see http://www.spamcop.net/bl.shtml?82.226.163.38" kybela:~/> Obrázek 3.1: dotaz na RBL s pozitivní odpovědí Jestliže testovaná IP adresa není zapsána na vybraném RBL, server odpoví, že dané doménové jméno neexistuje. Příklad dotazu s negativní odpovědí RBL serveru je na obrázku 3.2. kybela:~/> host 200.50.251.147.bl.spamcop.net 200.50.251.147.bl.spamcop.net does not exist (Authoritative answer) kybela:~/> Obrázek 3.2: dotaz na RBL s negativní odpovědí RBL mají dvě hlavní nevýhody: Nízká úspěšnost podle [2] nemohou černé listiny pokrýt více než 50 % poštovních serverů, ze kterých je rozesílán spam. Kvalita jednotlivých RBL na černou listinu se mohou dostat nevinné servery nebo servery, které používá velké množství regulérních uživatelů a které byly ojediněle využity k rozeslání spamu, typicky servery poskytující e-mailové služby zdarma (například yahoo. com, hotmail. comnebo český email. c z). Nevinné poštovní servery mohou být do RBL přidány nedopatřením. Pomocí masky podsítě je možné do RBL vkládat celé rozsahy IP adres a z vlastní zkušenosti znám případy, kdy zadáním špatné masky podsítě byly do RBL přidány také IP adresy nevinných serverů. Kvalita jednotlivých RBL se odvíjí od kvality jejich provozovatelů. Na konkrétním poštovním serveru je možné se proti těmto chybám bránit použitím bílé listiny obsahující IP adresy důvěryhodných e-mailových serverů, pro které se nekontroluje, zda jsou zapsány na RBL. Velkou výhodou této metody je fakt, že zprávu označenou pomocí RBL jako spam může cílový poštovní server odmítnout už při jejím přijímání. 22
3. TECHNIKY PRO ROZPOZNÁVÁNÍ SPAMU V takovém případě už není potřeba vynakládat žádné další prostředky na zpracování odhaleného spamu. Původnímu odesílateli může být poslána zpět informace o odmítnutí dané zprávy spolu s odůvodněním a uvedením konkrétního RBL, který obsahuje adresu odesílajícího poštovního serveru. V případě, že by se jednalo o false positive, je tímto způsobem odesílatel informován o tom, že se jeho poštovní server nachází na černé listině. RBL je tedy technika využitelná především na úrovni e-mailových serverů. Zejména kvůli nízké úspěšnosti by však měla být jen prvním článkem z řady antispamových opatření. Důležitým faktorem je také výběr vhodných RBL serverů. 3.2.2 Techniky umožňující ověření odesílatele Níže popsané technologie umožňují různými způsoby ověřit doménu, ze které pochází e-mailová zpráva. Všechny popisované technologie využívají standardního protokolu SMTP používaného pro přenos e-mailových zpráv na Internetu a systému DNS. Popis protokolu SMTP lze najít v RFC 2821 2. Cílem těchto technik je zamezit podvrhování odesílatele e-mailových zpráv, což znamená velký přínos v boji proti spamu. V případě, že spameři nebudou moci falšovat odchozí domény zpráv, bude možné snadno identifikovat časté zdroje spamu případně i konkrétní spamery Možnost jednoznačného určení domény, ze které pochází e-mailová zpráva také velmi usnadňuje vytváření a udržování bílých listin důvěryhodných domén nebo černých listin domén, ze kterých je rozesílán spam. Ve spojení s černými popřípadě bílými listinami domén tak tyto techniky umožňují velmi snadné rozpoznávání spamu. Spamer si samozřejmě může zaregistrovat vlastní doménu a tu použít pro rozeslání několika sérií spamu. Takto využívaná doména se však může velmi brzy dostat na černou listinu, což způsobí odmítání e-mailových zpráv z ní pocházejících. Spamerovi tak nezbyde jiná možnost, než se přesunout na jinou tímto způsobem dosud nevyužitou doménu. Pořizování stále nových domén a IP adres však znamená pro spamery podstatné zvýšení nákladů. Přestože pro některé techniky existují funkční volně dostupné implementace, nejsou zatím široce používány a to se dvou hlavních důvodů: Po masovém nasazení těchto technik by nastaly problémy s identifikací u zpráv odeslaných z mobilních zařízení, mailing-listů, přeposílanými zprávami nebo u e-mailových zpráv, generovaných webovými službami. Tyto problémy by bylo potřeba vyřešit pomocí změn 2. http://www.faqs.org/rfcs/rfc2821.html 23
3. TECHNIKY PRO ROZPOZNÁVÁNÍ SPAMU e-mailového systému, respektive pomocí úprav SMTP protokolu. Jde zejména o přidání polí Sender:, From: nebo Resent-From: do hlaviček e-mailových zpráv tak, aby vždy bylo možné jednoznačně identifikovat doménu odpovědnou za odeslání zprávy Druhým důvodem je skepse, neochota a nízká flexibilita organizací, případně i některých odborníků. Smysluplnost a efektivita popisovaných technik se projeví až v případě jejich masového rozšíření. Zde se však dostáváme do začarovaného kruhu, kdy jednotlivé organizace tvrdí, že nemá smysl nové technologie používat v případě, že je nepoužívají ani ostatní. DomainKeys Společnost Yahoo! je autorem technologie, která kromě ověření domény umožňuje navíc ověřit také integritu zprávy. Ověřování funguje na principu asymetrické kryptografie, respektive digitálního podpisu. Prvním krokem je vytvoření páru klíčů pro asymetrickou kryptografii. V případě, že pro jednu doménu bude možné odesílat zprávy z více různých poštovních serverů, je nutné pro každý takový server vygenerovat jeden pár klíčů. Soukromé klíče se bezpečně uloží na jednotlivé servery, které jsou tímto autorizovány pro rozesílání e-mailů z dané domény. Veřejné klíče jsou distribuovány pomocí DNS. K tomu se využívá TXT záznamu, ne však vlastní domény, nýbrž její speciální subdomény selektor. _domainkey, kde selektor označuje konkrétní autorizovaný e-mailový server pro danou doménu. V případě, že by doména přiklad. cz měla dva autorizované e-mailové servery s označením praha" a brno", byly by jejich veřejné klíče uloženy v TXT záznamech doménových jmen praha._domainkey.přiklad.cz brno._domainkey.přiklad.cz. Všechny potřebné informace jsou v TXT záznamu uloženy v podobě dvojic x=hodnota oddělených středníky, kde x zastupuje jeden z možných parametrů: g granularita klíče, nepovinný parametr. V případě, že je uveden s nenulovou délkou, musí lokální část zdrojové adresy odchozího e-mailu přesně odpovídat jeho hodnotě. k typ klíče, nepovinný parametr. Implicitním typem klíče je RSA. n nepovinný parametr, který se neinterpretuje. Slouží pro vložení komentáře nebo poznámky. 24
3. TECHNIKY PRO ROZPOZNÁVÁNÍ SPAMU p jediný povinný parametr, který obsahuje samotný veřejný klíč. t může mít pouze jedinou hodnotu y, která říká, že daná doména technologii DomainKeys zatím jen testuje. TXT záznam může mít například následující podobu: praha._domainkey IN TXT "g=; k=rsa; p=mhww...idaqab" Každý e-mail odesílaný z dané domény autorizovaným poštovním serverem je na tomto serveru automaticky digitálně podepsán pomocí uloženého soukromého klíče. Vytvořený podpis je spolu s parametry potřebnými pro jeho ověření vložen do hlavičky DomainKey-Signature:, která se připojí k podepisovanému e-mailu. Uvedená hlavička musí být vložena před všechny hlavičky, jejichž obsah byl použit při podepisování. Její tvar je stejný jako výše popisovaný tvar TXT záznamu, liší se však jednotlivými parametry: a algoritmus použitý pro vytvoření podpisu. Implicitní hodnota rsa-shal znamená, že byla použita hašovací funkce SHA1 a RSA algoritmus pro podpis. b vlastní podpis, povinný parametr. c kanonický algoritmus, povinný parametr. Udává způsob, jakým byl e-mail upraven před předáním podepisovacímu algoritmu. d jméno podepisující domény, povinný parametr. Hodnota tohoto parametru musí odpovídat doménovému jménu odchozí adresy. h seznam hlaviček, jejichž obsah byl použit při podepisování zprávy. Jedná se o nepovinný parametr, pokud je uveden, musí obsahovat hlavičku jednoznačně identifikující doménu, ze které byla zpráva odeslána (From: nebo Sender:). Jestliže není uveden, byly pro podpis použity všechny hlavičky následující za DomainKey-Signature :. q povinný parametr udávající metodu, pomocí které lze získat veřejný klíč. Jediná zatím možná hodnota je dns. s selektor, povinný parametr. Udává, který z poštovních serverů autorizovaných pro danou doménu podepsal zprávu. Společně s parametrem d slouží pro vytvoření doménového jména potřebného pro sestavení DNS dotazu na příslušný veřejný klíč. 25
3. TECHNIKY PRO ROZPOZNÁVÁNÍ SPAMU Poštovní server na straně příjemce potom automaticky ověřuje podpis obsažený v přijímané zprávě ve třech základních krocích: 1. Porovná doménovou část adresy údajného odesílatele, kterou získá z hlaviček Sender: popřípadě From:, s hodnotou parametru d v hlavičce DomainKey-Signature :. V případě, že si tyto údaje neodpovídají, je e-mail označen jako neověřený 2. Z hodnot parametrů d a s v hlavičce DomainKey-Signature : sestaví DNS dotaz, pomocí kterého získá veřejný klíč potřebný k ověření podpisu. V případě, že se klíč nepodaří získat nebo obdržená data neodpovídají specifikovanému formátu ani hodnotám některých parametrů z hlavičky podpisu, je e-mail označen jako neověřený Jestliže poštovní server neobdrží odpověď na odeslaný DNS dotaz, měl by přijímaný e-mail odmítnout. 3. Po obdržení korektního veřejného klíče odpovídajícího příslušným parametrům provede samotné ověření podpisu. V případě úspěchu je e-mail označen jako ověřený. Technologie DomainKeys je zranitelná pomocí takzvaného replay útoku. V případě, kdy je možné odeslat e-mail libovolného obsahu z dané domény (což je možné například ze serverů, které poskytují e-mailové služby zdarma), může uživatel takový mail poslat sám sobě. Příchozí e-mail bude samozřejmě mít správnou korektně ověřitelný podpis. Potom je možné tento e-mail odeslat z libovolného serveru různým uživatelům pouze pomocí změny cílové adresy v jeho obálce, přičemž bude stále korektně podepsaný. Ověřování podpisu může skončit neúspěchem z poměrně velkého množství důvodů. Pro účely diagnostiky by měl ověřující poštovní server konkrétní chyby ukládat. Pro případnou aplikaci dalších lokálních politik pro doručování e-mailových zpráv by však měl celý proces ověřování skončit jednoduchým binárním výsledkem, zda se daný e-mail podařilo ověřit, či ne. SPF SPF je zkratka pro anglický název Sender Polky Framework. Je možné se setkat i se starším označením Sender Permitted From. SPF umožňuje pro danou doménu jednoduchým způsobem definovat servery nebo jednotlivé počítače, ze kterých je možné odesílat e-mailové zprávy s odchozí adresou pocházející z této domény. 26
3. TECHNIKY PRO ROZPOZNÁVÁNÍ SPAMU Autorizované stroje pro danou doménu se definují v takzvaném SPF záznamu, který je zapsán v DNS. Na rozdíl od DomainKeys se pro uložení SPF záznamu nepoužívají žádná speciální doménová jména, ale přímo TXT záznam dané domény Pro SPF záznamy je definován jednoduchý jazyk podrobně popsaný v [11] v sekci 3 a 4. Pomocí něj je možné uvádět přímo doménová jména, popřípadě IP adresy počítačů nebo celých sítí. Jazyk však obsahuje i obecná pravidla, pomocí nichž lze povolit odesílání e-mailových zpráv například ze všech serverů, které jsou uvedeny v MX záznamu odesílající domény nebo počítačům, jejichž IP adresa se překládá na jméno v dané doméně. U každého pravidla je možné specifikovat prefix udávající, jakým způsobem bude hodnocena zpráva pocházející z počítače, který splňuje dané pravidlo. Možné prefixy jsou popsány v tabulce 3.1. Prefix Název Popis + pass počítače odpovídající následujícímu pravidlu jsou oprávněny odesílat e-mailové zprávy z dané domény fail následující pravidlo specifikuje počítače, které nejsou oprávněny odesílat e-mailové zprávy z dané domény 7 neutral počítače specifikované následujícím pravidlem nejsou pomocí SPF pro danou doménu nijak omezovány ani zvýhodňovány softfail počítače, které odpovídají následujícímu pravidlu nejsou oprávněny odesílat e-mailové zprávy z dané domény, je však možné, že zprávy odcházející z těchto počítačů nejsou podvrženy Tabulka 3.1: prefixy pravidel SPF jazyka Například záznam: priklad.cz IN TXT "v=spfl +mx +ptr -all" povoluje odesílání e-mailových zpráv z domény priklad.cz všem serverům, které jsou v uvedeny v MX záznamech této domény (jsou jejími poštovními servery) a dále všem počítačům, které mají v této doméně reverzní DNS záznam. V případě, že je e-mail odeslán z jiného stroje, má se brát jako podvrh. Jazyk pro SPF záznamy rovněž obsahuje direktivy umožňující přesmě- 27
3. TECHNIKY PRO ROZPOZNÁVÁNÍ SPAMU rování nebo vložení pravidel z jiné domény Tímto způsobem je možné jednoduše spravovat SPF pro více domén, které používají pro odesílání e-mailových zpráv stejné poštovní servery (například více domén jedné organizace). Veškerá další činnost potřebná pro ověření odesílající domény probíhá pouze na přijímajícím poštovním serveru. Na rozdíl od DomainKeys nepoužívá SPF pro určování odesílající domény údaje z hlaviček e-mailu, ale ze SMTP příkazů HELO (EHLO) nebo MAIL FROM:, tedy z obálky zprávy. Po zjištění odesílající domény provede server DNS dotaz na TXT záznam této domény a podle obdržených dat ohodnotí příchozí zprávu sedmi možnými způsoby: None bez výsledku. Odesílající doména nemá SPF záznam. Neutral neutrální výsledek. SPF politika odesílající domény danou zprávu nijak neomezuje ani nezvýhodňuje. Pass pozitivní výsledek. Příchozí zpráva splňuje SPF politiku odesílající domény. Fail negativní výsledek. Hodnocená zpráva nesplňuje SPF politiku odesílající domény. Soflfail částečně negativní výsledek. Daná zpráva nesplňuje SPF politiku odesílající domény, nelze však s jistotou říci, že se jedná o podvrh. Error chyba. Výsledek indikuje chybu při DNS dotazu. Unknown neznámá chyba. Došlo k chybě při zpracování SPF záznamu. Podle výsledku SPF hodnocení je potom možné uplatňovat další politiky pro doručování zpráv. CallerID Paralelně k SPF publikovala společnost Microsoft vlastní technologii nazvanou CallerID, která fungovala stejném principu jako SPF se dvěma následujícími rozdíly: V TXT záznamech používá CallerID pro definici autorizovaných serverů jazyk XML. Na jednu stranu jde o pěkné a čisté řešení, které navíc 28