Спам. Рушійна сила еволюції?

Ільдар Кути

Важко знайти гарні слова для "сміттєвої пошти" або просто спаму. Цього гидкого, протилежного, нав'язливого спаму, який сотнями листів проникає в поштові скриньки безневинних користувачів і судячи з усього найближчим часом може стати загрозою існування самої електронної пошти. Легко сказати, за підсумками 1 півріччя 2004 р. непрохана кореспонденція в російськомовній частині Мережі склала від 70 до 80% всього обсягу поштових відправлень. Аналогічна з Рунетом ситуація складається і в інших частинах кіберпростору. Та тільки за одне це спамерів потрібно було б …

Хоча, стоп! Нині в моді позитивне мислення і оптимістичний погляд на речі, яким навчають на численних психологічних тренінгах та семінарах. Так, може, варто спробувати застосувати подібний підхід і до проблеми спаму, щоб не розхитувати і без того напружені нерви, виявляючи у власному електронному поштовому ящику пару десятків непроханих листів, серед яких благородними крупинками втрачається одне-два давно очікуваних послання від старовинного друга або ділового партнера. Отже, видихнути, відкинути емоції і … Якщо заспокоїтися і підійти до проблеми тверезо і виважено, то виявиться, що в якійсь мірі саме спам стимулює прогрес в галузі розвитку інформаційних технологій і спонукає науковців шукати рішення для проблем, протягом багатьох десятиліть вважалися суто теоретичними.

Слідуючи заклику дивитися в корінь, можна з'ясувати, що організація боротьби з непрошеної кореспонденцією впирається у відповідь на один дуже просте питання: "А що таке спам?". Здавалося б, безглуздо питати про настільки очевидному предметі. Будь-який користувач електронної поштової служби, тільки лише поглянувши на текст послання, з легкістю зуміє відрізнити рекламний лист від кореспонденції, дійсно має важливе для нього значення. Дивно інше – відрізнити може кожен, а от сформулювати необхідні і достатні умови ідентифікації спамерського послання, на жаль, не вийде. Саме в цю проблему і впирається більшість антиспамерські програм і фільтрів, які часто можуть пропускати непрохану кореспонденцію в ящик і, навпаки, відкидати, прийнявши за спам, давно очікуване користувачем лист. Причому остання ситуація представляється більшості користувачів набагато серйознішою, ніж проникнення в ящик пари-другий непрошених листів, але ніякої впевненості в тому, що подібне не сталося, немає: розробники поштових фільтрів воліють наводити якісь усереднені цифри "ймовірності помилок фільтрації", апріорі припускаючи наявність випадків помилкової ідентифікації в процесі роботи програми.

Проте ж варто, напевно, повернутися до питання про те, що таке спам. Вважається, що одними з перших по-справжньому серйозних спамерів були Лоренс Сантер (Laurence Canter) та Марта Сейгель (Martha Seigel), додумалися в 1994 р. до перших масових розсилок, рекламували юридичні послуги для емігрантів. Саме їх можна вважати зачинателями спамерських воєн: кілька розгублені від очевидної нахабства мережевих ділків програмісти стали створювати поштові фільтри, покликані захистити скриньки користувачів від непрошеної кореспонденції. Оскільки "солодка парочка" на той момент була єдиною серйозною спамерськой командою на всій планеті, то для розробників антиспамерського захисту було дуже легко ідентифікувати рекламні листи, які приходили з адрес провайдера, який обслуговував Сантера і Сейгель, і відкидати їх із загального потоку кореспонденції, яка надходила в скриньку користувача. Однак аферисти незабаром розкусили тактику роботи фільтрів і стали періодично міняти провайдера, вводячи тим самим в оману програми, покликані захистити чесних користувачів від нечесної реклами. Почалася світова мережева війна зі спамом, що продовжується і донині. Причому перемогу в "великій битві" по черзі беруть то ділки від реклами, то захисники чистоти електронної пошти.

За час, який минув з 1994 р., антиспамерські програмне забезпечення стало досконаліше, проте на всяку протидію кожного разу знаходиться все більш витончене дію. Приміром, коли програми-фільтри навчилися сортувати пошту, виділяючи з її потоку листи з однаковими фрагментами тексту, спамери стали розбавляти свої рекламні послання набором випадкових символів. Коли творці програм-фільтрів розробили алгоритм, який дозволив виділяти серед набору випадкових символів базові лінгвістичні конструкції, спамери навчилися складати зрозумілі людині "неправильні" фрази або розбавляти осмислений текст "вставками", збивали з пантелику комп'ютер. Коли була освоєна сортування листів за ключовими словами, спамери придумали навмисно писати слова з граматичними помилками і порушеннями правил пунктуації. Ну і так далі …

До речі, одним з улюблених прийомів "спамерськой війни" останнього часу стало використання для розсилки електронної кореспонденції комп'ютерів ні в чому не винних користувачів, що мають широкосмугове підключення до Мережі. Механізм простий: машину жертви попередньо заражають троянською програмою, яка перетворює комп'ютер на "спамерськую поштову станцію", а після цього тисячі листів з адреси нічого не підозрюючи жертви розсилаються по всьому світу. Найдивніше, що з недавніх пір подібні заражені комп'ютери стали предметом … торгу. Справа в тому, що сам по собі спамер, як правило, не має якимись особливими технічними навичками та знаннями, і тут вже на допомогу "ділку мережевої економіки" приходять програмісти-вирусописатели. Саме завдяки знанням і зусиллям останніх відбувається перетворення доброчесної користувача в пособника спамерів. Причому заражена і підготовлена до розсилки спаму машина стає елементом віртуальної мережі, в яку програмісти-плохиша об'єднують сотні комп'ютерів інших постраждалих користувачів. Ну а після цього весь "конгломерат" передається в розпорядження розповсюджувачів непрошеної пошти, причому, що цілком очевидно, не "за просто так". Кілька годин користування "Троянської поштовою службою" обходяться замовникові в суму від 50 до 100 доларів, за які безчесний "рекламіст" отримує можливість розіслати кілька мільйонів копій своїх мерзенних послань …

Однак повернемося до теми боротьби зі спамом, а не методиками його розповсюдження. Зрештою, творці антиспамерського програмного забезпечення прийшли до цілком очевидного висновку: для ефективної боротьби зі спамом потрібно, щоб машина мислила як людина. Іншими словами, треба змусити працювати комп'ютер так само, як працює сіра речовина в черепній коробці: аналізуючи текст повідомлення, людський мозок виходить із загального контексту листа з власного минулого досвіду, зі стилю викладу і ще безлічі деталей, співвіднесення яких один з одним дає можливість зі стовідсотковою упевненістю віднести лист до спаму або, навпаки, класифікувати його як потрібне. Загалом, всього-на-всього потрібно розробити поштовий фільтр з елементами штучного інтелекту.

Одна із спроб такого підходу вже реалізована вченими з Мельбурнського університету в Австралії. Програмісти Метью Салліван (Matthew Sullivan) і Гай Ді Маттіна (Guy Di Mattina) спільно з математиком доктором Кевіном Гейтсом (Dr Kevin Gates) розробили програмний комплекс під назвою Support Vector Machine, який здатний сортувати пошту зі швидкістю до 90 листів в секунду з ймовірністю появи одноразової помилки на кожні 25 тисяч розсортованих листів. Принципи, на основі яких функціонує Support Vector Machine, до недавнього часу були суто теоретичними розробками, а про серйозність і глибині підходу свідчить опис системи, в якому, між іншим, затверджується, що фільтр працює на основі "нелінійних гіперплощини в гільбертовому просторі з використанням перетворень Лагранжа ". Бажаючі розібратися в подробицях використаної методики можуть впоратися про "теоретичному фундаменті" проекту за адресою www.kernel-machines.org.

Опускаючи дрібні технічні подробиці, можна сказати, що Support Vector Machine представляє аналізовані дані у вигляді багатовимірного масиву інформації, після чого проводиться аналіз співвідношень показників відразу за багатьма координат, що описують досліджуваний повідомлення. Сукупність цих показників дозволяє створити своєрідний "зліпок" повідомлення, який з великим ступенем ймовірності характеризує вміст листа. Іншими словами, якщо говорити спрощено і представляти масив даних у вигляді звичних нам тривимірних фігур, то, наприклад, всі повідомлення, близькі до паралелепіпеда, будуть "хорошими", а всі наближаються до куба – "поганими". Або навпаки … Незважаючи на складність і заплутаність, запропонований австралійцями метод обробки даних легко алгорітмізіруется і відмінно підходить для реалізації на сучасних обчислювальних машинах, а тому має всі шанси до того, щоб "почати велику самостійне життя". Деякі фахівці взагалі схильні вважати новий алгоритм найдосконалішим з усіх коли-небудь раніше запропонованих для фільтрації електронної пошти.

З іншого боку, зовсім недавно в Мережі з'явилися повідомлення про створення антиспамерського програми, що базується на тих же принципах, які використовуються при розшифровці генома людини та вивчення будови ДНК. В основу "біологічного фільтра" покладено алгоритм Teiresias, розроблений фахівцями IBM спеціально для пошуку повторюваних фрагментів в ланцюжках ДНК і амінокислот.

Нова технологія фільтрації отримала назву "Чжун-Квей" на ім'я талісмана, який, згідно древнекитайскому вченням фен-шуй, оберігає оселю від злих духів. Розробники стверджують, що їх дітище дозволяє виявити і витягти з потоку листів до 97% вхідного спаму, при цьому коефіцієнт допущення помилок не перевищує 0,016%, тобто лише одне з кожних 6250 "правильних" листів може бути помилково віднесено до категорії спаму.

Сама методика виявлення спаму полягає в тому, що замість послідовності символів, з яких складається ланцюжок ДНК, аналізу піддається електронна кореспонденція.

Для початку експериментаторами проводилося "навчання" фільтра. З цією метою використовувався масив листів, свідомо відносяться до числа непрошених (в ході випробувань було досліджено 65 тис. електронних листів). Кожне послання розглядалося як послідовності символів, аналогічно тому, як це робиться при дослідженні ДНК.

У результаті було виявлено близько 6 млн постійно зустрічаються фрагментів, кожен з яких представляє собою алфавітно-цифрову послідовність, траплялася більш ніж в одному листі.

Після цього аналогічна робота була проведена щодо листів, які не належать до категорії спаму, і фрагменти, виявлені в обох категоріях, виключені зі списку. Як наслідок, фільтр отримав у своє розпорядження кілька мільйонів ознак (цифробуквене послідовностей) зустрічалися як мінімум 2 рази в спамерських листах.

По завершенні процесу "навчання" новий алгоритм був використаний для аналізу вхідних повідомлень електронної пошти, яка мала упереміш спам, важливі ділові листи і приватну переписку користувачів. У ході фільтрації кожного листа привласнювався індекс, величина якого характеризувала кількість фрагментів спаму, виявлені в ній. У підсумку "Чжун-Квей" зміг коректно ідентифікувати 64 665 листів з 66 697 запропонованих, продемонструвавши майже 97-відсоткову ефективність виявлення спаму.

На думку Джастіна Мейсона (Justin Mason), розробника однієї з популярних антиспамерські програм з відкритим вихідним кодом SpamAssasin, новий алгоритм виглядає вельми багатообіцяюче. В інтерв'ю, даному їм журналу New Scientist, цей "головнокомандувач" антиспамерського опору зізнався, що його особливо надихає не сам по собі алгоритм, а той факт, що проведений фахівцями IBM досвід зміг продемонструвати можливості використання принципів біоінформатики для боротьби зі спамом.

Що стосується IBM, то компанія планує використовувати алгоритм "Чжун-Квей" в новому фільтрі спаму під назвою SpamGuru. Як обіцяють інженери-програмісти, SpamGuru буде автоматично підтримувати "білі" і "чорні" списки, що конфігуруються користувачами, а також дасть можливість змінювати рівень фільтрації. Більш того, за деякими відомостями, IBM збирається використовувати елементи технології SpamGuru у своєму продукті Lotus Workplace Messaging 2.0, який з'явиться на ринку вже до кінця 2004 р. Проте офіційне рішення про включення SpamGuru до складу Lotus поки не прийнято.

Втім, можна припустити, що особливо тягнути з апробування нової технології в IBM не будуть, адже спам призводить до багатомільйонних збитків і засмічує Мережа безглуздим трафіком. Саме пов'язані зі спамом економічні збитки і змушують дедалі напруженішою працювати вчених, інженерів і програмістів над створенням все більш досконалих і надійних антиспамерські коштів. Причому спамери піклуються про те, щоб борці за чистоту пошти не застоювалися у своїх шуканнях. Приміром, з недавніх пір при складанні непрошеної пошти все частіше стала використовуватися графіка. Причина зрозуміла: лінгвістичні фільтри вчаться розпізнавати письмову мову, але ще не сильні в спогляданні картинок. Можливо, що саме невгамовна жага наживи з боку мережевих ділків підштовхне до розвитку фундаментальні дослідження в області розпізнавання образів. І як знати, може бути, спам стане тим стимулом, який нарешті призведе до створення штучного інтелекту, про швидку появу якого вчені твердять починаючи з 50-х років минулого століття. Проте, як відомо, в той час ще не існувало спаму …

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*