Спам. Рушійна сила еволюції?, Різне, Інтернет-технології, статті

Ільдар Кути

Важко знайти хороші слова для “сміттєвої пошти” або просто спаму. Цього гидкого, противного, нав’язливого спаму, який сотнями листів проникає в поштові ящики безневинних користувачів і судячи по всьому найближчим часом може стати загрозою існування самої електронної пошти. Легко сказати, за підсумками 1 півріччя 2004 р. непрохана кореспонденція в російськомовній частині Мережі склала від 70 до 80% всього обсягу поштових відправлень. Аналогічна з Рунетом ситуація складається і в інших частинах кіберпростору. Та тільки за одне це спамерів потрібно було б …

Хоча, стоп! Нині в моді позитивне мислення і оптимістичний погляд на речі, якому вчать на численних психологічних тренінгах та семінарах. Так, може, варто спробувати застосувати подібний підхід і до проблеми спаму, щоб не розхитувати й без того напружені нерви, виявляючи у власному електронному поштовому ящику пару десятків непроханих листів, серед яких благородними крупинками втрачається одне-два давно очікуваних послання від давнього друга або ділового партнера. Отже, видихнути, відкинути емоції і … Якщо заспокоїтися і підійти до проблеми тверезо і виважено, то виявиться, що в якійсь мірі саме спам стимулює прогрес в галузі розвитку інформаційних технологій і спонукає вчених шукати рішення для проблем, протягом багатьох десятиліть вважалися суто теоретичними.

Слідуючи заклику дивитися в корінь, можна з’ясувати, що організація боротьби з непрошеної кореспонденцією впирається у відповідь на один дуже просте запитання: “А що таке спам?”. Здавалося б, безглуздо питати про настільки очевидному предметі. Будь-який користувач електронної поштової служби, тільки лише поглянувши на текст послання, з легкістю зуміє відрізнити рекламний лист від кореспонденції, дійсно має важливе для нього значення. Дивно інше – відрізнити може кожен, а от сформулювати необхідні і достатні умови ідентифікації спамерського послання, на жаль, не вийде. Саме в цю проблему і впирається більшість антиспамерські програм і фільтрів, які найчастіше можуть пропускати непрохану кореспонденцію в ящик і, навпаки, відкидати, прийнявши за спам, давно очікуване користувачем лист. Причому остання ситуація видається більшості користувачів набагато серйознішою, ніж проникнення в ящик пари-другой непрошених листів, але ніякої впевненості в тому, що подібне не сталося, немає: розробники поштових фільтрів воліють наводити якісь усереднені цифри “ймовірності помилок фільтрації”, апріорі припускаючи наявність випадків помилкової ідентифікації в процесі роботи програми.

Проте ж варто, мабуть, повернутися до питання про те, що таке спам. Вважається, що одними з перших по-справжньому серйозних спамерів були Лоренс Сантер (Laurence Canter) і Марта Сейгель (Martha Seigel), додумалися в 1994 р. до перших масових розсилок, рекламували юридичні послуги для емігрантів. Саме їх можна вважати зачинателями спамерських воєн: кілька подрастерялі від очевидної нахабства мережевих ділків програмісти стали створювати поштові фільтри, покликані захистити ящики користувачів від непрошеної кореспонденції. Оскільки “солодка парочка” на той момент була єдиною серйозною спамерської командою на всій планеті, то для розробників антиспамерського захисту не представляло праці ідентифікувати рекламні листи, які приходили з адрес провайдера, який обслуговував Сантера і Сейгель, і відкидати їх із загального потоку кореспонденції, що надходила в скриньку користувача. Однак аферисти незабаром розкусили тактику роботи фільтрів і стали періодично міняти провайдера, вводячи тим самим в оману програми, покликані захистити чесних користувачів від нечесної реклами. Почалася світова мережева війна зі спамом, що триває й донині. Причому перемогу в “великій битві” по черзі беруть то ділки від реклами, то захисники чистоти електронної пошти.

За час, що минув з 1994 р., Антиспамерські програмне забезпечення стало досконалішим, проте на всяку протидію кожен раз знаходиться все більше витончене дію. Приміром, коли програми-фільтри навчилися сортувати пошту, виділяючи з її потоку листи з однаковими фрагментами тексту, спамери стали розбавляти свої рекламні послання набором випадкових символів. Коли творці програм-фільтрів розробили алгоритм, який дозволив виділяти серед набору випадкових символів базові лінгвістичні конструкції, спамери навчилися складати зрозумілі людині “неправильні” фрази або розбавляти осмислений текст “вставками”, збивали з пантелику комп’ютер. Коли була освоєна сортування листів за ключовими словами, спамери придумали навмисно писати слова з граматичними помилками і порушеннями правил пунктуації. Ну і так далі …

До речі, одним з улюблених прийомів “спамерської війни” останнього часу стало використання для розсилки електронної кореспонденції комп’ютерів ні в чому не винних користувачів, які мають широкосмугове підключення до Мережі. Механізм простий: машину жертви попередньо заражають троянської програмою, яка перетворює комп’ютер в “спамерськую поштову станцію”, а після цього тисячі листів з адреси нічого не підозрюючи жертви розсилаються по всьому світу. Найдивовижніше, що з недавніх пір подібні заражені комп’ютери стали предметом … торгу. Справа в тому, що сам по собі спамер, як правило, не має якимись особливими технічними навичками та знаннями, і тут вже на допомогу “ділку мережевої економіки” приходять програмісти-вирусописатели. Саме завдяки знанням і зусиллям останніх відбувається перетворення добропорядного користувача в пособника спамерів. Причому заражена і підготовлена ​​до розсилки спаму машина стає елементом віртуальної мережі, в яку програмісти-поганці об’єднують сотні комп’ютерів інших постраждалих користувачів. Ну а після цього весь “конгломерат” передається в розпорядження розповсюджувачів непрошеної пошти, причому, що цілком очевидно, не “за просто так”. Кілька годин користування “Троянської поштовою службою” обходяться замовникові в суму від 50 до 100 доларів, за які безчесний “рекламіст” отримує можливість розіслати кілька мільйонів копій своїх мерзенних послань …

Однак повернемося до теми боротьби зі спамом, а не методикам його поширення. Зрештою, творці антиспамерського програмного забезпечення прийшли до зовсім очевидного висновку: для ефективної боротьби зі спамом потрібно, щоб машина мислила як людина. Іншими словами, потрібно змусити працювати комп’ютер так само, як працює сіра речовина в черепній коробці: аналізуючи текст повідомлення, людський мозок виходить із загального контексту листа з власного минулого досвіду, із стилю викладу і ще безлічі деталей, співвіднесення яких один з одним дає можливість зі стовідсотковою впевненістю віднести лист до спаму або, навпаки, класифікувати його як потрібне. Загалом, всього лише потрібно розробити поштовий фільтр з елементами штучного інтелекту.

Одна зі спроб такого підходу вже реалізована вченими з Мельбурнського університету в Австралії. Програмісти Метью Салліван (Matthew Sullivan) і Гай Ді Маттіна (Guy Di Mattina) спільно з математиком доктором Кевіном Гейтсом (Dr Kevin Gates) розробили програмний комплекс під назвою Support Vector Machine, який здатний сортувати пошту зі швидкістю до 90 листів в секунду з імовірністю появи одноразової помилки на кожні 25 000 розсортованих листів. Принципи, на основі яких функціонує Support Vector Machine, до недавнього часу були чисто теоретичними розробками, а про серйозність і глибині підходу свідчить опис системи, в якому, між іншим, стверджується, що фільтр працює на основі “нелінійних гіперплоскостей в гільбертовому просторі з використанням перетворень Лагранжа “. Бажаючі розібратися в подробицях використаної методики можуть впоратися про “теоретичному фундаменті” проекту за адресою www.kernel-machines.org.

Опускаючи дрібні технічні подробиці, можна сказати, що Support Vector Machine являє аналізовані дані у вигляді багатовимірного масиву інформації, після чого проводиться аналіз співвідношень показників відразу по всьому безлічі координат, що описують досліджуваний повідомлення. Сукупність цих показників дозволяє створити своєрідний “зліпок” повідомлення, що з великим ступенем ймовірності характеризує вміст листа. Іншими словами, якщо говорити спрощено і представляти масив даних у вигляді звичних нам тривимірних фігур, то, наприклад, всі повідомлення, близькі до паралелепіпеда, будуть “хорошими”, а все наближаються до куба – “поганими”. Або навпаки … Незважаючи на складність і заплутаність, запропонований австралійцями метод обробки даних легко алгоритмизируется і відмінно підходить для реалізації на сучасних обчислювальних машинах, а тому має всі шанси до того, щоб “почати велику самостійне життя”. Деякі фахівці взагалі схильні вважати новий алгоритм найдосконалішим з усіх коли-небудь раніше запропонованих для фільтрації електронної пошти.

З іншого боку, зовсім недавно в Мережі з’явилися повідомлення про створення антиспамерського програми, що базується на тих же принципах, які використовуються при розшифровці генома людини і вивченні будови ДНК. В основу “біологічного фільтра” покладено алгоритм Teiresias, розроблений фахівцями IBM спеціально для пошуку повторюваних фрагментів в ланцюжках ДНК і амінокислот.

Нова технологія фільтрації отримала назву “Чжун-Квей” на ім’я талісману, який, згідно древнекитайскому ученням фен-шуй, оберігає оселю від злих духів. Розробники стверджують, що їх дітище дозволяє виявити і витягти з потоку листів до 97% вхідного спаму, при цьому коефіцієнт допущення помилок не перевищує 0,016%, тобто лише одне з кожних 6250 “правильних” листів може бути помилково віднесено до категорії спаму.

Сама методика виявлення спаму полягає в тому, що замість послідовності символів, з яких складається ланцюжок ДНК, аналізу піддається електронна кореспонденція.

Для початку експериментаторами проводилося “навчання” фільтра. З цією метою використовувався масив листів, свідомо відносяться до числа непрошених (в ході випробувань було досліджено 65 тис. електронних листів). Кожне послання розглядалося як послідовності символів, аналогічно тому, як це робиться при дослідженні ДНК.

В результаті було виявлено близько 6 млн постійно зустрічаються фрагментів, кожен з яких представляє собою алфавітно-цифрову послідовність, зустрічається більш ніж в одному листі.

Після цього аналогічна робота була проведена щодо листів, які не належать до категорії спаму, і фрагменти, виявлені в обох категоріях, виключені зі списку. Як наслідок, фільтр отримав у своє розпорядження кілька мільйонів ознак (цифробуквене послідовностей) зустрічалися як мінімум 2 рази на спамерських листах.

По завершенні процесу “навчання” новий алгоритм був використаний для аналізу вхідних повідомлень електронної пошти, містила упереміш спам, важливі ділові листи і приватну переписку користувачів. В ході фільтрації кожному листу привласнювався індекс, величина якого характеризувала кількість фрагментів спаму, виявлених в ньому. У підсумку “Чжун-Квей” зміг коректно ідентифікувати 64665 листів з 66697 запропонованих, продемонструвавши майже 97-відсоткову ефективність виявлення спаму.

На думку Джастіна Мейсона (Justin Mason), розробника однієї з популярних антиспамерські програм з відкритим вихідним кодом SpamAssasin, новий алгоритм виглядає вельми багатообіцяюче. В інтерв’ю, даному їм журналу New Scientist, цей “головнокомандувач” антиспамерського опору зізнався, що його особливо надихає не сам по собі алгоритм, а той факт, що проведений фахівцями IBM досвід зміг продемонструвати можливості використання принципів біоінформатики для боротьби зі спамом.

Що стосується IBM, то компанія планує використовувати алгоритм “Чжун-Квей” в новому фільтрі спаму під назвою SpamGuru. Як обіцяють інженери-програмісти, SpamGuru буде автоматично підтримувати “білі” і “чорні” списки, конфігуровані користувачами, а також дасть можливість змінювати рівень фільтрації. Більш того, за деякими відомостями, IBM збирається використовувати елементи технології SpamGuru в своєму продукті Lotus Workplace Messaging 2.0, який з’явиться на ринку вже до кінця 2004 р. Проте офіційне рішення про включення SpamGuru до складу Lotus поки не прийнято.

Втім, можна припустити, що особливо зволікати з апробування нової технології в IBM не будуть, адже спам призводить до багатомільйонних збитків і засмічує Мережа безглуздим трафіком. Саме пов’язані зі спамом економічні збитки і змушують все напруженішою працювати вчених, інженерів і програмістів над створенням все більш досконалих і надійних антиспамерські засобів. Причому спамери піклуються про те, щоб борці за чистоту пошти не застоювалися в своїх шуканнях. Приміром, з недавніх пір при складанні непрошеної пошти все частіше стала використовуватися графіка. Причина зрозуміла: лінгвістичні фільтри вчаться розпізнавати письмову мову, але ще не сильні в розгляданні картинок. Можливо, що саме невгамовна жага наживи з боку мережевих ділків підштовхне до розвитку фундаментальні дослідження в області розпізнавання образів. І як знати, може бути, спам стане тим стимулом, який нарешті призведе до створення штучного інтелекту, про швидку появу якого вчені твердять починаючи з 50-х років минулого століття. Проте, як відомо, в той час ще не існувало спаму …

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*