Корпоративна інформація: особливості пошуку, Комерція, Різне, статті

Е. Коржов директор компанії «Текон»


Розглянуто характерні проблеми, що виникають при пошуку документів у великих обсягах текстової інформації. Організація доступу до даних безпосередньо залежить від технологій і програм, що забезпечують швидкість і якість обробки інформації.

Загальна тенденція розвитку ІТ-додатків – обробляти дані, які все більш «багаті» за смисловим змістом (контенту) і, одночасно, все менш організовані за структурою. У порядку зменшення «організованості» і збільшення «смислової цінності» дані можна розділити на:


Реляційна модель, що лежить в основі більшості сучасних СУБД, дозволяє успішно обробляти прості структуровані дані, представимо у вигляді рядків таблиць. Деякі СУБД (наприклад, Oracle) Забезпечують об’єктно-реляційні можливості, так що додатки можуть працювати з комплексними структурованими даними (колекції, посилання, визначені користувачем типи та ін.) Такі технології, як Oracle Streams Advanced Queuing, дозволяють працювати з повідомленнями та іншими частково-структурованими даними.

Неструктуровані дані не можуть бути розбиті на окремі компоненти (поля, підполя і т. п.). Саме неструктуровані дані забезпечують той «приріст» обсягів інформації, який радує продавців сховищ даних і спантеличує ІТ-керівників організацій. Їх важливість визначає той факт, що, на думку експертів до 90% обсягу корпоративної інформації представлено у вигляді тексту (якщо, звичайно, це не телестудія, фірма звукозапису або рекламне агентство). За деякими оцінками співробітники компанії витрачають до половини робочого часу на вирішення проблем, пов’язаних з управлінням неструктурованої інформацією.

ПРОБЛЕМИ ПОШУКУ текстової інформації

Ідеалізовані моделі пошукових алгоритмів, на яких студентів починають вчити програмування, вселяють ілюзію простоти завдань пошуку. У реальному житті швидкий пошук відповідних документів у великих обсягах даних – це одна з найважливіших і найскладніших завдань, що вирішуються сьогодні за допомогою ІТ. Серед моментів, які сильно ускладнюють пошук текстової інформації на практиці: різноманітність джерел даних (Бази даних, поштові системи, web-сторінки, файлові системи), різні формати представлення даних, оперативність отримання інформації (іноді хвилини і секунди), обсяги збережених даних, помилки (проблеми грамотності, масовий переклад з звукової форми в текст), мови (часто в запиті поєднуються слова на декількох мовах) та ін

Для текстового пошуку характерно, що шукається не точне збіг, а «схоже». Пошукові системи давно вже не дають простих відповідей («знайдено» і покажчик на місце, або «не знайдено»). Як відповідь на запит тепер видається не одиничний результат, а безліч результатів (вибірка), в тій чи іншій мірі близьких до теми запиту.

Якість пошуку. Є два основних показники якості пошуку текстової інформації. Релевантність показує, наскільки близькі отримані за запитом документи до шуканого (більше релевантність – менше «сміття» в результатах пошуку). Повнота показує, скільки відповідних документів не потрапило в «відповідь». Власне проблеми пошуку пов’язані з балансуванням цих двох показників:


Зрозуміло, що ні той, ні інший варіант не підходять, істина десь між ними.

Інструменти пошуку можна поділити на три групи: пошук на локальному комп’ютері, глобальні пошукові інтернет-системи, корпоративні рішення.

Локальний пошук. C пошуком на окремому персональному комп’ютері все зовні просто: вводиться ім’я шуканого файлу (повністю або частково) – для пошуку в змісті, або частина тексту – для пошуку в документах. Звичайно застосовується простий перебір, ускладнюємо різними форматами тексту і його архівацією.

Глобальний пошук. Величезні обсяги інформації, розподілена структура її зберігання роблять простий пошук переглядом тексту не просто неефективним, але неможливим. Тому останнім часом активно ведуться розробки щодо поліпшення глобального пошуку. Цьому сприяє ряд моментів, що полегшують пошук в Інтернет:


Корпоративні системи. Складність завдань цього напрямку в тому, що необхідно не тільки вирішувати задачі перших двох груп (локального і глобального пошуку), але і враховувати ряд додаткових особливостей корпоративного пошуку:


Індексація. Для підприємств і компаній з гігантськими обсягами неструктурованих «знань» простий перегляд всього тексту кожного існуючого документа займає величезну кількість часу. Тому, щоб швидко знаходити в тексті потрібну інформацію, його потрібно попередньо «розмітити». Іноді це робиться в самому документі (гіпертекстова структура), іноді в окремих файлах (індексах), які і використовуються надалі при пошуку.

Ключові слова. Якщо база текстових даних містить кілька десятків тисяч документів, то швидко знайти інформацію, навіть ретельно підібравши в запиті ключові слова, дуже важко. Доведеться переглядати в отриманій вибірці документ за документом, додаючи нові ключові слова та їх комбінації – і так до досягнення відповідності. Причому зовсім не факт, що користувач самостійно зможе підібрати потрібне поєднання ключових слів (або згадати його в подальшому).

Крім «традиційного», є ще кілька удосконалених видів пошуку за ключовими словами: з урахуванням морфології (будови слів), нечіткий (враховує можливість помилок і друкарських помилок), фонетичний (враховує подібні за звучанням слова) і синонімічний (враховує схожі за змістом слова). Як варіант, в деяких системах можна вказати як аргумент пошуку документ, і шукати «схожі» на нього.

ТИПОВІ ПРОБЛЕМИ КОРПОРАТИВНИХ КОРИСТУВАЧІВ

Пошук «за змістом». Швидкість пошуку інформації у великих обсягах даних є важливим фактором. Мова йде не про швидкість роботи самої системи-пошукача (пошукової системи), а про час пошукової сесії (початкового запиту, уточнення або пошуку нових ключових слів). Основні проблеми пов’язані з невдалим вибором ключових слів і переглядом непотрібних документів, отриманих в списку результатів запиту. Скоротити час можна, вказуючи як шаблон пошуку документ – з пошуком близьких за змістом.

Проблема «близнюків». У базі даних або інформаційній системі підприємства можуть міститися документи з різних джерел, що містять схожу або ідентичну інформацію. Один і той же текст може бути з різними заголовками, з невеликими змінами або доповненнями, що вносить певну плутанину при його використанні. Кілька співробітників можуть зберігати у себе на комп’ютерах однакові документи. В деякі вони можуть внести правки, коментарі тощо, деякі – використовувати як зразок для підготовки нових документів. Плюс резервні копії на сервері, плюс пересилаються як вкладення в e-mail. Все це викликає появу безлічі дуже схожих документів (або просто повних копій).

Щоб спростити пошук необхідно позбавити інформаційну систему від непотрібних дублів. Вирішити цю проблему можна, порівнюючи надходять в базу документи з уже містяться в ній, виявляючи дублікати і «нейтралізуючи» їх.

Консолідація інформації. Великі підприємства змушені витрачати величезні кошти на суміщення інформації з різних систем (наприклад, проектної, технологічної та фінансової документації).

Сучасні технології пошуку і структуризації інформації можуть бути консолідуючим елементом для різних інформаційних систем на підприємстві. Пошук та автоматична класифікація документів дозволяють структурувати інформаційні складові будь-якого великого підприємства під управлінням однієї програми – без перекладу документів і даних в будь-єдиний формат. Вся інформація, доступна для індексування та подальшого пошуку може бути розподілена, структурована і відображена в зручному вигляді.

РІШЕННЯ МОВНИХ ПРОБЛЕМ

І російська та українська мови складно побудовані і навіть в підручниках граматики відзначається безліч винятків, уточнень і протиріч. Повсякденна мова робить мовні проблеми ще складніше: професійні сленги (використання слів у нетрадиційному розумінні) та регіональні діалекти (використання «нетрадиційних» слів), швидке зростання словника, обтяжений запозиченнями з іноземних мов, падіння грамотності, багатозначність слів і багатоваріантність вираження понять (наприклад, «покупка компаній», «поглинання компаній», «придбання компаній»).

Все це викликає необхідність від пошукових інструментів застосування складних лінгвістичних технологій (а не просто «дружнього користувачеві інтерфейсу»). Подібні розвинені можливості обробки тексту забезпечують продукти компанії Oracle, однак у них є один недолік – повний набір можливостей забезпечений тільки для текстів англійською мовою (і частково на інших).

Для подолання зазначеного недоліку фірмою «Текон» спільно з її партнерами – «ЕР СІО» (Росія) і «Трайдент Софтвер» (Україна) – був створений продукт Ukrainian Context Optimizer (UCO). У ньому використані технології та алгоритми, які пройшли перевірку на практиці і успішно працюють в самих різних галузях.

В результаті розробки була знайдена і реалізована в програмному коді найбільш раціональна система опису української морфології, яка забезпечила максимальну швидкодію при мінімальному обсязі збережених лінгвістичних даних. Так, загальний обсяг словника в 115 000 слів (близько 4 мільйонів словоформ) і даних, необхідних для аналізу невідомих слів, не перевищує 10 Мб. При цьому на сучасних процесорах забезпечується розбір 200 000 відомих слів в секунду або близько 40 000 невідомих.

Сьогодні UCO for Oracle – єдиний на ринку продукт, що дозволяє значно розширити можливості Oracle Text при роботі c базами даних, що містять документи українською мовою. Продукт призначається для відділів автоматизації виробництва середнього та великого бізнесу, ІТ-підрозділів державних установ, системних інтеграторів і розробників додатків, що використовують можливості інформаційного пошуку. UCO for Oracle задіює такі технології, як лексико-граматичний і статистичний аналіз тексту, алгоритми автоматичної класифікації, рубріцірованія і реферування; нечіткого пошуку, реалізуючи для української мови всі існуючі в OracleText можливості. Існують версії продукту для ОС Windows і різних UNIX-платформ (SUN Solaris, SCO UnixWare, Compaq Tru64 Unix, HP UX, IBM AIX).

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*