Особливості здобуття знань з текстів. Частина 1.

Лінгвістичний процесор Semantix призначений для областей, де потрібна автоматична формалізація потоків текстів на природній мові: резюме, повідомлення ЗМІ, інформаційно-рекламні матеріали, поштові повідомлення, зведення пригод, довідки у кримінальних справах, архівні матеріали та ін З текстів (документів) витягуються цікаві для користувача об'єкти, їх властивості та зв'язки. Представляються факти участі об'єктів в діях. Останні самі розглядаються як комплексні об'єкти з їх властивостями і зв'язками. У результаті на основі кожного документа будується спеціального виду семантична мережа, відображає його семантичну структуру. Такі мережі відображаються на XML-файли, які служать для організації Баз Знань, відповідних семантичних пошуків, для вирішення логіко-аналітичних завдань, а також для заповнення реляціоннних БД.

Дослідження провідних аналітиків показує, що сукупний обсяг цифрової інформації в 2006 році склав 161 мільйонів гігабайт. Передбачається, що за період з 2006 по 2010 рік обсяг інформації збільшиться більш ніж у шість разів. У більш ніж 80% випадків така інформація є неструктурованою – це тексти звичайної мови. Людині стає все важче орієнтуватися в потоках інформації, що надходить. У зв'язку з цим при обробці інформації потрібні нові інноваційні підходи, орієнтовані на завдання конкретних користувачів.


Слід враховувати, що велика категорія користувачів мають певні службові обов'язки, і відповідно, постійні інтереси. Їм необхідна цілком конкретна інформація. Наприклад, працівники інформаційно-аналітичних підрозділів вибирають зі ЗМІ інформацію про їх цікавлять події, катастрофи, терористичні акти, персоналії і ін Слідчому важливі фігуранти, місця їх проживання, телефони, кримінальні події, дати та ін Співробітникові кадрової служби треба знати організації, де, ким і в який час кандидат працював. Подібна інформація називається інформаційними об'єктами або просто об'єктами [1,2,10]. Об'єкти розрізняються за типам. Кожна з перерахованих категорій користувачів цікавиться набором об'єктів певного типу. Знаходити потрібні об'єкти в потоці текстів, читаючи їх, у багатьох областях – непосильна праця.


Для забезпечення подібних користувачів потрібною інформацією потрібні кошти автоматичного витягання об'єктів з текстів з їх поданням у формах, зручних для сприйняття або подальшої обробки. Мова йде про автоматичну формалізації текстів, пов'язаної з витяганням знань (Knowledge Extraction). Це проблемна область, яка знаходиться у сфері уваги дослідників. Її актуальність постійно зростає [3,4,5]. Для цієї цілі протягом останніх 15 років у рамках проектів ІПІ РАН розроблялися семантико-орієнтовані лінгвістичні процесори [6,7]. Їх наукова база: розширені семантичні мережі (РСЗ), Методики представлення складних видів знань, інструментальне середовище декла обробки структур знань, мережеві позиційні граматики, онтології, морфологічний аналіз на основі узагальнених закінчень [1,2,14]. Останній варіант такого процесора, виготовленого спільно з ЗАТ <Синергетичні Системи> у вигляді модуля SDK, отримав назву Semantix .


Далі буде.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*