Особливості вилучення знань з текстів. Частина 1., Oracle, Бази даних, статті

Лінгвістичний процесор Semantix призначений для областей, де потрібна автоматична формалізація потоків текстів на природній мові: резюме, повідомлення ЗМІ, інформаційно-рекламні матеріали, поштові повідомлення, зведення подій, довідки у кримінальних справах, архівні матеріали та ін З текстів (документів) витягуються цікавлять користувача об’єкти, їх властивості і зв’язку. Представляються факти участі об’єктів в діях. Останні самі розглядаються як комплексні об’єкти з їх властивостями і зв’язками. В результаті на основі кожного документа будується спеціального виду семантична мережа, що відображає його семантичну структуру. Такі мережі відображаються на XML-файли, які служать для організації Баз Знань, відповідних семантичних пошуків, для вирішення логіко-аналітичних завдань, а також для заповнення реляціоннних БД.


Дослідження провідних аналітиків показує, що сукупний обсяг цифрової інформації в 2006 році склав 161 мільйонів гігабайт. Передбачається, що за період з 2006 по 2010 рік обсяг інформації збільшиться більш ніж у шість разів. У більш ніж 80% випадків така інформація є неструктурованою – це тексти природної мови. Людині стає все важче орієнтуватися в потоках надходить. У зв’язку з цим при обробці інформації потрібні нові інноваційні підходи, орієнтовані на завдання конкретних користувачів.


Слід враховувати, що велика категорія користувачів мають певні службові обов’язки, і відповідно, постійні інтереси. Їм необхідна цілком конкретна інформація. Наприклад, співробітники інформаційно-аналітичних підрозділів вибирають із ЗМІ інформацію про цікавлять їх події, катастрофах, терористичних актах, персоналії та ін Слідчому важливі фігуранти, місця їх проживання, телефони, кримінальні події, дати і ін Співробітникові кадрової служби потрібно знати організації, де, ким і в який час кандидат працював. Подібна інформація називається інформаційними об’єктами або просто об’єктами [1,2,10]. Об’єкти розрізняються по типам. Кожна з перерахованих категорій користувачів цікавиться набором об’єктів певного типу. Знаходити потрібні об’єкти в потоці текстів, читаючи їх, у багатьох областях – непосильна праця.


Для забезпечення подібних користувачів потрібною інформацією потрібні засоби автоматичного вилучення об’єктів з текстів з їх поданням до формах, зручних для сприйняття або подальшої обробки. Мова йде про автоматичну формалізації текстів, пов’язаної з витягом знань (Knowledge Extraction). Це проблемна область, яка знаходиться у сфері уваги дослідників. Її актуальність постійно зростає [3,4,5]. Для цієї мети на протязі останніх 15 років в рамках проектів ІПІ РАН розроблялися семантико-орієнтовані лінгвістичні процесори [6,7]. Їх наукова база: розширені семантичні мережі (РСЗ), Методики представлення складних видів знань, інструментальна середу декла обробки структур знань, мережеві позиційні граматики, онтології, морфологічний аналіз на основі узагальнених закінчень [1,2,14]. Останній варіант такого процесора, виготовленого спільно із ЗАТ <Синергетичні Системи> у вигляді модуля SDK, отримав назву Semantix .


Далі буде.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*