Особливості вилучення знань з текстів. Частина 6., Oracle, Бази даних, статті

5. Структура XML-файла


В XML-файлі представлена ​​змістовний портрет (структура СС), тобто всі об’єкти та зв’язку, виявлені їх тексту процесором Semantix. У зв’язку з цим організація XML-файлів має певний науковий інтерес – Як засобів подання семантичної структури речень і текстів.


Перетворення мережі СС в XML-файл забезпечується за допомогою зворотного лінгвістичного процесора. При цьому фрагменти, що представляють об’єкти, відносини, дії та пропозиції в структурі СС, відображаються на відповідні компоненти XML-файла, які також будемо називати об’єктами, відносинами, діями і пропозиціями. Розглянемо основні компоненти, з яких складається XML-файл.


5.1. Константа – Це найпростіша компонента СС, що представляє собою одне нормалізоване слово або символ ЕЯ. Під нормалізацією тут і далі розуміється приведення слова до називному відмінку однини для іменника, прикметника, до інфінітива для дієслова і т.д. Константа задається в XML-файлі у вигляді:



Наприклад, константами є імена вулиць, людей, числа, що представляють собою номери будинків, квартир, поняття, слова-дії та будь-які інші нормалізовані слова, що зустрічаються в текстах ЕЯ.


5.2. Тип елемента – Це покажчик класу, до якого належить константа. Типи задаються для певних об’єктів і служать для вказівки, що значить в ньому той чи інший елемент. Типи – це виділені константи. Вони вводяться в ЛЗ при налаштуванні процесора.


5.3. Типізована константа – Це константа із зазначенням її класу. Задається у вигляді:



Наприклад, якщо об’єктом є адреса, то вказується, що дане слово – вулиця, число – номер будинку і т.д. Набори типів задаються при налаштуванні процесора.


5.4. Атрибут – Це константа, що характеризує властивість об’єкта. Задається у вигляді:



5.5. Посилання на об’єкт . Кожен об’єкт має свій унікальний номер, званий ідентифікатором . Посилання на об’єкт задається у вигляді:


.


5.6. Компонента XML-файла, звана об’єктом (Або просто об’єкт), визначається ідентифікатором, типом і містить упорядкований безліч елементів, кожен з яких є або константа, або властивість, або посилання на інший об’єкт, званий дочірнім . В кінці дається опис об’єкта – текстовий фрагмент, на основі яких був сформований даний об’єкт.


Тип об’єкта – Це виділена константа. Такі константи задаються при налаштуванні процесора: для кожного типу об’єктів – своя константа (FIO, DATE, ADDRESS та ін.) Один об’єкт може бути дочірнім по відношенню до кількох об’єктам. Два обмеження – відсутність циклічної залежності і об’єкт не може посилатися на дії. Навпаки, дії посилаються на об’єкти, див п.5.7. Об’єкт задається у вигляді:


Тут – Або константа, або властивість, або посилання на інший об’єкт. Порядок елементів в об’єкті визначається порядком відповідних слів або фрагментів в тексті, на основі яких був сформований об’єкт.


5.7. Компонента XML-файла, звана дією (Або просто дія), визначається ідентифікатором, типом (відповідає дієслову) і містить упорядкований безліч елементів дії, кожне з яких є або константа, або посилання на об’єкт, або посилання на іншу дію. Подібно об’єктах, дії також можуть містити довільний невпорядкований набір атрибутів (властивостей). Дія задається у вигляді:





:



На відміну від об’єктів, у дій немає опису. Порядок елементів у дії визначається порядком відповідних слів або фрагментів в тексті, на основі яких був сформований дію.


5.8. Компонента XML-файла, звана ставленням (Або просто відношення), визначається типом (ім’ям відносини) і містить два елементи, кожен з яких це посилання на об’єкт, дія або константа. Ставлення задається у вигляді:






Замість ідентифікаторів можуть бути константи. Фактично ставлення – це важливий окремий випадок двох елементного дії, у якого відсутні ідентифікатор і властивості.


5.9. Компонента XML-файла, звана пропозицією (Або просто пропозиція) складається з упорядкованого набору констант і посилань на об’єкти або дії, які були сформовані на основі відповідної пропозиції ЕЯ. В кінці дається текст самого пропозиції, взятого з вихідного тексту. Пропозиція задається у вигляді:





:


вихідне пропозицію ЕЯ-тексту



5.10. Вихідний XML-файл складається з перерахованих вище компонент і має вигляд:



:



вміст 1-го дії



:



вміст 1-го відносини



:


<пропозиції 1-го вміст>


:



Порядок пропозицій XML-файлі відповідає їх порядку в початковому тексті.


Приклад XML-файла представлений на рис.4.



Рис.4. Приклад XML-файла для подання семантичної структури
На Рис.4 є типізовані константи для об’єктів FIO (особа), DATE (дата). При цьому видно, що опис об’єкта не завжди береться з тексту. Якщо процесор за елементами об’єкта в зазначеному інтервалі (Задається засобами позиціонування пропозиції) не може знайти потрібне опис, то процесор формує свій опис, як наприклад, 9 січня 1958 замість 9.1.1958.
В XML-файлі є всі компоненти, необхідні для різних додатків. Нормалізовані елементи є основою організації різних видів «об’єктного» чи семантичного пошуку. Описи служать для побудови різного роду досьє, звітів, форм і т.д.
Висновок
В даний час пропонується версія семантико-орієнтованого лінгвістичного процесор – Semantix 1.0 , Що обробляє документи в різних предметних областях російською та англійською мовами. Якість роботи процесора може оцінити будь-який користувач на своїх документах, вийшовши на сайт [15].
Semantix 1.0 являє собою бібліотеку COM-об’єктів і функцій, призначену для автоматичної обробки текстів природної мови-російської та англійської. Модульна структура Semantix дозволяє без великих трудовитрат вбудовувати його в системи обробки текстової інформації, наприклад, системи документообігу, електронні видання тощо
Література
1. Кузнецов І.П. Семантичні подання / / М. Наука. 1986р. 290 с.
2. Кузнецов І.П., Мацкевич А.Г. Семантико-орієнтовані системи на основі баз знань. Монографія. М.Связьіздат. 2007. 173 с.
3. Cunningham, H. Automatic Information Extraction // Encyclopedia of Language and Linguistics, 2cnd ed. Elsevier, 2005.
4. Han J. and Kamber, M. Data Mining: Concepts and Techniques // Morgan Kaufmann, 2006.
5. FASTUS:a Cascaded Finite-State Trasducerfor Extracting Information from Natural-Language Text. // AIC, SRI International. Menlo Park. California, 1996.
6. Кузнецов І.П. Методи обробки зведень з виділенням особливостей фігурантів і подій / / Праці міжнародного семінару Діалог-1999 з комп’ютерної лінгвістики і її додатків. Том 2. Таруса 1999.
7. Кузнецов І.П., Мацкевич А.Г. Система вилучення семантичної інформації з текстів природної мови / / Праці міжнародної конференції Діалог 2001 з комп’ютерної лінгвістики і її додатків: Т.2. Москва, Наука 2002.
8. Кузнецов І.П., Особливості обробки текстів природної мови на основі технології баз знань / / Сб ІПІ РАН, Вип.13, 2003 р. стор 241-250.
9. Kuznetsov, I., Kozerenko, E. The system for extracting semantic information from natural language texts // Proceeding of International Conference on Machine Learning. MLMTA-03, Las Vegas US, 23-26 June 2003, p. 75-80.
10. Кузнецов І.П., Мацкевич А.Г. Англомовна версія системи автоматичного виявлення значущої інформації з текстів природної мови / / Праці міжнародної конференції з комп’ютерної лінгвістики і інтелектуальним технологіям “Діалог 2005”, Звенигород, 2005.
11. Кузнецов І.П., Мацкевич А.Г. Семантико-орієнтований лінгвістичний процесор для автоматичної формалізації автобіографічних даних / / Праці міжнародної конференції з
комп’ютерної лінгвістики та інтелектуальним технологіям “Діалог 2006”, Бекасово, 2006, стор 317-322.
12. Кузнецов І.П., Сомин Н.В. Англо-російська система отримання знань з потоків інформації в Інтернет-середовищі. / / Сб ІПІ РАН, Вип.17, 2007 р. стор 236-253.
13. Кузнецов І.П., Мацкевич А.Г. Лінгвістичні та алгоритмічні аспекти виділення об’єктів і зв’язків з предметно-орієнтованих текстів / / Праці міжнародної конференції з комп’ютерної лінгвістики і інтелектуальним технологіям “Діалог 2007”, Бекасово, 2007, стор 333-342.
14. Сомин Н.В., Соловйова Н.С.., Шарнін М.М. Система морфологічного аналізу: досвід експлуатації і модифікації / / Системи та засоби інформатики, Вип. 15 / / ІПІ РАН – М.: Наука, 2005. – С. 20-30.
15. ДЕМО-версія процесора Semantix – http://www.semantix4you.com
.


Додаток.


Користувальницькі налаштування (вибір об’єктів і правил) для області «Документи про тероризм російською».


1. ПІБ осіб 2. Арабські ПІБ 3. Ідентифікація осіб


4. Клички 5. Прикмети 6. Дати, час


7. Інтервали часу 8. Телефони 9. Телефони з зап.кніжек


10. E_MAIL 11. WEB-сайт 12. Місце. Адреса


13. Організації 14. Робота, посада 15. Зброя


16. Автосредства 17. Терористи 18. Збройні сили


19. Номерні речі 20. Паспорт, документи 21. Національність


22. Номери рахунків, ІПН 23. Наркотики 24. Значимі об’єкти


25. Товари 26. Служби МВС 27. Статті КК


28. Крим. Справа 29. Виділення прийме 30. Користувальницькі об’єкти


31. Властивості об’єктів 32. Прикмети 33. Ідентифікація займенників


34. Словосполучення 35. Числові показники 36. Однорідні члени


37. Терміни 38. Синоніми.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*