Особливості здобуття знань з текстів. Частина 6.

5. Структура XML-файлу


У XML-файлі представлена змістовний портрет (структура СС), тобто всі об'єкти і зв'язки, виявлені їх тексту процесором Semantix. У зв'язку з цим організація XML-файлів має певний науковий інтерес – Як засобів представлення семантичної структури речень і текстів.


Перетворення мережі СС в XML-файл забезпечується за допомогою зворотного лінгвістичного процесора. При цьому фрагменти, які мають об'єкти, відносини, дії та пропозиції в структурі СС, відображаються на відповідні компоненти XML-файлу, які також будемо називати об'єктами, відносинами, діями і пропозиціями. Розглянемо основні компоненти, з яких складається XML-файл.


5.1. Константа – Це найпростіша компонента СС, що представляє собою одне нормалізоване слово або символ ПМ. Під нормалізацією тут і далі розуміється приведення слова до називному відмінку однини для іменника, прикметника, до інфінітива для дієслова і т.д. Константа задається в XML-файлі у вигляді:



Наприклад, константами є імена вулиць, людей, числа, що представляють собою номери будинків, квартир, поняття, слова-дії та будь-які інші нормалізовані слова, що зустрічаються в текстах ПМ.


5.2. Тип елемента – Це покажчик класу, до якого належить константа. Типи задаються для певних об'єктів і служать для вказівки, що означає в ньому той чи інший елемент. Типи – це виділені константи. Вони вводяться в ЛЗ при налаштуванні процесора.


5.3. Типизированная константа – Це константа із зазначенням її класу. Задається у вигляді:



Наприклад, якщо об'єктом є адреса, то вказується, що дане слово – вулиця, число – номер будинку і т.д. Набори типів задаються при налаштуванні процесора.


5.4. Атрибут – Це константа, яка характеризує властивість об'єкта. Задається у вигляді:



5.5. Посилання на об'єкт . Кожен об'єкт має свій унікальний номер, званий ідентифікатором . Посилання на об'єкт задається у вигляді:


.


5.6. Компонента XML-файлу, звана об'єктом (Або просто об'єкт), визначається ідентифікатором, типом і містить упорядкований безліч елементів, кожен з яких є або константа, або властивість, або посилання на інший об'єкт, званий дочірнім . Наприкінці дається опис об'єкта – текстовий фрагмент, на основі яких був сформований даний об'єкт.


Тип об'єкта – Це виділена константа. Такі константи задаються при налаштуванні процесора: для кожного типу об'єктів – своя константа (FIO, DATE, ADDRESS та ін.) Один об'єкт може бути дочірнім по відношенню до кількох об'єктам. Два обмеження – відсутність циклічної залежності і об'єкт не може посилатися на дії. Навпаки, дії посилаються на об'єкти, див. п.5.7. Об'єкт задається у вигляді:


Тут – або константа, або властивість, або посилання на інший об'єкт. Порядок елементів в об'єкті визначається порядком відповідних слів або фрагментів у тексті, на основі яких був сформований об'єкт.


5.7. Компонента XML-файлу, звана дією (Або просто дія), визначається ідентифікатором, типом (відповідає дієслову) і містить упорядкований безліч елементів дії, кожне з яких є або константа, або посилання на об'єкт, або посилання на іншу дію. Подібно об'єктах, дії також можуть містити довільний невпорядкований набір атрибутів (властивостей). Дія задається у вигляді:





:



На відміну від об'єктів, у дій немає опису. Порядок елементів у дії визначається порядком відповідних слів або фрагментів у тексті, на основі яких був сформований дію.


5.8. Компонента XML-файлу, звана ставленням (Або просто відношення), визначається типом (ім'ям відносини) і містить два елементи, кожен з яких це посилання на об'єкт, дія або константа. Ставлення задається у вигляді:






Замість ідентифікаторів можуть бути константи. Фактично ставлення – це важливий окремий випадок двох елементного дії, у якого відсутні ідентифікатор і властивості.


5.9. Компонента XML-файлу, звана пропозицією (Або просто пропозиція) складається з упорядкованого набору констант і посилань на об'єкти або дії, які були сформовані на основі відповідної пропозиції ПМ. Наприкінці дається текст самої пропозиції, взятого з вихідного тексту. Пропозиція задається у вигляді:





:


вихідне речення ЕЯ-тексту



5.10. Вихідний XML-файл складається з перерахованих вище компонент і має вигляд:



:



вміст 1-го дії



:



вміст 1-го відносини



:



:



Порядок пропозицій XML-файлі відповідає їх порядку в початковому тексті.


Приклад XML-файлу представлений на рис.4.



Рис.4. Приклад XML-файлу для представлення семантичної структури


На Рис.4 є типізовані константи для об'єктів FIO (особа), DATE (дата). При цьому видно, що опис об'єкта не завжди береться з тексту. Якщо процесор за елементами об'єкта в зазначеному інтервалі (Задається засобами позиціонування пропозиції) не може знайти потрібне опис, то процесор формує свій опис, як наприклад, 9 січня 1958 замість 9.1.1958.


У XML-файлі є всі компоненти, необхідні для різних додатків. Нормалізовані елементи є основою організації різних видів «об'єктного» чи семантичного пошуку. Описи служать для побудови різного роду досьє, звітів, форм і т.д.


Висновок


В даний час пропонується версія семантико-орієнтованого лінгвістичного процесор – Semantix 1.0 , Обробного документи в різних предметних областях російською та англійською мовами. Якість роботи процесора може оцінити будь-який користувач на своїх документах, вийшовши на сайт [15].


Semantix 1.0 являє собою бібліотеку COM-об'єктів і функцій, призначену для автоматичної обробки текстів природної мови-російської та англійської. Модульна структура Semantix дозволяє без великих трудовитрат вбудовувати його в системи обробки текстової інформації, наприклад, системи документообігу, електронні видання тощо


Література


1. Кузнєцов І.П. Семантичні подання / / М. Наука. 1986р. 290 с.


2. Кузнєцов І.П., Мацкевич А.Г. Семантико-орієнтовані системи на основі баз знань. Монографія. М. Связьіздат. 2007. 173 с.


3. Cunningham, H. Automatic Information Extraction / / Encyclopedia of Language and Linguistics, 2cnd ed. Elsevier, 2005.


4. Han J. and Kamber, M. Data Mining: Concepts and Techniques / / Morgan Kaufmann, 2006.


5. FASTUS: a Cascaded Finite-State Trasducerfor Extracting Information from Natural-Language Text. / / AIC, SRI International. Menlo Park. California, 1996.


6. Кузнєцов І.П. Методи обробки зведень з виділенням особливостей фігурантів і пригод / / Праці міжнародного семінару Діалог-1999 з комп'ютерної лінгвістики та її додатків. Том 2. Таруса 1999.


7. Кузнєцов І.П., Мацкевич А.Г. Система вилучення семантичної інформації з текстів природної мови / / Праці міжнародної конференції Діалог 2001 по комп'ютерній лінгвістиці та її додатків: Т.2. Москва, Наука 2002.


8. Кузнєцов І.П., Особливості обробки текстів природної мови на основі технології баз знань / / Сб. ІПІ РАН, Вип.13, 2003 р. стор 241-250.


9. Kuznetsov, I., Kozerenko, E. The system for extracting semantic information from natural language texts / / Proceeding of International Conference on Machine Learning. MLMTA-03, Las Vegas US, 23-26 June 2003, p. 75-80.


10. Кузнєцов І.П., Мацкевич А.Г. Англомовна версія системи автоматичного виявлення значимої інформації з текстів природної мови / / Праці міжнародної конференції з комп'ютерної лінгвістики і інтелектуальним технологіям "Діалог 2005", Звенигород, 2005.


11. Кузнєцов І.П., Мацкевич А.Г. Семантико-орієнтований лінгвістичний процесор для автоматичної формалізації автобіографічних даних / / Праці міжнародної конференції з


комп'ютерної лінгвістики та інтелектуальним технологіям "Діалог 2006", Бекасово, 2006, стор 317-322.


12. Кузнєцов І.П., Сомин Н.В. Англо-російська система здобуття знань з потоків інформації в Інтернет-середовищі. / / Сб. ІПІ РАН, Вип.17, 2007 р. стор 236-253.


13. Кузнєцов І.П., Мацкевич А.Г. Лінгвістичні та алгоритмічні аспекти виділення об'єктів і зв'язків з предметно-орієнтованих текстів / / Праці міжнародної конференції з комп'ютерної лінгвістики та інтелектуальним технологіям "Діалог 2007", Бекасово, 2007, стор 333-342.


14. Сомин Н.В., Соловйова Н.С.., Шарнін М.М. Система морфологічного аналізу: досвід експлуатації і модифікації / / Системи і засоби інформатики, Вип. 15 / / ІПІ РАН – М.: Наука, 2005. – С. 20-30.


15. ДЕМО-версія процесора Semantix – http://www.semantix4you.com.


Додаток.


Призначені для користувача настройки (вибір об'єктів і правил) для області «Документи про тероризм російською».


1. ПІБ осіб 2. Арабські ПІБ 3. Ідентифікація осіб


4. Клички 5. Прикмети 6. Дати, час


7. Інтервали часу 8. Телефони 9. Телефони з зап.кніжек


10. E_MAIL 11. WEB-сайт 12. Місце. Адреса


13. Організації 14. Робота, посаду 15. Зброя


16. Автосредства 17. Терористи 18. Збройні сили


19. Номерні речі 20. Паспорт, документи 21. Національність


22. Номери рахунків, ІПН 23. Наркотики 24. Значимі об'єкти


25. Товари 26. Служби МВС 27. Статті КК


28. Крим. Справа 29. Виділення візьме 30. Користувальницькі об'єкти


31. Властивості об'єктів 32. Прикмети 33. Ідентифікація займенників


34. Словосполучення 35. Числові показники 36. Однорідні члени


37. Терміни 38. Синоніми.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*