Особливості вилучення знань з текстів. Частина 4., Oracle, Бази даних, статті

3. Фактори, що визначають якість процесора


Якість лінгвістичного процесора визначається рядом факторів. По-перше, це можливість виділення об’єктів і зв’язків. Мається на увазі типи виділяються об’єктів, їх кількість. Процесор Semantix виділяє до 40 типів об’єктів, у тому числі комлексних об’єктів, що відповідають діям і подіям. Зі збільшенням кількості виникають додаткові труднощі, пов’язані з “колізією” правил виділення: одні правила можуть захоплювати слова, пов’язані з іншим об’єктам і виділеним іншими правилами. стає важливим порядок застосування правил.


Виділення зв’язків – це не тільки глибинний аналіз дієслівних та інших форм. Багато зв’язку даються за умовчанням. У процесорі Semantix для ряду об’єктів організований спеціальний пошук зв’язаних об’єктів, тобто відновлення зв’язків, даних за замовчуванням. Будемо називати подібні процеси ідентифікацією. Такі процеси організовуються, щоб зв’язати особа з його місцем проживання або місцем роботи, що належить йому автотранспортом і т.д. Ці об’єкти можуть бути в тексті на значній відстані. Звідси труднощі. Потрібні спеціальні фільтри, щоб не захопити і не пов’язати сторонній об’єкт.


По-друге, важливий фактор – це вибірковість правил і процедур ідентифікації: коефіцієнт шумів і втрат. Під шумами розуміється наявність зайвих слів в об’єктах. Втрати – Це коли об’єкт не виявлено або виявлено частково: в тексті є слова, які не увійшли в об’єкт. У процесорі Semantix правила влаштовані таким чином, що вони забезпечують високу ступінь вибірковості і мінімізацію шумів і втрат при великій кількості виділяються об’єктів, див. п.3.


Третій фактор – можливість і трудомісткість налаштування на корпус текстів (для підвищення вибірковості правил виділення об’єктів), а також налаштування на нові об’єкти. У зв’язку зі складністю процесів аналізу така настройка повинна здійснюватися через лінгвістичні знання (ЛЗ). Останні повинні мати всі засоби для підвищення вибірковості правил та необхідні зручності в плані їх створення і коректування. В ідеалі за допомогою ЛЗ повинна забезпечуватися настройка на особливості мови – ознаки, які даються словами, на типові конструкції і форми мови. Лінгвістичний процесор повинен бути в значній мірі індіфірентен до мови. Його завдання – підтримувати ЛЗ, в тому числі, процес застосування правил виділення ідентифікації.


За таким принципом організований процесор Semantix, в якому за рахунок ЛЗ забезпечується аналіз складних конструкцій російської мови, а також аналіз англо-мовних конструкцій і форм, виділення англо-мовних об’єктів та їх зв’язків. Іншими словами, забезпечується аналіз не тільки російського, а й англійської мови. Це говорить про універсальність процесора.


Четвертий фактор – швидкість роботи лінгвістичного процесора, тобто час аналізу текстів. Швидкість визначається конструктивними особливостями процесора (засобами зменшення переборів), а також кількістю виділених об’єктів. Застосування правил їх виділення пов’язане з пошуком потрібних слів, де потрібні перебори. Чим більше об’єктів і правил, тим більше переборів і більше час аналізу.


У процесорі Semantix є різні засоби зменшення переборів. Крім програмних, також є засоби, керовані за допомогою ЛЗ. Для кожного правила вказується, які слова слід шукати для ініціювання процесу його застосування. Задаються допустимі контексти (ліворуч і праворуч від виявлених слів), факультативні елементи [8]. Таким чином забезпечується досить висока швидкість (частки секунди на 1 кб. тексту) при досить великій кількості виділяються об’єктів. Відзначимо, що якщо об’єктів мало, то швидкість значно зростає. У зв’язку з цим в ЛЗ введені спеціальні засоби, які використовують список значущих слів і ознак (вказують на наявність об’єктів) для виділення значущих пропозицій. Тільки їх слід аналізувати. І якщо в тексті багато пропозицій без об’єктів, то таким чином швидкість можна збільшити на порядки.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*