|
• Данные vs. знания
• Логика
|
|
А.В. Манцивода.
Представление знаний в интернете
Данные vs.
знания

За данными, которые присваиваются элементам
метаописаний, всегда стоит некоторая предметная область. Например,
элементу Date (дата) Дублинского ядра должны присваиваться значения в
формате символьной строки, представляющей дату. Но даты – это не просто
некоторые символьные строки. Если имеются две даты – “2004-04-01” и
“1870-04-22”, то человек сразу может сказать, что вторая дата
«случилась» раньше, чем первая, что первая дата соответствует 21 веку,
а вторая – веку девятнадцатому. Наконец, кто-то заметит, что вторая
дата – дата рождения вождя мирового пролетариата и т.д.
Таким образом, за двумя короткими строчками стоит целое
информационное пространство, в котором люди себя чувствуют весьма
свободно. Однако для компьютера эти две строчки остаются набором
символов. Чтобы компьютер смог ответить на запрос типа «найти все
ресурсы, соответствующие событиям, происшедшим во второй половине
девятнадцатого века» необходимо каким-то образом эти знания сделать ему
доступными.
Чтобы компьютеры могли работать с такого рода знаниями,
надо выполнить несколько условий:
1.
Знания должны быть
формализованы: записаны на языке, обладающем строгой и недвусмысленной
семантикой.
2. Необходимы механизмы обработки знаний, механизмы получения знаний из
уже имеющихся.
3. С учетом глобальности Интернета, эти формализмы должны быть
открытыми стандартами.
Очевидно, что выполнение этих условий является очень непростой задачей.
Во-первых, как уже отмечалось выше, эти средства должны быть очень
простыми в использовании, иначе в демократичной среде Интернета они не
приживутся, даже если будут продвигаться крупной корпорацией. Кроме
того, логические формализмы, лежащие в основе этих средств, должны
обладать рядом весьма специфических качеств, которые будут рассмотрены
в следующем пункте. Все это должно быть учтено при разработке
формальной системы знаний, ориентированной на использование при
построении метаданных. Любую предметную область можно представить как
трехуровневую среду, содержающую:
•
Уровень 1: множество элементов
предметной области, разбитое на типы (классы),
• Уровень 2: множество функций и методов, работающих на этих элементах,
• Уровень 3: множество свойств элементов, а также отношений между
элементами предметной области.
В теоретико-модельной терминологии это основные множества, язык с его
интерпретацией и теория. По степени «продвинутости» можно определить
следующую градацию описаний предметной области:
• Формальное описание предметной области
отсутствует. Разработчик метаданных на свой страх и риск
принимает самостоятельные решения о том, какие значения вводить в
элементы метаописаний.
• Словарь. Значения для
элементов метаданных выбираются из фиксированного словаря. Словарь –
множество слов (символьных строк), не обладающее внутренней структурой.
• Таксономия. Элементы
словаря допустимых значений классифицируются. Это формирует предметную
область как некоторую иерархическую структуру. Значения разбиваются на
классы объектов. Классы взаимодействуют друг с другом на основе правил
наследования.
• Онтология. Предметная
область имеет формат таксономии. Но кроме этого онтология включает в
себя описание свойств предметной области и взаимодействия объектов на
некотором формальном языке, имеющем логическую семантику.
На следующем рисунке демонстрируется схема использования знаний о
предметных областях в системах метаописаний. Значения полей
метаописаний берутся из предметных областей, представленных в формате
онтологий.

Когда объект онтологии присваивается полю метаданных в качестве
значения, такое присваивание приносит не только непосредственный эффект
заполнения этого поля. В онтологии объекты через иерархию классов и
описание свойств связаны различными отношениями с другими объектами.
Сами отношения также могут обладать полезными для получения информации
свойствами (например, транзитивностью или симметричностью). Поэтому,
как только некоторое значение из онтологии присвавивается элементу
метаданных ресурса, сам ресурс вовлекается в целую систему
взаимосвязей, определяемую этой онтологией. Если в онтологии
формализованы богатые знания, то это обеспечивает принципиально более
качественные возможности для поисковых машин и других сервисов,
использующих «интеллектуальную» обработку информации.
Логика
Ключевым механизмом работы
с метаданными должна стать система вывода
нужной информации из имеющихся знаний. Именно на базе этой системы
вывода может быть построен «интеллектуальный» поиск по информационной
среде, сформированы продвинутые сервисы, манипулирующие
Интернет-ресурсами. Специфика огромного и децентрализованного
информационного пространства Интернета определяет ряд особенностей
данной логической системы, в частности,
1.
Устойчивость к «логически
агрессивной» информационной среде: нет гарантии непротиворечивости и
корректности опубликованных знаний.
2. Опыт показывает, что в силу огромных размеров Интернета даже слабые
и заведомо неполные алгоритмы поиска информации дают хорошие
результаты. Логический формализм должен быть алгоритмически разрешимым
и иметь разумную сложность вычислений, чтобы на нем могли работать
автоматические сервисы в реальном времени.
3. Логический формализм должен поддерживать иерархию классов объектов и
механизмы множественного наследования.
4. Логический формализм должен эффективно работать с имеющимися в
Интернете ресурсами «первого» поколения, поддерживая основные принципы
обработки информации.
К сожалению, традиционные методы автоматического доказательства и
системы обработки знаний (например, экспертные системы) оказываются
малопригодными для решения поставленной задачи.
Системы автоматического доказательства теорем
ориентированы, как правило, на сложные и универсальные и, как
следствие, полуразрешимые версии логического вывода с большой
сложностью вычислений. Традиционные системы представления знаний обычно
являются централизованными, требующими от пользователей следования
общим принципам и терминологии. Но в распределенных системах такой
контроль быстро выдыхается. И с увеличением своих масштабов, без
принятия специальных мер, распределенная среда становится совсем
неуправляемой.
Кроме того, традиционные системы обычно тщательно
лимитируют типы вопросов, на которые компьютер может осмысленно
ответить, если ответить вообще. Чтобы избежать таких проблем,
практически каждая традиционная система представления знаний имеет
достаточно узкий и уникальный набор возможностей для вывода новых
знаний из имеющихся в системе.
Если сами знания еще могли быть переданы из одной системы
представления знаний в другую, то такие правила и логический вывод,
имеюшие в каждой системе уникальные форматы, перенесены быть не могут.
Более того, поскольку поиск в логических системах является довольно
тяжелой с алгоритмической точки зрения задачей, именно ради
эффективности поиска вывода жертвовали другими вещами, такими, как
гибкость, стандартность формата представления знаний и т.д.
В глобальной информационной среде, напротив,
предполагается наличие противоречий и вопросов, принципиально не
имеющих ответа. Это цена, которая должна быть уплачена для достижения
универсальности, многогранности и гибкости. Базовый язык представления
данных делается достаточно выразительным и гибким для того, чтобы
позволить среде делать логические выводы настолько широко, насколько
возможно. Более того, как это ни странно, построение мощной логической
системы, лежащей в основе информационной среды, не является главной
задачей. Гораздо более важно иметь, пусть достаточно слабые, но
стандартизированные и широко распространенные процедуры поиска, умеющие
работать с разрозненной и, порой, противоречивой информацией.
Эта философия похожа на подход в традиционном Интернете.
Критики в ранний период развития сети указывали на то, что она никогда
не сможет стать хорошо организованной библиотекой, без централизованной
базы данных и древовидной структуры информации, и что никто не сможет
быть уверен, что найдет в сети хоть что-нибудь. И они были правы.
Однако стремительное развитие Интернета сделало доступным настолько
большой объем информации, что поисковые системы, которые еще десять лет
назад казались совершенно непрактичными, сегодня формируют на удивление
богатые перечни доступных в сети материалов.
Добавление логики к глобальной информационной среде –
путь, позволяющий использовать правила, чтобы строить выводы, выбирать
стратегии действия и отвечать на вопросы. Сегодня задача правильного
выбора такой логической системы является одной из ключевых. Смесь
математических и инженерных проблем усложняет эту задачу. Логика должна
быть достаточно выразительной, чтобы описывать сложные свойства
объектов, но не настолько сильной, чтобы сервисы-агенты попадали в
логические ловушки. Ключевым свойством такой системы должна быть
простота и легкая «усвояемость», возможность «обернуть» логический
формализм в оболочку, доступную дилетанту. Практика показывает, что, в
основном, информация, которую мы хотим выразить, состоит из сентенций
типа «МАЗ является типом грузовых машин», который легко описывается
существующими языками при некотором расширении словаря. Во-вторых, как
это ни прискорбно, но широкие распространение получают системы и
методы, обладающие только очень простой, пусть и не очень чистой с
точки зрения профессиональных блюстителей красоты и порядка,
семантикой. Не учитывать этих тенденций нельзя, если мы хотим получить
реально востребованный логический продукт.
664003 Иркутск, ул. К.
Маркса, 1, Иркутский государственный университет, Центр новых
информационных технологий

|
|
|