Click HERE to return to our International home page
Концепты Заметки МЕТА Флэнг Онлайн Модули Библио Форум



ГлавнаяКонцепция > Заметки > Онтологии - дорога в будущее?  
 







 


А.В. Манцивода.
Онтологии - дорога в будущее?

Рассмотрим более подробно механизмы описания предметных областей. Предположим, что у нас есть доступ к двум электронным библиотекам, работающим в разных стандартах библиографических описаний. Наша задача – найти в этих библиотеках статьи, опубликованные в Иркутском госуниверситете. В каждой системе библиографических описаний имеется поле, определяющее место публикации ресурса. Поскольку системы метаданных разные, в каждой из них это поле имеет собственное имя, а также собственное место в библиографическом описании. Для решения нашей задачи сервису необходимо скомбинировать информацию из двух электронных библиотек. Но для этого он должен знать, где ему брать информацию о месте публикации в каждой из библиотечных систем.
   Такого рода задачи возникают повсеместно и, к сожалению, наиболее распространенным способом их решения является написание специализированных программ, внутри которых заложены данные о конкретной структуре обрабатываемых информационных источников. Такой способ решения проблемы является весьма нетехнологичным. Изменилось что-то в одной из библиотечных систем, и программу надо переписывать.
   Более правильно сделать сервис независимым от конкретной структуры метаописаний в библиотеках. Эта информация должна описываться отдельно от сервиса на специальном языке представления знаний о данной предметной области. И уже это описание, будучи загруженным в сервис в качестве параметра, «настраивает» сервис на конкретное состояние библиотечных систем. Преимущества такого подхода очевидны:

•    изменения в предметной области не влекут изменение кода
•    появляется возможность множественного использования описания: одно и то же описание предметной области может использоваться несколькими системами и сервисами
•    интероперабельность: если системы понимают один и тот же язык представления знаний, они могут взаимодействовать, используя для коммуникаций этот язык.
•    облегчается процесс стандартизации предметной области

И этим преимущества не исчерпываются. На следующем рисунке графически представлены обе схемы работы:

 

Распространение такого подхода на глобальное пространство Интернета – путь, способный привести к качественному скачку в развитии мировой информационной среды. Идея состоит в формализации знаний о самых разнообразных предметных областях, причем в таком формате, чтобы этим могли воспользоваться автоматические сервисы-агенты, работающие в Интернете по указке человека. Очевидно, чтобы такая система заработала, ее идеи должны легко восприниматься людьми, и давать непосредственный благотворный эффект.
   Ключевым понятием здесь является понятие онтологии. Как известно, онтология является одной из базовых философских отраслей, обозначающей теорию о сущем, о природе существования (в отличие, например, от гносеологии). Онтология как отрасль философии изучает такие теории. Представители искусственного интеллекта и специалисты в области информатики адаптировали этот термин для своих нужд, превратив понятие онтологии во вполне практический инструмент для работы со знаниями. Для них онтология представляет собой документ или файл, который в формальном стиле описывает взаимосвязи между объектами и свойства объектов конкретной предметной области. При этом онтология получила вполне определенную структуру,  состоящую, из двух блоков:

•    таксономии,
•    набора логических свойств предметной области и правил вывода.

Онтология – конструкция, довольно подходящая для представления знаний в Интернете. Действительно, она по большому счету представляет собой множество объектов, классифицированных в соответствии с некоторыми критериями, плюс описание свойств этих объектов. Онтология кодирует объекты и свойства в понятном для компьютера формате. Конечно, за описанием объектов и их свойств должна лежать простая и понятная логика. С другой стороны эта логика должна иметь строгое определение и корректную семантику, что позволяет делать автоматическую обработку знаний, заложенных в онтологию.
   Таким образом, важнейшей задачей при построении глобальной системы формализованных знаний является правильный выбор логической схемы, которая, с одной стороны, должна быть достаточно выразительной, а с другой – понятной людям. Очень важно, чтобы логическая схема была легкой с алгоритмической точки зрения. Кроме того, необходимо стандартизовать сам язык представления знаний, чтобы его могли везде (одинаково!) понимать, как сегодня понимают HTML. В качестве базы для этого можно использовать RDF. Однако  RDF со своими логическими проблемами совершенно не подходит для поставленных целей. Поэтому W3-консорциум сегодня развивает проект языка OWL (Web Ontology Lamguage), удовлетворяющего основным критериям.
   Для нас же здесь важно, что очень подходящим инструментарием для построения онтологий и описаний предметных областей является семантическое программирование. Действительно, вся терминология онтологий напрямую отображается в термины семантического программирования (не зря, видимо, разработчики концепции Интернета нового поколения назвали свой подход the Semantic Web). Например, базовая модель предоставляет элементарные типы данных для построения описаний объектов предметных областей. Наследственно-конечная надстройка содержит сами описания элементов, причем, если определить на элементах этой надстройки отношение аппроксимации, можно получить механизмы построения все более и более точных описаний предметной области. Разнообразные диалекты логических   и  -языков плюс соответствующие логические исчисления могут служить гибким инструментом для описания поведения объектов в рамках предметных областей. Отлаживая способы построения наследственно-конечных надстроек и  -диалектов, можно найти оптимальные схемы, компромиссным образом удовлетворяющие столь противоречивым требованиям, предъявляемым к логическим системам в Интернете. В этом плане очень полезной оказывается универсальность и гибкость семантического программирования как подхода, позволяющего изменять конкретные формализмы в рамках единых общих принципов. Ниже будет представлено одно из таких построений, которое, возможно, окажется пригодным для решения некоторых совсем практических задач (что наша исследовательская группа и пытается сегодня делать на базе этого подхода).
   Онтологии способны улучшить функционирование сети по многим направлениям. Во-первых, они могут использоваться в простой манере для повышения аккуратности и эффективности поиска – поисковые системы будут искать только те страницы, которые соответствуют осмысленному запросу, базирующемуся на точных определениях терминов, вместо использования неоднозначных ключевых слов, как это происходит сегодня. Более продвинутые приложения могут использовать онтологии, чтобы привязать информацию, опубликованную на веб-странице, к структурам знаний и правилам вывода. На базе онтологий могут работать многообразные сервисы, например, семантический поиск, продвинутые образовательные системы, поддержка в принятии решений, понимание естественных языков, управление знаниями, интеллектуальные базы данных, сервисы-агенты, выполняющие поручения пользователей, электронная коммерция. Онтологии способны сыграть большую роль и в качестве инструмента для описания семантики документов, причем в формате, позволяющем использовать эту семантику сетевыми приложениями и интеллектуальными агентами. Онтологии могут оказаться очень полезными для образовательного сообщества в качестве средства структурирования и определения значения метаданных, которые в настоящее время создаются и стандартизируются. Онтологии – основа для создания «интеллектуальных» приложений, которые смогут более адекватно работать с человеком на концептуальном, «осмысленном» уровне.
   Онтологии также способны обеспечить иное качество работы приложений и систем, объединяющих информацию из различных информационных сообществ, говорящих на разных «информационных языках». Язык XML и его инструменты вполне справляются с обменом данными между партнерами, которые заранее договорились об общих определениях. Но такие предварительные договоренности – дело весьма редкое. Как правило, различные сообщества работают в различных форматах представления, по сути, одной и той же информации. Яркий пример – форматы представления электронных образовательных ресурсов. Иногда один  и тот же термин может использоваться в разных смыслах и в разных контекстах, в то же время разные термины могут иметь один и тот же смысл. В таких ситуациях XML помочь уже не может. Нужны специальные средства для описания семантики терминов, осмысленное описание предметных областей. Для того, чтобы обеспечить взаимодействие между множеством независимо развивавшихся схем представления тех или иных знаний, нужны специальные инструменты. Такую работу можно осуществить с помощью специальных языков построения онтологий, в частности, используя OWL (по нашему мнению, подходят здесь и средства, построенные на базе семантического программирования). Но главная задача онтологий – вовлечь компьютер в обработку знаний на уровне глобальной информационной среды в целом.
   Таксономии. Базовая составляющая онтологии – таксономия – определяет классы объектов и взаимодействие между этими классами. Ключевыми понятиями здесь являются понятия подкласса, суперкласса и наследования. Например, класс Студент является подклассом класса Человек (а Человек – суперкласс класса Студент), поскольку для любого объекта, если этот объект является студентом, то он является и человеком. Средствами семантического программирования классы определяются как подмножества наследственно-конечной надстройки, обладающие специальными качествами.
Вернемся к классическому примеру таксономии, которую мы уже упоминали, – классификации УДК. В УДК используется присущая любой таксономии древовидная (иерархическая) структура классов, связанных друг с другом ключевым отношением наследования. На схеме  представлен небольшой фрагмент таксономии УДК:


Здесь прямоугольники – классы объектов, стрелки обозначают наследование. В частности, поскольку тексты, посвященные математическому анализу (код 517), являются математическим текстами (код 51), то можно сказать, что класс текстов по математическому анализу наследует свойства класса документов по математике. Обычно классы понимают как множества объектов, принадлежащих этим классам. В этом смысле подклассы являются подмножествами своих суперклассов. Например, очевидно включение
 

поскольку все документы по математическому анализу являются документами по математике. Средства построения более сложных выражений УДК также имеют естественную интерпретацию на языке подклассы/наследование. Например, УДК-выражение 378.096:51 можно интерпретировать как «обучение высшей математике на факультете», что в нашей терминологии означает множественное наследование от двух классов – «51 Математика» и «378.096 Факультеты, отделения высших учебных заведений», то есть


 
Система классов, подклассов и свойств классов является универсальным и выразительным инструментом представления знаний. Можно формализовать большое количество отношений между элементами, описывая свойства класса, а значит (по схеме наследования), и его подклассов. Например, можно сформулировать свойство математических текстов «каждый математический текст включает формулы», присвоив это свойство классу «51 Математика». Тогда, исходя из принципов наследования, можно вывести, что каждый текст по математическому анализу (класс «517 Математический анализ») также содержит математические формулы.
   Правила вывода. Комплекс понятий и концепций, связанных с формализацией знаний, занимает целых три уровня «пирога» Бернерса-Ли – третий, четвертый и пятый. На третьем уровне («Словарь онтологий») основным понятием являются таксономии, позволяющие классифицировать объекты предметных областей и ранжировать классы объектов с помощью понятия наследования. На четвертом уровне («Логика») свойства предметных областей кодируются на некотором формальном языке, имеющем строгую логическую семантику. Наконец, на пятом уровне («Доказательства») реализуются схемы получения новых знаний из уже имеющихся.
   Правила вывода должны определять весьма простую логическую систему. Например, в языке онтологий OWL, если это перевести на язык логики первого порядка, допускаются:
• средства для построения иерархии классов объектов
• одноместные предикаты, определяющие принадлежность элемента классу, например, студент(петров).
• двуместные отношения, связывающие два объекта друг с другом, например супруг(ваня, аня).
• ограниченный набор свойств, которые могут характеризовать используемые предикаты, например, транзитивность, симметричность, функциональность, обратная функциональность и т.д
и некоторые другие средства. Например, можно определить отношение «супруг» как транзитивное и функциональное, введя в систему следующие п
равила вывода:
 
Взаимодействие онтологий. Есть еще один важный вопрос, который необходимо решить для того, чтобы распределенная информационная система стала целостной средой на уровне знаний. Это вопрос взаимодействия онтологий.  Предположим, что мы разрабатываем онтологию, описывающую такую предметную область, как транспортные средства, и имеющую URI

http://www.somesite.ru/vehicles

   Важной характеристикой транспортного средства является тип топлива, которое данное транспортное средство потребляет. Это означает, что в нашей онтологии обязательно должна быть информация о том, какое топливо потребляет тот или иной автомобиль. Таким образом, как минимум, онтология по транспортным средствам должна иметь доступ к словарю, содержащему названия разнообразных типов топлива. Пусть в Интернете имеется онтология с URI

http://www.fuel.com/gas

описывающая бензины и их качества, причем эта онтология разработана профессионалами и достаточно подробно. Ясно, что в такой ситуации создавать самодельный словарь бензинов будет неправильно. Намного правильнее воспользоваться имеющейся онтологией и уже заложенными в ней знаниями. Но для того, чтобы появилась такая возможность, необходимы специальные средства, позволяющие связать две этих онтологии. Это проблема решается достаточно эффективно с помощью двух средств. Во-первых, полезной является возможность объявления эквивалентными элементов и классов двух онтологий. Например, если в нашей онтологии имеется элемент «высокооктановый бензин»:
 
ВБ=http://www.somesite.ru/vehicles#высокоокт-бензин

а в онтологии по бензинам имеется элемент

HOG = http://www.fuel.com/gas#high-octane-gas

то должна быть возможность объявлять эти объекты эквивалентными:

ВБ ===HOG

Вторая схема взаимодействия онтологий – это импорт онтологий, когда одна из онтологий объявляется частью другой. Пусть, например, строится онтология, описывающая такую предметную область как торговля продовольственными товарами. Если французские производители вина уже разработали систему знаний по французским винам, то имеет смысл импортировать имеющиеся знания в большую онтологию, поскольку ясно, что никто французские вина не опишет лучше, чем французские виноделы. Так же и по другим категориям товаров. Если онтологии по отдельным категориям товаров уже имеются, то основной задачей «торговой» онтологии будет интеграция уже имеющихся знаний в единое целое, импорт уже имеющихся знаний, и организация внутренних связей между смежными блоками онтологии через систему эквивалентностей.
   Отметим, что задачи взаимодействия двух онтологий в рамках семантического программирования ставятся и реализуются естественным образом через определение морфизмов из одной модели в другую.
Схема постепенного построения описаний предметных областей из уже существующих моделирует бесконечный процесс человеческого познания, когда новые знания базируются на имеющихся данных, и, кроме того, строятся связи между смежными отраслями знаний. Поэтому импорт онтологий и определение эквивалентных понятий в разных онтологиях являются ключевым средством для построения системы знаний в Интернете как единого пространства.
   Нам представляется, что данный подход позволяет также строить знания в Интернете, что называется «всем миром», аналогично тому, как сегодня разрабатываются проекты openSource. Каждый может описать ту часть предметной области, в которой он, по собственному мнению, хорошо разбирается. А модераторы процесса в рамках виртуальных сообществ принимают решения о том, какие разработки можно включать в онтологию, строящуюся данным сообществом, а какие пока еще не готовы, либо некорректно построены. Возможна, конечно, и конкуренция онтологий, описывающих одну и ту же предметную область.






Контакты
664003 Иркутск, ул. К. Маркса, 1, Иркутский государственный университет, Центр новых информационных технологий

email

 

Заметки*
Открытая система
Пакетирование
XML
Тексты
Естественнонаучные ресурсы
Ресурсы как модели
Форматы ресурсов
Информационные уровни
Трудности
Учебные объекты
"Опыт человечества"
Коммуникативные системы
О пользе RSS
Проблема интернета
Осмысленный интернет
Идентификация ресуров
Метаданные и будущее
Дублинское ядро
Метаданные и знания
Онтологии
*Набор кратких заметок и высказываний, посвященных различным аспектам информатизации образования. Что называется - "заметок по поводу...".

Онлайн-сервисы**
• Сайт кафедры математического анализа
Форум с поддержкой математических формул.
• Flang-online
• TeX->MathML->GIF.
• MathML->GIF.
• Flang-Meta.
QTI-тестирование с поддержкой математических формул.
• Meta-ZIP
• UDC
• Font-Test
**список эксперементальных сервисов, на которых апробировались реализуемые группой технологии. Сервисы созданы на основе базовых модулей.

Библиотека***
Онтологии и метаописания
Учебные объекты
Языки программирования и логика
eLearning and Knowledge
Digital Libraries and Repositories
Книжки и учебники
***Коллекция публикаций по тематике, собранная из открытых интернет-источников.




.



Copyright ® 2002-2005, TeaCODE.com