|
• Осмысленный
интернет
• Пирог Бернерса-Ли
• Качества интернета
Почему не
работают красивые вещи? (Интернет как
поп-культура) |
|
А.В. Манцивода.
Семантический интернет
Осмысленный
интернет
Семантическая сеть – это видение будущего
мировой информационной среды, свободной от многих проблем сегодняшнего
интернета. Ключевое отличие семантической сети от нынешней глобального
информационного пространства состоит в том, что компьютеры будут
обрабатывать информацию не только как данные, но и как знания. Основная
на сегодняшний день единица обмена информации в Интернете –
HTML-страница – полностью ориентирована на понимание человеком.
Компьютеру остаются функции почтальона и кладовщика:
•
HTML-страница хранится на
сервере
• HTML-страница пересылается по запросу пользователя на его
персональную машину
• HTML-страница в демонстрируется персональным компьютером пользователю
в графическом виде, удобном для понимания человеком.
Этим функции компьютера, как правило, и ограничиваются.
Компьютер не
может понять и оценить содержимое страниц, поскольку они рассчитаны на
интеллект человека. Отсюда, и сложности, связанные с поиском информации
в Интернете, упомянутые выше. Поскольку машины не понимают содержимое,
они осуществляют поиск по достаточно примитивной схеме ключевых слов. В
современных поисковых машинах техника поиска по ключевым словам развита
в серьезной степени. Но суть остается прежней – компьютер не понимает
содержимого документов, а просто подсчитывает слова. Поскольку техника,
основанная на поиске ключевых слов, «бьет по площадям», на долю
человека остается внушительный объем работ по поиску релевантной
информации из того огромного массива данных, которыми снабжает человека
машина. Если десять лет назад основной проблемой было отсутствие в
Интернете нужных ресурсов, то сегодня на запрос «семантическая сеть»
(semantic web) Google выдает 3320000
ресурсов. Причем это ничто по
сравнению, скажем, с ключевым словом «xml» (около 122000000
ресурсов). И это в условиях, когда поток поступающей в Интернет
информации не только не останавливается, но и ускоряется. Если сегодня
не предпринять кардинальных мер, то мы рискуем утонуть в этом
информационном море.
Первая часть данной работы посвящена обсуждению
методологических проблем Интернета и общим информационным подходам,
связанным с обработкой знаний – то есть данных, которые в той или иной
степени «понимаются» компьютером. Какую информацию компьютеры должны
понимать? В первую очередь ту, которая позволяет им лучше организовать
данные, предназначенные для человека. Сегодня информации о данных,
хранящихся в сети, очень мало. Поэтому и приходится реализовывать
суррогатные схемы, основанные на работе с ключевыми словами.
Общее решение проблемы уже придумано:
компьютеры должны в
первую очередь работать с метаданными, то есть данными о данных,
хранящихся в мировой информационной среде. Причем компьютеры должны
именно понимать метаданные, чтобы брать на себя более сложные функции и
задачи по организации и поиску информации, чем они способны делать
сегодня. Как вывод – метаданные являются одним из ключевых понятий, на
которых может базироваться глобальная информационная среда, причем
метаданные должны быть представлены в таком формате, который понятен
компьютеру и не требует от него больших затрат на обработку. Поскольку
компьютеры в сети будут активно обмениваться метаданными, эти форматы
должны быть строго стандартизированы, чтобы стать «эсперанто» для
взаимодействия компьютеров, независимо от их географического положения.
Чтобы выйти на этот уровень работы, должен быть решен набор
взаимоувязанных проблем и задач, должны быть привлечены разнообразные
технологии – из информатики, искусственного интеллекта и математической
логики. Задача эта – интегральная, и требует принятия некоторых
решений на концептуальном уровне. Этот концептуальный уровень и
реализован в понятии семантической сети.
Структура семантической сети. Создатель мировой
информационной паутины в ее нынешнем виде Тим Бернерс-Ли (именно он
придумал протокол HTTP и написал первый навигатор), координирует
работу, пожалуй, самой влиятельной на сегодняшний день организации по
стандартизации в информационной среде – W3-консорциума.
В
рамках этого консорциума работает комплекс рабочих групп,
разрабатывающих принципы и инструменты функционирования семантической
сети.
Пирог
Бернерса-Ли
Семантическая сеть
является интегральным понятием,
объединяющим ряд наиболее перспективных направлений развития Интернета.
Основной девиз семантической сети можно сформулировать так: «превратим
компьютеры из средства хранения, передачи и демонстрации данных в
средства поиска и обработки знаний». Семантическая сеть представляет
собой многослойную структуру, каждый последующий уровень которой
отвечает за более тонкие механизмы представления и обработки данных и
знаний. Эта структура представлена на известной схеме, получившей
назавание «пирога Бернерса-Ли».
В основе всего лежит стандартизация. Прогресс сегодня
заключается в
том, чтобы последовательно стандартизировать «семантический пирог» –
слой за слоем, снизу вверх. Выстраиваются механизмы функционирования на
каждом уровне. В принципе, все средства, которые необходимы для
этого, уже выработаны – их в большом количестве предоставляют
математическая логика и искусственный интеллект, теории формальных и
информационных систем. Вопрос в том, как из имеющегося арсенала выбрать
такие средства, которые позволяют удовлетворить абсолютно
противоречивые требования:
•
формализмы должны быть строгими
с теоретической точки зрения – это необходимо для обеспечения
корректности поведения систем.
• формализмы должны быть достаточно выразительными, чтобы иметь
средства для решения нетривиальных задач;
• формализмы должны быть легкими с алгоритмической точки зрения, чтобы
обеспечивать решение задач за разумное время;
• формализмы должны быть простыми и понятными массовому пользователю,
иначе вся деятельность превратится в сектантскую.
При таких условиях построение информационной среды,
реализующей
принципы «семантического пирога», является задачей крайне
нетривиальной. Проанализируем уровни «пирога» Бернерса-Ли.
Уровень 0. Стандартизация символьных систем и систем
идентификации
(Unicode/URI). Единая среда невозможна без наличия ряда базовых
договоренностей, связанных с представлением информации. В качестве
фундамента всей пирамиды семантической сети выбраны две ключевые
позиции:
1.
Единая система кодирования
символов (букв) мировых языков (как естественных, так и искусственно
созданных), предоставляющая каждому символу каждого языка его
уникальный идентификационный номер (код). Такой системой кодирования
является Unicode.
2. Единая система идентификации ресурсов, то есть присвоение ресурсам
уникальных имен на основе понятия унифицированного идентификатора
ресурса ( uniform resource
identifier, URI).
Уровень 1. Общий
язык обмена информацией (XML + пространства имен + XML-схема) [*] [*][*].
Невозможно обойтись без единого и признаваемого всеми
языка представления информации, причем такого языка, который делал бы
упор в первую очередь не на ее внешнее представление (как в HTML), а на
внутреннюю логическую структуру данных. Такой язык был построен на
основе единой системы идентификации ресурсов и единого «мирового
алфавита» Unicode. Это –расширяемый язык разметки ( extensible markup
language, XML). Более точно XML можно охарактеризовать как схему
построения специализированных языков описания данных и знаний,
отличающихся используемыми терминами (словарями), но имеющими единый
синтаксис и правила построения.
Уровень 2.
Общий
язык обмена знаниями и метаданными (RDF + RDF-схема). Компьютеры должны
уметь работать не только с данными, но и со знаниями. Другими словами,
они должны не только хранить, передавать информацию и демонстрировать
ее человеку в понятном виде, но и понимать информацию, и на основе
этого понимания выполнять «интеллектуально» насыщенные функции.
Понятно, что не все данные нужно превращать в знания, а только те,
которые необходимы для решения полезных для человека задач. Одной из
основных таких задач является создание продвинутых сервисов организации
информационного пространства в удобном для человека формате и
обеспечение эффективной и точно работающей («разумной») системы поиска
по информационной среде – среде, имеющей очень большие размеры и
крайнюю неоднородность. Решение этой задачи базируется на
построении систем метаописаний ресурсов.
Поскольку компьютер мало способен понимать
знания,
представленные в человеческом формате, например, на естественном языке,
то чтобы облегчить для него эту задачу, знания нужно формализовать, то
есть представить на формальном языке, обладающем строгой и однозначной
семантикой. Для решения этой проблемы на основе XML был построен
базовый язык представления знаний, ориентированный на создание систем
метаописаний ресурсов. Это язык RDF [*] [*] [*] и
RDF-схема. С
помощью RDF/RDFS можно описывать классы объектов разнообразных
предметных областей, а также задавать основные свойства этих классов и
описывать их иерархии. В семантической сети RDF отводится еще одна роль
– базового формализма описания знаний. Сам RDF не обладает всеми необходимыми
для этого качествами, но на его основе строятся
языки (например, DAML+OIL
и OWL
– это уровень 3 и 4
семантического «пирога»), напрямую ориентированные на эту задачу.
Уровень 3.
Формализация отраслевых знаний (словарь онтологий). На этом уровне
обеспечивается формализованное описание знаний о предметных областях.
Чтобы описать знания о предметной области, необходимы две вещи:
•
описание объектов предметной
области;
• описание правил взаимодействия объектов друг с другом, а также
свойств объектов.
Описание объектов
предметной области – это третий уровень пирога
Бернерса-Ли, а описание свойств объектов – уровень 4.
Как правило, объекты предметной области образуют иерархию
классов.
Возьмем для примера такую совокупность объектов как люди. Можно
выделить самый общий (а значит, самый малоинформативный) класс,
свойственный каждому человеку – класс Персона. Далее, в зависимости от
качеств человека, этот класс можно подразделять, например, на подклассы
женщин и мужчин, подклассы женатых и холостяков, подклассы рабочих,
крестьян и интеллигенции, которые подразделяются дальше уже на
собственные подклассы. В результате получается иерархия (древовидная
структура), определяемая как таксономия.
Таксономии являются
основой для описания объектов предметной области, обеспечивая
классификацию объектов в соответствии с некоторым набором критериев.
Связь между третьим и вторым уровнем «пирога» Бернерса-Ли
осуществлятся, в частности, тем, что элементы таксономий используются в
качестве значений полей метаописаний.
Уровень 4.
Формализация отраслевых знаний (логика). На уровне 3 предметные
области представляются как иерархии объектов, причем иерархии
обеспечивают классификацию объектов в соотстветствии с определенными
критериями. Уровень 4 позволяет описывать свойства и взаимодействие
объектов на некотором языке, имеющем строгую логическую семантику, а
значит, допускающим автоматическую обработку.
На этом уровне знания о предметных областях
формируются
как онтологии. Онтологии
характеризуются следующим равенством:
Онтология = Таксономия +
Формальное описание свойств
Онтологии можно понимать как способ существования
метаданных, а
метаданные – как способ организации онтологий.
Представляется, что онтологии являются
оптимальным уровнем
описания предметных областей, позволяющих учитывать их внутреннюю
иерархию, и описывать свойства и взаимодействие элементов.
Уровень 5.
Интеллектуальная обработка знаний (Доказательства).
На этом уровне работает система логического вывода
(автоматического
доказательства), позволяющая получать из явно записанных знаний о
предметной области новые неявные знания. Например, если известно, что
ресурс X является частью ресурса Y, а ресурс Y является частью ресурса
Z, то можно сделать вывод, что ресурс X является частью ресурса Z и
т.д.
Математическая логика предлагает целый спектр
логических
систем, позволяющих решить эту задачу. Тем не менее, как уже отмечалось
выше, подбор универсального логического формализма, описывающего
предметную область, является очень нетривиальной задачей, поскольку
такой формализм должен удовлетворять целому ряду противоположных по
своей сути требований. К списку критериев, который был приведен выше,
следует добавить еще один: немаловажным фактором является то, чтобы
система была устойчива к наличию «плохой», некорректной информации, а
также наличию злоумышленников, которыми так богат Интернет. И это
далеко не все ограничения.
Уровень 6. Формирование
сообществ (Доверие). Это высший уровень, позволяющий учитывать
человеческий фактор и формировать виртуальный социум, систему сообществ
по интересам. Онтологии (формализованные знания предметной области, на
базе которых строится данное сообщество), распределенные по сети,
способны служить магнитом, притягивающим новых участников, обеспечивать
мощные сервисы по обмену информацией внутри сообщества. «Виртуальные
агенты» представителей сообщества, работающие на основании знаний,
заложенных в онтологию, могут искать и автоматически коллекционировать
информацию, нужную их хозяевам, налаживать контакты с другими агентами
и т.д.
Чтобы знания, накапливаемые внутри сообщества,
были
значимыми, внутри такого сообщества обязательно должен быть установлен
определенный уровень доверия между его членами. Такое доверие может
поддерживаться и технологически. Речь идет об авторизации, электронной
подписи и других подобных инструментах, которые могут быть реализованы
на предыдущих уровнях «пирога» Бернерса-Ли. Однако кроме формальных
методов, обязательно должно существовать доверие между членами
виртуального сообщества как человеческий фактор. Нельзя обойтись без
таких привычных понятий как репутация, опыт совместной работы и т.д.
Это превращает семантическую сеть в область взаимодействия людей, в еще
одну схему построения человеческих сообществ. Ясно, что это относится
только к людям (а не компьютерам) и является высшим уровнем из тех,
которые формируют семантическую сеть.
Семантическая сеть не является какой-то
отдельной сетью.
Она должна постепенно вырастать из сети сегодняшней. Для этого
необходимо развивать процесс придания информации правильной структуры и
хорошо определенного значения. Это позволит компьютерам «понимать»
данные и знания в отличие от сегодняшней ситуации, когда компьютеры
могут только пересылать данные друг другу и демонстрировать их
человеку.
Качества
интернета
Проанализируем теперь
основные качества Интернета, которые имеют
принципиальное значение для построения корректной и успешной
методологии.
Универсальность.
Ключевым свойством мировой информационной сети является ее
универсальность. Это качество основано на впечатляющих возможностях
гипертекстовой ссылки, которая может «прилинковать все ко всему». Эта
универсальность позволяет веб-технологиям в едином стиле работать с
коммерческой и образовательной информацией, не различать качественно
подготовленные материалы и небрежные черновики, отражать различные
культуры, языки и т.д. Фактор независимости структуры от содержания
явился одним из важнейших моментов, обеспечивших стремительное
продвижение и развитие Интернета. В первую очередь это касается языка
HTML – стандартного способа представления информации, ориентированного
на восприятие человеком.
Таким образом, фактор универсальности должен
играть очень
существенную роль и для формата представления информации,
ориентированной на понимание компьютером. Эта информация, как выше уже
было сказано, – метаданные, таксономии, онтологии. Чтобы
сохранить универсальность, форматы представления этих данных должны
удовлетворять двум качествам:
• эти
форматы должны являться
открытым, принимаемым всеми стандартом
• эти форматы не должны зависеть от конкретных предметных областей –
структура описания знаний в области математики и моды haut couture
должна быть одна и та же.
Поэтому все уровни Семантической сети должны реализовываться
через
средства, инвариантные к конкретным предметным областям. Филосовский
принцип взаимодействия формы и содержания в данном контексте
уточняется, как «одна форма на все типы содержания».
Децентрализация.
Как и сегодняшний Интернет, Интернет следующего поколения будет,
очевидно, иметь принципиально децентрализованную структуру – настолько,
насколько это позволит независимая и свободная деятельность людей. С
одной стороны, такая система, как результат свободного развития, может
стать благодатной почвой для создания новых и неожиданных вещей, причем
в каждом ее сегменте – от больших корпораций до индивидуальных
пользователей. Она способна принести пользу там, где невозможно
предугадать заранее. С другой стороны, децентрализация требует больших
компромиссов. В частности, невозможно ждать от такой среды полноценной
совместимости и информационной корректности ее составных частей.
Следует также учитывать разнообразие в интересах и мотивациях людей,
участвующих в процессе. В процессе накопления знаний в Интернете, никто
не застрахован от того, что будут опубликованы неверные и ложные данные
– случайно или злонамеренно. Более того, этот сценарий следует считать
весьма вероятным. Хорошо известен негативный опыт использования
метаописаний в HTML-страницах (с помощью тега META). Ранее эти данные
активно использовались поисковыми машинами при поиске нужной
информации. Однако, в конце концов, от этого пришлось отказаться,
поскольку слишком часто из коммерческих соображений в HTML-страницах
указывались заведомо ложные данные.
Если не учитывать эти проблемы при построении
новых
средств обработки информации, то успех дела будет крайне сомнителен.
Поэтому уделяется значительное внимание фактору доверия при построении
виртуальных сообществ, системам аутентификации и авторизации. Второй
важный момент должен касаться форматов представления знаний: эти
форматы должны быть устойчивы к добавлению некорректной информации.
Иначе обязательно появится новый вид «интеллектуальных» компьютерных
вирусов: добавляем такие данные в онтологию, которые разрушают ее
логическую обоснованность и корректность.
Связность.
Мало
что может сравниться с Интернетом по неупорядоченности информации,
разнообразию интересов его участников, уровню и качеству представления
материала. Попытки жестко упорядочить весь этот конгломерат вряд ли
приведут к цели в силу его гигантских масштабов (сотни миллионов
пользователей, миллиарды только статичных ресурсов) и множества
независимых «сил», участвующих в процессе. В такой ситуации важнейшей
задачей становится построение общей платформы, общих правил игры,
принимаемых большинством сообщества и позволяющих разным людям, силам и
группам понимать друг друга. И здесь на первый план выходит понятие
стандарта. В информационных системах стандарт – это в первую очередь
единый, общий язык. Интернет в сегодняшем его виде появился, благодаря
стандартному языку общения в Интернете – HTML. Признанный
стандарт «притягивает» к себе, поскольку тот, кто не следует его
регуляторам, а пользуется иными способами представления информации,
рискует оказаться на обочине прогресса, попросту оказаться непонятым.
Почему не
работают красивые вещи? (Интернет
как поп-культура)
Мало построить красивые и
мощные средства обработки информации.
Необходимо превратить их в стандарты на всех уровнях работы. Отметим
еще один печальный фактор. Одной из самых существенных причин, из-за
которых логические методы до сих пор не получили такого широкого
распространения, как они этого заслуживают, заключается в
несоответствии «интеллектуальных требований», которые предъявляются к
пользователям таких систем, и уровнем среднего пользователя Интернета.
Мы живем в мире «масс» и «поп»-культуры.
Это напрямую отражается и на информационной среде, объясняя в
частности, грандиозные успехи такой компании, как «Майкрософт»,
возведшей информационную «поп»-культуру в один из базовых принципов
своей работы. Поэтому, хотя продукты «Майкрософта» так ругают (примерно
в тех же терминах, что и российскую эстраду), но именно она получает
наибольший доход.
Еще один момент связан с тем, что пользователь,
как
правило, склонен довольствоваться теми средствами, которыми он уже
овладел, особенно если эти средства играют сервисную роль и не входят в
сферу его профессиональных интересов. И это верно уже для пользователя
любого уровня. Чтобы подвигнуть его к восприятию чего-то нового, как
правило, должно сработать либо то, что пользователь в значительной
степени не удовлетворен возможностями средств, которыми он располагает,
либо то, что предлагаемые пользователю средства обладают такими
качествами, которые принципиально улучшают среду его работы. Другими
словами, новые средства, должны преодолеть достаточно высокий «порог
невосприимчивости».
Отсюда следует, что по-настоящему широкое
применение
продвинутых логических средств невозможно без придания им черт,
позволяющих воспринимать их массовым пользователем, иначе деятельность
разработчиков так и не выйдет за рамки сектантской. В наиболее
радикальной форме это означает инкапсуляцию элементов, требующих хоть
какого-нибудь умственного напряжения, и оставления «снаружи» лишь самых
примитивных и легко доступных пониманию составляющих.
Таким образом, задача внедрения развитых
средств
математической логики в сегодняшнюю информационную среду – задача
крайне нетривиальная и многокомпонентная. И не в последнюю очередь
здесь следует думать об уровне понимания, мотиваций и интересов
среднего пользователя, культура которого не очень высока, в чем
несложно убедиться, почитав некоторые Интернет-чаты. Что касается
теоретической составляющей, то длительный путь развития логики и
искусственного интеллекта предоставил нам разнообразные инструменты
работы со знаниями. Осталось только
1. правильным образом распорядиться этим багажом,
выбрав наиболее подходящие из имеющихся средств,
2. создать нужные стандарты,
3. суметь внедрить эти стандарты в мировую
информационную среду.
Отсюда видна вся сложность задачи.
664003 Иркутск, ул. К.
Маркса, 1, Иркутский государственный университет, Центр новых
информационных технологий

|
|
|