Click HERE to return to our International home page
Концепты Заметки МЕТА Флэнг Онлайн Модули Библио Форум



ГлавнаяКонцепция > Заметки > Естественнонаучные ресурсы 
 





Анализ существующих подходов
Наш подход

 


А.В. Манцивода.
Естественнонаучные текстовые ресурсы

Важной особенностью многих образовательных и научных ресурсов являются специфические черты естественнонаучных текстов. Поскольку до настоящего времени специфика таких текстов слабо изучалась с точки зрения информационной поддержки образовательного процесса, а с другой стороны, естественнонаучные тексты составляют огромную часть всего спектра электронных образовательных ресурсов, включая математику, физику, экономические науки, биологию и т.д., то в наших исследованиях и практической работе этой проблеме уделялось особое внимание.
   Во многих естественнонаучных текстах одной из основных компонент являются математические формулы. Поэтому грамотная работа с формулами имеет ключевое значение для эффективной информационной поддержки многих направлений обучения.
   Отметим, что математические формулы в виртуальном образовательном процессе могут использоваться более широко, чем просто в электронных текстах. Например, это могут быть форумы, чаты и другие формы обмена информацией в электронном виде, специализированные электронные практикумы по естественным наукам и т.д. –  здесь также существуют проблемы, связанные с электронной обработкой математических формул. Развитие языков разметки и концепция разделения содержания и представления позволяют подойти к проблеме представления естественнонаучной информации комплексно и на основе стандартов.

Анализ существующих подходов

   Классической средой работы с естественнонаучными текстами является система TeX, разработанная Д. Кнутом. Большой популярности TeX'а и его потомков (AMSTex, LaTeX и др.) способствовал ряд факторов. Во-первых, формализм ТеХ'а основан на идее разделения содержания и представления. Автор текста структурирует текст в хорошо понятных ему терминах содержательного (логического) уровня – теорема, определение, формула, глава и т.д. Как правило, такого логического структурирования вполне достаточно, чтобы ТеХ сгенерировал полиграфический вариант текста высокого качества.  Доводка внешнего представления текста имеющимися в TeX'е средствами полиграфической настройки может проводиться на втором этапе работы. Это наиболее перспективный подход, когда внешнее представление документа генерируется автоматически из логической разметки текста, сделанной человеком.
   TeX является первой системой, в которой угадано основное направление развития представлений текстовой информации в распределенных информационных системах. Используемые в TeX'e, и особенно в его клонах, принципы разметки текста и отделения содержания от представления, лежат в основе современных подходов к обработке структурированной текстовой информации. Конечно, в ТеХ'е все эти возможности используются нерегулярно, и в незначительных масштабах. Кроме того, формализм ТеХ'а не соответствует современным формализмам разметки текстов, основанных на языке XML.
   В последнее время для разработки математических текстов стал активно использоваться редактор MS Word, включающий специальные возможности для создания формул (MS Equation Editor, MathType). Подход, реализованный в этом редакторе, более доступен массовому пользователю, чем LaTeX, не требует установки дополнительного программного обеспечения. Минусы также очевидны. Во-первых, полиграфическое качество математических формул в Word'е значительно ниже, чем то, которое генерирует система ТеХ. Во-вторых, DOC-формат является принципиально закрытым форматом, мало пригодным для работы в открытых системах. Из этого, в частности, следует непригодность DOC-формата для публикации информации в Интернете – приходится конвертировать текст либо в HTML (причем хорошо известна колоссальная перегруженность структуры HTML-файла, который генерируется Вордом), либо в другой закрытый, но более приспособленный для обмена формат PDF. Есть и другие довольно существенные недостатки. Вообще, с точки зрения современного понимания того, как работать со структурированной текстовой информацией, идеология, заложенная в редакторе Word, является значительно более устаревшей, чем в появившейся намного раньше системе TeX.
   Отметим и другую проблему. Наличие нескольких стандартов представления математических и естественнонаучных текстов вносит очень серьезную путаницу. Например, уже сегодня многие сталкиваются  с той проблемой, что организаторы разных научных конференций требуют тексты в разных форматах - кто-то в LaTeXе, кто-то в Word'е. Информационная среда заполняется информацией, сформатированной в совершенно разных, несовместимых стандартах. Результат - потеря целостности информационной среды, постоянные проблемы с чтением, использованием и обработкой текстов в разных форматах.
 

Наш подход

К настоящему времени созданы все необходимые технологические условия для решения этих проблем. Созданы нужные открытые стандарты как для работы с текстами произвольного характера, так и для представления таких специфических объектов, как математические формулы. В частности, мы можем говорить и о решении вышеперечисленных проблем через создание «канонического» формата представления математических и естественнонаучных текстов на основе имеющихся сегодня открытых стандартов. Канонический формат представления научных и образовательных текстов, это такой формат, который

  1. базируется на принципе разделения представления и содержания документа.
  2. основан на разметке текстов логического уровня.
  3. использует для представления документов открытые широко признанные стандарты.
  4. удобен для автоматической обработки, распространения и хранения информации.
  5. предоставляет возможность конверсии текстов, представленных в каноническом формате, в другие распространенные форматы представления естественнонаучной информации и обратно.
  6. допускает трансляцию в различные (поли)графические представления, как электронные, так и бумажные.
  7. допускает богатую “интеллектуальную” обработку документа достаточно легкими онлайновыми программными средствами.
Базой для создания такого формата служит расширяемый язык разметки XML. Очень существенным шагом в этой области является появление диалекта XML – языка MathML, ориентированного на описание математических формул. MathML интересен по многим причинам. Во-первых, формат MathML основан на языке разметки XML, что позволяет использовать большое количество наработанных компонент и библиотек. Во-вторых, формат MathML реализует два вида представления: презентационное и содержательное. В-третьих, формат MathML является открытым стандартом, поддерживаемым консорциумом W3, что очень важно для построения сложных систем, ориентированных на использование широкими массами пользователей. В своей «презентационной» части MathML идеологически весьма близок TeX-формату.
   С учетом вышеперечисленных плюсов, оптимальным решением является  принятие формата MathML в качестве канонического формата обработки и представления  математических формул. Вообще, когда говорят об обработке математических формул, то подразумевают всю цепочку:  ввод формул пользователем, хранение формул, обработка формул, отображение формул. В наших проектах мы рассматриваем эти звенья цепочки, и строим технологические решения в рамках единой технологии.
   Когда речь идет о вводе формул пользователем, то можно рассматривать две основные ситуации: создание, редактирование и представление математических текстов, и ввод формул в различных прикладных приложениях и Web-сервисах, в частности, электронных форумах и учебных программных комплексах – с этими вопросами мы столкнулись при реализации учебных программных комплексов в рамках Виртуального представительства ЦНИТ ИГУ. Решение задач обработки естественнонаучной информации является самостоятетольной и весьма объемной проблемой. Тем не менее, в рамках реализации ВП ЦНИТ ИГУ нами был получен ряд экспериментальных результатов, которые в дальнейшем могут быть положены в основу стандартизированных систем, работающих в среде ИОС. Серьезной проблемой при построении данных систем является учет уровня подготовленности массового пользователя, незнакомого с продвинутыми технологиями. Применение мощных, но сложных технологий может уменьшить количество их потенциальных пользователей.
   Для решения задач, связанных с обработкой естественнонаучной информации, нами велась работа по следующим направлениям:
   Направление 1: обработка информационных ресурсов, подготовленных в системе LaTeX. LaTeX до сих пор является очень распространенным средством для создания математических текстов. Следует также отметить, что большое количество информационных ресурсов математического и естественнонаучного характера накоплено в LaTeX-формате. Поэтому автоматическая трансляция текстов из формата LaTeX в канонический формат, основанный на связке XML-MathML, является приоритетной задачей. К настоящему времени на функционально-логическом языке Флэнг разработан конвертор, переводящий LaTeX-документы в некоторый XML-формат, близко отражающий структуру LaTeX-документов, но представленный средствами языка XML. Математические формулы из LaTeX-формата автоматически переводятся в MathML. В дальнейшем этот промежуточный формат в зависимости от типа стоящих задач будет переводиться в другие конечные форматы.
   Направление 2: работа с форматами редактора MS Word. Этот редактор очень популярен, многие информационные ресурсы готовятся на его базе, с ним умеет работать самый широкий круг российских пользователей. Поэтому обработка информационных ресурсов, подготовленных в этом редакторе, является важной задачей. Выше отмечалось, что программный продукт MS Word содержит средство для ввода математических формул – MS Equation Editor. В связи с тем, что MS Word является закрытой системой, для обработки формул необходимо уметь извлекать формулы из документов MS Word. Для решения этой проблемы нами разработана система для перевода формул формата MS Equation в формат MathML. В связи с недоступностью информации о бинарном формате хранения формул MS Equation, некоторую сложность представляла проблема расшифровки данного формата. На первом этапе был проведен подробный анализ бинарной структуры формул MS Equation. На втором этапе был создан модуль на языке Java для конвертирования формул в формат MathML, при этом сам текст документа MS Word сохраняется в HTML или XML формате и имеет ссылки на формулы в формате MathML. Было принято решение реализовать полностью независимый сервис, ориантированный на обработку RTF-файлов, включающих математические формулы, на языке Java. Этот сервис также был разработан. Он работает независимо от MS Word. Таким образом, выстраивается следующее решение: пользователь продолжает работать со знакомыми ему средствами MS Word и MS Equation Editor, либо LaTeX для создания и редактирования математических текстов, но в дальнейшем после конвертирования текст и математические формулы переводятся в формат на базе MathML, удобный для дальнейшей ручной или автоматической обработки.
   Направление 3: создание текстов, изначально ориентированных на хранение в формате XML. Для общего решения этой проблемы нами разрабатывается система ISU Project, которая позволяет создавать и редактировать XML-документы. Поскольку редактор ориентирован на «ручное» создание естественнонаучных текстов, а MathML больше ориентирован на автоматическую обработку, а не работу человека, было принято решение использовать в ISU Project такой способ работы с формулами, когда они вводятся в формате ТеХ, но после окончания ввода каждой формулы, она визуализируется и включается в текст в привычном всем виде. Эта визуализация осуществляется «на лету» в процессе работы с текстом. В дальнейшем эту формулу можно редактировать, изменяя ее LaTeX-представление. Для реализации этого решения было разработано два модуля: модуль перевод из LaTeX в MathML и модуль отображения (отрисовки) формул MathML, представленных в MathML. Оба модуля реализованы (как и сам ISU Project) на языке Java. В качестве базового языка форматирования текстов было выбрано подмножество DocBook [] – диалекта XML, предназначенного для создания документации.
   Направление 4: реализация пилотных систем на основе разрабатываемой технологии. Как показал опыт использования системы ISU Project,  способ работы с формулами, когда их ввод и редактирование происходит в формате LaTeX, хранение и обработка в формате MathML, а  отображение на экран в графическом виде, весьма удобен. Особенно это стало заметно, когда нами были начаты работы по созданию различных Web-сервисов, работающих с математическими формулами. Нами были разработаны экспериментальные системы по удаленной разметке текстов с использованием формата XML, которые использовали этот способ работы пользователя с математическими формулами. Особо стоит отметить форум с возможностью включать математические формулы, например, систему он-лайн консультации кафедры математического анализа ИГУ. Способ, когда автор сообщения может использовать LaTeX-запись для представления математических формул, а читатели видят эти формулы в знакомом им графическом виде, весьма помогает в работе как студентов, так и преподавателей.
   Таким образом, на базе реальных задач и разработанных в рамках проекта программных продуктов нами была спланирована определенная модульная система. Ключевыми технологиями этой системы являются XML, MathML, VBA (Visual Basic for Application – но он постепенно исключается в связи с невысокими технологическими качествами), Java, Флэнг. В качестве базового формата представления математических формул избран MathML, этот формат служит тем звеном, которое связывает все модули.






Контакты
664003 Иркутск, ул. К. Маркса, 1, Иркутский государственный университет, Центр новых информационных технологий

email

 

Заметки*
Открытая система
Пакетирование
XML
Тексты
Естественнонаучные ресурсы
Ресурсы как модели
Форматы ресурсов
Информационные уровни
Трудности
Учебные объекты
"Опыт человечества"
Коммуникативные системы
О пользе RSS
Проблема интернета
Осмысленный интернет
Идентификация ресуров
Метаданные и будущее
Дублинское ядро
Метаданные и знания
Онтологии
*Набор кратких заметок и высказываний, посвященных различным аспектам информатизации образования. Что называется - "заметок по поводу...".

Онлайн-сервисы**
• Сайт кафедры математического анализа
Форум с поддержкой математических формул.
• Flang-online
• TeX->MathML->GIF.
• MathML->GIF.
• Flang-Meta.
QTI-тестирование с поддержкой математических формул.
• Meta-ZIP
• UDC
• Font-Test
**список эксперементальных сервисов, на которых апробировались реализуемые группой технологии. Сервисы созданы на основе базовых модулей.

Библиотека***
Онтологии и метаописания
Учебные объекты
Языки программирования и логика
eLearning and Knowledge
Digital Libraries and Repositories
Книжки и учебники
***Коллекция публикаций по тематике, собранная из открытых интернет-источников.




.



Copyright ® 2002-2005, TeaCODE.com