60Научно-технические разработки

предыдущая статья | оглавление | в архив | следующая статья



Мультимедийный описательный стандарт MPEG-7


А. Бителева Теле-Спутник - 9(59) Сентябрь 2000 г.


Стремительное развитие информационных технологий, в первую очередь Интернет, привело к не менее стремительному появлению огромного количества самой разнообразной цифровой информации. Как следствие формируется все возрастающая потребность использовать накопленный багаж. Многие из нас ощущают это и в работе, и в повседневной жизни. Между тем, сориентироваться в широком и многообразном информационном пространстве удается далеко не всегда.



Рис. 1. Вариант использования и формирования базы мультимедийных описаний

В Интернет для навигации используются поисковые машины. Количество этих машин растет, их "конструкции" пос- тоянно совершенствуются, однако все они работают только с текстом. В то же время в Интернет хранится великое множество аудиоклипов, фотографий, графики, мультипликации и видеоматериала. Поиск материала в такого рода мультимедийном пространстве удобнее было бы вести не по текстовым, а по мультимедийным ключам. Например, получить интересующую аудиозапись, напев основной мотив в микрофон компьютера, или заказать информацию об архитектурном памятнике, введя в поисковую машину его фотографию.

Частные решения такого рода уже существуют.

Некоторые предлагаемые на рынке современные базы мультимедийной информации позволяют искать изображения, используя такие характеристики, как цвет, текстура и форма изображенных объектов, однако, они работают только в рамках конкретной системы.




Рис. 2. Пример описательной схемы для кинофильма

Проблема поиска и отбора информации стоит сейчас и в телевидении. Сегодня только самого фанатичного телезрителя прельстит обещанная вещателями возможность получать одновременно полтысячи каналов. Сориентироваться в таком богатстве практически невозможно. Электронный гид в его сегодняшнем виде не позволяет полностью решить эту проблему. Не случайно сразу несколько компаний ведут сейчас работы по созданию систем персонифицированного ТВ. Эти системы позволят отфильтровывать из общего потока передачи интересующую конкретного абонента. Критерии отбора могут задаваться абонентом или определяться автоматически, на основании анализа его предпочтений, проявляемых им при самостоятельном выборе передач. Работы в этом направлении требуют более детальных методов описания содержания телепрограмм.

Поиск и фильтрация информации — не единственные приложения, требующие описательной информации. Она может найти применение при редактировании аудио-видеоматериалов, видеонаблюдении, в медицине, при дистанционных исследованиях окружающей среды, обучении и т.д.

В октябре 1996 года группа MPEG начала работу над стандартом MPEG-7, призванным определить универсальные механизмы описания мультимедийной информации и решить перечисленные выше задачи. Стандарт получил название multimedia content description interface. В отличие от предыдущих стандартов семейства MPEG, он не будет определять форму представления самой информации и, тем более, среду ее передачи. Описания могут относиться к материалу, представленному в произвольном стандарте, в том числе аналоговом. Более того, одно и то же описание сможет использоваться для копий одного и того же материала, записанных в разных форматах (например с разным пространственным и временным разрешением кадра). Среда хранения и передачи описания тоже может быть произвольной. Оно вполне может храниться и передаваться отдельно от самого материала.

Тем не менее способ разбиения материала на сцену и объекты и методы их описания, применяемые в MPEG-4, хорошо отвечают и задачам MPEG-71 . Поэтому оба стандарта будет удобно использовать совместно.

Стандарт будет включать механизмы преобразования одной формы представления в другую. Например, речь будет преобразовываться в текст, изображение в речь, живое видео в анимацию и т.д. Это обеспечит универсальность создаваемых описаний, то есть позволит разным базам описаний взаимодействовать с разными поисковыми машинами, а также передавать описательную информацию по любым каналам связи.




Рис. 3. Взаимосвязь синтаксической и семантической схем

MPEG-7 будет регламентировать только описание различных характеристик информации. Выбор описываемых характеристик, процедура индексации (занесения в каталог) и организация поиска информации находятся вне сферы рассмотрения стандарта.

Его разработчики руководствовались правилом — стандартизировать минимум. Этот подход аналогичен принятому при разработке методов компрессии в стандартах MPEG-1, -2 и -4, а также принципов сегментации в MPEG-4.

Такой подход оставляет место для постоянного усовершенствования технических решений, использующих эти стандарты, равно как и для здоровой конкуренции между производителями оборудования.

Вариант формирования и использования базы мультимедийных описаний приведен на рис. 1.

Аудио-видеосодержание описывается, классифицируется и индексируется с помощью механизмов MPEG-7, и эта информация помещается в базу данных.

База может также пополняться готовыми описаниями различных материалов, поступающими в закодированном виде из удаленных точек. При поиске информации в базу поступают запросы, сформированные поисковыми машинами. У абонентов, получающих вещательные услуги, устанавливаются информационные фильтры, анализирующие поступающие описания. Формирование ключей для поиска и настройка фильтров может проводиться вручную (абонентом) или автоматически (компьютером).

Критерии, задаваемые для поиска и фильтрации информации, могут быть самыми разнообразными.

Вот некоторые примеры:

  1. Музыка: набрав на клавиатуре несколько нот, можно будет получить список музыкальных фрагментов, содержащих указанную мелодию.
  2. Графика: нарисовав несколько линий на экране, можно будет вывести перечень логотипов и других символов, содержащих аналогичные контуры.
  3. Изображение: задав фрагменты цвета или текстуры, можно будет отыскать изображения с подобными фрагментами.
  4. Движение: определив перечень объектов, их взаимоотношения и характеристики движения, можно будет получить перечень соответствующих анимационных клипов.
  5. Сценарий: по описанию содержания можно будет сформировать список сценариев с аналогичным развитием событий.
  6. Голос: использовав фрагмент записи Паваротти, можно будет получить перечень аудиозаписей этого певца.

В соответствии с другим требованием стандарт должен включать механизмы преобразования одной формы представления описания в другую. Например, речь должна преобразовываться в текст, изображение в речь, живое видео в анимацию и т.д. Это позволит разным базам описаний взаимодействовать с разными поисковыми машинами, а также передавать описательную информацию по любым каналам связи.

Стандарт будет определять как способы описания содержания материала, так и структуру сопутствующей информации, которая необходима для организации доступа к материалу, его поиска и защиты авторских прав. Описание материала будет охватывать его структуру и смысловое содержание.

Сейчас стандарт находится в стадии разработки. Уже почти два года рассматриваются предложения по формированию механизмов описания, поступающие в комитет MPEG. Для проверки этих предложений создана экспериментальная модель. Рабочая версия MPEG-7 должна появиться в конце 2001 года.

Работа над стандартом еще не закончена, однако общие принципы построения описания определены.

Структура описания включает три типа элементов — описатели (descriptors), описательные схемы (description schemes) и язык описания (Description Definition Language).

Описатели



Рис. 4. Пример объединения разных схем

Предполагается разработка описателей четырех типов.

Описатели первого типа передают непосредственно содержание материала. В рамках этого типа различают описатели высокого и низкого уровня. Описатели низкого уровня характеризуют структуру материала. Например, для видео это — цвет, текстура, форма, характеристика движения. Для аудио — высота тона, темп, тембр, мощность звука, тип мелодии. Для каждой характеристики может использоваться один или несколько описателей. Они могут быть самыми элементарными и более сложными — представленными в обобщенном, усредненном или статистическом виде. Это нетекстовые описатели.

Так, для цвета могут быть заданы его доминирующее значение, гистограмма RGB или Y, U, V компонентов, сетка распределения цвета, разные системы квантования цветового пространства. Движение может характеризоваться параметрами перемещения съемочной камеры, траекторией движения отдельных объектов, параметрическими моделями движения, учитывающими такие характеристики, как вращение, изменение масштаба, оптические деформации и т.д. Это — только некоторые примеры механизмов, уже включенных в стандарт.

Описатели низкого уровня в большинстве случаев будут формироваться компьютером и использоваться для автоматизированного анализа материала.

Описатели высокого уровня, как правило, представляют собой текст, описывающий смысловое содержание материала или его составляющих. Например: "утка летит над прудом". Такие описания будут делаться вручную.

Второй тип описателей будет содержать информацию о времени и целях создания материала, об авторстве и правах собственности. К этому же типу относятся и медиаописания, содержащие информацию о способе компрессии, форматах представления материала и т.д.

Описатели третьего типа позволят классифицировать материал по различным признакам. Они будут использоваться для анализа материала при поиске в обучающих программах, исследованиях материала. С их помощью будет определяться жанр материала, описываться его эмоциональный настрой, динамика и т.д.

Описатели четвертого типа будут давать краткое описание аудио-видеосодержания. Они будут использоваться для быстрого поиска материала.

Отдельные описатели объединяются в схемы описаний.

Стандарт задает правила объединения описаний в схемы и простых схем в более сложные.

Схемы, так же как и описатели, могут быть разного типа.

Структурные или синтаксические схемы описывают структуру аудио-видеоинформации, ее отдельные сегменты и их пространственно-временные взаимоотношения. Они строятся на описателях низкого уровня.

Пример простейшей синтаксической схемы описания фильма приведен на рис. 2. Схема имеет структуру дерева.

Из основного ствола выходят ветви, описывающие отдельные сцены. Каждая из них содержит описания кадров, относящихся к данной сцене, и аннотацию.

Описание каждого кадра включает 2 временных параметра (начало и конец), цветовой параметр (доминирующий цвет) и одну характеристику аудио (мощность звукового сигнала).

Семантические схемы описывают смысловое содержание материала — объекты, действия, события. Они строятся на описателях высокого уровня.

Пример схемы описания неподвижного изображения, объединяющей синтаксическую и семантическую схемы, приведен на рис. 3.

Описание содержания будет использоваться при поиске материала, его редактировании, анализе, компиляции материалов из разных источников и т.д.

Схемы, описывающие модель содержания, — основываются на описателях-классификаторах. Они классифицируют материал или его фрагменты по определенным признакам и указывают связи с семантическими и структурными описателями. Эти схемы удобны при поиске и фильтрации материала, а также в приложениях, связанных с обучением.

Схемы, включающие краткие описания и информацию о правах собственности и т.д., — предназначены для упрощения навигации и организации доступа.

Реальная схема описания объединяет схемы разных типов. Вариант такого объединения приведен на рис. 4.

Описание содержания материала заключается в двух схемах — синтаксической и семантической.

Взаимодействие этих схем обеспечивается диаграммой взаимодействия. Помимо указания связей эта диаграмма может содержать комментарии, не вписывающиеся в структуры двух схем.

Стандарт будет включать готовые схемы и описатели. Они могут использоваться самостоятельно или служить строительным материалом для более сложных схем.

Описатели и схемы создаются на языке DDL (Description Definition Language). Этот язык задает синтаксические правила их формирования. С его помощью будет описываться временное, пространственное и структурное взаимодействие элементов описания, а также создаваться взаимные ссылки.

В основу DDL положен язык XML (Extensible Markup Language). XML — формат, используемый в Интернет для описания представления текстовых документов и данных. DDL расширяет функции XML, добавляя возможности представления аудио-видеоинформации. Кроме того, он предусматривает механизмы работы с базами мультимедийных данных.

Возможные области использования будущего стандарта очень разнообразны. Перечислим наиболее перспективные из них.

Обучение. Описательная информация может использоваться не только для поиска материалов, но и в процессе их сравнения, анализа и переработки.

Журналистика. Стандарт может облегчить поиск материалов. Например, речи определенного политика можно будет искать, введя в поисковую машину его имя, фотографию или звучание голоса.

Видеонаблюдение. По заданным характеристикам движения могут контролироваться перевозки грузов, уличное движение в целом, работать интеллектуальные камеры наблюдения.

Биомедицина. Медицинские и биологические заключения могут производиться автоматически, по анализу заданных параметров. Для этого будут разработаны сложные многопараметрические приложения.

Архивирование материалов. Стандарт сформирует критерии для классификации материала и его индексации в каталоге. Он также создаст условия для взаимодействия операторов разных архивных баз.

Стандарт будет предусматривать возможности работы с версиями одного и того же материала, появляющимися на разных этапах его создания. Описатели фрагментов одной версии материала будут связаны ссылками с аналогичными фрагментами других версий. Одновременно для каждой версии будет сохраняться информация о включенных в нее изменениях. Таким образом можно будет поэтапно проследить процесс создания материала.

Полуавтоматизированное редактирование аудио-видеоматериала. Например, возможна компиляция клипа с использованием разных видео- и аудиоисточников. При этом можно будет искусственно изменять длину музыкальных фрагментов, с тем чтобы синхронизировать развитие музыкальных тем и событий в видеоклипе.

Возможны приложения, связанные с аранжировкой музыки или добавлением аудиоэффектов.

Телемагазины. Использование MPEG-7 позволит, например, производить поиск одежды, вводя в поисковую машину изображение интересующей модели.

Архитектура, дизайн интерьеров. Поиск решений, соответствующих требованиям, заданным в виде текста, фотографий или графики.

Туризм, культура, развлечения. Поиск информации о музейных экспозициях и культурных событиях, играх, музыкальных произведениях и т.д.

1 С обзором стандарта MPEG-4 можно познакомиться в 3 номере журнала за этот год.



 
Теле-Спутник Сентябрь 2000
наверх
 



Уважаемые посетители!
В связи с полной реконструкцией Архива, возможны ситуации, когда текст будет выводиться не полностью или неправильно (отсутсвие статей в некоторых номерах это не ошибка). Если заметите какие-то ошибки, то, пожалуйста, сообщите нам о них. Для связи можете воспользоваться специальной формой:

Номер журнала: *
Страница: *
Дополнительные сведения: *
Желательно четко опишите замеченную проблему - это поможет быстрее ее решить.
Мы не отвечаем на вопросы! Их следует задавать на нашем форуме!
Антиспам: * Нажмите мышкой на синий квадрат:


Поля, помеченные звездочкой (*)
обязательны для заполнения





Новый сайт