96Научно-технические разработки

предыдущая статья | оглавление | в архив | следующая статья



Метаданные – задачи и проблемы


А. Бителева Теле-Спутник - 10(132) Октябрь 2006 г.


В июне журналом «625» был организован круглый стол«Управление медиаактивами: проблема единого стандарта метаданных1»

Сегодня остро стоит вопрос сохранения всего фонда кино видео- и аудиоматериалов. Поэтому многие участники круглого стола рассматривали вопрос использования метаданных для навигации в медиаархивах. Они затрагивали и много других актуальных вопросов, касающихся медиаархивов, – механизмы оцифровки аналоговых лент, критерии отбора материалов, подлежащих обязательному сохранению, проблема создания и поддержки единого цифрового архива с возможностью распространения материалов по цифровым кинотеатрам и кризис стандартизации в целом. Тем не менее, мы ограничимся изложением вопросов, касающихся метаданных и проблем их стандартизации. Они интересуют нас с той точки зрения, что метаданные играют существенную роль при организации сетей цифрового телевидения. Причем, если в традиционных DVB сетях используются не очень сложные и хорошо отработанные схемы, то внедрение услуг интерактивного телевидения или запуск IPTV в альтернативных сетях передачи требуют значительно большего объема метаданных, форматы передачи которых пока далеки от стандартизации.
Что же касается производства видео- и аудиопродукции, ее архивирования и продажи, то в этой области метаданные активно используются, решая значительно более разнообразный круг задач, чем при вещании. И вполне вероятно, что по мере автоматизации всей цепочки создания и распределения контента механизмы формирования метаданных, отработанные в студийной и архивной практик, будут перенесены и в сферу распределения контента.
Вначале остановимся на форматах метаданных, относящихся к семейству MPEG. Хорошо известным примером являются таблицы PSI (Program Speсifivc Information), определенные стандартом MPEG-2. Они переносят информацию о структуре и потоке, о различных параметрах его составляющих, а также информацию о передаваемом контенте, на базе которой формируется электронный гид. Дополнительные возможности введения метаданных в потоки MPEG-2-TS предоставляет стандарт DVB-SI.
В семействе MPEG существуют еще два описательных формата – MPEG-7 и MPEG-21. MPEG-21 совместно с некоторыми другими спецификациями регламентирует правила электронной коммерции в информационной сфере. Он создает базовую систему защиты авторских прав, формирует словарь слов и выражений, используемых при электронном обмене контентом и для электронной коммерции. Что же касается MPEG-7, то этот стандарт решает задачу формального описания самого мультимедийного контента, то есть звука изображения, графики, моделированных 2D и 3D конструкций и т.д. Его предлагается использовать в системах поиска мультимедийной информации, для идентификации объектов или их фильтрации в соответствии с определенными признаками. В MPEG-7 определен и способ инкапсуляции метаданных в транспортный поток MPEG-2 TS. Возможности этого стандарта достаточно интересны, но о его реальном применении мы пока не слышали. Ничего не известно нам и о применении MPEG-21. Возможно, все метаданные, относящиеся к авторским правам, формируются в рамках других систем еще до того, как материал поступает на станцию распределительной сети, и необходимости в его применении просто нет.
Пять лет назад на конференции IBC теме метаданных был выделен специальный день, чем подчеркивалась значимость вопроса для телеиндустрии На ней констатироваласть несовместимость имеющихся систем метаданных и необходимость выработки единого сквозного формата. Но отмечалась и сложность этой задачи.
Доклады, прозвучавшие на круглом столе, показали, что за прошедшие пять лет ситуация с метаданными хотя и изменилась, но не радикально. Метаданные все так же необходимы, а единых процедур, регламентирующих их создание и применение, по-прежнему не существует. Причины сложившейся ситуации были рассмотрены в докладе представителя СПбГУКиТ А.Ф. Перегудова. Они все те же – параллельное существование разных систем формирования метаданных и еще в больше мере – огромное многообразие задач, которые метаданные должны обслуживать. Способ формирования метаданных напрямую зависит от задач, для которых они создаются. Многоэтапные разветвленные бизнес-процессы создания и последующего применения контента требуют индивидуальных схем формирования и преобразования метаданных, учитывающие особенности конкретных бизнес-процессов. Набор типовых задач, решаемых при создании, хранении и воспроизведении аудио-визуального материала, показан на рисунке 1. Очевидно, что моделирование схем формирования метаданных с учетом всех этапов процесса – задача достаточно сложная.
В докладах круглого стола были даны краткие характеристики наиболее распространенных технологий формирования метаданных.Одним из основных успехов в сфере метаданных за пять лет, прошедших с момента нашего первого знакомства с темой, можно считать появление общепринятого формата контейнера для передачи метаданных. Это файловый формат MXF, созданный SMPTE для обмена аудиовизуальной информацией и сопроводительными метаданными. Он является упрощенной версией формата AAF (Advance Authoring 2. Format), предназначенного для целей редактирования и постпроизводства.
MXF может использоваться для межстудийного обмена и для ее архивирования информации, а простые, информационно неперегруженные модификации файла пригодны и для вещания. MXF хорошо приспособлен для обслуживания интерактивных услуг.
С учетом многообразия задач, для которых назначен MXF, его наделили достаточно гибкой структурой. Сам аудиовизуальный материал может вводиться в файл в разных форматах, в том числе и в MPEG-2. Для каждого формата разработана отдельная спецификация, регламентирующая правила его размещения. Контент может разными способами разбиваться по файлам или комбинироваться внутри одного файла. В частности, видео и аудио, относящиеся к одной программе, могут заключаться в общий или в разные файлы. В файле хранятся метки временной синхронизации всех составляющих объекта, включая метаданные, а также сами метаданные, которые, в свою очередь, делятся на два типа. Первый тип, называемый Structural Metadata, описывает размещение контента, взаимоотношение частей файла, размеры заключительной части и т.д. Он же включает технические параметры контента, такие как сигналы временной синхронизации, тип кодирования, уровень дискретизации аудио и т.д
Описание самого контента, например, такие характеристики как название произведения, дата его создания, состав исполнителей, информация об авторских правах и т.д. регламентируются спецификацией SMPTE DMS-1. Она определяет возможные модели описаний и правила их построения. Отдельная спецификация определяет словарь терминов для применения в метаданных. Разные модели описания отвечают разным задачам. Объект может описываться как единое целое (черный ящик), или его составные части (сцены, эпизоды) могут рассматриваться по отдельности. Существует модель для описания исходных материалов (клипов), подлежащих последующей обработке и компиляции. И, наконец, разработан ряд моделей со сложными иерархическими и сетевыми структурами, предназначенными для сопровождения бизнес-процессов. В рамках каждой модели можно использовать разные схемы (правила) введения метаданных, выбираемые в зависимости от задач.
Кроме того, DMS-1 предусматривает возможность введения введения в XMF файл метаданных, сформированных в рамках других систем. Для общераспространенных создаются готовые схемы, включаемые в состав DMS-1, а для прочих, например, для корпоративных форматов метаданных, пользователям предлагается сформировать собственные схемы введения. Возможен еще вариант транскодирования из одной системы в другую, но он, разумеется, чреват потерями информации.
Очевидно, что процедура формирования XMF файла сложна и многовариантна. Поэтому неудивительно, что большая часть оборудования, работающего с файлами XMF, поддерживает только часть возможностей, заложенных в спецификации.
Недавнее тестирование оборудования десяти ведущих компаний показало, что если простейшие файлы умели генерировать все кодеры MXF, представленные на тестирование, то файлы, полностью совместимые со спецификацией, генерирует лишь малая часть. Что же касается декодеров, то далеко не все из них умели декодировать метаданные DMS-1, а часть просто теряла их при импорте. И если обмен медиаданными, заключенными в файлы, проходил без сбоев, то с метаданными наблюдались серьезные проблемы, не позволяющие говорить о какой-либо совместимости MXF оборудования разных производителей.
Другая система метаданных, Dublin Core, разработана международной группой «The Dublin Core Initiative» и, по словам Л. Г. Лишина (ВНИИТР), является сегодня наиболее распространенной. Она включает 15 элементов (расширенная версия – 18 элементов) описания объекта, которые можно условно разбить на три группы:

  1. Элементы, относящиеся к самому контенту, например, название, тип, создатель, издатель и т.д.
  2. Параметры, описывающие интеллектуальную собственность, – авторские права, географическая зона использования.
  3. Характеристики версии или экземпляра – идентификатор, формат, язык.
В рамках каждого элемента существуют уточняющие подрубрики и правила синтаксиса. Степень формализации создаваемых метаданных и детализации подрубрик может быть разной, в зависимости от набора инструментов, которые создатель посчитает нужным использовать. Рубрики Dublin Core не охватывают многих вопросов, не позволяя передавать, например, информацию о временной синхронизации, о документации и сопровождать куплю-продажу контента.
Еще одна похожая система метаданных с элементами описания и схемами их применения была разработана EBU и получила название P/META. Но широкого распространения она не нашла, ее используют только BBC и RAI.
Кроме того, в этот же ряд можно поставить систему TV-Anytime, разработанную для идентификации и поиска контента на жестких дисках цифровых видеомагнитофонов.
Что же касается уже упомянутых систем семейства MPEG, то они отличаются более узкой направленностью. MPEG-7 имеет собственную уникальную нишу применения и хотя частично пересекается с DMS-1, но взаимозаменяемыми эти системы ни в коей мере не являются. Поэтому MPEG-7 может о найти применение на всех этапах бизнес-процесса, и схемы введения метаданных этого формата в файл MXF будут хорошо отработаны.
Одной из составляющих частей метаданных являются уникальные идентификаторы материала. По ним материалы можно находить в архивах, вызывать во время производства, идентифицировать при составлении расписания вещания и т.д. Несмотря на кажущуюся простоту процедуры присвоения материалу идентификационного номера, эта задача тоже оказывается нетривиальной. Во-первых, в мире существует больше десяти различных вариантов идентификации (рис. 2). Отчасти так сложилось исторически, а отчасти они служат разным целям.
Существующие идентификаторы можно разбить на три класса, первый тип используется для учета редакционных материалов, типа творческих концепций, второй применяется к самим медиаматериалам, а третий тип – идентификаторы общего назначения.Наибольшее распространение нашли идентификаторы UMID, ISAN, CrID и CID. UMID (Unique Material IDentifier) рекомендован к применению SMPTE и используется в структурах MXF. Он назначается любому материалу или фрагменту материала. ISAN (International Standard Audiovisual Number) стандартизированный ISO, присваивается готовым произведениям. Однако оно может стать исходным материалом для нового произведения, и тогда ему будет присвоен номер UMID. Кроме того, у произведений часто существуют версии, предназначенные для разных целей, – например, версии для цифрового кинотеатра, для передачи по ТВ каналам и для мобильных телефонов. Все они получают свой номер V-ISAN. Он, в частности, может использоваться поисковыми системами Интернета. Идентификатор CrID предназначен для поиска физического места хранения материала, а CID – для поиска физических носителей материала.
Таким образом, материал может иметь несколько идентификаторов, классифицирующих его с разных точек зрения. Одновременно, в некоторых системах идентификации, он делит общий идентификатор с другими материалами.
Из всего изложенного можно сделать вывод, что создание системы метаданных, особенно обслуживающих бизнес-процесс – это штучная работа, никаких готовых решений в этой области нет и, возможно, никогда не будет. Поэтому, как отметил в своем докладе А.Ф. Перегудов, крупные компании обречены на разработку собственных систем управления медиаактивами, а мелкие – на покупку решений у системных интеграторов.
В России задача создания метаданных наиболее остро стоит применительно к описанию архивных материалов. О проблемах создания метаданных для архивных материалов канала «ТВ-Центр» рассказала сотрудница канала С.Г. Качалова. Одна из проблем, с которой сегодня сталкиваются многие архивы, связана с изменением аудитории, для которой предназначены описания. Если раньше они составлялись исключительно для внутреннего применения, для журналистов, редакторов и самих архивистов, то теперь ими пользуются и клиенты, покупающие материалы канала. Поэтому в описания приходится добавлять ряд важных, с точки зрения покупателей, параметров, такие как тип прав на материал (право использования и/или право показа) или статистика наиболее запрашиваемых произведений.Кроме того, описания часто составлялись с применением сленга, понятного профессионалам, но приводящего в замешательство потенциального покупателя. С открытием архивов сторонним лицам также повысились требования к стилистике описаний и их политкорректности.
Второй проблемой является произвольная форма описания,, позволяющая одни и те же вещи описывать разными словами. Одно из направлений борьбы с проблемой – максимальная автоматизация ввода данных. Максимальное количество параметров должно генерироваться автоматически (уникальный идентификационный номер, время оцифровки, формат) либо выбираться из контролируемых списков (дата, место действия, время года, время суток, условия съемки). Значительную пользу может принести и «Встроенный орфографический словарь». Это облегчает создание текста, который можно эффективно использовать при автоматизированном поиске. Неавтоматизированной части описания тоже постоянно приходится оптимизировать для задач поиска, примерно так же, как оптимизируют сайты для повышения рейтинга в поисковых системах. Конечно, радикальным решением этой проблемы был бы переход к формальным моделям составления метаданных.
Как мы поняли, практически все российские архивы, описываются сегодня без применения формальных моделей, во всяком случае, о практическом использовании разговора не было. Но с расширением цифровых архивов и вовлечением в бизнес-процесс новых участников вопрос внедрения формализованных систем создания метаданных, вероятно, встанет более остро.



 
Теле-Спутник Октябрь 2006
наверх
 



Уважаемые посетители!
В связи с полной реконструкцией Архива, возможны ситуации, когда текст будет выводиться не полностью или неправильно (отсутсвие статей в некоторых номерах это не ошибка). Если заметите какие-то ошибки, то, пожалуйста, сообщите нам о них. Для связи можете воспользоваться специальной формой:

Номер журнала: *
Страница: *
Дополнительные сведения: *
Желательно четко опишите замеченную проблему - это поможет быстрее ее решить.
Мы не отвечаем на вопросы! Их следует задавать на нашем форуме!
Антиспам: * Нажмите мышкой на синий квадрат:


Поля, помеченные звездочкой (*)
обязательны для заполнения





Новый сайт