Формирование метаданных многомерных информационных систем

В статье рассматривается метод формирования метаданных для многомерных информационных систем, характеризующихся высокой разреженностью данных. Авторы предлагают использовать классификационные схемы, основанные на иерархическом анализе структурных компонент наблюдаемого явления. Метод позволяет декомпозировать сложную задачу описания аналитического пространства на ряд более простых задач, что упрощает построение множества допустимых сочетаний значений измерений и повышает эффективность проектирования систем.

Содержание

УДК 681.3.016
Резюме
Результаты и выводы
1. Введение
2. Постановка задачи
3. Описание разреженного куба данных с использованием сочетаний значений измерений
4. Использование кластерного метода описания структуры многомерного куба данных

УДК 681.3.016

Формирование метаданных многомерных информационных систем на базе классификационных схем

Максим Б. Фомин¹, Евгений А. Кузнецов², Сергей Г. Шорохов¹

¹Российский университет дружбы народов (РУДН), Россия, 117198, г. Москва, ул. Миклухо-Маклая, 6

²Лаборатория новых информационных технологий (ЛАНИТ), Россия, 129075, г. Москва, Мурманский пр-д, 14

Резюме

Цель. Разработка способа формирования метаданных многомерной информационной системы путем сопряжения классификационных схем. Каждая классификационная схема представляет собой иерархию значений измерений, относящихся к отдельной структурной компоненте наблюдаемого явления.

Методы. В основе метода лежит выявление групп значений измерений, которые связаны с группами значений других измерений. Группы значений разных измерений используются для построения кластеров сочетаний значений измерений. Сочетания кластера формируются декартовым произведением групп значений измерений. Метаданные информационной системы представлены в виде множества допустимых сочетаний значений измерений, которое формируется как набор кластеров. Для решения этой сложной задачи наблюдаемое явление рассматривается как набор структурных компонент. Из полного набора измерений информационной системы выделяются отдельные наборы измерений, семантически связанные со структурными компонентами наблюдаемого явления. Семантические связи, выявленные в процессе анализа структурной компоненты, позволяют построить иерархию групп значений измерений и представить их совокупность в виде графа – классификационной схемы, связанной со структурной компонентой.

Результаты и выводы

Результаты. В информационных системах с многоаспектным описанием предметной области кубы данных характеризуются большой разреженностью, что затрудняет формирование метаданных. Классификационные схемы описывают отдельные аспекты метаданных, связанные с отдельными структурными компонентами наблюдаемого явления. Сопряжение классификационных схем дает возможность получить полное описание метаданных.

Выводы. Использование классификационных схем позволяет разбить задачу описания структуры аналитического пространства многомерной информационной системы на более простые задачи анализа его отдельных структурных компонент. Сопряжение классификационных схем, относящихся к разным структурным компонентам, дает возможность сформировать метаданные информационной системы. В метаданных центральное место занимает множество допустимых сочетаний значений измерений.

Ключевые слова: многомерная информационная система, многомерный куб данных; разреженный куб данных; классификационная схема; сочетание значений измерений; множество допустимых сочетаний; кластер сочетаний значений измерений.

1. Введение

В информационной системе, в которой показатели, характеризующие наблюдаемое явление, представлены в многомерной форме, размерностями куба данных являются измерения. Каждое измерение соответствует некоторому аспекту анализа наблюдаемого явления. В случае если система содержит большой объем семантически разнородных данных, многомерный куб данных характеризуется высокой разреженностью и неравномерностью заполнения [1]. Модель данных информационной системы формируется в соответствии со следующим принципом: каждая значимая ячейка многомерного куба соответствует некоторому факту. Для эффективного описания структуры многомерного куба может быть использован кластерный метод. Этот метод базируется на семантическом анализе сочетаемости значений разных измерений в значимых ячейках куба [2]. Он позволяет описать метаданные информационной системы в виде множества допустимых сочетаний значений измерений. Допустимые сочетания ставятся в соответствие значимым ячейкам многомерного куба.

2. Постановка задачи

В случае если многомерная информационная система создается для описания семантически разнородных фактов и структура аналитического пространства содержит большое число измерений, при описании множества допустимых сочетаний возникает сложная задача анализа сочетаемости значений всех измерений куба в совокупности. Эта задача может быть упрощена в случае если наблюдаемое явление допускает разделение на набор структурных компонент, каждая из которых имеет свои аспекты анализа. Такое разделение позволяет выделить в аналитическом пространстве наборы измерений, ассоциированные со структурными компонентами, и рассматривать сочетаемость значений измерений в каждом наборе измерений по отдельности.

Можно предложить метод построения множества допустимых сочетаний значений измерений многомерного куба, состоящий из на следующих этапов:

разбиение наблюдаемого явления, которое описывает информационная система, на структурные составляющие;
анализ сочетаемости значений измерений, характеризующих эти структурные составляющие;
построение классификационных схем, содержащих описание допустимых сочетаний значений измерений по отдельности для каждой структурной составляющей;
соединение сочетаний, взятых из разных классификационных схем, во множество допустимых сочетаний значений измерений многомерного куба в совокупности.

В процессе выполнения описанного выше алгоритма характеристики наблюдаемого явления и связи между ними надо рассматривать с позиций классификации, которая отражала бы семантику наблюдаемого явления. В качестве характеристик выступают измерения куба данных. Классификацию характеристик можно выполнить с использованием иерархического принципа. В этом случае выявленные свойства могут быть представлены в форме связного ациклического графа. Характеристики наблюдаемого явления разделяются по признаку значимости и распределяются по разным уровням иерархии графа. После формирования иерархии характеристик можно переходить к построению графа, используя при этом попарный анализ сочетаемости значений измерений, соответствующих характеристикам, расположенным в иерархии одна под другой.

3. Описание разреженного куба данных с использованием сочетаний значений измерений

Каждому аспекту анализа наблюдаемого явления, для описания которого разрабатывается многомерная информационная система, соответствует одно из измерений многомерного куба. Полный набор измерений образует множество {D₁, D₂, …, D_n}, где D_i – i-е измерение, n – размерность многомерного куба. Измерение задается множеством значений измерения: {v_i,1, v_i,2, …, v_{i,m_i}}, где m_i – число значений i–го измерения. Значения измерения v_i,j выбираются из множества позиций классификатора, который соответствует тому аспекту наблюдаемого явления, который связан с измерением D_i.

Многомерный куб данных является структурированным набором ячеек. Каждой ячейке C многомерного куба может быть сопоставлено сочетание значений измерений {v₁, v₂, …, v_n}, по одному значению для каждого из измерений [2]. В случае разреженного куба не все возможные сочетания значений измерений соответствуют значимым, то есть описывающим факты, ячейкам куба.

В случае если многомерный куб содержит семантически разнородные данные, возможна ситуация, когда значения некоторых измерений не могут быть заданы в сочетании с имеющимся набором значений других измерений. В такой ситуации при описании значимой ячейки многомерного куба значения некоторых измерений не могут быть определены. Для задания значений этих семантически неопределенных измерений может применяться специальное значение «Не используется» [2]. Мы будем использовать такой расширенный способ задания значений измерений в ячейках. Структуру многомерного куба данных информационной системы в этом случае можно описать как множество допустимых сочетаний значений измерений. В сочетаниях этого множества могут использоваться значения, взятые из классификаторов, соответствующих измерениям, и специальное значение «Не используется». Для обозначения множества допустимых сочетаний значений измерений будем использовать аббревиатуру «МДС».

Наблюдаемое явление характеризуется значениями показателей, заданными в значимых ячейках многомерного куба. Полный набор показателей образует множество {P₁, P₂, …, P_k}, где P_j – j-й показатель, k – число показателей в гиперкубе. В значимой ячейке могут быть заданы не все показатели из P. Такая ситуация возникает в случае семантического несоответствия между значениями измерений, задающими ячейку, и некоторыми показателями. При описании МДС для каждой значимой ячейки C требуется задать своё множество {P_C,1, P_C,2, …, P_C,m}, состоящее из определенных в этой ячейке показателей, P_C ⊆ P. Для описания в ячейке C показателей, не входящих во множество P_C, будем применять специальное значение «Не используется». Должно выполняться правило: множество показателей P_C, заданных в значимой ячейке C, не может быть пустым. Описание показателей в незначимых ячейках многомерного куба, соответствующих сочетаниям значений измерений, не входящим в МДС, не имеет смысла.

4. Использование кластерного метода описания структуры многомерного куба данных

Структура МДС описывает семантику наблюдаемого явления, информация о котором содержится в многомерном кубе данных. Сжатое описание МДС, учитывающее семантику, может быть получено с помощью кластерного метода, который основан на анализе попарных связей между значениями измерений [3]. Кластерный метод позволяет выявить группы значений измерений. Группа G_i,r значений i-го измерения включает m_i,r значений (m_i,r ≤ m_i), где r – номер группы, и содержит значения измерения, которые «одинаково» сочетаются в МДС со значениями из некоторых групп других измерений.

С помощью семантического анализа наблюдаемого явления можно выявить связанные группы значений в разных измерениях. Кластер сочетаний K – множество сочетаний значений измерений, которое может быть получено при помощи операции декартова произведения, в которой операндами являются группы значений измерений или специальное значение «Не используется», по одному операнду для каждого из измерений, используемых в кластере: K = G_1,r1 × G_2,r2 × … × G_n,rn. Кластеры сочетаний могут быть использованы при описании МДС.