При движении вниз по уровням иерархии дерева расположенные на этих уровнях значения измерений выражают всё менее значимые свойства наблюдаемого явления. Тем самым устанавливается ранжирование характеристик наблюдаемого явления.
В результате выполнения описанного выше алгоритма происходит построение дерева сочетаний значений измерений КСХ, обладающее структурой, для которой выполняются следующие правила:
- Корнем дерева является узел «Ключевое измерение».
- Дерево представляет собой иерархическую структуру, в которой уровни задаются чередованием узлов типа «Группа значений измерения» и узлов типа «Измерение». При этом группы значений измерений должны быть заданы в измерениях, соответствующих узлам, расположенным в дереве на один уровень выше по иерархии.
- Листьями дерева являются узлы типа «Группа значений измерения».
- Узлу типа «Группа значений измерения» (кроме узла, являющегося листом дерева) должен соответствовать один узел типа «Измерение» на расположенном ниже уровне иерархии дерева. Узлу типа «Измерение» может соответствовать один узел или несколько узлов типа «Группа значений измерения» на расположенном ниже уровне иерархии дерева.
- На пути от корня до листа каждое измерение может встречаться не более, чем один раз.

Рис. 2. Пример дерева сочетаний значений измерений классификационной схемы
Каждый путь от корня дерева сочетаний к листу содержит некоторый набор групп значений разных измерений. Это означает, что путь задает кластер сочетаний значений измерений КСХ. Для формирования полного набора кластеров сочетаний требуется обойти все дерево. В процессе обхода дерева в ширину число формируемых кластеров увеличивается каждый раз, когда на некотором уровне иерархии встречается несколько групп значений, относящихся к одному узлу типа «Измерение». В случае если на пути от корня дерева к листу отсутствует некоторое измерение, которое имеется в структуре КСХ, это измерение должно принимать значение «Не используется» в кластере, который соответствует рассматриваемому пути.
Кластеры сочетаний значений измерений для КСХ, дерево сочетаний значений измерений которой представлено на рис. 2, приведены ниже (Таблица 1).
| N | Измерение A | Измерение B | Измерение C | Измерение D |
|---|---|---|---|---|
| 1 | A1 | B1 | Не используется | Не используется |
| 2 | A1 | B2 | C1 | Не используется |
| 3 | A2 | B3 | C1 | Не используется |
| 4 | A2 | B4 | Не используется | D1 |
| 5 | A2 | B5 | Не используется | D2 |
С позиций семантики каждый кластер, имеющийся в дереве сочетаний классификационной схемы, соответствует своему набору свойств наблюдаемого явления. В информационной системе эти свойства описываются значениями некоторого набора показателей, включенных в классификационную схему. В разных кластерах могут быть заданы разные наборы показателей. Информация о том, какие показатели заданы в кластере сочетаний КСХ, должна быть описана в дереве сочетаний значений измерений КСХ в виде атрибутов листьев дерева сочетаний.
7. Формирование структуры многомерного куба данных с использованием классификационных схем
Важным свойством КСХ является возможность использовать сочетания значений измерений, которые в них описаны, при формировании метаданных информационной системы. Набор измерений многомерного куба формируется исходя из следующего принципа: в нем должны присутствовать все характеристики, от которых могут зависеть показатели, используемые при анализе наблюдаемого явления. Построение МДС на таком «широком» наборе измерений многомерного куба является сложной задачей. Решить эту задачу помогает использование КСХ, которые играют классификационную функцию по отношению к МДС.
В каждой из КСХ, относящейся к наблюдаемому явлению, уже содержится информация о сочетаемости значений той части измерений, которые связаны с отдельными свойствами этого наблюдаемого явления. Задача состоит в том, чтобы правильно соединить сочетания из разных КСХ вместе во множестве допустимых сочетаний. При соединении сочетаний двух КСХ может возникнуть одна из следующих ситуаций:
- измерения, включенные в первую КСХ, отсутствуют во второй и наоборот;
- наборы измерений, имеющиеся в КСХ, частично пересекаются.
В первой ситуации сочетаемость значений измерений одной КСХ не зависит от значений измерений другой КСХ. Такая ситуация соответствует случаю, когда МДС, описывающее структуру многомерного куба данных, разбито на слои. Для каждой из КСХ в этом случае МДС(КСХ) является описанием одного из слоев Li,j.
В ситуации пересечения наборов измерений, относящихся к двум стыкуемым КСХ, при формировании сочетаний МДС возникает задача продолжения сочетаний одной КСХ сочетаниями другой КСХ с частичным перекрытием по измерениям. Эта задача может не иметь единственного решения. Выбор правильного варианта построения МДС в описанной ситуации должен производиться аналитиком на основе семантического анализа. При этом должны быть решены следующие вопросы:
- если значения измерений в сочетаниях из разных КСХ в области пересечения измерений совпадают, считать ли такие сочетания продолжением друг друга, или считать, что каждое из них порождает свое сочетание в МДС;
- если для некоторого сочетания из одной КСХ есть несколько продолжений в другой КСХ, какой из возможных вариантов продолжения выбрать при формировании сочетания в МДС.
8. Заключение
Метаданные многоаспектной многомерной информационной системы, спроектированной с использованием кластерного метода, имеют структуру разреженного и неравномерно заполненного многомерного куба. Формирование таких метаданных является сложной задачей, решить которую можно, рассматривая наблюдаемое явление, которое описывает информационная система, в виде совокупности структурных составляющих. Каждой структурной составляющей соответствует классификационная схема, данные которой могут быть представлены в виде множества допустимых сочетаний значений измерений, связанных с характеристиками этой структурной составляющей. Классификационные схемы, в сравнении с метаданными информационной системы в целом, описывают узкий набор свойств наблюдаемого явления и представляют характеристики этих свойств в иерархической форме. Решить задачу построения классификационных схем позволяет семантический анализ характеристик структурных составляющих наблюдаемого явления, каждой структурной составляющей по отдельности. Ограниченный набор характеристик в КСХ упрощает процесс формирования иерархии значений характеристик.
В результате появляется возможность выявления внутренней структуры многомерного куба данных. Подмножества измерений, включенных в разные классификационные схемы, частично пересекаются. Состыковка сочетаний из разных КСХ в соответствии со значениями измерений, лежащих в области пересечения, позволяет восстановить структуру многомерного куба данных информационной системы. Эта процедура должна быть выполнена с участием аналитика, который принимает решение о выборе способа продолжения сочетания в случае многозначности.
В случае разработки большой многоаспектной многомерной информационной системы использование кластерного подхода для описания множества допустимых сочетаний значений измерений позволяет обеспечить компактность при задании метаданных и выразить семантику анализируемого наблюдаемого явления. В основе предлагаемого подхода лежит выявление связей между измерениями, которые отражают свойства наблюдаемого явления, и формирование групп значений измерений, элементы которых объединены схожим поведением по отношению к этим связям.
Библиографический список
- Thomsen E. OLAP Solution: Building Multidimensional Information System. NY, Willey Computer Publishing, 2002, 688 p.
- Фомин М.Б. Описание метаданных многомерных информационных систем с использованием кластерного метода // Вестник Иркутского государственного технического университета. 2017. Т 21. № 7. С. 78-86. DOI: 10.21285/1814-3520-2017-7-78-86
- Висков А.В., Фомин М.Б. Моделирование аналитических измерений в многомерных базах данных // Вестник Иркутского государственного технического университета. 2012. Т 63. № 4. С. 15-19.
