Формирование метаданных многомерных информационных систем на базе классификационных схем (часть 2)

В наблюдаемом явлении можно выделить различающиеся смысловые компоненты. В этом случае можно сформировать подмножества сочетаний, каждое из которых соответствует своей смысловой компоненте. Подмножество сочетаний является объединением кластеров сочетаний. Оно может быть построено как результат анализа сочетаемости характеристик наблюдаемого явления, соответствующих некоторой его смысловой компоненте. Технически характеристики отображаются в кластерах в виде значений измерений многомерного куба.

Кластерный метод позволяет получить описание МДС для многомерного куба H путем выполнения следующих шагов:

В структуре наблюдаемого явления должны быть выделены s семантических компонент. Этим компонентам должны быть сопоставлены подмножества сочетаний S₁, …, S_s. Должно быть построено выражение для множества допустимых сочетаний МДС(H), в котором подмножества S_i связаны при помощи теоретико-множественных операций объединения, пересечения и дополнения.
В каждом подмножестве S_i должны быть выделены слои измерений L_i,j, где j – номер слоя в подмножестве, l_i – количество слоев, L_i,j – номер измерения в слое, n_i,j – количество измерений в i-м слое. Слой измерений – это набор измерений, сочетаемость значений которых во множестве не зависит от того, какие значения в сочетаниях принимают измерения, не входящие в слой. В случае если известны подмножества сочетаний значений измерений для каждого из слоев измерений, подмножество сочетаний S_i может быть получено при помощи декартова произведения по слоям: МДС(S_i) = M_i,1 × M_i,2 × … × M_{i,l_i}. Здесь M_i,j – множество сочетаний значений измерений i-го слоя.
Для каждого из слоев M_i,j подмножества S_i подмножество допустимых сочетаний должно быть представлено в виде набора кластеров сочетаний в слое. Каждый кластер в слое определяется набором групп значений измерений G_i,j,k, k – номер измерения в слое, r – номер группы: K = G_i,j,1 × G_i,j,2 × … × G_{i,j,n_i,j}. Сочетания кластера могут быть получены декартовым произведением групп значений измерений (или специального значения «Не используется» вместо группы), по одной группе для каждого из измерений слоя.

Рис. 1. Диаграмма структуры множества допустимых сочетаний значений измерений

Можно выделить два типичных случая разбиения наблюдаемого явления на смысловые компоненты и представления МДС(H) с использованием нескольких подмножеств. Первый – когда при анализе разных смысловых компонент возникают разные разбиения измерений на слои, второй – когда имеется простой способ построения подмножества, описывающего МДС с избытком, и эффективный способ описания сочетаний, которые должны быть исключены из этого подмножества, чтобы сократить его до МДС.

В первом случае разбиению наблюдаемого явления на s смысловых компонент соответствует объединение подмножеств сочетаний значений измерений: МДС(H) = S₁ ∪ S₂ ∪ … ∪ S_s. В силу семантических различий этих смысловых компонент множество измерений в разных подмножествах может быть по-разному разбито на слои: S_i = L_i,1 ∪ L_i,2 ∪ … ∪ L_{i,l_i}, где i – номер разбиения, l_i – число слоев в i-м разбиении. Каждое подмножество S_i формируется в соответствии со своим разбиением множества измерений на слои.

Во втором случае множество допустимых сочетаний представляется в виде разности подмножеств: МДС(H) = S₁ S₂, где S₁ – множество сочетаний, описанное с избытком (сокращаемое подмножество), а S₂ – множество исключаемых сочетаний. Сокращаемое подмножество может быть сформировано с использованием следующего правила: в него включаются сочетания, полученные декартовым произведением всех значений измерений, дополненные набором сочетаний, содержащих значение «Не используется» для некоторых измерений, с исключением тех сочетаний, которые могут быть получены заменой специального значения «Не используется» на допустимое значение. Такой подход может быть использован в случае если множество МДС(H) имеет сложную структуру и известен простой алгоритм формирования подмножества S₁.

5. Описание наблюдаемого явления набором классификационных схем

Процесс описания свойств наблюдаемого явления в рамках многомерной модели данных с позиций семантики заключается в выявлении классификационных признаков (измерений многомерного куба) и установлении связей между ними. При этом наблюдаемое явление не рассматривается как многокомпонентный объект, и классификационные признаки не ранжируются: среди них не выделяются главные и второстепенные. Установление связей между измерениями производится путем поиска соответствия между их значениями. В случае большого числа измерений это – сложная задача. Недостатки такого подхода могут быть устранены введением в модель данных информационной системы дополнительных объектов – классификационных схем характеристик наблюдаемого явления (будем использовать для их обозначения аббревиатуру «КСХ»). Установим для КСХ следующие требования:

При задании КСХ должна учитываться компонентная структура наблюдаемого явления. Если наблюдаемое явление семантически может быть разделено на отдельные структурные составляющие, для каждой из которых может быть выбран свой набор аспектов анализа, каждой такой составляющей должна сопоставляться КСХ. Процедура построения КСХ должна базироваться на выявлении и анализе соответствующих выбранным аспектам анализа характеристик. Характеристикам должны быть сопоставлены измерения многомерного куба.
Классификационные схемы характеристик наблюдаемых явлений должны быть построены по иерархическому принципу. Среди относящихся к КСХ характеристик должно быть установлено ранжирование, выделяющее измерения, которые в большей и в меньшей степени выражают смысл структурной составляющей наблюдаемого явления, которая сопоставлена КСХ. Должно быть выбрано главное измерение, которое в наибольшей степени отражает семантику соответствующей КСХ структурной составляющей. Из остальных измерений, включенных в КСХ, которые с семантической точки зрения подчинены главному измерению и выражают частные свойства структурной составляющей наблюдаемого явления, должны быть сформированы иерархии характеристик. Должен быть реализован следующий принцип: значения главного измерения выражают наиболее значимые свойства наблюдаемого явления; значения измерений, лежащих ниже по иерархии по отношению к главному, выражают подчиненные свойства, уточняющие смысл значений главного измерения.
При построении иерархий характеристик наблюдаемого явления в КСХ должна быть возможность описания значений главного измерения по-отдельности или группами значений, поскольку разные значения могут быть связаны с разными аспектами семантики структурной составляющей наблюдаемого явления. Для значений главного измерения, имеющих такое семантическое различие, должны быть построены разные иерархии характеристик.
В иерархии характеристик, которая имеется в КСХ, должна присутствовать информация о том, какой набор показателей количественно описывает наблюдаемое явление в случае выбора конкретных значений измерений, присутствующих в иерархии.

Примером наблюдаемого явления, которое может быть разбито на отдельные структурные составляющие, может служить «Кредитование». Четыре его компоненты, которым могут быть сопоставлены КСХ: «Участники операций кредитования», «Инструменты операций кредитования», «Условия сделок операций кредитования» и «Факторы риска операций кредитования».

В процессе разработки информационной системы классификационные схемы могут взять на себя роль источника классификационной информации о наблюдаемом явлении. При этом семантически КСХ связана со структурной составляющей наблюдаемого явления и может быть источником информации о характеристиках структурной составляющей, представленной в иерархической форме. Технологически КСХ связана с измерениями многомерного куба данных и может быть шаблоном при построении метаданных многомерной информационной системы.

6. Представление классификационной схемы в виде дерева сочетаний

Классификационная схема характеристик наблюдаемого явления (КСХ) – объект многомерной информационной системы, описывающий структурную составляющую наблюдаемого явления, и содержащий следующие данные:

набор измерений, включенных в классификационную схему;
набор значений этих измерений, включенных в классификационную схему;
главное измерение, выбранное в наборе измерений КСХ;
набор показателей, включенных в классификационную схему;
дерево сочетаний значений измерений КСХ, задающее иерархию характеристик, включенных в КСХ.

Иерархический принцип построения КСХ реализуется в структуре дерева сочетаний значений измерений КСХ. Дерево сочетаний КСХ может быть построено как результат семантического анализа структурной составляющей наблюдаемого явления. Дерево можно определить путем описания процедуры его построения. Построение дерева должно осуществляться движением от корня дерева, в котором заданы группы значений ключевого измерения, вниз по уровням иерархии с добавлением в дерево на каждом шаге группы значений измерений, раскрывающей смысл значений измерения предыдущего уровня иерархии. При этом на следующий уровень должна быть добавлена группа, относящаяся к измерению, в наибольшей степени связанному со значениями измерения предыдущего уровня. Как следствие, в разных ветвях дерева на путях от корня к листьям могут возникать разные последовательности измерений КСХ.