Описание метаданных многомерных информационных систем с использованием кластерного метода (часть 2)

Содержание

Формализация правил сочетаемости
Виды связей между измерениями
Сложные виды связей
Диаграммы связей
Слои измерений
Разбиение групп значений
Кластеры сочетаний

Формализация правил сочетаемости

Источником информации о семантических связях между измерениями является нормативная документация, относящаяся к наблюдаемому явлению. Задача аналитика – формализовать эту информацию в виде правил сочетаемости, позволяющих построить МДС. В случае, если анализируются попарные связи, правила должны определять, какая пара значений двух измерений может встречаться в сочетаниях МДС и какие значения одного из измерений несовместимы в МДС со всеми значениями другого измерения. Такой подход позволяет выделить во множестве значений измерения группы значений. Группа значений измерения – это набор, включающий одно или несколько значений измерения, которые «одинаково» сочетаются со значениями некоторого другого измерения в МДС.

Метод, основанный на выделении групп во множестве значений измерений, позволяет описывать попарные связи между измерениями. Эти попарные связи задаются установлением соответствия между двумя группами значений из разных измерений, для которых выявлена «одинаковость» сочетаемости или соответствия между группой в одном измерении и значением «не используется» в другом. Для попарных связей должны выполняться следующие условия:

если некоторое значение первого измерения включено в группу, которой соответствует группа во втором измерении, то оно не может быть включено в группу, которой соответствует значение «не используется» для второго измерения;
если некоторой группе значений первого измерения соответствует значение «не используется» для второго измерения, то значения из этой группы могут присутствовать в МДС только в сочетании со значением «не используется» для второго измерения;
если некоторое значение первого измерения включено в группу, которой соответствует группа во втором измерении, то в сочетании из МДС, в которое включено это значение, второе измерение должно либо принимать значение из второй группы, либо для него должно быть задано значение «не используется».

Виды связей между измерениями

Можно выделить несколько видов связи между измерениями, разделив их на «простые» и «сложные». Простые виды связи:

Ассоциация. В паре измерений D₁ и D₂ существует ассоциация, если во множестве значений каждого из них может быть выделено n групп (n ≥ 2) и между этими группами может быть установлено взаимно однозначное соответствие, проявляющееся следующим образом: если в сочетание из МДС входят значения D₁ и D₂, то они входят парами, взятыми из соответствующих друг другу групп значений.

Полная ассоциация. В паре измерений D₁ и D₂ существует полная ассоциация, если между значениями этих измерений может быть установлено взаимно однозначное соответствие, проявляющееся в том, что в МДС значения D₁ и D₂ могут входить парами в любых сочетаниях.

Зависимость. Между измерениями D₁ и D₂ существует зависимость (D₂ зависит от D₁), если значения D₁ могут быть разделены на две группы значений так, что в случае, если в некоторое сочетание из МДС входит значение из первой группы значений D₁, то значением D₂ в этом сочетании является допустимое значение, а если в сочетание входит значение из второй группы значений D₁, то D₂ в этом сочетании принимает значение «не используется».

Сложные виды связей

В паре измерений могут быть заданы сложные связи, которые являются комбинацией нескольких простых связей:

Ассоциация и зависимость. Между D₁ и D₂ существует ассоциация и зависимость, если в D₂ может быть выделено n групп (n ≥ 1), а в D₁ – (n + 1) групп так, что между первыми n группами D₁ и группами D₂ установлена ассоциация, а если в сочетание из МДС входит значение из (n + 1)-й группы значений D₁, то D₂ в этом сочетании принимает значение «не используется». При этом значения из (n + 1)-й группы значений D₁ не встречаются в остальных группах этого измерения.

Ассоциация и двусторонняя зависимость. Между D₁ и D₂ существует ассоциация и двусторонняя зависимость, если во множестве значений каждого из этих измерений может быть выделено n групп (n ≥ 2); так что, если в сочетание из МДС входит значение из первой группы D₁, то D₂ в этом сочетании принимает значение «не используется»; если в сочетание из МДС входит значение из первой группы D₂, то D₁ в этом сочетании принимает значение «не используется», а оставшаяся (n — 1) группа значений измерений D₁ и D₂ образует ассоциацию. При этом значения из первой группы в D₁ и из первой группы в D₂ не встречаются в остальных группах своих измерений.

Двусторонняя зависимость. Между измерениями D₁ и D₂ существует двусторонняя зависимость, если выполняется правило: в случае, когда в сочетание из МДС входит значение из D₁, то D₂ в этом сочетании принимает значение «не используется», а когда в сочетание входит значение из D₂, то D₁ в этом сочетании принимает значение «не используется».

Диаграммы связей

На рис. 1 представлены диаграммы, содержащие обозначения попарных связей между измерениями для иллюстративного примера, описанного выше.

Для описания содержания попарных связей между измерениями удобно использовать диаграммы соответствия групп значений измерений. На рис. 2 представлены попарные диаграммы соответствия групп для описанного выше иллюстративного примера.

Слои измерений

После построения попарных связей между измерениями многомерного куба можно построить диаграмму связности измерений. На этой диаграмме должны быть представлены все измерения с указанием всех связей между ними. На базе этой диаграммы может быть построена другая диаграмма соответствия групп значений измерений, на которой представлены все группы и установлено соответствие между ними. Эти диаграммы могут быть использованы при формировании МДС аналитического пространства.

В случае, если во множестве измерений D(H) можно выделить подмножество (будем называть такое подмножество слоем измерений) L_i = {D_j1, D_j2, …, D_jk}, где j_i – номер измерения в слое; j = 1, …, k (k – количество измерений в i-м слое, 1 ≤ k < dim(H)), каждое измерение из которого находится в полной ассоциации со всеми измерениями, не входящими в L_i, то сочетаемость значений измерений в L_i можно рассматривать независимо от других измерений. Слой измерений – это набор измерений, сочетаемость значений которых в МДС не зависит от того, какие значения в сочетаниях принимают измерения, не входящие в слой. В случае разбиения множества измерений аналитического пространства на слои можно построить диаграмму связности измерений и сформировать множество допустимых сочетаний значений измерений для каждого из слоев по отдельности. После анализа слоев измерений можно получить МДС декартовым произведением:

МДС(H) = МДС(L₁) × МДС(L₂) × … × МДС(L_m),

где m – число слоев измерений.

В рассматриваемом примере можно выделить три слоя:

L₁ = {Тип заемщика, Пол заемщика, Вид деятельности, Вид кредита};
L₂ = {Время выдачи кредита};
L₃ = {Место выдачи кредита}.

На рис. 3 представлена диаграмма связности измерений для слоя L₁ из иллюстративного примера.

Разбиение групп значений

Если анализировать некоторое измерение как элемент диаграммы связности слоя и учитывать связи рассматриваемого измерения со всеми остальными измерениями слоя, то имеющиеся в этом измерении группы значений можно преобразовать так, что они будут соответствовать всем связям рассматриваемого измерения одновременно. Новые группы должны лежать на пересечении групп, участвующих в описании попарных связей с разными измерениями. При помощи такой процедуры можно описать сочетаемость полного набора измерений в слое. Будем называть такую процедуру формирования групп разбиением групп значений измерений, описывающих попарные связи. При разбиении групп должны наследоваться связи между измерениями, которые были выявлены на этапе попарного анализа.

На рис. 4 представлен фрагмент диаграммы соответствия групп, иллюстрирующий процедуру разбиения групп для измерения «Вид кредита».

В процессе разбиения групп используются все попарные связи из диаграммы связности слоя. В этом полном наборе связей можно выделить связи типа «полная ассоциация» и связи, описывающие соответствие групп, которые уже учтены в оставшихся связях. Выделенные связи не влияют на результат разбиения групп и могут быть удалены из диаграммы связности. Тем самым диаграмма может быть редуцирована к более простому виду без потери информации о сочетаемости значений измерений.

Кластеры сочетаний

После разбиения групп, описывающих попарные связи между измерениями, можно выполнить обход диаграммы соответствия групп значений измерений аналитического пространства или слоя измерений. В процессе обхода диаграммы вдоль ее связей можно выявить цепочки групп значений измерений, а для некоторых измерений – специального значения «не используется» вместо группы, значения из которых сочетаются в МДС по правилу «каждый с каждым». Такие цепочки определяют набор сочетаний, входящих в МДС, которые могут быть получены декартовым произведением групп значений измерений и специального значения «не используется», если оно присутствует в цепочке. Будем называть такой набор сочетаний кластером сочетаний. Кластер сочетаний – множество сочетаний значений измерений, которое может быть получено при помощи операции декартова произведения, где операндами являются группы значений измерений или специальное значение «не используется», по одному операнду для каждого из измерений, заданных в многомерном кубе или в слое измерений многомерного куба. На рис. 6 представлены кластеры сочетаний, соответствующие диаграмме связности измерений для слоя L₁ из иллюстративного примера.