В статье представлен метод описания структуры разреженного многомерного куба данных, лежащего в основе OLAP-систем. Автор предлагает использовать кластерный подход, основанный на анализе попарной сочетаемости значений измерений. Метод позволяет выявлять семантически связанные группы значений, формировать кластеры ячеек с общими свойствами и компактно представлять метаданные, что упрощает организацию хранения и процесс анализа данных в сложных информационных системах.
Выходные данные
Информатика, вычислительная техника и управление
Information Science, Computer Engineering and Management
ISSN 1814-3520
ВЕСТНИК ИрГТУ
Т. 21, № 7 2017 / PROCEEDINGS of ISTU Vol. 21, No. 7 2017
78
Оригинальная статья / Original article
УДК 681.3.016
DOI: 10.21285/1814-3520-2017-7-78-86
ОПИСАНИЕ МЕТАДАННЫХ МНОГОМЕРНЫХ ИНФОРМАЦИОННЫХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ КЛАСТЕРНОГО МЕТОДА
© М.Б. Фомин1
Российский университет дружбы народов, Российская Федерация, 117198, г. Москва, ул. Миклухо-Маклая, 6.
РЕЗЮМЕ. ЦЕЛЬ. Разработка метода описания структуры разреженного многомерного куба данных, лежащего в основе информационной системы, построенной на базе многомерного подхода. МЕТОДЫ. В основе метода лежит выявление в разреженном многомерном кубе кластеров семантически связанных ячеек. Ячейки, входящие в кластер, могут быть описаны сочетаниями значений измерений, являющимися размерностями многомерного куба. РЕЗУЛЬТАТЫ. В системах с многоаспектным описанием предметной области кубы данных характеризуются большой разреженностью, что затрудняет организацию хранения данных и порождает сложности в процессе анализа информации. Кластерный метод базируется на анализе попарной сочетаемости значений разных измерений многомерного куба данных. Такой анализ обеспечивает возможность выявить семантически связанные группы значений измерений. Построение связей между группами значений разных измерений позволяет выявить в кубе данных кластеры – наборы ячеек, которые обладают сходными свойствами и могут быть описаны единым образом. ВЫВОДЫ. Кластерный метод анализа многомерного куба данных позволяет сформулировать описание метаданных многомерной информационной системы.
Ключевые слова: многомерная информационная система, многомерный куб данных, разреженный куб данных, сочетание значений измерений, множество допустимых сочетаний, кластер сочетаний значений измерений.
Введение
Для оперативного анализа большого объема данных используют многомерные информационные системы, построенные на принципах OLAP. Аналитическим пространством в системе такого типа является многомерный куб данных. Роль размерностей куба играют измерения, соответствующие различным аспектам анализа наблюдаемого явления, для описания которого создается система. В случае, если система содержит большой объем семантически разнородных данных, многомерный куб характеризуется высокой разреженностью и неравномерностью заполнения [1]. В результате возникает проблема разработки адекватного способа описания структуры аналитического пространства, использование которого позволило бы эффективно организовать процесс анализа данных. Такой правильный способ должен обеспечивать учет семантики наблюдаемого явления.
Постановка задачи
Структура аналитического пространства многомерной информационной системы должна отражать свойства тех аспектов наблюдаемого явления, которые используются в процессе анализа данных. Каждому аспекту соответствует одно из измерений многомерного куба H [2]. Полный набор измерений образует множество D(H) = {D1, D2, …, Dn}, где Di – i-е измерение, n = dim(H) – размерность многомерного куба. Каждое измерение описывается множеством значений измерения Di = {d1i, d2i, …, dkii}, где i – номер измерения, ki – количество значений измерения. Значения измерения Di набираются из множества позиций базового справочника или классификатора, который соответствует тому аспекту анализа наблюдаемого явления, который связан с Di.
Многомерный куб данных представляет собой структурированный набор ячеек. Каждая ячейка c задается сочетанием значений измерений c = (di11, di22, …, dinn). В сочетание входит по одному значению для каждого из измерений. В случае, если анализ наблюдаемого явления производится с использованием большого набора разнотипных аспектов, не все возможные сочетания значений измерений задают значимые ячейки многомерного куба, то есть ячейки, соответствующие некоторому факту. Этот эффект возникает вследствие семантического несоответствия некоторых значений из разных измерений друг другу и порождает разреженность в кубе.
Требования к МДС
Сложная структура сочетаемости значений измерений может приводить к ситуации, когда некоторое измерение становится семантически неопределенным в сочетании с набором значений остальных измерений. В этом случае при описании значимой ячейки многомерного куба для задания значения семантически неопределенного измерения будем применять специальное значение «не используется».
Таким образом, структуру аналитического пространства многомерной информационной системы описывает множество допустимых сочетаний значений измерений, соответствующее множеству значимых ячеек многомерного куба [3]. Для обозначения этого множества будем использовать аббревиатуру «МДС». Для задания значений измерений в процессе формирования сочетаний МДС будем использовать данные, взятые из справочников или классификаторов, которые соответствуют измерениям, и специальное значение «не используется». Для множества допустимых сочетаний должны выполняться следующие требования:
- если в МДС есть сочетание, в котором специальное значение «не используется» задано для одного или нескольких измерений (набор 1) в сочетании с некоторым набором значений других измерений (набор 2), то в МДС не может существовать еще одного сочетания с такими же значениями измерений из набора 2. Иными словами, измерение либо используется, либо не используется в сочетании с некоторым набором значений остальных измерений;
- в МДС не может существовать сочетания, в котором для всех измерений задано специальное значение «не используется».
Показатели в ячейках
Наблюдаемое явление характеризуется значениями показателей, заданными в значимых ячейках многомерного куба. Полный набор показателей образует множество V(H) = {v1, v2, …, vm}, где vj – j-й показатель; m – число показателей в гиперкубе. В значимой ячейке могут быть заданы не все показатели из V(H). Возникновение такой ситуации возможно в случае семантического несоответствия между значениями измерений, задающими ячейку, и некоторыми показателями. При описании аналитического пространства для каждой значимой ячейки c требуется задать свое множество V(c) = {v1, v2, …, vmc}, состоящее из определенных в этой ячейке показателей, mc ≤ m. Для описания в ячейке c показателей, не входящих в множество V(c), будем использовать специальное значение «не используется». Должно выполняться правило: множество показателей V(c), заданных в значимой ячейке c, не может быть пустым. Описание показателей в незначимых ячейках многомерного куба, соответствующих сочетаниям значений измерений, не входящим в МДС, не имеет смысла.
Задача состоит в том, чтобы разработать формальный подход для описания МДС, который позволяет представить метаданные многомерной информационной системы в компактной форме, отражающей семантику анализируемого наблюдаемого явления.
Кластерный подход к описанию аналитического пространства
Для правильного описания структуры аналитического пространства требуется провести семантический анализ сочетаемости значений измерений. Могут существовать закономерности в сочетаемости значений двух, трех и более измерений, определяющие структуру МДС. Но в большинстве случаев правила сочетаемости МДС задаются попарными связями между измерениями. Мы ограничимся рассмотрением такой ситуации.
В качестве иллюстративного примера будем рассматривать структуру аналитического пространства информационной системы, описывающей наблюдаемое явление «Выдача кредитов». Данные показателей системы будем представлять в шести аспектах, соответствующих следующим измерениям: «Время выдачи кредита», «Место выдачи кредита», «Тип заемщика», «Пол заемщика», «Вид деятельности» и «Вид кредита». Первое измерение базируется на данных календаря, взятых во временном диапазоне, который используется при анализе. Второе измерение базируется на справочнике территориально-административного деления. Остальные измерения зададим следующими значениями:
- Тип заемщика = {«Юридическое лицо», «Физическое лицо»};
- Пол заемщика = {«Мужской», «Женский»};
- Вид деятельности = {«Строительство», «Торговля», «Банковская деятельность»};
- Вид кредита = {«Оборотный», «Межбанковский», «Ипотечный», «Потребительский»}.
