Растущие требования к современным информационным технологиям со стороны различных групп пользователей, и особенно со стороны лиц, заинтересованных в повышении эффективности управления и снижении риска принятия неверного управленческого решения, побуждают к усовершенствованию существующих методов и информационных технологий анализа данных, поиска новых решений, которые могут быть быстро адаптированы к новым условиям функционирования изучаемых процессов.
Цель статьи — провестианализ проблемы использования многомодельного подхода в прогнозировании нелинейных нестационарных процессов.
С целью создания единой концептуальной основы для решения задач построения информационных технологий прогнозирования предложена системная методология построения моделей нелинейных нестационарных процессов, разработанная на основе адаптивного подхода к моделированию с комбинированным использованием сценарного моделирования, регрессионных и вероятностно-статистических моделей в форме сетей [1]. Ее преимуществами является комплексное применение множественного числа вероятностно-статистических методов выявления и учета неопределенностей (цифровая и оптимальная фильтрация, альтернативные методы оценки структуры и параметров математических моделей), и обеспечение повышения качества промежуточных и окончательных результатов обработки данных, построения математических моделей и оценки прогнозов. Общая схема применения предлагаемого подхода представлена на рис. 1.
Как видно из рис. 1, предлагаемый подход применим для прогнозирования процессов, имеющих место в системах различного типа, в частности, технических, социально-экономических, экологических и т.д. Преимуществом разработки является то, что ее легко «перестроить» на решение различных задач при разных входных условиях: учесть возможные варианты развития ситуации, разработать краткие выборки значительного количества разнородных показателей, экспертных оценок и возможных вариантов решений. Важное место в разработанной методике применения многомодельного подхода уделено именно всестороннему исследованию предметной области задачи, обзору вариантов развития событий, а также предсказанию их последствий на перспективу. Данная проблема решается путем разработки информационной технологии, сочетающей в себе процедуры синтеза оптимального решения, использования интеллектуального анализа данных, прогнозного моделирования, а также доступных инструментов поддержки решений [2, 3].
Как видно из рис. 1 значительное внимание уделено обеспечению системности использования методов анализа и автоматизированного интегрирования разнотипной информации, методов моделирования, прогнозирования и многокритериального принятия решений. Для преодоления неопределенностей предложено множество различных методов в зависимости от типа неопределенности.
Очевидно, что при предлагаемом подходе значительное внимание уделено методике предварительной обработки значительных объемов разнородных данных, полученных из разных информационных источников. Созданная методика отличается тем, что при формировании массивов входных данных их информативность, синхронность и корректность обеспечиваются на этапе предварительной обработки данных, выполняемой для приведения их в форму, которая обеспечит возможность корректного применения методов оценки параметров модели и получения статистически значимых оценок. Кроме того, особого внимания заслуживает проблема обработки пропусков в данных, поскольку в реальных временных рядах обычно имеются пропуска, вызванные разными факторами, и избежать их образования невозможно, и, часто случается так, что извлечь такие данные из анализа невозможно — это исказит представление об изучаемом процессе. Поэтому в данной методике предлагается использовать разные подходы к заполнению пробелов с разным количеством пропущенных значений.
Внедрение технологий интеллектуального анализа данных в информационную технологию прогнозирования и подготовки вариантов решений представлено на рис. 2.
Обработка входных данных должна быть системной и комплексной, и, что главное, адаптировано к потребностям пользователя: наряду с заполнением пропусков данных, должна выполняться корректировка значительных импульсных (экстремальных) значений, нормирование измерений в заданных пределах, логарифмирование больших значений и фильтрация шумовых составляющих, выявление и устранение мультиколинеарности.
Предусмотрено также, что входные данные могут быть использованы в многовариантных расчетах, когда рассматриваются их возможные изменения при различных сценариях развития изучаемых процессов.
Введение в информационную технологию прогнозирования сценарного подхода [4], неотъемлемой составляющей которого является предварительный анализ предметной области, отбор альтернатив и формулирование целевых установок возможных вариантов развития событий, позволяет разрабатывать прогнозы даже в условиях нечеткой, неполной информации, оценивать возможные риски и неопределенности разных типов на основе процедуры оценки и вероятных вариантов развития ситуации, обеспечивающей повышение качества окончательных результатов [5].
Информационная технология прогнозирования, предлагаемая в работе, сочетает в себе различные методические подходы к использованию отдельных методов и моделей, а также их комбинаций для получения конечного результата – оптимального управленческого решения – обоснованного прогнозными расчетами [3, 6].
В табл. 1 обобщены основные методические подходы, предлагаемые к применению на разных этапах.
Таблица 1
Методические подходы, реализуемые в информационной технологии прогнозирования
Номер этапа | Этап | Методические подходы |
1 | Сбор информации, формирование модели диагностики | Эмпирические методы исследования, метод статистических наблюдений, анализа и синтеза, системного анализа |
2 | Обзор состояния и динамики объекта исследования, выявление характерных признаков | Статистический анализ, data-mining, text-mining, факторный анализ, многомерный анализ данных, метод главных компонент, корреляционно-регрессионный анализ, типологические и структурные группировки, RFM-анализ, кластерный анализ, когнитивный анализ |
3 | Причинно-следственный анализ | Корреляционно-регрессионный анализ, вероятностное моделирование (сети Байеса) |
4 | Разработка сценариев развития событий | Экспертных оценок, морфологический анализ, сценарное моделирование |
5 | Обоснование вариантов управленческих решений | Data-mining, нейронные сети, эконометрическое моделирование, SWOT-анализ, когнитивное моделирование |
6 | Анализ результатов | Метод экспертных оценок, метод Делфи, графический |
Как видно из табл. 1, вариантов композиций применения методических подходов к анализу и прогнозированию развития достаточно много, все они проработаны.
Задачу многокритериального выбора лучшего решения на множестве математических моделей, можно представить следующим образом:
где M0(Y,I) – идентифицирующая модель системы; Y – эндогенные переменные; I – вектор управляемых переменных; ME(X) – модель окружающей среды; X – экзогенные переменные; MOE – модель взаимодействия объекта и окружающей среды; MD(Q) – модель поведения системы; Q – возмущающие воздействия; MV – модель взаимодействия с подсистемами других уровней; MMO – модель изменения состояния системы; MME – модель изменения состояния окружающей среды; MU – модель управляющей системы; A – правило выбора действий конфигурации объекта; MH – модель воздействия принимающего решения на систему и результаты исследования; MRS – модель системных рисков.
Проблема формирования оптимальной методики прогнозного моделирования нелинейных нестационарных процессов в значительной степени обусловлена необходимостью одновременного преодоления ряда неопределенностей различных типов: ситуационной, статистической, структурной, вероятностной и т. д. Хотя большинство существующих информационных систем прогнозирования и поддержки принятия решений имеют соответствующие средства, однако внимание сосредотачивается на проработке неопределенностей только отдельных типов. В данном исследовании для решения этой проблемы предложена информационная технология применения интеллектуального анализа больших массивов структурированных и неструктурированных данных. Важным преимуществом предлагаемого подхода есть возможность разработки моделей для разных горизонтов прогнозирования, ведь от того, какой горизонт прогнозирования выбран, зависит не только выбор типа модели, но и подбор входных данных, в частности, консолидация наиболее значимых факторов. Кроме того, необходимо учет тенденций развития исследуемых процессов, формально-математическое описание алгоритмов и методов генерирования набора кандидатов-сценариев развития процесса (табл. 2) [7].
Таблица 2
Методика применения моделей разного типа и их комбинаций в зависимости от горизонта прогнозирования
Этап | Характеристика этапа | |||
Загрузка входных данных | Загрузка временных рядов исторических данных | |||
Диагностика данных | Определение аномалий и их обработка (исключение, сглаживание) | |||
Обработка пропусков | Заполнение пропусков | |||
Формирование набора дополнительных факторов | Прилагаются факторы, существенные для анализа изучаемых процессов (данные, предоставляемые по желанию пользователя, справочные данные, данные по экзогенным параметрам процесса, экспертные оценки, данные, дополняющие сведения об анализируемом процессе) | |||
Срок | Очень краткосрочное | Краткосрочное | Среднесрочное | Долгосрочное |
Особенности построения прогноза | На каждый час, учитываются циклы внутри суток | В сутки (неделя) вперед, учитываются циклы и закономерности в середине недели | Трендовая составляющая, тренд комбинированный фактор с другими регрессорами, производные показатели | Учитываются дополнительные факторы, пользователя (на долгосрочную перспективу) |
Включение дополнительных факторов | Дополнительные регрессоры, описывающие процесс | Дополнительные регрессоры, описывающие процесс. | Учитываются дополнительные факторы пользователя | В зависимости от предметной области |
Горизонт прогнозирования | От 1 до 24 часов | От суток до месяца | От 1 месяца до 3 лет | Более 3 лет |
Сценарий | Оптимистический, реалистичный, пессимистический | |||
Построение моделей кандидатов | На каждом горизонте прогнозирования строится модель по историческим данным н данным пользователя | |||
Этап 1 | Одноступенчатые модели (экспоненциальные, регрессионные, авто регрессионные, обобщенные линейные модели) | |||
Этап 2 | Двухступенчатые модели (регрессионные и авто регрессионные модели, модели с включением трендовой составляющей и учетом остатков (разница между реальным н прогнозным значением), которые включаются в модель в виде скользящего среднего, при условии, что между остатками н целевой переменной есть корреляция (автокорреляция) Модели класса экспоненциального сглаживания — Хольта, Тейла-Вейджа, Брауна, Винтерса (с аддитивной или мультипликативной сезонной составляющей), с учетом демпфирующего тренда и другие модификации, Обобщенные линейные модели, нейронные сети, вероятностные модели и нечеткие методы | |||
Выбор лучшей модели кандидата | Выбор по результатам выполнения этапа 1 и 2, на основе: средней абсолютной процентной погрешности (МАРЕ), максимального МАРЕ, коэффициент детерминации (R2), среднеквадратичная погрешность (RMSE) | |||
Построение прогноза | Используются лучшие модели-кандидаты, входные данные: временные ряды изучаемых процессов и дополнительные факторы, значимые на данном горизонте прогнозирования |
Как видно из табл. 2, оценка качества построенных сценариев, обоснование выбора наилучшего и вероятного из них выполнено с использованием вероятностно-статистического моделирования. Для построения сценариев могут быть применены разные методики, предусматривающие использование как количественных, так и качественных показателей, в частности социально-демографических, экономических, а в отдельных случаях и общественно-политических.
Применение многомодельного подхода оправдано и в случаях, когда данные, описывающие изучаемые процессы, не полны или есть сомнения в их достоверности. Для решения этой задачи предложен многомодельный подход; а в основу этого метода положено интегрированное использование теории подобия процессов и вероятностно-статистического моделирования (рис. 3).
Для оценки качества прогнозов, вычисленных по построенным моделям, предложена процедура автоматизированного выбора предпочтительной прогнозной модели, в которой для выбора был использован интегральный критерий качества, включающий 2–5 отдельных статистических критериев качества. Процедура автоматизации обеспечивает возможность построения, анализа и выбора лучшей из множества возможных моделей, количество которых может достигать нескольких сотен. Расход времени остается при этом вполне приемлемым для практического использования предлагаемой методики в автоматизированной системе, предназначенной для прогнозного моделирования нелинейных нестационарных процессов.
Следовательно, для решения задач прогнозирования нелинейных нестационарных процессов необходимо создать следующие информационные технологии:
В качестве примера использования предложенного подхода можно привести практический пример прогнозирования почасового потребления электроэнергии на 24-часовом интервале, потребителями одной из энергетических компаний России [8].
Входящий набор данных содержит 26 112 почасовых наблюдений за период со 2 января 2019 г. по 24 декабря 2021 г. В качестве целевого ряда рассматриваются данные по потреблению электроэнергии за 24 часа 25 декабря 2021 г. Задача исследования – определить, с какими периодами потребления электроэнергии в прошлом похожа динамика потребления 25 декабря 2021 г. Так как в рамках задачи рассматриваются именно почасовые измерения в течение суток, то анализ был выполнен с учетом периодической сезонной составляющей – 24-часовой период, который начинается с 00 часов и заканчивается в 23 часа каждые сутки.
Отрезок входных данных из 26 112 почасовых значений был преобразован в 1088 входных интервалов для анализа, каждый из которых содержит 24 почасовых значения. В табл. 3 представлены первые пять и последние два значения показателя степени сходства рядов.
Таблица 3
Фрагмент отсортированной таблицы значений степени сходства рядов энергопотребления
Номер показателя | Дата | День недели | Степень сходства рядов, % |
1 | 02.12.2021 | суббота | 97,99 |
2 | 21.11.2019 | суббота | 97,91 |
3 | 24.12.2020 | суббота | 97,88 |
4 | 19.11.2019 | суббота | 97,71 |
5 | 18.11.2021 | суббота | 97,32 |
… | … | … | … |
1087 | 01.05.2020 | воскресенье | 53,23 |
1088 | 12.04.2019 | воскресенье | 52,99 |
Практическая реализация алгоритма учитывает ситуации: когда 𝑛 > 𝑚 и 𝑛 < 𝑚. В первом случае должно выполняться 𝑅𝐿 ≥ (𝑛 − 𝑚), а во втором 𝐶𝐿 ≥ (𝑚 − 𝑛). Если не ввести эти ограничения, то на практике появляются некорректные ситуации, как показано на рис. 4 и 5.
Если в матрице расстояний 𝐷, количество строк больше, чем количество столбцов, т. е. 𝐷 [𝑚+1, 𝑚], …, 𝐷 [𝑛, 𝑚] (см. рис. 5).
Если в матрице расстояний 𝐷, количество сроков меньше количества столбцов, т. е. 𝑛 < 𝑚, то в качестве оптимального пути выбираются все диагональные элементы матрицы 𝐷 и последние ( m – n ) элементов n строки матрицы расстояний 𝐷[𝑛, 𝑛 + 1], …, 𝐷 [𝑛, 𝑚] (рис. 6).
Схематически на рис. 6 приведены итерации алгоритма, в качестве ограничений на преобразование заданные параметры 𝑅𝐿 = 2 и 𝐶𝐿 = 1. Серым цветом обозначены допустимые для построения пути элементы, построенный путь обозначен черным цветом.
На рис. 6, a изображены начальные значения матрицы расстояний с учетом ограничений на преобразование 𝑅𝐿 = 2 и 𝑅𝐶 = 1, допустимые для анализа элементы изображены серым цветом. На рис. 6, б – первая итерация алгоритма. Рис. 6, в отражает итерацию алгоритма номер, знаками вопросов обозначены элементы – множество кандидатов для построения пути. Последняя итерация алгоритма представлена на рис. 6, г. Подходящие статистики пути позволяют оценить количество преобразований, которые необходимо осуществить для перемещения по построенному пути в матрице расстояний. Кроме того, подобные статистики могут указывать на различные аномалии, имеющиеся во входных данных.
Учитывая, что результаты прогнозирования создают основу для принятия эффективных решений, проблема выбора оптимального решения может решаться за использование многомодельного подхода, предусматривающего, что для обоснования выбора необходимо исследовать результаты прогнозирования, полученные с использованием множества разнородных моделей, в том числе и математических.
Для создания информационной технологии построения моделей использованы разные классы моделей, выбор которых осуществляется с применением методологии системного анализа, иерархического подхода к созданию и анализу процесса моделирования, адаптации структуры и параметров моделей к особенностям изучаемых процессов и на основе сравнения оценок прогнозов по числовым критериям их качества.