ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

4
Publication date:
09 December 2024

A method of situational forecasting of the emergence of novel Industry 4.0 technologies

Date of submission article: 27.12.2018
UDC: 004.89
The article was published in issue no. № 2, 2019 [ pp. 227-237 ]
Abstract:The paper considers the problem of automated forecasting of the emergence and development of inno-vative technologies based on Big Data Streams analysis. It shows that such forecasting is significant due to Industry 4.0. The authors analyze the existing approaches to forecasting, determine their ad-vantages and shortcomings taking into account the specifics of the task and Big Data features. It is proposed to solve the problem using the hybrid approach to data stream analysis developed by the authors. The approach allows automatic monitoring and forecasting the development of situations based on processing streams of heterogeneous data represented by text documents, numerical series, and records in databases. The process of data stream analysis includes detecting events, forming situa-tions, identifying possible scenarios of their further development and preparing proposals for decision makers. The authors describe event models that are used for processing streams of textual and structured da-ta. The incremental clustering method detects IT events in text documents flows. This method is also utilized in the processing of structured data stream to form situational chains reflecting the develop-ment of innovative technologies over time. The method for forming scenarios of the further develop-ment of the analyzed innovation technology is based on the principle of historical analogy. The proposed method allows determining the most probable scenario using logistic regression, as well as identifying the most optimistic and pessimistic scenarios via the Analytic Hierarchy Process method. The authors describe a way to supplement each scenario with recommendations for decision makers regarding the measures that should be taken to facilitate or hinder the development of technol-ogy according to this scenario. The paper provides the examples of situations detected in textual and structured data flows, as well as an example of scenarios and recommendations generated for one of the situations.
Аннотация:В статье рассматривается задача автоматизированного прогнозирования появления и развития инновационных технологий на основе анализа потоков больших данных. Показана актуальность выполнения такого прогнозирования в условиях Индустрии 4.0. Рассмотрены существующие под-ходы к прогнозированию, выявлены их недостатки с учетом специфики решаемой задачи и осо-бенностей больших данных. Для решения задачи предложено использовать разработанный авторами гибридный подход к анализу потоков данных. Он позволяет выполнять автоматизированный мониторинг и прогнозирование развития ситуаций на основе обработки потоков разнородных данных, представленных, в частности, текстовыми документами, числовыми рядами, записями в БД. Предложенный подход включает обнаружение в потоке данных событий, формирование ситуаций, определение возможных сценариев их дальнейшего развития и подготовку предложений для лиц, принимающих решения. Приведены модели событий, используемые при работе с потоками текстовой и структурированной информации. Для выделения событий, относящихся к инновационным технологиям, в по-токе текстовых документов используется метод на основе инкрементальной кластеризации. Также с помощью инкрементальной кластеризации выполняется формирование ситуационных цепочек, отражающих развитие технологий с течением времени, при анализе потока структурированных данных. Описан метод формирования сценариев дальнейшего развития анализируемой инновационной технологии на основе принципа исторической аналогии. Предложенный метод позволяет определять наиболее вероятный сценарий с помощью логистической регрессии, а также выделять оптимистический и пессимистический сценарии на основе метода анализа иерархий. Каждый из сформированных сценариев снабжается рекомендациями по действиям, которые необходимо предпринять для способствования или препятствования развитию технологии по этому сценарию. Приведены примеры ситуаций, построенных на основе анализа потоков текстовых и структурированных данных, а также пример сформированных сценариев и предложений для одной из ситуаций.
Authors: A.M. Andreev (arkandreev@gmail.com) - Bauman Moscow State Technical University (Associate Professor), Moscow, Russia, Ph.D, D.V. Berezkin (berezkind@bmstu.ru) - Bauman Moscow State Technical University (Associate Professor), Moscow, Russia, Ph.D, I.A. Kozlov (kozlovilya89@gmail.com) - Bauman Moscow State Technical University (Junior Researcher), Moscow, Russia
Keywords: fourth industrial revolution, industry 4.0, situational analysis, forecasting, decision support system, scenario analysis, clusterization
Page views: 9620
PDF version article
Full issue in PDF (6.72Mb)

Font size:       Font:

Бурное развитие информационных и коммуникационных технологий постепенно превращает среду обитания человека в киберфизическую систему, что приводит к существенному изменению социальных и экономических отношений. В работах современных исследователей для описания этого явления используется ряд близких по своему значению терминов, таких как четвертая промышленная революция, цифровая экономика, Индустрия 4.0. В [1] отмечается, что беседа с компьютером вскоре станет нормой, что приведет к явлению, которое можно назвать окружающим разумом. Различные устройства становятся неотъемлемой частью личной экосистемы человека. При этом происходят синтез и взаимодействие различных технологий в физических, цифровых и биологических областях, что составляет фундаментальное отличие четвертой промышленной революции от всех предыдущих революций. В качестве ее базового инфраструктурного элемента рассматривается Интернет вещей (Internet of things, IoT).

Развитие современного общества существенно ускоряется, и происходящие в нем изменения охватывают все сферы общественной жизни: политику, экономику, социальные и культурные отношения. На эту особенность ученые обратили внимание уже достаточно давно. В работе [2] отмечается, что для успеш- ной адаптации к постоянно изменяющимся условиям необходимо предугадывать направ- ление и скорость этих перемен. Таким образом, обосновывается потребность в появлении все более точных и долгосрочных прогнозов на будущее. Поскольку в условиях Индустрии 4.0 происходящие в обществе изменения неразрывно связаны с новыми технологиями, особую важность имеет прогнозирование их появления и развития, а также возможных последствий от их распространения. С переходом к цифровой экономике и с активным распространением технологий IoT у многих категорий специалистов (ученых, инженеров, экономистов, политиков, социологов, экологов и др.) появляется потребность оперативно получать результаты таких прогнозов, причем для совершенно разных, но часто связанных между собой предметных областей.

Существующие подходы к решению этой задачи носят, как правило, экспертный характер. Они требуют привлечения для подобных исследований большого числа специалистов из разных предметных областей, а также сложных процедур оценки и обобщения экспертных мнений, которые также должны осуществляться экспертным путем. Результаты подобных исследований известны, например [3], но они потребовали больших усилий, временных затрат и организации работы на уровне государства и смогли ответить лишь на некоторые вопросы стратегического развития науки и техники для отдельных областей экономики страны. В связи с этим высокую актуальность имеют исследования, посвященные разработке автоматизированных методов прогнозирования, требующих минимального участия экспертов и легко адаптируемых для анализа различных предметных областей.

Еще одним вызовом, стоящим перед обществом в условиях четвертой промышленной революции, является возрастающая сложность управления [4]. От органов управления государств, компаний и отдельных граждан требуется принятие правильных решений относительно разработки и внедрения новых технологий. Принятие таких решений можно считать задачей национальной или даже интернациональной важности: при грамотном использовании инновации приносят экономическую пользу и дают существенное конкурентное преимущество, однако неосторожное применение новых технологий может привести к возникновению угроз безопасности граждан, государств или всего человечества.

Задача принятия решений осложняется проблемой сверхвыбора: разнообразие технологий приводит к тому, что анализ возможных решений и выбор наилучшего из них становятся чрезвычайно трудными и дорогостоящими. Кроме того, вследствие ускорения перемен в окружающей среде и увеличения объемов информации, поступающих лицу, принимающему решения (ЛПР), происходит его информационная перегрузка, что снижает возможность эффективного реагирования на изменения и принятие рациональных решений [2]. Это свидетельствует о том, что поддержка принятия решений относительно разработки, развития, внедрения и использования новых технологий Индустрии 4.0 должна быть автоматизированной.

Система поддержки принятия решений выполняет подготовку для ЛПР предложений по действиям, способствующим наиболее благоприятному развитию текущей ситуации (например, рекомендует направить ресурсы на исследования в новой многообещающей технологической области или прекратить разработку малоперспективной технологии). Но для выработки таких предложений требуется прогнозирование дальнейшего развития ситуации в случае принятия того или иного решения.

Таким образом, для принятия наилучших управленческих решений в условиях Индустрии 4.0, предотвращения развития угроз и эффективной адаптации к стремительным изменениям в обществе необходимо осуществлять автоматизированное прогнозирование появления и развития новых технологий с использованием всей доступной для этого информации. Решению этой задачи посвящена данная статья.

Требования к методу прогнозирования


Одна из важных особенностей четвертой промышленной революции состоит в появ-лении возможности и необходимости обра-ботки потоков больших данных для решения разнообразных аналитических задач. Так, основой для прогнозирования появления и развития новых технологий являются огромные массивы данных, динамически поступающих из открытых и специализиро-ванных источников – новостных порталов, корпоративных БД, сторонних информаци-онных систем. Динамический характер по-токов данных позволяет проследить историю развития технологии с течением време-ни, и эта история должна учитываться при построении прогноза ее дальнейшего развития.
В качестве основных свойств, характерных для больших данных, обычно выделяют так называемые «три V». Данные имеют огромный объем (Volume) и высокую скорость прироста (Velocity), что накладывает ограничения на методы их обработки: необ-ходимо использовать методы, позволяющие уточнять результаты анализа при поступле-нии новых данных без выполнения полного перерасчета на основе всей собранной информации. Кроме того, большие данные от-личаются многообразием (Variety), в связи с чем методы их обработки должны иметь возможность работы с различными типами как структурированной, так и неструктури-рованной информации.
С учетом характеристик больших данных и особенностей решаемой задачи можно вы-делить следующие требования, которым должен удовлетворять метод прогнозирова-ния развития новых технологий:

-     возможность совместного анализа разнородных данных;

-     возможность автоматического анализа данных;

-     учет динамики развития ситуаций;

-     возможность использования результатов прогнозирования для принятия управленческих решений по разработке, развитию и внедрению новых технологий.

Существующие методы прогнозирования

Важное место среди существующих формализованных методов прогнозирования занимает прогнозирование временных рядов, которое подразумевает, что известно значение некой функции в первых n точках временного ряда. Используя эту информацию, необходимо спрогнозировать значение в n + 1-й точке временного ряда. При анализе развития новой технологии временными рядами могут быть представлены:

-     динамика активности публикации новостей средств массовой информации, посвященных технологии;

-     количество полученных патентов, связанных с технологией.

Для прогнозирования временных рядов используется широкий спектр методов: регрессионные модели, авторегрессионные модели (ARIMA, GARCH), модель экспоненциального сглаживания, модель скользящих средних и другие [5].

На рисунке 1 представлен прогноз, построенный для временного ряда, отражающего активность появления публикаций, посвященных Интернету вещей. Прогноз получен путем сглаживания методом наименьших квадратов.

Во многих практических задачах данные представлены не временными рядами, а наборами признаков:  В этом случае прогнозирование можно рассматривать как задачу классификации [6]. Подходы на основе классификации предполагают отнесение анализируемого объекта к одному из нескольких классов: y Î {y1, y2, …, yN}. При применении классификации для решения задачи прогнозирования в качестве классов могут быть использованы:

-     различные варианты развития технологии (например, появление на рынке продукта, реализующего некоторую новую технологию (y1), и отсутствие такого продукта (y2));

-     возможные сроки реализации/внедрения технологии (например, выход технологии на рынок в течение полугода (y1), года (y2) или трех лет (y3)).

В качестве признаков, описывающих технологию, могут использоваться, в частности, количество патентов, относящихся к данной технологии (числовой признак), отрасль, к которой относится технология (категориальный признак), тип компании, разрабатывающей технологию, – публичная или частная (бинарный признак).

Среди моделей классификации наибольшее распространение получила бинарная классификация, когда решается вопрос о принадлежности объекта к одному из двух классов. На практике при обработке данных многие задачи классификации могут быть сведены к бинарным. Для построения бинарных моделей широко применяются такие эффективные методы, как дерево решений, метод ближайших соседей, наивный байесовский классификатор, логистическая регрессия, метод опорных векторов и другие [7]. В качестве обучающей выборки используются ретроспективные данные, для которых известно значение выходной переменной.

Рассмотренные методы формируют прогноз автоматически и позволяют учесть при прогнозировании динамику развития ситуации. Однако они предназначены для анализа конкретных типов данных и не могут быть применены для работы с потоками разнородных данных. Кроме того, результаты прогнозирования, полученные с их помощью, нельзя непосредственно использовать для генерации рекомендаций для ЛПР – формирование таких предложений является отдельной задачей.

С целью устранения этих недостатков было решено использовать для прогнозирования развития новых технологий предложенный авторами гибридный подход к анализу потоков разнородных данных [8].

Гибридный подход к прогнозированию развития ситуаций

Подход основан на выполнении мониторинга и прогнозирования развития различных ситуаций, отраженных в потоках разнородных данных. Для мониторинга развития некоторой новой технологии необходимо отслеживать изменения в потоке данных, относящиеся к этой технологии. Такие изменения рассматриваются как события εi. Последовательное обнаружение событий позволяет сформировать цепочку взаимосвязанных событий, отражающую развитие технологии с течением времени. Такие цепочки будем называть ситуациями: .

При обнаружении событий необходимо учитывать, что при работе с разными типами данных используются различные модели событий. Также различаются методы, используемые для обнаружения событий и объединения событий в цепочки. Таким образом, задача мониторинга развития новых технологий редуцируется на подзадачи обнаружения последовательностей взаимосвязанных событий, отраженных в потоках данных различного типа.

Прогнозирование дальнейшего развития технологии состоит в определении возможных вариантов продолжения ситуационной цепочки, сформированной к настоящему моменту. Каждый из них представляет собой последовательность событий, которые могут наступить в будущем. Такие цепочки будем называть сценариями: . Представление ситуаций и сценариев цепочками событий позволяет учесть динамику развития ситуаций при прогнозировании.

Единый способ представления ситуаций и сценариев позволяет единообразно выполнять прогнозирование при работе с разными типами данных. Таким образом, предложенный подход является гибридным: на этапе прогнозирования выполняется агрегирование результатов решения подзадач мониторинга развития ситуаций, полученных с использованием различных моделей и методов обнаружения событий.

Для эффективного использования результатов прогнозирования из множества сформированных сценариев необходимо выделять три варианта, представляющих наибольший интерес для ЛПР: пессимистический, оптимистический и наиболее вероятный. Кроме того, поскольку результаты прогнозирования должны использоваться для принятия управленческих решений по развитию и внедрению новых технологий, для каждого сценария также требуется формировать предложения для ЛПР по действиям, которые необходимо предпринимать для содействия или противодействия дальнейшему развитию технологии по этому сценарию.

Этапы гибридного подхода к мониторингу и прогнозированию развития ситуаций отражены на рисунке 2.

Обнаружение событий в потоках данных

Для представления событий, отраженных в потоках данных, предложено множество моделей [9–12], в частности: логическое правило, фрейм, отражающий изменение характеристик временного ряда, всплеск во временном ряде, фрейм, отражающий изменение модели представления знаний.

Для каждого из этих способов представления событий используются различные методы выделения событий из потока данных и объединения их в ситуационные цепочки.

В качестве исходных данных для мониторинга и прогнозирования развития инновационных технологий были выбраны сообщения средств массовой информации (текстовые документы) и записи корпоративных БД с информацией о деятельности компаний, связанной с разработкой и внедрением новых технологий (структурированные данные). В связи с этим рассмотрим более подробно методы обнаружения событий в потоках текстовой и структурированной информации.

Обнаружение событий в потоке текстовых данных. В существующих работах, посвященных задаче обнаружения событий в потоке текстовых документов, используются различные подходы к представлению событий. В частности, событие может быть представлено:

-     изменением распределения тем в текстовом потоке [13];

-     набором термов, наиболее часто встречающихся в потоке в текущий момент време- ни [14];

-     документом, содержащим описание события [15];

-     группой (кластером) документов, описывающих событие [16, 17].

Для обработки потоков больших данных наилучшим образом подходят методы на основе динамической (инкрементальной) кластеризации, поскольку они не требуют повторения кластеризации всех сообщений после каждой загрузки новых данных из источника. При динамической кластеризации каждый документ обрабатывается сразу после его поступления от источника и либо относится к некоторому существующему кластеру, либо становится пер- вым элементом нового кластера.

В [18] авторами предложен подход к обнаружению событий на основе динамической кластеризации, позволяющий осуществлять гибкую настройку на различные предметные области. С этой целью каждый документ представляется многокомпонентной моделью, компоненты которой описывают содержа- ние, структуру и метаданные документа: . В частности, компонентами модели являются вектор ключевых слов, множества релевантных документу именованных сущностей, множество встречающихся в тексте документа числовых значений и время публикации сообщения. Каждое событие εj описывается аналогичной многокомпонентной моделью, компоненты ко- торой формируются на основе документов, относящихся к событию. Для сопоставления документа и события выполняется покомпонентное сравнение моделей di и εj с использованием различных мер близости: косинусной меры, расстояния Левенштейна, коэффициента Жаккара. После получения вектора, состоящего из результатов сравнения моделей по различным критериям, с помощью метода опорных векторов определяется близость di к εj, на основе чего принимается решение о том, относится ли документ к событию. Объединение событий в ситуационные цепочки также выпол- няется на основе покомпонентного сопоставления их моделей.

На рисунке 3 приведен пример ситуации, сформированной на основе анализа текстового потока. Представленная ситуация отражает развитие технологии беспилотных такси.

Обнаружение событий в потоке структурированных данных. В качестве потока структурированной информации при решении задачи прогнозирования развития инновационных технологий рассматривается содержимое постоянно пополняющихся корпоративных БД, отражающее деятельность компаний по созданию, развитию и внедрению новых технологий. Каждая запись в таких базах соответствует некоторому событию. В связи с этим удобным способом его представления является фрейм, слоты которого описывают различные свойства события:  , где  и  – имя и значение k-го слота i-го события, f – количество слотов. При использовании фреймового представления «извлечение события» заключается в заполнении слотов фрейма на основе полей некоторой записи БД.

Выделение ситуационных цепочек на основе множества событий можно рассматривать как задачу кластеризации: необходимо разде- лить все события на группы C = {ci}, каждая из которых соответствует некоторой технологии. Затем из событий группы ci может быть сформирована цепочка si путем упорядочения их по времени наступления. Существуют разнообразные алгоритмы, разделяющие множество объектов на кластеры: графовые (алгоритмы выделения связных компонент и минималь- ного остовного дерева), иерархические, стати- стические (EM-алгоритм и k-средних), плотностные (DBSCAN) [19]. Однако все эти методы выполняют статическую кластеризацию, что предполагает выполнение анализа всего набора событий при каждом его изменении (при добавлении новой записи в базу). При обработке потока структурированных данных новые события поступают постоянно, поэтому для выделения ситуаций удобнее применять динамическую кластеризацию, которая позволяет обрабатывать каждое новое событие по мере его появления.

Пример ситуации, сформированной на основе анализа потока структурированных данных, приведен в таблице. Ситуация отражает развитие технологии онлайн верификации личности пользователей.

Пример ситуации, сформированной на основе анализа потока структурированных данных

An example of a situation based on a structured data stream analysis

Дата

Описание события

11.03.2014

Trulioo получает $6 млн. инвестиций

26.06.2014

BlockScore получает начальное финансирование в объеме $2 млн.

31.07.2014

Confident Technologies получает $5.59 млн. инвестиций

09.12.2015

TransUnion приобретает компанию Trustev

Метод формирования сценариев

После построения цепочки событий, отражающей развитие инновационной технологии с течением времени, необходимо определить возможные сценарии ее дальнейшего развития. Генерация сценариев основана на принципе исторической аналогии: текущая ситуация sc подвергается сравнению с эталонными ситуациями se Î Se из подготовленной экспертами базы эталонов Se. Такие эталоны отражают развитие различных технологий в прошлом. Если обнаружено сходство текущей последовательности с начальной частью st(se, sc) эталонной цепочки, можно предположить, что дальнейшее развитие ситуации sc будет аналогично заключительной части этой цепочки fin(se, sc). Таким образом, последовательность событий fin(se, sc) можно рассматривать как возможный сценарий дальнейшего развития текущей ситуации.

Предполагается, что ситуации могут быть аналогичными только при наличии попарной близости между некоторыми из составляющих их событий. Поэтому при сравнении цепочек в первую очередь в них выделяются пары аналогичных событий. Для определения аналогичности событий εi и εj рассчитывается расстояние между ними γan(εi, εj). Если оно меньше порогового значения Than, делается вывод о том, что событие εi аналогично εj.

При расчете расстояния γan(εi, εj) учитывается близость между событиями с точки зрения различных критериев, при этом набор критериев зависит от предметной области. Расстояние определяется как взвешенная сумма , где N r – количество учитываемых критериев;  – расстояние между i-м и j-м событиями с точки зрения k-го критерия; λk – вес k-го критерия. Для определения значений весовых коэффициентов λk и порогового значения Than используется метод опорных векторов.

Расстояние между событиями с точки зрения некоторого критерия определяется путем сравнения соответствующих компонентов моделей событий. Если обработке подвергаются данные одного типа, модели всех событий формируются единообразно и состоят из одинаковых компонентов. При обработке потоков данных различного типа формирование моделей событий осуществляется по-разному, однако эти модели могут иметь и однотипные компоненты. В качестве примера рассмотрим событие «поглощение инновационного стартапа технологическим гигантом». При работе со структурированными данными такие компоненты модели события, как «участники сделки» и «сумма сделки», могут быть получены путем чтения значений определенных полей записи в БД. При анализе текстового потока эти компоненты также могут быть сформированы, но для этого необходимо извлечь именованные сущности и числовые значения из текстов документов. Наличие однотипных компонентов в моделях позволяет определить близость между событиями с точки зрения соответствующих критериев и, следовательно, рассчитать значение расстояния γan(εi, εj) между ними. Таким образом, может быть определена аналогичность между событиями, обнаруженными в потоках данных различного типа, что позволяет использовать предложенный подход для совместного анализа потоков разнородных данных.

После выделения в цепочках попарно аналогичных событий выполняется расчет близости между ситуациями. При этом необходимо учитывать, что каждая из ситуаций может содержать события, аналоги которых отсутствуют в другой цепочке. Для сравнения ситуаций используется метод, представляющий собой модификацию расстояния Левенштейна: расстояние между цепочками определяется нормированным суммарным весом операций, необходимых для преобразования st(se, sc) в sc:

где len(st(se, sc)) – длина начальной части эталонной цепочки; W = (Wdel, Wadd, Wrep, Wtrep) – вектор, содержащий суммарные веса различных типов операций преобразования цепочек: операций удаления события из эталонной ситуации (Wdel), операций добавления события в текущую ситуацию (Wadd), операций замены события на его аналог (Wrep), операций изменения временного интервала между событиями (Wtrep); способ вычисления весов зависит от типа анализируемых данных и выбирается исходя из используемых моделей событий; θ = (θdel, θadd, θrep, θtrep) – коэффициенты, определяющие вклад операций различных типов в значение расстояния.

На основании значения ρ(se, sc) требуется определить, является ли текущая ситуация sc аналогом эталона se. Установление аналогичности рассматривается как задача логистиче- ской регрессии. Для этого вводится перемен- ная y, принимающая значение 1, если цепочки не являются аналогами, и 0 в противном случае. Делается предположение, что вероятность наступления события y = 0 (то есть вероятность того, что текущая ситуация является аналогом эталонной) задана логистической функцией от расстояния между цепочками:

.

Значения коэффициентов θ подбираются методом максимального правдоподобия на основе обучающей выборки, состоящей из множества пар аналогичных и неаналогичных ситуаций. Эталонные цепочки, для которых P(y = 0|se, sc) > 0,5, считаются аналогами ситуации sc, а их заключительные части рассматриваются как возможные сценарии ее дальнейшего развития.

Заключительная часть цепочки, для которой вероятность аналогичности текущей ситуации максимальна (), является наиболее вероятным сценарием.

 

Рис. 4. Пример сгенерированных сценариев и предложений

Fig. 4. An example of generated scenarios and recommendations
Из всего множества сценариев, сформированных для текущей ситуации, выделяются два наиболее интересных для ЛПР – оптимистический и пессимистический. Для их определения рассчитывается приоритетность всех сцена- риев с помощью метода анализа иерархий [20]. Также с целью поддержки принятия решений для каждого из сформированных сценариев готовятся предложения относительно действий, которые необходимо предпринимать для способствования или противодействия развитию ситуации по этому сценарию. Для формирования таких предложений при подготовке базы Se эксперты снабжают каждое событие эталонных ситуаций рекомендациями, указывающими, какое лицо какие действия и в какие сроки должно выполнить при наступлении аналогичного события в будущем.

Пример сгенерированных для текущей ситуации сценариев (наиболее вероятного, оптимистического и пессимистического) и предложений для ЛПР представлен на рисунке 4.

Для каждого сценария ЛПР должно получать информацию об отличиях текущей цепочки от эталонной ситуации, на основе которой сформирован этот сценарий. Даже если ситуации признаются аналогичными, между ними есть определенные структурные и содержательные различия, которые должны учитываться при анализе построенного прогноза и принятии решения о применении полученных рекомендаций. Для учета этих различий ЛПР предоставляется следующая информация:

-     наиболее важные события каждой ситуации, не имеющие аналогов в другой цепочке;

-     предложения с наибольшим различительным весом из текстовых описаний текущей и эталонной ситуаций; эти предложения содержат описание наиболее существенных отличительных особенностей каждой из ситуаций относительно другой цепочки.

Заключение

В статье рассмотрено применение гибридного подхода к ситуационному анализу для прогнозирования появления и развития инновационных технологий. Прогнозирование выполняется на основе обработки потоков больших данных, которые могут быть представлены в текстовой, числовой и табличной формах. В основе предложенного подхода лежит последовательное выполнение обнаружения событий в потоках разнородных данных, формирования ситуаций и построения сценариев их дальнейшего развития.

При обработке потоков данных разных типов применяются различные модели событий и методы их обнаружения. Для выявления событий в потоке текстовых документов использован метод на основе инкрементальной кластеризации, имеющий возможность гибкой настройки в зависимости от анализируемой предметной области благодаря использованию машинного обучения. Обнаруженные события объединяются в цепочки (ситуации), отражающие развитие технологий с течением времени.

 После формирования ситуационной цепочки выполняется построение возможных сценариев ее развития в будущем. В его основе лежит принцип исторической аналогии: текущая ситуация сравнивается с эталонами из подготовленной экспертами базы. Эталоны, признанные аналогами текущей ситуации, считаются сценариями ее дальнейшего развития. Вероятность сценариев оценивается с помощью логистической регрессии. Из множества сформированных сценариев выделяются оптимистический и пессимистический, для чего используется метод анализа иерархий. Также предложен способ подготовки предложений по действиям, которые необходимо предпринять для способствования или препятствования развитию анализируемой технологии по построенным сценариям. Предложенный метод фор- мирования сценариев учитывает динамику раз- вития ситуаций и может быть использован для совместного анализа потоков данных разных типов.

Литература

1.  Schwab K. The fourth industrial revolution. Crown Publ., NY, 2016, 198 p.

2.    Toffler A. Future shock. Random House Publ., NY, 1970, 505 p.

3.    Choi M., Choi H. Foresight for science and technology priority setting in Korea. Foresight and STI Governance, 2015, vol. 9, no. 3, pp. 54–67. DOI: 10.17323/1995-459X.2015.3.54.65.

4.    Schwab K., Davis N. Shaping the fourth industrial revolution. Geneva, Switzerland, World Economic Forum Publ., 2018, 287 p.

5.     Shumway R.H., Stoffer D.S. Time series analysis and its applications: with R examples. Springer, Switzerland, 2017, 562 p. DOI: https://doi. org/10.1007/978-3-319-52452-8.

6.    Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Н.: Изд-во ИМ СО РАН, 1999. 270 c.

7.    Hastie T., Tibshirani R., Friedman J. The elements of statistical learning. Springer-Verlag, NY, 2009, 763 p. DOI: https://doi.org/10.1007/978-0-387-84858-7.

8.    Андреев А.М., Березкин Д.В., Козлов И.А. Гибридный подход к прогнозированию развития ситуаций на основе извлечения событий из потоков разнородных данных // Гибридные и синергетические интеллектуальные системы: тр. IV Всерос. Поспеловской конф. с междунар. участием. Калининград: Изд-во БФУ им. И. Канта, 2018. С. 140–147.

9.    Zhao Q., Mitra P., Chen B. Temporal and information flow based event detection from social text streams. Proc. 22nd Conf on Artificial Intelligence, SF, AAAI Press, 2010, pp. 1501–1506.

10. Hogenboom F., Frasincar F., Kaymak U., De Jong F. An overview of event extraction from text. Proc. Workshop DeRiVE-2011, 2011, vol. 779, pp. 48–57.

11. Guralnik V., Srivastava J. Event detection from time series data. Proc. V Intern. Conf. ACM SIGKDD, 1999, pp. 33–42. DOI: 10.1145/312129. 312190.

12. Yao W., Chu C. H., Li Z. Leveraging complex event processing for smart hospitals using RFID. J. Network and Computer Applications, 2011, vol. 34, no. 3, pp. 799–810. DOI: https://doi.org/10.1016/ j.jnca.2010.04.020.

13. Aggarwal C.C., Subbian K. Event detection in social streams. Proc. 2012 SIAM Intern. Conf. on Data Mining, 2012, pp. 624–635. DOI: https:// doi.org/10.1137/1.9781611972825.54.

14. Weng J., Lee B.S. Event detection in Twitter. Proc. 5th ICWSM, 2011, vol. 11, pp. 401–408.

15. Ландэ Д.В., Брайчевский С.М., Григорь- ев А.Н., Дармохвал А.Т., Радецкий А.Б. Выявление новых событий из потока новостей // Компьютерная лингвистика и интеллектуальные технологии: тр. Междунар. конф. «Диалог–2007», 2007. С. 349–352.

16. Yang Y., Pierce T., Carbonell J. A study of retrospective and on-line event detection. Proc. 21st Intern. ACM SIGIR Conf. on Research and Development in Information Retrieval, 1998, pp. 28–36.

17. Aggarwal C.C., Philip S.Y. On clustering massive text and categorical data streams. Know- ledge and Information Systems, 2010, vol. 24, no. 2, pp. 171–196.

18. Андреев А.М., Березкин Д.В., Козлов И.А. Подход к автоматизированному мониторингу тем на основе обнаружения событий в потоке текстовых документов // Информационно-измерительные и управляющие системы. 2017. Т. 15. № 3. С. 49–60.

19. Воронцов К.В. Лекции по алгоритмам кластеризации и многомерного шкалирования. 2007. URL: http://www.ccas.ru/voron/download/Clustering. pdf (дата обращения: 10.12.2018).

20. Saaty T.L. The analytic hierarchy process: planning, priority setting, resource allocation. NY, McGraw-Hill Publ., 1980, 287 p.

References

  1. Schwab K. The Fourth Industrial Revolution. Crown Publ., NY, 2016, 198 p.
  2. Toffler A. Future Shock. Random House Publ., NY, 1970, 505 p.
  3. Choi M., Choi H.  Foresight for science and technology priority setting in Korea. Foresight and STI Governance. 2015, vol. 9, no. 3, pp. 54–67. DOI: 10.17323/1995-459X.2015.3.54.65.
  4. Schwab K., Davis N. Shaping the Fourth Industrial Revolution. World Economic Forum, Geneva, 2018, 287 p.
  5. Shumway R.H., Stoffer D.S. Time Series Analysis and its Applications: with R Examples. 4th ed. Springer, Cham, 2017, 562 p. DOI: https://doi.org/10.1007/978-3-319-52452-8.
  6. Zagoruyko N.G. Applied Methods of Data and Knowledge Analysis. Novosibirsk, Sobolev Institute of Mathematics Publ., 1999, 270 p.
  7. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. 2nd ed. Springer-Verlag Publ., NY, 2009, 763 p. DOI: https://doi.org/10.1007/978-0-387-84858-7.
  8. Andreev A.M., Berezkin D.V., Kozlov I.A. Hybrid approach to forecasting the development of situations based on event detection in heterogeneous data streams. Hybrid and Synergetic Intellectual Systems: Proc. IV All-Russ. Pospelov Conf. with Intern. Participation. Kaliningrad, 2018, pp. 140–147 (in Russ.).
  9. Zhao Q., Mitra P., Chen B. Temporal and information flow based event detection from social text streams. Proc. 22nd Conf on Artificial Intelligence, SF, AAAI Press, 2010, pp. 1501–1506.
  10. Hogenboom F., Frasincar F., Kaymak U., De Jong F. An overview of event extraction from text. Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at 10th Intern. Semantic Web Conf. (ISWC 2011). 2011, vol. 779, pp. 48–57.
  11. Guralnik V., Srivastava J. Event detection from time series data. Proc. 5th ACM SIGKDD Intern. Conf. on Knowledge Discovery and Data Mining. 1999, pp. 33–42.
  12. Yao W., Chu C.H., Li Z. Leveraging complex event processing for smart hospitals using RFID. J. of Network and Computer Applications. 2011, vol. 34, no. 3, pp. 799–810. DOI: https://doi.org/10.1016/j.jnca.
    2010.04.020.
  13. Aggarwal C.C., Subbian K. Event detection in social streams. Proc. 2012 Siam Intern. Conf. on Data Mining. 2012, pp. 624–635. DOI: https://doi.org/10.1137/1.9781611972825.54.
  14. Weng J., Lee B.S. Event Detection in Twitter.  ICWSM. 2011, vol. 11, pp. 401–408.
  15. Lande D.V., Braychevsky S.M., Grigorev A.N., Darmokhval A.T., Radetsky A.B. Detection of new events from news flow. Proc. Intern. Conf. “Dialog-2007” on Computer Linguistics and Intelligent Technologies. 2007, pp. 349–352 (in Russ.).
  16. Yang Y., Pierce T., Carbonell J. A study of retrospective and on-line event detection. Proc. 21st Annual Intern. ACM SIGIR Conf. on Research and Development in Information Retrieval. 1998, pp. 28–36.
  17. Aggarwal C.C., Philip S.Y. On clustering massive text and categorical data streams.  Knowledge and Information Systems. 2010, vol. 24, no. 2, pp. 171–196.
  18. Andreev A.M., Berezkin D.V., Kozlov I.A. Automated topic monitoring based on event detection in text stream. J. Information-Measuring and Control Systems. 2017, vol. 15, no. 3, pp. 49–60 (in Russ.).
  19. Vorontsov K.V. Lectures on Clustering and Multidimensional Scaling Algorithms. 2007. Available at: http://www.ccas.ru/voron/download/Clustering.pdf (accessed December 10, 2018).
  20. Saaty T.L. The Analytic Hierarchy Process: Planning, Priority Setting, Resource Allocation. McGraw-Hill, NY, 1980, 287 p.

Permanent link:
http://swsys.ru/index.php?page=article&id=4586&lang=en
Print version
Full issue in PDF (6.72Mb)
The article was published in issue no. № 2, 2019 [ pp. 227-237 ]

Perhaps, you might be interested in the following articles of similar topics: