Авторитетность издания
Добавить в закладки
Следующий номер на сайте
В Институте химии нефти СО РАН рассмотрены возможности нечетких систем для решения задач восстановления пропущенных значений в многомерных массивах данных.
18.06.2014Многие исследования связаны со сбором и обработкой данных, представленных в виде таблиц наблюдений. Данные из этих таблиц используются как в различных задачах анализа, так и в задачах построения моделей прогноза. Однако часто по различным причинам некоторые значения в этих таблицах пропущены. Большинство алгоритмов не могут обрабатывать неполные данные, так как получаются неадекватные модели либо модель вообще невозможно построить. Поэтому процедура импутирования (восстановления пропущенных значений) является очень важным моментом в процессе обработке данных.
Анализ преимуществ и недостатков известных алгоритмов для решения задачи восстановления пропусков в данных показал, что наиболее оптимальными являются методы, основанные на нечетких моделях. Основное преимущество таких моделей – снятие требований нормального распределения данных, их однородности и полноты. Эти требования к исходным данным должны выполняться для применения статистических методов восстановления пропущенных значений, что усложняет процесс предварительной подготовки выборки данных и замедляет анализ данных в целом.
В настоящее время технология нечеткого моделирования является одной из развивающихся областей обработки данных. Применение нечетких систем в задаче импутирования вызывает ряд вопросов относительно параметров системы: как правильно выбрать параметры построения базы правил, функции принадлежности, метода эволюционной стратегии, оптимизирующей параметры нечеткой системы, и другие.
Подробное описание дается в статье «Программный комплекс восстановления пропущенных значений в многомерных данных на основе методов нечеткого моделирования», авторы: Перемитина Т.О., Ященко И.Г., Лучкова С.В. (Институт химии нефти СО РАН, Томск).