Авторитетность издания
ВАК - К1
RSCI, ядро РИНЦ
Добавить в закладки
Следующий номер на сайте
№4
Ожидается:
09 Сентября 2024
Основные принципы работы обобщенной регрессионной нейронной сети при заполнении пропущенных значений в наборах данных
Basic principles of generalized regression neural network when filling missing values in datasets
Дата подачи статьи: 09.04.2024
Дата после доработки: 25.04.2024
Дата принятия к публикации: 14.05.2024
УДК: 004.032.26
Группа специальностей ВАК: 2.3.1.
Статья опубликована в выпуске журнала № 3 за 2024 год. [ на стр. 364-368 ]Аннотация:В статье обсуждается актуальность заполнения пропущенных значений в исходном наборе данных на этапе их предобработки при решении задач анализа данных и машинного обучения. Предложено применение обобщенной регрессионной нейронной сети для решения задачи заполнения пропущенных значений в наборе исходных данных, что в сравнении со статистическим методом на основе среднего или медианного значения по столбцу предполагает учет возможных зависимостей между данными. Рассмотрены основные принципы работы обобщенной регрессионной нейронной сети, особенности ее архитектуры, преимущества и недостатки. Показано, что преимуществами обобщенной регрессионной нейронной сети являются быстрое обучение на небольшом объеме входных данных и прогнозирование пропущенных значений благодаря возможности аппроксимации сложных функций. Приведен алгоритм использования обобщенной регрессионной нейронной сети для восстановления пропусков. Алгоритм обучения нейронной сети является однопроходным, во время которого настраиваются веса связей между слоями сети, параметр радиальной базисной функции и скорость обучения. Целью обучения нейронной сети является минимизация ошибки прогнозирования, в качестве которой выбрана среднеквадратичная ошибка. Предложена схема заполнения пропущенных значений статистическим методом. Приведен алгоритм применения схемы заполнения пропусков, основанный на определении среднего по имеющимся значениям признака, то есть по данным, расположенным выше заполняемой ячейки столбца-признака. Прогнозирование пропущенных значений статистическим методом также оценивалось с помощью среднеквадратической ошибки. Продемонстрированы результаты обучения модели обобщенной регрессионной нейронной сети и применения статистического метода на валидационном наборе данных. Сравнение результатов заполнения пропущенных значений двумя методами показало преимущество обобщенной регрессионной нейронной сети на значительном (большом) наборе данных.
Abstract:The paper discusses the relevance of filling missing values in the initial data set at the preprocessing stage when solving problems of data analysis and machine learning. The authors of the paper propose to use a generalized regression neural network to solve the problem of filling missing values in the initial data set. In comparison with the statistical method based on the mean or median value per column, it implies taking into account possible dependencies between data. The paper considers the basic principles of the generalized regression neural network, its architecture features, advantages and disadvantages. It also shows that the advantages of the generalized regression neural network include fast training on a small amount of input data and the ability to predict missing values due to its capability to approximate complex functions. The authors also give an algorithm for using a generalized regression neural network for gap recovery. The algorithm is one-pass; it adjusts the weights of links between network layers, a radial basis function parameter, and a learning rate during one-pass training of the neural network. Training the neural network aims to minimize the prediction error, which is RMS error. There is a scheme for filling in the missing values using a statistical method. The paper presents an algorithm for applying the omission filling scheme based on determining the average feature according to the available values, that is the data located above the feature column cell to be filled in. The prediction of missing values by the statistical method was also evaluated using the mean square error. The authors demonstrate the results of training the generalized regression neural network model and applying the statistical method on a validation dataset. Comparison of the results of filling in missing values by two methods showed the advantage of the generalized regression neural network on a significant (large) dataset.
Авторы: Татарникова Т.М. (tm-tatarn@yandex.ru) - Санкт-Петербургский государственный университет аэрокосмического приборостроения (доцент, профессор), Санкт-Петербург, Россия, доктор технических наук, Боженко В.В. (vibozhenko@yandex.ru) - Санкт-Петербургский государственный университет аэрокосмического приборостроения (старший преподаватель), Санкт-Петербург, Россия | |
Ключевые слова: валидационные данные, проверка ошибки заполнения пропущенных данных, математическое ожидание, обобщенная регрессионная нейронная сеть, пропущенные значения, предварительная обработка данных |
|
Keywords: validation data, missing data filling error check, mathematical expectation, generalized regression neural network, missing values, data preprocessing |
|
Количество просмотров: 649 |
Статья в формате PDF |
Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=5097&lang= |
Версия для печати |
Статья опубликована в выпуске журнала № 3 за 2024 год. [ на стр. 364-368 ] |
Назад, к списку статей