На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

2
Ожидается:
14 Июня 2026

Применение квантованных моделей машинного обучения для встраиваемых систем в реальных задачах

Applying quantized machine learning models to real-world embedded systems tasks
Дата подачи статьи: 23.03.2025
Дата после доработки: 11.05.2025
Дата принятия к публикации: 26.05.2025
УДК: 004.85
Группа специальностей ВАК: 2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки, физико-математические науки)
Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 070-079 ]
Аннотация:Квантование является ключевым методом оптимизации моделей машинного обучения для устройств с ограниченными ресурсами в контексте миниатюрного машинного обучения (Tiny Machine Learning, TinyML). В данной статье представлено всестороннее исследование применения квантованных моделей TinyML в различных реальных задачах: мониторинге здоровья пациентов, интеллектуальном управлении энергопотреблением, предиктивном обслуживании промышленного оборудования и автоматизированном мониторинге состояния сельскохозяйственных растений. Исследование охватывает разнообразные схемы квантования: равномерное с фиксированной точкой (8-, 4- и 2-битное), с учетом статистического распределения параметров, смешанную точность и с учетом обучения. Для проведения экспериментов использованы архитектуры нейронных сетей, тщательно адаптированные к специфике каждой задачи: одномерные сверточные – для анализа временных рядов, с долгой кратко-срочной памятью – для точного прогнозирования, гибридные сверточные с долгой краткосрочной памятью – для комплексного анализа вибраций и оптимизированные мобильные – для эффективной классификации изображений. Полученные результаты убедительно показывают, что 8-битное квантование обеспечивает оптимальный баланс между вычислительной точностью и ресурсной эффективностью, уменьшая размер модели на 75 % при минимальном снижении точности всего на 1–2 %. Инновационные схемы смешанного квантования, такие как нисходящая и прогрессивно-глубинная, демонстрируют превосходную производительность для определенных архитектур и специфических задач. Важно отметить, что квантование также значительно ускоряет вычислительные процессы и существенно снижает энергопотребление. Это критически важно для автономных устройств с батарейным питанием. Исследование предлагает детальные практические рекомендации по выбору оптимальных схем квантования для различных приложений TinyML и определяет перспективные направления будущих исследований в этой динамично развивающейся области.
Abstract:Quantization is a key technique for optimizing machine learning models for resource-constrained devices in the context of Tiny Machine Learning (TinyML). This paper presents a comprehensive study on the application of quantized TinyML models to various real-world tasks: patient health monitoring, intelligent energy management, predictive maintenance of industrial equipment, and automated monitoring of crop health. The research covers diverse quantization schemes, including uniform fixed-point (8-, 4-, and 2-bit), distribution-aware, mixed-precision, and quantization-aware training. Experiments were conducted using neural network architectures carefully tailored to each specific task: one-dimensional convolutional neural networks for time-series analysis, long short-term memory networks for precise forecasting, hybrid CNN-LSTM networks for comprehensive vibration analysis, and optimized mobile networks for efficient image classification. The results clearly demonstrate that 8-bit quantization provides an optimal balance between computational accuracy and resource efficiency, reducing model size by 75 % with only a minimal accuracy loss of 1–2 percentage points. Innovative mixed-precision schemes, such as top-down and progressive-depth quantization, show superior performance for certain architectures and specific tasks. Importantly, quantization also significantly accelerates inference and substantially reduces power consumption, which is critical for battery-powered autonomous devices. The study offers detailed practical guidelines for selecting optimal quantization schemes for various TinyML applications and outlines promising directions for future research in this rapidly evolving field.
Авторы: Ачкасов А.В. (achkasov@list.ru) - Воронежский государственный лесотехнический университет имени Г.Ф. Морозова (профессор, доцент), Воронеж, Россия, доктор технических наук, Ягодкин А.С. (aas8026@rambler.ru) - Воронежский государственный лесотехнический университет имени Г.Ф. Морозова (доцент), Воронеж, Россия, кандидат физико-математических наук, Макаренко Ф.В. (phillipp@mail.ru) - Воронежский государственный лесотехнический университет имени Г.Ф. Морозова (доцент), Воронеж, Россия, кандидат физико-математических наук
Ключевые слова: квантование моделей, машинное обучение, микроконтроллеры, оптимизация нейронных сетей, встраиваемые системы, смешанная точность квантования, сжатие моделей, интернет вещей, TinyML
Keywords: model quantization, machine learning, microcontrollers, neural network optimization, embedded systems, mixed-precision quantization, model compression, Internet of things, TinyML
Количество просмотров: 2361
Статья в формате PDF

Применение квантованных моделей машинного обучения для встраиваемых систем в реальных задачах

DOI: 10.15827/0236-235X.153.070-079

Дата подачи статьи: 23.03.2025

Дата после доработки: 11.05.2025

Дата принятия к публикации: 26.05.2025

УДК: 004.85

Группа специальностей ВАК: 2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки, физико-математические науки)

Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 070-079 ]

Квантование является ключевым методом оптимизации моделей машинного обучения для устройств с ограниченными ресурсами в контексте миниатюрного машинного обучения (Tiny Machine Learning, TinyML). В данной статье представлено всестороннее исследование применения квантованных моделей TinyML в различных реальных задачах: мониторинге здоровья пациентов, интеллектуальном управлении энергопотреблением, предиктивном обслуживании промышленного оборудования и автоматизированном мониторинге состояния сельскохозяйственных растений. Исследование охватывает разнообразные схемы квантования: равномерное с фиксированной точкой (8-, 4- и 2-битное), с учетом статистического распределения параметров, смешанную точность и с учетом обучения. Для проведения экспериментов использованы архитектуры нейронных сетей, тщательно адаптированные к специфике каждой задачи: одномерные сверточные – для анализа временных рядов, с долгой кратко-срочной памятью – для точного прогнозирования, гибридные сверточные с долгой краткосрочной памятью – для комплексного анализа вибраций и оптимизированные мобильные – для эффективной классификации изображений. Полученные результаты убедительно показывают, что 8-битное квантование обеспечивает оптимальный баланс между вычислительной точностью и ресурсной эффективностью, уменьшая размер модели на 75 % при минимальном снижении точности всего на 1–2 %. Инновационные схемы смешанного квантования, такие как нисходящая и прогрессивно-глубинная, демонстрируют превосходную производительность для определенных архитектур и специфических задач. Важно отметить, что квантование также значительно ускоряет вычислительные процессы и существенно снижает энергопотребление. Это критически важно для автономных устройств с батарейным питанием. Исследование предлагает детальные практические рекомендации по выбору оптимальных схем квантования для различных приложений TinyML и определяет перспективные направления будущих исследований в этой динамично развивающейся области.
Ачкасов А.В. (achkasov@list.ru) - Воронежский государственный лесотехнический университет имени Г.Ф. Морозова (профессор, доцент), Воронеж, Россия, доктор технических наук, Ягодкин А.С. (aas8026@rambler.ru) - Воронежский государственный лесотехнический университет имени Г.Ф. Морозова (доцент), Воронеж, Россия, кандидат физико-математических наук, Макаренко Ф.В. (phillipp@mail.ru) - Воронежский государственный лесотехнический университет имени Г.Ф. Морозова (доцент), Воронеж, Россия, кандидат физико-математических наук
Ключевые слова: квантование моделей, машинное обучение, микроконтроллеры, оптимизация нейронных сетей, встраиваемые системы, смешанная точность квантования, сжатие моделей, интернет вещей, TinyML
Размер шрифта:
      Шрифт:
Ссылка скопирована!

Введение. Современный мир стремительно движется к повсеместному внедрению интеллектуальных систем, способных автономно принимать решения на основе анализа данных. Одним из ключевых направлений этого движения является Tiny Machine Learning (TinyML) – область, нацеленная на развертывание моделей машинного обучения на устройствах с ограниченными ресурсами, таких как микроконтроллеры и встроенные системы [1]. В отличие  от традиционных подходов, предполагающих обработку данных в облаке, TinyML позволяет выполнять вычисления непосредственно на конечных устройствах, что открывает новые возможности для создания автономных интеллектуальных систем.

Актуальность TinyML обусловлена экспоненциальным ростом количества устройств Интернета вещей, которые проникают во все сферы нашей жизни. По прогнозам аналити- ков, к 2025 году количество таких подключенных устройств превысит 75 миллиардов [2]. Они генерируют огромные объемы данных, которые потенциально могут быть использованы для улучшения эффективности, безопасности  и качества жизни. Однако традиционные подходы к обработке данных, основанные на передаче всей информации в облако, сталкиваются с рядом ограничений, включая высокую задержку, низкую пропускную способность сети, проблемы конфиденциальности и безопасности, высокое энергопотребление и зависимость от сетевого соединения [1, 3].

Метод TinyML предлагает альтернативный подход, при котором обработка данных происходит непосредственно на устройстве, что позволяет преодолеть указанные ограничения. Однако реализация моделей машинного обучения на устройствах с ограниченными ресурсами представляет собой серьезную техническую задачу. Микроконтроллеры и встроенные системы обычно имеют небольшую память (от нескольких килобайт до нескольких мегабайт), низкую вычислительную мощность и жесткие требования к энергопотреблению. Эти ограничения делают невозможным прямое использование традиционных моделей глубокого обучения, которые могут содержать миллионы параметров и требовать значительных вычислительных ресурсов.

Квантование является одним из ключевых методов оптимизации моделей для TinyML [4]. Этот подход предполагает снижение точности представления весов и активаций нейронной сети, что позволяет значительно уменьшить требования к памяти и вычислительным ресурсам. Например, переход от 32-битного представ- ления с плавающей точкой к 8-битному целочисленному представлению может уменьшить размер модели в 4 раза и ускорить вычисления, особенно на устройствах без аппаратной поддержки операций с плавающей точкой [5].

Несмотря на потенциальные преимущества, применение квантования в реальных задачах сталкивается с рядом вызовов. Снижение точности представления параметров может привести к ухудшению качества работы модели. Кроме того, различные задачи и архитектуры нейронных сетей могут по-разному реагировать на квантование, что требует тщательного выбора схемы квантования для каждого конкретного случая.

В области здравоохранения, например, TinyML открывает возможности для создания носимых устройств, способных непрерывно мониторить состояние пациента и выявлять потенциальные проблемы в режиме реального времени [6]. Однако ограниченные ресурсы таких устройств требуют эффективных методов оптимизации моделей, включая квантование. Аналогичные вызовы существуют и в других областях (промышленность, сельское хозяйство) [7].

В последние годы проведено множество исследований, направленных на разработку и оптимизацию методов квантования для TinyML. Были предложены и изучены различные подходы, включая равномерное квантование [1, 4], квантование с учетом распределения весов [6, 8], смешанную точность [7] и квантование с учетом обучения (Quantization-Aware Training, QAT) [1, 8].

Однако большинство этих исследований фокусируются на теоретических аспектах и бенч- марках, оставляя открытым вопрос о практиче- ской применимости этих методов в реальных задачах.

Целью данного исследования является анализ применения квантованных моделей TinyML в реальных задачах, таких как мониторинг здоровья, управление энергопотреблением в умных домах, предиктивное обслуживание в промышленности и мониторинг состояния растений  в сельском хозяйстве.

Полученные результаты имеют как теоретическую, так и практическую значимость. С теоретической точки зрения они расширяют понимание влияния квантования на различные  аспекты производительности моделей машинного обучения. С практической – предоставляют разработчикам конкретные рекомендации по оптимизации моделей для различных приложений TinyML, что способствует более широкому внедрению этой технологии в реальные системы.

Тестируемые задачи и наборы данных

Для всестороннего исследования влияния квантования на производительность моделей TinyML в реальных задачах выбраны четыре репрезентативные области применения: здравоохранение, умные дома, промышленность  и сельское хозяйство. Для каждой области были определены конкретные задачи и соответствующие наборы данных.

В области здравоохранения исследование фокусировалось на задаче мониторинга физической активности с использованием данных акселерометра и гироскопа. Для этой задачи был использован набор данных WISDM (Wireless Sensor Data Mining), содержащий записи акселерометра от 36 субъектов, выполняющих шесть различных видов активности: ходьба, бег трусцой, подъем и спуск по лестнице, сидение и стояние. Данные были собраны с частотой 20 Гц, что обеспечивает достаточное временное разрешение для точного распознавания активности. Для предварительной обработки данных использовалось скользящее окно длиной 2,5 секунды с перекрытием 50 %, что позволило получить сегменты, содержащие 50 последовательных измерений.

В контексте умных домов исследовалась задача управления энергопотреблением на основе прогнозирования потребления электроэнергии. Для этой задачи был использован набор данных REDD (Reference Energy Di- saggregation Data Set), который содержит данные о потреблении электроэнергии в шести до- мах, собираемые с высокой частотой (1 Гц) в течение нескольких месяцев. Данные включают потребление как общее, так и отдельных приборов. Для их предварительной обработки использовались агрегирование по часам и нормализация, что позволило получить временные ряды, отражающие паттерны потребления электроэнергии.

В промышленной сфере рассматривалась задача предиктивного обслуживания оборудования на основе анализа вибрационных данных. Для этой задачи был использован набор данных MAFAULDA (Machinery Fault Database), который содержит записи вибрационных сигналов от различных компонентов промышленного оборудования в нормальном состоянии  и при наличии различных типов неисправностей. Данные были собраны с частотой 50 кГц, что позволяет захватить высокочастотные компоненты вибрационных сигналов, характерные для различных типов неисправностей. Предварительная обработка данных проводилась с помощью преобразования Фурье для извлечения спектральных характеристик сигналов.

В области сельского хозяйства исследовалась задача классификации изображений для мониторинга состояния растений. Для этой  задачи был использован набор данных Plant- Villageх, содержащий более 50 000 изображений здоровых и больных листьев различных сельскохозяйственных культур [9]. Изображения предварительно обрабатывались путем изменения размера до 32×32 пикселей и нормализации, что позволило адаптировать их для  использования с легковесными моделями компьютерного зрения.

Кроме того, для оценки общей производительности различных архитектур нейронных сетей и схем квантования был использован стандартный набор данных CIFAR-10, содержащий 60 000 цветных изображений размером 32×32 пикселя, разделенных на 10 классов. Этот набор данных широко используется в исследованиях по машинному обучению и позволяет сравнивать результаты с существующими работами в области TinyML.

 

Архитектуры нейронных сетей

 

Для каждой из рассматриваемых задач была выбрана архитектура нейронной сети, учитывающая ее специфику и ограничения целевых устройств. При этом имели значение такие факторы, как вычислительная сложность, тре- бования к памяти и потенциал для оптимизации через квантование.

Для задачи мониторинга физической активности использована одномерная сверточная нейронная сеть (1D CNN), хорошо подходящая для обработки временных рядов [10]. Архитектура состояла из двух сверточных слоев с 16  и 32 фильтрами, за которыми следовали слои макспулинга и полносвязные. Общее количество параметров модели составило около  50 000, что делает ее подходящей для развертывания на микроконтроллерах среднего класса.

Для задачи прогнозирования потребления электроэнергии была использована рекуррентная нейронная сеть с долгой краткосрочной  памятью (LSTM), эффективная для моделирования временных зависимостей [11]. Архитектура включала один слой LSTM с 64 скрытыми единицами, за которым следовал полносвязный слой. Общее количество параметров составило около 30 000.

В решении задачи предиктивного обслуживания использована гибридная архитектура, сочетающая сверточные (для извлечения признаков из спектрограмм вибрационных сигналов) и рекуррентные слои (для моделирования временных зависимостей). Архитектура включала два сверточных слоя с 32 и 64 фильтрами, за которыми следовали слой LSTM с 32 скрытыми единицами и полносвязные слои. Общее количество параметров составило около 100 000.

Для задачи классификации изображений растений были использованы архитектуры MobileNetV1 и MobileNetV2, разработанные специально для мобильных и встроенных устройств [4]. Они используют глубинные разделяемые свертки, что позволяет значительно уменьшить количество параметров и вычислительную сложность по сравнению с традиционными сверточными нейронными сетями. Для адаптации к задаче классификации изображений растений последний слой моделей заменен на полносвязный с соответствующим количеством выходных нейронов.

Для экспериментов с набором данных CIFAR-10 использовалось несколько архитектур, включая ResNet-18, MobileNetV2 и специально разработанную легковесную CNN, состоящую из трех сверточных слоев с 32, 64  и 128 фильтрами, за которыми следовали полносвязные слои. Это позволило сравнить произ- водительность различных архитектур при кван- товании.

 

Схемы квантования

В исследовании были рассмотрены различные схемы, отличающиеся как по разрядности представления весов и активаций, так и по методам определения параметров квантования. Основной акцент был сделан на следующих схемах.

1.    Равномерное квантование с фиксированной точкой (Uniform Fixed-Point Quantization). В этой схеме веса и активации квантуются до фиксированного числа бит (8, 4 или 2) с равномерным распределением квантованных значений в заданном диапазоне. Математически процесс можно описать как

где  – исходное значение; xmin и xmax – минимальное и максимальное значения в тензоре;  n – количество бит; Q(x) – квантованное значение.

2.    Квантование с учетом распределения (Distribution-Aware Quantization). В отличие от равномерного эта схема учитывает распределение весов и активаций, что позволяет более  эффективно использовать ограниченное количество бит. Для определения параметров квантования применяются методы, основанные  на минимизации ошибки квантования, такие как минимизация среднеквадратичной ошибки (RMSE) или энтропийное кодирование.

3.    Смешанная точность (Mixed-Precision Quantization). В этой схеме различные слои нейронной сети квантуются с разной разрядностью в зависимости от их чувствительности  к квантованию. Например, первые и последние слои сети, которые обычно более чувствительны к потере точности, могут квантоваться с более высокой разрядностью (например,  8 бит), в то время как промежуточные слои могут квантоваться с более низкой разрядностью (например, 4 бита) [9].

4.    QAT. В этой схеме модель может адаптироваться к ограничениям, вызванным квантованием, интегрированным в процесс обучения нейронной сети. Во время обучения используются операции прямого и обратного квантования, имитирующие процесс квантования при выводе, но сохраняющие возможность обратного распространения градиентов [8].

Для реализации различных схем квантования использовались инструменты и библиотеки, такие как TensorFlow Lite, QKeras и PyTorch Quantization. Эти инструменты предоставляют API для квантования моделей как после обучения, так и с его учетом.

Методология оценки

Для оценки эффективности различных схем квантования в контексте TinyML были использованы следующие метрики.

-   Точность, определяемая как доля правильно классифицированных примеров для  задач классификации. Для задач регрессии использовались метрики RMSE и средней абсолютной ошибки.

-   Размер модели в байтах после квантования, что является критическим параметром для устройств с ограниченной памятью.

-   Время вывода, позволяющее выполнять один проход вперед через нейронную сеть на целевом устройстве. Эта метрика важна для приложений, требующих обработки в реальном времени.

-   Энергопотребление, необходимое для оценки энергоэффективности различных схем квантования (измерение потребления энергии при выполнении вывода модели на целевом устройстве). Эта метрика особенно важна для устройств, работающих от батарей, таких как носимые медицинские устройства или автономные датчики.

Для проведения экспериментов и оценки эффективности различных схем квантования был разработан комплексный методологический подход, включающий следующие этапы.

-   Обучение моделей на соответствующих наборах данных с использованием стандартных методов оптимизации, таких как стохастический градиентный спуск или Adam. Для каждой задачи и архитектуры были подобраны  оптимальные гиперпараметры, такие как скорость обучения, размер пакета и количество эпох.

-   Квантование моделей после обучения  с использованием четырех рассматриваемых схем, для каждой из которых протестированы различные уровни разрядности (8, 4 и 2 бита).

-   Оценка квантованных моделей на тестовых наборах данных для определения их точности и других метрик производительности.

-   Развертывание моделей на целевых ус- тройствах, включая микроконтроллеры STM32, для оценки времени вывода, энергопотребления и других параметров в реальных условиях.

-   Сравнительный анализ результатов различных схем квантования между собой и с исходными моделями с целью определения оптимальных подходов для различных задач и ограничений.

Для обеспечения надежности результатов все эксперименты проводились многократно  с усреднением результатов, чтобы минимизировать влияние случайных факторов. Кроме того, для оценки статистической значимости различий между всевозможными методами квантования применялись соответствующие статистические тесты.

Использование этой методологии позволило провести всестороннюю оценку влияния рассматриваемых схем квантования на производительность моделей TinyML и выявить наиболее эффективные подходы для различных задач и ограничений.

Влияние квантования на точность  и размер модели, время вывода  и энергопотребление

Квантование является эффективным методом, позволяющим уменьшить размер моделей TinyML, что критически важно для их развертывания на устройствах с ограниченными ресурсами. Проведенные эксперименты показали, что различные схемы квантования оказывают разное влияние на точность и размер модели.

В таблице 1 отражены результаты, полученные для моделей классификации изображений на наборе данных CIFAR-10.

Как видно, 8-битное квантование позволяет уменьшить размер модели на 75 % при сниже- нии точности всего на 1,5 % для MobileNetV1. Более агрессивное 4-битное квантование умень- шает размер модели на 87,4 %, но приводит  к снижению точности на 3,8 %; 2-битное кван- тование, хотя и обеспечивает максимальное сжатие (93,7 %), приводит к значительному снижению точности (на 17,9 %), что делает его непрактичным для большинства приложений.

Схемы квантования со смешанной точностью, такие как Top-Down, показали хороший баланс между уменьшением размера и сохранением точности. Например, схема Top-Down для MobileNetV1 обеспечила уменьшение размера на 81,3 % при снижении точности на 3,8 %, что сопоставимо с результатами 4-битного квантования, но с лучшей точностью.

Квантование не только уменьшает размер модели, но и влияет на время вывода и энергопотребление, что особенно важно для устройств с ограниченными ресурсами. В таблице 2 отражены результаты проведенных экспериментов.

Видно, что 8-битное квантование уменьшает время вывода на 45,5 % и энергопотребление на 45,5 % по сравнению с моделью без квантования; 4-битное квантование обеспечивает еще большее улучшение, уменьшая время вывода и энергопотребление на 61,4 %. Схема смешанного квантования Top-Down также показывает значительное улучшение, уменьшая время вывода и энергопотребление на 50 %.

Применение квантованных моделей  для решения задач

Для задачи мониторинга физической активности с использованием данных акселерометра и гироскопа из набора данных WISDM были получены результаты, приведенные в таблице 3.

Квантованная модель 1D CNN с 8-битной схемой показала высокую точность (91,8 %) при значительном уменьшении размера модели (в 4 раза) и времени вывода (на 44,9 %). Это  делает ее подходящей для развертывания на носимых устройствах для мониторинга здоровья.

Таблица 2

Результаты экспериментов с моделью  MobileNetV1 по времени вывода  и энергопотреблению

Table 2

Experimental results of the MobileNetV1 model on inference time  and power consumption

Схема квантования

Время вывода, мс

Энергопотребление, мДж

Без квантования

220

48,4

8-битная

120

26,4

4-битная

85

18,7

Смешанная (Top-Down)

110

24,2

Таблица 3

Результаты экспериментов  с одномерной моделью CNN

Table 3

Experimental results for the 1D CNN model

Схема квантования

Точность, %

Размер модели, Кб

Время вывода, мс

Без квантования

92,3

50,0

18,5

8-битная

91,8

12,5

10,2

4-битная

89,5

6,3

7,1

Смешанная (Top-Down)

90,2

9,4

8,9

Для задачи прогнозирования потребления электроэнергии с использованием данных из набора REDD были получены результаты, приведенные в таблице 4.

Таблица 4

Результаты экспериментов  с моделью LSTM

Table 4

Experimental results for the LSTM model

Схема квантования

RMSE, кВт·ч

Размер модели, Кб

Время вывода, мс

Без квантования

0,32

30,0

15,2

8-битная

0,35

7,5

8,3

4-битная

0,41

3,8

5,7

Смешанная  (Input-Output)

0,37

5,6

7,1

Квантованная модель LSTM с 8-битной схемой показала небольшое увеличение ошибки RMSE (с 0,32 до 0,35 кВт·ч) при значительном уменьшении размера модели (в 4 раза) и времени вывода (на 45,4 %). Схема смешанного квантования также показала хорошие результаты, обеспечивая баланс между точностью  и эффективностью.

Для задачи предиктивного обслуживания оборудования с использованием данных вибра- ции из набора MAFAULDA были получены результаты, приведенные в таблице 5.

Таблица 5

Результаты экспериментов  с гибридной моделью CNN-LSTM

Table 5

Experimental results for the hybrid  CNN-LSTM model

Схема квантования

Точность, %

Размер модели, Кб

Время вывода, мс

Без квантования

94,5

100,0

25,3

8-битная

93,8

25,0

13,7

4-битная

91,2

12,5

9,5

Смешанная  (Progressive-Depth)

92,7

18,8

11,2

Квантованная гибридная модель CNN-LSTM с 8-битной схемой показала высокую точность (93,8 %) при значительном уменьшении размера модели (в 4 раза) и времени вывода (на 45,8 %). Схема смешанного квантования Progressive-Depth также показала хорошие результаты, обеспечивая баланс между точностью и эффективностью.

Для задачи классификации изображений листьев растений из набора данных PlantVillage  получены результаты, приведенные в таблице 6.

Квантованная модель MobileNetV2 с 8-битной схемой показала высокую точность (94,7 %) при значительном уменьшении размера модели (в 4 раза) и времени вывода (на 45,5 %). Схема смешанного квантования Bottom-Up также  показала хорошие результаты, обеспечивая баланс между точностью и эффективностью.

Сравнение различных схем квантования

Результаты проведенных экспериментов позволили сделать следующие выводы.

-   Наилучший баланс между уменьшением размера модели и сохранением точности для большинства задач обеспечивает 8-битное квантование. Оно уменьшает размер модели примерно в 4 раза при минимальном снижении точности (обычно менее 2 %).

-   Значительное уменьшение размера модели (примерно в 8 раз) обеспечивает 4-битное квантование, но приводит к более заметному снижению точности (обычно 3–5 %). Оно может быть подходящим для задач, где требуется максимальное сжатие модели и допустимо некоторое снижение точности.

-   Максимальное сжатие модели (примерно в 16 раз) обеспечивает 2-битное квантование, но приводит к значительному снижению точности (часто более 15 %), что делает его непрактичным для большинства задач.

-   Схемы смешанного квантования (Top-Down, Bottom-Up, Progressive-Depth, Input-Output) обеспечивают хороший баланс между уменьшением размера модели и сохранением точности. Они позволяют адаптировать квантование к различным частям нейронной сети, что может привести к лучшим результатам по сравнению с равномерным квантованием.

-   QAT обычно обеспечивает лучшие результаты по сравнению с посттренировочным квантованием, особенно для низкой разрядности (4 бита и ниже). Однако оно требует дополнительного обучения модели, что может быть затруднительно для некоторых приложений.

В целом результаты показывают, что квантование является эффективным методом оптимизации моделей TinyML для устройств с ограниченными ресурсами. Выбор конкретной схемы зависит от требований определенного приложения, включая точность, ограничения по размеру модели и времени вывода.

Применение квантованных моделей  для локализации в помещении

Отдельно стоит отметить результаты применения квантованных моделей для задачи ло- кализации в помещении, которая является важным компонентом многих приложений TinyML, включая умные дома и мониторинг здоровья.

Для этой задачи были исследованы две архитектуры: трансформерная модель MDCSA  и модель на основе Mamba.

Оценить эффективность моделей классификации с учетом особенности работы с несбалансированными наборами данных позволила метрика F1-меры [12]. Она представляет собой среднее гармоническое между точностью и пол- нотой:

Точность (precision) показывает, какая доля объектов, отнесенных моделью к определенному классу, действительно принадлежит этому классу. Полнота (recall), отражающая долю объектов, действительно принадлежащих опре- деленному классу, была правильно обнаружена моделью.

Полученные результаты продемонстрировали, что квантованная модель MDCSA достигает хороших показателей при ограничении памяти в 64 Кб, обеспечивая F1-меру от 73,84 % до 84,36 %. Модель Mamba, разработанная для более компактной архитектуры, показала убедительные данные даже при более жестких ограничениях по памяти (32 Кб), достигая  F1-меры от 72,79 % до 83,89 %.

Можно сделать вывод, что квантование позволяет эффективно развертывать сложные модели локализации в помещении на устройствах с ограниченными ресурсами, открывая новые возможности создания автономных интеллектуальных систем для мониторинга здоровья  и других приложений.

Заключение

Проведенное исследование демонстрирует эффективность метода квантования оптимизации моделей машинного обучения для устройств с ограниченными ресурсами в контексте TinyML. Метод позволяет значительно уменьшить размер модели (до 75–93 %), ускорить вычислительные процессы (на 45–61 %) и существенно снизить энергопотребление (на 45–61 %), что критически важно для автономных устройств  с батарейным питанием, при этом сохраняя приемлемую точность.

В работе детально проанализированы различные схемы квантования, включая смешанные, такие как Top-Down, Bottom-Up, Progressive- Depth и Input-Output, которые показали лучшую производительность и лучший баланс между размером модели и точностью по сравнению с равномерным квантованием для определенных архитектур и задач.

QAT обычно обеспечивает лучшую точность по сравнению с посттренировочным квантованием, особенно при низкой разрядности, но требует больших вычислительных ресурсов для обучения.

В статье рассмотрено применение квантованных моделей в различных реальных задачах, таких как мониторинг здоровья, управление энергопотреблением, предиктивное обслуживание и мониторинг состояния растений. Различные архитектуры нейронных сетей по-разному реагируют на квантование, при этом модели, специально разработанные для мобиль- ных устройств, показывают лучшие результаты.

К ограничениям следует онести сравнительно небольшой набор архитектур, задач  и целевых устройств, а также отсутствие дол- госрочного тестирования в реальных условиях и неполное рассмотрение онлайн-обучения.

В работе предложены направления для будущих исследований: расширение набора архи- тектур и задач, исследование новых методов квантования, особенно для очень низкой разрядности, онлайн-обучение квантованных моделей, интеграция с аппаратными ускорителями, долгосрочное тестирование в реальных условиях, детальное исследование энергоэффективности и разработка автоматизированных инструментов для квантования.

В заключение необходимо отметить, что квантование является ключевой технологией для развертывания моделей машинного обучения на устройствах с ограниченными ресурсами. Правильный выбор схемы квантования  и тщательная оптимизация могут значительно повысить эффективность TinyML-систем без существенной потери точности, открывая новые возможности для создания интеллектуальных устройств Интернета вещей. Дальнейшие исследования в этой области и интеграция с аппаратными решениями, такими как чиплеты  и гетерогенная интеграция, будут способствовать еще более эффективному развитию TinyML.

Список литературы

1. Tsoukas V., Gkogkidis A., Boumpa E., Kakarountas A. A review on the emerging technology of TinyML. ACM Comput. Surv., 2024, vol. 56, no. 10, pp. 259–296. doi: 10.1145/3661820.

2. The Future of IoT Connectivity: Trends for 2025 and Beyond. URL: https://spenza.com/blog/the-future-of-iot-connectivity-trends-for-2025-and-beyond/ (дата обращения: 15.01.2025).

3. Lin J., Zhu L., Chen W.-M. et al. Tiny machine learning: Progress and futures [feature]. IEEE Circuits and Sys. Magazine, 2023, vol. 23, no. 3, pp. 8–34. doi: 10.1109/MCAS.2023.3302182.

4. Alajlan N.N., Ibrahim D.M. TinyML: Enabling of inference deep learning models on Ultra-Low-Power IoT edge devices for AI applications. Micromachines, 2022, vol. 13, no. 6, pp. 851–861. doi: 10.3390/mi13060851.

5. Wardana I.N.K., Gardner J.W., Fahmy S.A. Optimising deep learning at the edge for accurate hourly air quality prediction. Sensors, 2021, vol. 21, no. 4, pp. 10–64. doi: 10.3390/s21041064.

6. Elhanashi A., Dini P., Saponara S., Zheng Q. Advancements in TinyML: Applications, limitations, and impact on IoT devices. Electronics, 2024, vol. 13, no. 17, art. 3562. doi: 10.3390/electronics13173562.

7. Schizas N., Karras A., Karras C., Sioutas S. TinyML for ultra-low power AI and large scale IoT deployments: A systematic review. Future Internet, 2022, vol. 14, no. 12, art. 363. doi: 10.3390/fi14120363.

8. Capogrosso L., Cunico F., Cheng D.S. et al. Machine learning-oriented survey on tiny machine learning. IEEE Access, 2024, no. 12, pp. 23406–23426. doi: 10.1109/ACCESS.2024.3365349.

9. Ray P.P. A review on TinyML: State-of-the-art and prospects. J. King Saud University – Comput. and Inform. Sci., 2022, vol. 34, no. 4, pp. 1595–1623. doi: 10.1016/j.jksuci.2021.11.019.

10. Wardana I.N.K., Gardner J.W., Fahmy S.A. Optimising deep learning at the edge for accurate hourly air quality prediction. Sensors, 2021, vol. 21, no. 4, art. 1064. doi: 10.3390/s21041064.

11. Zhang S., Li Y., Zhang S. et al. Deep learning in human activity recognition with wearable sensors: A review on advances. Sensors, 2022, vol. 22, no. 4, art. 1476. doi: 10.3390/s22041476.

12. Ren H., Anicic D., Runkler T.A. TinyOL: TinyML with online-learning on microcontrollers. IJCNN, 2021, pp. 1–8. doi: 10.1109/IJCNN52387.2021.9533927.

References

1. Tsoukas, V., Gkogkidis, A., Boumpa, E., Kakarountas, A. (2024) ‘A review on the emerging technology of TinyML’, ACM Comput. Surv., 56(10), pp. 259–296. doi: 10.1145/3661820.

2. The Future of IoT Connectivity: Trends for 2025 and Beyond, available at: https://spenza.com/blog/the-future-of-iot-connectivity-trends-for-2025-and-beyond/ (accessed January 15, 2025).

3. Lin, J., Zhu, L., Chen, W.-M. et al. (2024) ‘Tiny machine learning: Progress and futures [feature]’, IEEE Circuits and Sys. Magazine, 23(3), pp. 8–34. doi: 10.1109/MCAS.2023.3302182.

4. Alajlan, N.N., Ibrahim, D.M. (2022) ‘TinyML: Enabling of inference deep learning models on Ultra-Low-Power IoT edge devices for AI applications’, Micromachines, 13(6), pp. 851–861. doi: 10.3390/mi13060851.

5. Wardana, I.N.K., Gardner, J.W., Fahmy, S.A. (2021) ‘Optimising deep learning at the edge for accurate hourly air quality prediction’, Sensors, 21(4), pp. 10–64. doi: 10.3390/s21041064.

6. Elhanashi, A., Dini, P., Saponara, S., Zheng, Q. (2024) ‘Advancements in TinyML: Applications, limitations, and impact on IoT devices’, Electronics, 13(17), art. 3562. doi: 10.3390/electronics13173562.

7. Schizas, N., Karras, A., Karras, C., Sioutas, S. (2022) ‘TinyML for ultra-low power AI and large scale IoT deployments: A systematic review’, Future Internet, 14(12), art. 363. doi: 10.3390/fi14120363.

8. Capogrosso, L., Cunico, F., Cheng, D.S., Fummi, F., Cristani, M.A (2023) ‘Machine learning-oriented survey on tiny machine learning’, IEEE Access, (12), pp. 23406–23426. doi: 10.1109/ACCESS.2024.3365349.

9. Ray, P.P. (2022) ‘A review on TinyML: State-of-the-art and prospects’, J. King Saud University – Comput. and Inform. Sci., 34(4), pp. 1595–1623. doi: 10.1016/j.jksuci.2021.11.019.

10. Wardana, I.N.K., Gardner, J.W., Fahmy, S.A. (2021) ‘Optimising deep learning at the edge for accurate hourly air quality prediction’, Sensors, 21(4), art. 1064. doi: 10.3390/s21041064.

11 Zhang, S., Li, Y., Zhang, S. et al. (2022) ‘Deep learning in human activity recognition with wearable sensors: A review on advances’, Sensors, 22(4), art. 1476. doi: 10.3390/s22041476.

12. Ren, H., Anicic, D., Runkler, T.A. (2021) ‘TinyOL: TinyML with online-learning on microcontrollers’, IJCNN, pp. 1–8. doi: 10.1109/IJCNN52387.2021.9533927.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=5226&lang=
Версия для печати
Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 070-079 ]

Статья опубликована в выпуске журнала № 1 за 2026 год. [ на стр. 070-079 ]

Возможно, Вас заинтересуют следующие статьи схожих тематик:

Возможно, Вас заинтересуют следующие статьи схожих тематик: