История разработки PatchTST и ее назначение в прогнозировании
В последние годы сфера предсказания временных рядов заметно продвинулась, во многом благодаря применению архитектур, основанных на трансформерах.

Если ранее в этой области преобладали бустинговые алгоритмы, рекуррентные нейросети и традиционные статистические подходы, то теперь наблюдается существенный прогресс в плане точности и производительности нейросетевых моделей. Теперь patchtst стал востребованным вариантом. Разберемся с его особенностями.
История разработки PatchTST
Разработка PatchTST принадлежит исследовательской группе IBM Research, возглавляемой Юйци Ни, Намом Х. Нгуеном, Фанвади Синтонг и Джаянтом Калагнанамом. Данная работа была обнародована в 2023 году на конференции NeurIPS под заголовком «Временной ряд стоит 64 слов: Долгосрочное прогнозирование с помощью трансформеров». Это исследование стало кульминацией многолетних усилий команды IBM Research, направленных на адаптацию архитектуры трансформеров для целей прогнозирования временных рядов.
Разработка PatchTST была обусловлена рядом значительных недостатков, присущих существующим методам:
- Во-первых, традиционные трансформеры, такие как BERT и GPT, оптимизированы для обработки дискретных единиц информации, в то время как временные ряды характеризуются непрерывными числовыми значениями.
- Во-вторых, большинство современных решений для анализа временных рядов демонстрируют ограниченную способность к эффективному выявлению долгосрочных взаимосвязей, сохраняя при этом приемлемый уровень вычислительных затрат.
- В-третьих, значительное количество моделей сталкиваются с проблемой потери важной локальной информации при анализе протяженных последовательностей.
Исследовательская группа IBM предложила оригинальный подход к решению этих задач, позаимствовав принципы из области компьютерного зрения. Аналогично тому, как Vision Transformer разбивает изображение на фрагменты, PatchTST разделяет временной ряд на отрезки, каждый из которых интерпретируется как самостоятельный «токен» для трансформера.
Архитектура и новшества
В основе архитектуры PatchTST лежит ряд новаторских решений, существенно отличающих ее от классических методов прогнозирования временных рядов. Ключевой принцип состоит в разделении временного ряда на фрагменты (патчи) одинаковой продолжительности, которые впоследствии анализируются с помощью стандартной архитектуры Transformer.
Существенное сокращение размера входных данных для трансформера – это одно из главных достоинств данного метода. Вместо анализа L временных отрезков, система обрабатывает L/M фрагментов, что значительно снижает вычислительные затраты внимания с O(L²) до O((L/M)²). При обычных значениях M, варьирующихся от 16 до 64, это обеспечивает кратное, в десятки раз, увеличение эффективности.
Еще одним значительным нововведением явился подход независимости каналов. В отличие от множества многомерных моделей временных рядов, стремящихся к явному моделированию взаимосвязей между различными переменными, PatchTST рассматривает каждый канал как отдельную сущность. Данное решение, кажущееся на первый взгляд упрощенным, продемонстрировало на практике заметно превосходящие результаты!