Нейронные машины путей (NPM): единая концепция интерпретируемости на основе траекторий, отладки внутренних состояний и каузальных what-if вмешательств. Технический отчёт / препринт, 2025
ORCID: 0009-0002-7724-5762
05 декабря 2025
Оригинальный язык статьи: Английский
Аннотация
Нейронные сети демонстрируют выдающиеся результаты в различных областях, однако их внутренняя вычислительная работа остаётся в значительной степени непрозрачной. Во время инференса активации эволюционируют как последовательность скрытых состояний, динамика которых в конечном итоге определяет выход модели. Традиционные методы интерпретируемости фокусируются на соотношениях вход–выход или атрибуциях на основе градиентов и дают ограниченное понимание самого внутреннего вычислительного процесса.
В этом отчёте представлена Neural Path Machine (NPM) — фреймворк, делающий нейронные вычисления наблюдаемыми на уровне внутренних траекторий. NPM записывает пути активаций, выявляет нестабильные или влиятельные переходы и обеспечивает каузальные what-if вмешательства путём модификации активаций во время выполнения. Эти возможности превращают нейронную сеть из чёрного ящика в прозрачную дискретную динамическую систему, внутренние состояния которой можно инспектировать, изменять и систематически отлаживать.
Раскрывая структуру вычислительных путей, NPM предоставляет принципиальную основу для трассировки отказов модели, анализа чувствительности и робастности, а также выполнения целевых исправлений модели. Перспектива, основанная на траекториях, также предполагает новые возможности обучения, работающие с внутренними переходами, а не исключительно с ошибками на выходе; эти расширения разработаны в отдельном сопутствующем отчёте.
В целом NPM предлагает согласованную и практичную методологию для изучения и контроля внутреннего поведения нейронных сетей, объединяя интерпретируемость, диагностику и динамический анализ в рамках единой концепции.