Нейронные машины путей (NPM): единая концепция интерпретируемости на основе траекторий, отладки внутренних состояний и каузальных what-if вмешательств. Технический отчёт / препринт, 2025

Алексей Алексеевич Неклюдов

doi:10.5281/zenodo.17833588

Нейронные машины путей (NPM): единая концепция интерпретируемости на основе траекторий, отладки внутренних состояний и каузальных what-if вмешательств. Технический отчёт / препринт, 2025

Алексей Алексеевич Неклюдов

ORCID: 0009-0002-7724-5762

DOI: 10.5281/zenodo.17833588

05 декабря 2025

Оригинальный язык статьи: Английский

PDF

Canonical Version (Zenodo DOI):

Открыть PDF

Скачать PDF

Local Mirror (Astraverge.org):

Открыть PDF

Скачать PDF

Аннотация

Нейронные сети демонстрируют выдающиеся результаты в различных областях, однако их внутренняя вычислительная работа остаётся в значительной степени непрозрачной. Во время инференса активации эволюционируют как последовательность скрытых состояний, динамика которых в конечном итоге определяет выход модели. Традиционные методы интерпретируемости фокусируются на соотношениях вход–выход или атрибуциях на основе градиентов и дают ограниченное понимание самого внутреннего вычислительного процесса.

В этом отчёте представлена Neural Path Machine (NPM) — фреймворк, делающий нейронные вычисления наблюдаемыми на уровне внутренних траекторий. NPM записывает пути активаций, выявляет нестабильные или влиятельные переходы и обеспечивает каузальные what-if вмешательства путём модификации активаций во время выполнения. Эти возможности превращают нейронную сеть из чёрного ящика в прозрачную дискретную динамическую систему, внутренние состояния которой можно инспектировать, изменять и систематически отлаживать.

Раскрывая структуру вычислительных путей, NPM предоставляет принципиальную основу для трассировки отказов модели, анализа чувствительности и робастности, а также выполнения целевых исправлений модели. Перспектива, основанная на траекториях, также предполагает новые возможности обучения, работающие с внутренними переходами, а не исключительно с ошибками на выходе; эти расширения разработаны в отдельном сопутствующем отчёте.

В целом NPM предлагает согласованную и практичную методологию для изучения и контроля внутреннего поведения нейронных сетей, объединяя интерпретируемость, диагностику и динамический анализ в рамках единой концепции.

Полная версия статьи доступна по ссылке: https://astraverge.org/en/p/10040 (на языке Английский).