LSEG: Protocolo segmentado para la interpretación de datos (LSEG: A Segment-Based Protocol for Data Interpretation)

Alexey A. Nekludoff

ORCID: 0009-0002-7724-5762

DOI: 10.5281/zenodo.17786342

02 diciembre 2025

Idioma original del artículo: Ruso

PDF
Canonical Version (Zenodo DOI):
Local Mirror (Astraverge.org):

Resumen

En el trabajo se presenta LSEG (Language Segment Encoding), un protocolo segmentado minimalista y extensible para la interpretación de flujos de datos. Cada segmento comienza con el byte 0x00, seguido de LANG_ID, que determina la elección del analizador (parser) para los bytes posteriores. El protocolo no limita la estructura interna de las tablas (alfabetos) y admite mecanismos arbitrarios de interpretación: desde tablas simples de un byte hasta decodificadores Unicode completos, formatos binarios, DSL (JSON, XML, EDF) y representaciones AST.

LSEG proporciona:

alta compacidad de los datos (ahorro de hasta un 50% sin compresión),

mejor compresibilidad (hasta un 70–80% con gzip/zstd),

autosincronización del flujo,

separación clara entre la estructura y el mecanismo de interpretación.

Se recomienda обозначать los archivos que utilizan este protocolo con la extensión.lseg, y el tipo MIME correspondiente: application/lseg.

La versión completa del artículo está disponible en: https://astraverge.org/ru/p/10038 (en Ruso).