LSEG: Protocolo segmentado para la interpretación de datos (LSEG: A Segment-Based Protocol for Data Interpretation)
ORCID: 0009-0002-7724-5762
02 diciembre 2025
Idioma original del artículo: Ruso
Resumen
En el trabajo se presenta LSEG (Language Segment Encoding), un protocolo segmentado minimalista y extensible para la interpretación de flujos de datos. Cada segmento comienza con el byte 0x00, seguido de LANG_ID, que determina la elección del analizador (parser) para los bytes posteriores. El protocolo no limita la estructura interna de las tablas (alfabetos) y admite mecanismos arbitrarios de interpretación: desde tablas simples de un byte hasta decodificadores Unicode completos, formatos binarios, DSL (JSON, XML, EDF) y representaciones AST.
LSEG proporciona:
alta compacidad de los datos (ahorro de hasta un 50% sin compresión),
mejor compresibilidad (hasta un 70–80% con gzip/zstd),
autosincronización del flujo,
separación clara entre la estructura y el mecanismo de interpretación.
Se recomienda обозначать los archivos que utilizan este protocolo con la extensión.lseg, y el tipo MIME correspondiente: application/lseg.