Аннотация:
Описывается предложенная авторами настраиваемая схема кодирования символов переменным числом октетов (Adjustable Character Encoding, ACE), поддерживающая кодировку полного диапазона кодовых пунктов UCS (Universal Coded Character Set, ISO/IEC 10646) в виде последовательностей от одного до четырех октетов (8-битных кодирующих элементов). Основной целью разработки этой кодировки являлось увеличение, по сравнению с UTF-8 (Unicode Transformation Format, 8-bit), допустимого количества кодовых пунктов, кодируемых однооктетной последовательностью, что дает возможность более компактного представления текстов, написанных с использованием символов избранного национального алфавита, а также возможность сохранения при кодировании бинарного представления символов такого алфавита, совпадающим с их числовыми значениями в однобайтной таблице символов. Данная кодировка сохраняет такие свойства кодировки UTF-8, как отсутствие состояния (кодированное представление символа не зависит от значений предыдущих символов), самосинхронизация (ни одна из допустимых кодированных последовательностей не может присутствовать внутри другой, а также внутри любых нескольких смежных последовательностей, пересекая границу последовательностей) и возможность нахождения начала или конца последовательности, кодирующей символ, в любом месте кодированного текста.