RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2014, том 24, выпуск 4, страницы 124–134 (Mi ssi379)

Эта публикация цитируется в 1 статье

Настраиваемая схема кодирования символов переменным числом октетов — ACE

И. М. Адамович, Д. В. Земсков

Институт проблем информатики Российской академии наук

Аннотация: Описывается предложенная авторами настраиваемая схема кодирования символов переменным числом октетов (Adjustable Character Encoding, ACE), поддерживающая кодировку полного диапазона кодовых пунктов UCS (Universal Coded Character Set, ISO/IEC 10646) в виде последовательностей от одного до четырех октетов (8-битных кодирующих элементов). Основной целью разработки этой кодировки являлось увеличение, по сравнению с UTF-8 (Unicode Transformation Format, 8-bit), допустимого количества кодовых пунктов, кодируемых однооктетной последовательностью, что дает возможность более компактного представления текстов, написанных с использованием символов избранного национального алфавита, а также возможность сохранения при кодировании бинарного представления символов такого алфавита, совпадающим с их числовыми значениями в однобайтной таблице символов. Данная кодировка сохраняет такие свойства кодировки UTF-8, как отсутствие состояния (кодированное представление символа не зависит от значений предыдущих символов), самосинхронизация (ни одна из допустимых кодированных последовательностей не может присутствовать внутри другой, а также внутри любых нескольких смежных последовательностей, пересекая границу последовательностей) и возможность нахождения начала или конца последовательности, кодирующей символ, в любом месте кодированного текста.

Ключевые слова: информатика; схема символьного кодирования; UCS; локализация программ; UTF-8.

Поступила в редакцию: 05.05.2014

DOI: 10.14357/08696527140408



Реферативные базы данных:


© МИАН, 2024