Аннотация:
В статье представлен алгоритм маркирования электронных текстовых документов, основанный на внедрении идентификационной информации за счет изменения величин интервалов между словами. Разработка алгоритма направлена на повышение защищенности документов, содержащих текстовую информацию, от утечки по каналу, обусловленному передачей напечатанных на бумаге документов, а также соответствующих электронных копий бумажных документов. В процессе разработки алгоритма маркирования проведен анализ существующих средств защиты бумажных документов от утечки, рассмотрены практические решения в области защиты текстовых документов, определены их достоинства и недостатки. В качестве подхода к внедрению информации выступает алгоритм изменения величин интервалов между словами. Изменение величин интервалов между словами основано на встраивании удлиненного пробела в выделенные области строк текста и корректировке остальных значений величин интервалов между словами на рассчитанные значения. Для обеспечения инвариантности встроенного маркера к печати и последующему сканированию или фотографированию разработаны алгоритмы формирования областей встраивания и матрицы встраивания. В процессе формирования областей встраивания из строк текста исходного документа формируются массивы пробелов, состоящие из пар: по четыре и два пробела или по два пробела. Посредством встраиваемой информации в сформированных областях определятся места встраивания удлиненного пробела. В процессе встраивания маркера формируется матрица встраивания, содержащая значения смещения слов, и осуществляется ее встраивание в исходный документ при печати.
Применение разработанного алгоритма маркирования позволяет внедрять в структуру текста
электронного документа маркер, инвариантный к преобразованию формата электронного документа в
бумажный посредством печати и обратно через сканирование или фотографирование. Представлены
особенности и ограничения разработанного алгоритма маркирования. Определены направления
дальнейших исследований.
Ключевые слова:защита от утечки информации, маркирование, распознавание образов, обработка изображений, текстовые документы.