Аннотация:
Рассматривается последовательность этапов статистической обработки текстовой информации, начиная с конкретных информационных объектов (КИО) баз данных (БД) и заканчивая значениями числовых характеристик множеств этих объектов. Например, если в БД хранятся описания полнотекстовых научных статей, то они считаются КИО. При соответствующем наполнении такой БД многоэтапный процесс их обработки позволяет определить значения числовых характеристик публикационной активности исследователя, научного подразделения или научной организации в целом. Такие процессы начинаются с обработки КИО и завершаются вычислением значений характеристик множеств этих объектов. На промежуточных этапах обработки могут формироваться таблицы и другие вербально-числовые объекты. Если этапы статистической обработки спроектированы как обратимые и в БД реализована функция верификации значений числовых характеристик, то процесс их проверки начинается со значений характеристик и завершается доступом к КИО, которые были использованы для вычисления этих значений. Предлагается формализованное описание этапов статистической обработки текстовой информации в БД. Такую ее трансформацию в числовые значения предлагается назвать информационно-математической (ИМ-трансформация). Она сочетает обработку КИО, формирование вербально-числовых объектов и математические вычисления значений числовых характеристик. Такая трансформация текстовой информации может на отдельных этапах включать математические преобразования, но в целом она к ним не сводится. Цель статьи — предложить принципы формализованного описания ИМ-трансформации текстов в БД. В качестве ее иллюстрации рассмотрен пример формализации процесса определения числа вариантов перевода коннекторов, выражающих внутритекстовые отношения между текстовыми фрагментами в надкорпусной БД (НБД) коннекторов, созданной в ФИЦ ИУ РАН.
Ключевые слова:информационно-математическая трансформация, текстовая информация, статистическая обработка текстовой информации, надкорпусная база данных.