RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и её применения // Архив

Информ. и её примен., 2018, том 12, выпуск 2, страницы 75–82 (Mi ia535)

Эта публикация цитируется в 2 статьях

Автоматическое извлечение метаданных из научных PDF-документов

А. В. Огальцовab, О. Ю. Бахтеевcb

a Высшая школа экономики
b ЗАО «Антиплагиат»
c Московский физико-технический институт

Аннотация: Исследуется извлечение метаданных документа. Рассматриваются научные PDF-документы на русском языке. Особенностью формата PDF является разнообразие расположения текста на страницах документа. Это создает трудности для автоматического извлечения метаданных. Предложенный метод извлечения метаданных основан на рассмотрении текстовых блоков, полученных при помощи PDF-парсера, как объектов в задаче машинного обучения. Признаковое пространство содержит не только текстовые признаки, но и признаки, связанные с форматированием и расположением блока, которые получены из PDF-парсера. В работе измерено качество классификации предложенного алгоритма и проведено сравнение с базовым алгоритмом.

Ключевые слова: извлечение метаданных; обработка естественного языка; признаки форматирования; извлечение информации; метаописания.

Поступила в редакцию: 20.12.2017

DOI: 10.14357/19922264180211



Реферативные базы данных:


© МИАН, 2024