А. В. Огальцов, О. Ю. Бахтеев, “Автоматическое извлечение метаданных из научных PDF-документов”, Информ. и её примен., 2018, том 12, выпуск 2,страницы 75

Эта публикация цитируется в 2 статьях

Автоматическое извлечение метаданных из научных PDF-документов

А. В. Огальцов^ab, О. Ю. Бахтеев^cb

^a Высшая школа экономики
^b ЗАО «Антиплагиат»
^c Московский физико-технический институт

Аннотация: Исследуется извлечение метаданных документа. Рассматриваются научные PDF-документы на русском языке. Особенностью формата PDF является разнообразие расположения текста на страницах документа. Это создает трудности для автоматического извлечения метаданных. Предложенный метод извлечения метаданных основан на рассмотрении текстовых блоков, полученных при помощи PDF-парсера, как объектов в задаче машинного обучения. Признаковое пространство содержит не только текстовые признаки, но и признаки, связанные с форматированием и расположением блока, которые получены из PDF-парсера. В работе измерено качество классификации предложенного алгоритма и проведено сравнение с базовым алгоритмом.

Ключевые слова: извлечение метаданных; обработка естественного языка; признаки форматирования; извлечение информации; метаописания.

Поступила в редакцию: 20.12.2017

DOI: 10.14357/19922264180211