Аннотация:
Рассматриваются лингвистические и алгоритмические аспекты проблемы извлечения знаний из текстов среды Интернет. Предлагаются средства, повышающие качество работы лингвистического процессора и учитывающие особенности документов в Интернете, в том числе, наличие большого количества англоязычных текстов. С этой целью в блок морфологического анализа введены дополнительные средства для выявления формальных и содержательных признаков английских слов. Расширены возможности предметных каталогов в плане выявления семантических категорий английских слов. Разработаны контекстные правила для синтактико-семантического анализа типовых форм английского языка. Предлагаются средства настройки блоков морфологического и синтактико-семантического анализа (через предметные каталоги) на язык входного текста.