Ассоциативные портреты предметной области — инструмент автоматизированного построения систем big data для извлечения знаний: теория, методика, визуализация, возможное применение
Аннотация:
Представлена методика создания систем извлечения знаний, основанная на подходе, главным инструментом которого является автоматизированное формирование ассоциативного портрета предметной области (АППО) и построение семантического контекстного пространства (СКП). Идеология АППО базируется на дистрибутивной гипотезе, утверждающей, что семантически близкие (или связанные) лексемы имеют похожий контекст и, наоборот, при похожем контексте лексемы семантически близки. В применяемой модели используется расширенная гипотеза, включающая исследование сходства и различия в контекстах не только отдельных лексем, но и произвольных многолексемных фрагментов — значимых словосочетаний (ЗС). Приведены примеры реализованных проектов для различных предметных областей (ПО).
Ключевые слова:семантическое моделирование; ассоциативные связи; математическая статистика; дистрибутивная семантика; big data; автоматизированные системы извлечения знаний; электронные корпуса ЕЯ-текстов; семантический поиск; интеллектуальные интернет-технологии.