Аннотация:
С появлением несколько лет назад больших типологических баз данных возникла проблема выбора математических средств извлечения из них знаний (в форме кластеризации языков). Обычно для этих целей используются филогенетические алгоритмы, основанные на метрике Хемминга. Однако в кластерном анализе было показано, что некоторые другие метрики дают лучшие результаты. В статье введены две новые метрики и на большом числе реальных лингвистических примерах продемонстрировано, что филогенетические алгоритмы, основанные на этих метриках, дают лучшие результаты.
Ключевые слова:лингвистические базы данных, метрики, филогенетические алгоритмы.