Аннотация:
Данная работа посвящена решению практической задачи восстановления данных по распространению языков на региональном уровне на примере Китайской Народной Республики.Необходимость получения таких данных связана с задачей вычисления индексов лингвистического разнообразия, которые, в свою очередь, активно используются при эмпирическом анализе и прогнозе факторов социально-экономического развития, а также могут служить индикаторами потенциальных конфликтов на рассматриваемых территориях. В качестве исходной информации мы используем сведения из базы данных «Этнолог» (Ethnologue), дополняя их общедоступными данными переписей населения. Рассматриваемые нами данные содержат по каждому языку(а) оценку количества жителей страны, считающих этот язык родным, и (б) индикаторы наличия таких жителей в каждой из провинций КНР. Наша задача - для всех пар «язык-провинция» оценить количество жителей провинции, считающих этот язык родным. Она сводится к решению недоопределенной системы алгебраических уравнений. Специфика данных Ethnologue заключается в том, что, в силу большой трудоемкости и стоимости сбора таких данных, а также неполноты сведений по соответствующему разделу в переписях населения, имеющаяся информация по отдельным языкам в различных провинциях представлена за различные периоды времени. Одновременное использование таких данных приводит к тому, что возникающая система уравнений имеет неточно определенную правую часть, поэтому мы строим приближенное решение, характеризуемое минимальной невязкой. Учитывая неоднородность исходных данных(некоторые из языков оказываются на порядки менее распространенными), мы переходим к использованию взвешенной невязки, определяя в каждом уравнении весовые коэффициенты как величины, обратно пропорциональные правой части. Такой способ формирования невязки позволяет восстановить искомые переменные. Более 92 % переменных оказываются устойчивыми к изменениям правой части при вероятностном моделировании ошибок записей в исходных данных.
Ключевые слова:использование языков в регионах, индексы неоднородности, восстановление неполных данных.
УДК:
330.4, 51-77
Поступила в редакцию: 27.06.2016 Исправленный вариант: 28.07.2016 Принята в печать: 29.07.2016