Методы анализа структуры взаимосвязей социально-экономических показателей тема диссертации по экономике, полный текст автореферата
- Ученая степень
- кандидата экономических наук
- Автор
- Губуров, Эльбрус Вячеславович
- Место защиты
- Москва
- Год
- 2006
- Шифр ВАК РФ
- 08.00.13
Автореферат диссертации по теме "Методы анализа структуры взаимосвязей социально-экономических показателей"
На правах рукописи
Губуров Эльбрус Вячеславович
МЕТОДЫ АНАЛИЗА СТРУКТУРЫ ВЗАИМОСВЯЗЕЙ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ПОКАЗАТЕЛЕЙ (НА ПРИМЕРЕ МЕЖСТРАНОВЫХ И МЕЖРЕГИОНАЛЬНЫХ ИССЛЕДОВАНИЙ)
Специальность 08.00.13 - «Математические и инструментальные методы экономики»
Автореферат диссертации на соискание ученой степени кандидата экономических наук
Москва 2006
Работа выполнена в лаборатории вероятностно-статистических методов и моделей в экономике Центрального экономико-математического института РАН
Научный руководитель: доктор физико-математических наук, профессор С.А Айвазян
Официальные оппоненты: доктор экономических наук Ю.Н. Гаврилец
доктор экономических наук М.И. Лугачев
Ведущая организация: Государственный университет управления
Защита состоится_2006 г. в_часов на заседании Диссертационного совета
Д 002.013.01 Центрального экономико-математического института РАН по адресу: 117418, Москва, Нахимовский проспект 47, ауд. 520.
С диссертацией можно ознакомиться в библиотеке ЦЭМИ РАН.
Автореферат разослан _2006 г.
Ученый секретарь Диссертационного совета, к.э.н.
А. И. Ставчиков
Общая характеристика работы
Актуальность темы. На определенных этапах социально-экономических исследований, оперирующих большим количеством статистических показателей, как правило, возникает необходимость снижения количества обрабатываемой информации, ее структурного анализа, классификации сообразно целям исследования. Чаще всего решение этой проблемы производится экспертом-исследователем на основании содержательных рассуждений о природе изучаемых объектов и, очевидно, при большом количестве признаков связано с серьезными трудностями. В связи с этим становится актуальным применение математического инструментария для поиска решения описанной задачи.
Анализ литературы по обозначенной тематике показывает, что исследователями в разные годы проделана большая работа по разработке методов решения проблемы анализа и описания структуры статистических связей, существующих между исследуемыми статистическими показателями. Но на сегодняшний день указанные методы не получили широкого практического применения по причине очень малого числа работ, посвященного их сравнительному анализу, а также вследствие отсутствия программно-алгоритмической реализации, позволяющей автоматизировать их применение на практике. В силу высказанных соображений сравнительный анализ эффективности указанных методов, их программно-алгоритмическая реализация и практическое применение представляются весьма актуальными.
Целью диссертационной работы является создание программно-алгоритмической системы анализа структуры взаимосвязей между статистическими показателями и использование этой системы в сравнительном анализе эффективности рассматриваемых методов, а также - в межстрановом и межрегиональном анализе синтетических категорий качества жизни населения.
Достижение поставленной цели вызвано необходимость решения следующих основных задач:
• Аналитический обзор существующих методов выявления структуры взаимосвязей между компонентами многомерного случайного признака.
• Разработка необходимого программного обеспечения, т.е. создание программного комплекса, позволяющего осуществлять вычислительную реализацию
каждого из рассматриваемых методов.
• Сравнительный анализ эффективности рассматриваемых методов с помощью проведения вычислительных экспериментов на модельных и реальных данных.
• Структуризация и анализ переменных, характеризующих уровень материального благосостояния в межрегиональном исследовании субъектов РФ и качество жизни населения в межстрановых сопоставлениях.
Информационной базой исследования послужили монографии, статьи, диссертации, посвященные проблематике данной работы, а также статистические данные Росстата и ежегодного швейцарского сборника The World Competitiveness Yearbook (Edition IMD-lntemational)
Научная новизна н основные результаты предлагаемой рабшы:
• Произведен сравнительный анализ эффективности следующих методов структурного анализа взаимосвязей между компонентами многомерного случайного вектора: ^-коэффициентов, экстремальной группировки признаков, Лумельского, Чоу, Демпстера, а также методов, основанных на теоретико-информационном подходе. Создано программно-алгоритмическое средство, в рамках которого реализованы вышеперечисленные методы. Последнее обстоятельство дает исследователям возможность практического применения методов, которые, на сегодняшний день, отсутствуют в распространенных статистических пакетах.
• На базе методики построения синтетических показателей (интегральных индикаторов) качества жизни населения, разработанной в лаборатории вероятностно-статистических методов и моделей в экономике ЦЭМИ РАН, созданное программное средство использовано для построения и эмпирического анализа структуры связей, существующих между указанными индикаторами.
Практическая значимость заключается в возможности применения методов анализа структуры взаимосвязей между случайными переменными в различных исследованиях (в основном, социально-экономического характера), требующих обработки и анализа большого количества исходной статистической информации.
Апробация работы. Выступление с докладом на сессии VI-й (юбилейной) Международной школы-семинара «Многомерный статистический анализ и эконометрика», проводившейся в 2004 г. в Республике Армения. Основные результаты диссертационной работы получили практическое применение в исследовании, посвященном разработке
интегрального показателя, отражающего основные тенденции динамики качества жизни населения Самарской области, проведенном в ЦЭМИ РАН в 2005 г.
Публикации. По теме диссертации опубликовано 3 научных работы.
Структура работы. Диссертация состоит из введения, трех глав, заключения, списка использованной литературы из 40 наименований, 3 приложений. Содержание диссертации изложено на 145 страницах, включая 60 таблиц, 7 рисунков.
I. Общая характеристика работы
Во введении обоснован выбор темы, ее актуальность, сформулированы цели и задачи, характеризуется новизна и практическая значимость работы.
В первой главе дается аналитический обзор методов анализа структуры взаимосвязей между случайными переменными, производится их классификация.
Вторая глава посвящена программно-алгоритмической реализации методов: обоснован выбор инструментальных средств, описаны наиболее важные технические моменты, рассмотрена задача генерирования многомерной стандартно нормально распределенной псевдослучайной величины с заданной ковариационной матрицей блочно-диагональной структуры.
В третьей главе производятся вычислительные эксперименты на модельных данных с целью сравнительно анализа эффективности рассматриваемых методов; указанные методы применяются в задаче построения интегральных индикаторов качества жизни населения субъектов Российской Федерации и стран мира.
II. Основные положения диссертационной работы, выносимые на защиту '
1. Классификация методов аналнза структуры взаимосвязей между социально-экономическими показателями.
Классификация исследуемых методов представляет собой их разбиение на две группы, которое обусловлено различиями решаемых с помощью этих методов задач. Первую группу представляют методы группировки признаков (переменных), позволяющие разбивать набор статистических показателей на взаимно непересекающиеся группы таким образом, чтобы переменные, принадлежащие одной группе, были тесно коррелированы
между собой, а переменные различных групп обнаруживали бы слабую коррелированность. К методам группировки относятся:
• метод /¡-коэффициентов
• два алгоритма экстремальной группировки признаков
• алгоритм Лумельского
• две версии метода корреляционных плеяд
Вторую группу представляют методы выявления ненаправленного графа структуры зависимостей между случайными переменными, которые используют язык теории графов, но опираются при этом на серьезную математическую теорию. Вершины графа структуры соответствуют переменным, а ребра - связям между ними. Рассматриваются следующие методы выявления графа структуры:
• метод Чоу,
• метод Демпстера^
• методы, основанные на теоретико-информационном подходе .
2. Программно-алгоритмическая реализация методов анализа структуры взаимосвязей между случайными переменными.
Для создания программного комплекса (приложения), позволяющего исследователю осуществлять вычислительную реализацию рассматриваемых методов, использовалась среда разработки Borland Delphi, в основе которой лежит распространенный язык программирования Object Pascal.
Созданное приложение обладает удобным современным интерфейсом и предоставляет возможности полноценного ввода, хранения, обработки статистических данных, гибкого экспорта полученных результатов в другие приложения, а также ряд вспомогательных инструментов. Среди этих инструментов: унификация шкал измерений; основные операции матричной алгебры (вычисление определителей, обратных матриц, собственных значений); генерирование нормально распределенных псевдослучайных величин с заданными параметрами; определение размерности многокритериального пространства (многокритериальная классификация в условиях отсутствия обучения); вычисление первых главных компонент, включая модифицированные; определение удельной значимости каждой из построенных интегральных характеристик (в случае разбиения исходного набора признаков на группы); взвешенная многокритериальная
процедура индивидуального рейтингования наблюдений в пространстве модифицированных первых главных компонент; ранжировка наблюдений по значению вычисленного интегрального индикатора, а также по экспертному значению индикатора (если экспертная оценка существует и известна); вычисление ранговых коэффициентов корреляции Спирмена.
3. Сравнительный анализ эффективности методов посредством проведения вычислительных экспериментов.
Анализ эффективности методов исследования структуры взаимосвязей между компонентами многомерного случайного вектора проводился посредством вычислительных экспериментов на модельных данных по схеме Монте-Карло. Для методов группировки признаков и методов выявления графа структуры зависимостей эксперименты производились раздельно.
Выводы, сделанные на основании результатов вычислительных экспериментов для первой группы методов, отображены в таблице 1. В столбцах с третьего по пятый приведены ранговые оценки соответствующих характеристик. Значение 1 соответствует наилучшему значению соответствующей характеристики, а 4 - наихудшему. Под точностью разбиения понимается соответствие полученного результата моделируемым данным и устойчивость к случайному шуму.
Из таблицы 1 можно сделать вывод, что алгоритм Лумельского является лучшим среди четырех рассмотренных с точки зрения решения задачи разбиения на заданное число групп. Кроме того, важным преимуществом указанного алгоритма является возможность группировки не только на основании корреляционной матрицы, но и на основании квадратной симметричной матрицы связи произвольной природы. В свою очередь, метод В-коэффициентов весьма полезен тем, что может помочь исследователю в определении оптимального числа групп разбиения и позволяет, варьируя свободные параметры, «нащупать» наиболее сильные связи между переменными. В этом смысле метод В-коэффицнентов является уникальным в рассмотренной четверке алгоритмов, и, безусловно, заслуживает серьезного внимания.
В силу вышесказанного, естественным выглядит предложение о совместном использовании алгоритмов 5-коэффициентов и Лумельского.
Таблица 1.
Сводная таблица эффективности алгоритмов группировки признаков
Алгоритм Входные данные Простота программно-алгоритмической реализации (ранг) Скорость сходимости (ранг) Точность разбиения (ранг) Замечания
Метод 0-коэффициентов Корреляционная матрица. Два свободных параметра алгоритма 2 2 2 Необходимость многократного выполнения с различными значениями параметров
Первый алгоритм зкетремальиой группировки Матрица наблюдений. Корреляционная матрица. Начальное разбиение 4 4 3-4 Необходимость многократного выполнения с различными начальными разбиениями, либо использования хорошего приближения к оптимальному разбиению в качестве начального. Необходимость вычисления максимальных собственных значений корреляционных матриц групп.
Второй алгоритм экстремальной группировки Матрица наблюдений. Корреляционная матрица. Начальное разбиение 3 3 3-4 Необходимость многократного выполнения с различными начальными разбиениями, либо использования хорошего приближения к оптимальному разбиению в качестве начального
Алгоритм Лумельского Квадратная матрица связи. Число групп 1 1 1 -
Результаты анализа эффективности методов выявления графа структуры зависимостей изображены в таблице 2. Смысл значений столбцов с третьего по пятый аналогичен смыслу соответствующих столбцов таблицы 1. На основании последней таблицы делаются следующие выводы. С точки зрения скорости сходимости наиболее предпочтительным среди трех алгоритмов выглядит метод Чоу, представляется целесообразным использовать его для матриц большой размерности. Хорошие результаты дает также алгоритм приближенной оценки структуры. Алгоритм Демпстера наиболее требователен к исходным данным, представляется целесообразным применять его в тех случаях, когда требуется проверка графа структуры, построенного с помощью других алгоритмов.
Таблица 2.
Сводная таблица эффективности алгоритмов выявления графа структуры.
Алгоритм Входные данные Простота программно-алгоритмической реализации (ранг) Скорость сходимости (ранг) Точность оценивания (ранг) Замечания
Алгоритм Чоу Корреляционная матрица 1 1 3 Требуется нормальность распределения многомерной случайной величины
Алгоритм Демпстера Ковариационная ¡корреляционная) матрица. Число наблюдений 3 3 1 Применим лишь в случае нормального распределения с нулевым вектором средних значений. Необходима хорошая обусловленность ковариационной (корреляционной) матрицы.
Алгоритм приближенной оценки структуры, основанный на теоретико-информационном подходе Матрица наблюдений 2 2 2 В данной реализации применим лишь в случае нормального распределения. Требует знания аналитического выражения для энтропии и информации.
4. Применение алгоритмов группировки признаков и выявления структуры связей в исследованиях качества жизнн населения субъектов Российской Федерации.
Исследования, посвященные построению интегральньГх индикаторов качества жизни (ИИКЖ) населения территорий (стран мира, регионов Российской Федерации, муниципальных образований), имеют важнейшее социально-экономическое значение, в силу следующих соображений. Сравнительно небольшое число синтетических показателей, характеризующих качество жизни населения, может использоваться в качестве индикаторов проводимой государственной политики, поскольку указанные интегральные характеристики позволяют получить комплексную оценку состояния той или иной территории, выявить диспропорции в ее развитии, определить основные тенденции. С другой стороны, интегральные индикаторы могут выступать как инструменты принятия управленческих решений при выборе приоритетов деятельности органов управления.
Процесс построения интегральных индикаторов по методике, разработанной в ЦЭМИ РАН, состоит из нескольких этапов. Коротко опишем эти этапы на уровне идеи, чтобы дать представление о месте и значении алгоритмов группировки признаков в обшей схеме исследования.
Рассматриваются пять синтетических категорий развития регионов, а именно:
• уровень благосостояния населения,
• качество населения,
• качество социальной сферы,
• состояние экологического бассейна,
• инвестиционная привлекательность.
Для каждой категории экспертным путем и с помощью математико-статистических методов формируется набор статистических показателей (частных критериев) порядка 8-15 переменных, которые наилучшим образом характеризуют соответс гвующую категорию. Значения отобранных переменных приводятся к единой Л^баллыюй безразмерной шкапе (унифицируются) таким образом, чтобы нулевое значение соответствовало наихудшему значению показателя, а Л' - наилучшему.
Далее для каждой категории определяется число интегральных индикаторов, необходимых для ее характеристики (аппроксимации значений всех частных критериев с приемлемой точностью). На практике часты ситуации, когда требуется построение более чем одного интегрального индикатора для синтетической категории. В этом случае набор соответствующих частных критериев необходимо разбить на непересекающиеся блоки тесно коррелированных переменных таким образом, чтобы каждый блок характеризовал какой-то один аспект анализируемой синтетической категории. По каждому такому блоку строится интегральный индикатор, представляющий собой модифицированную первую главную компоненту, вычисленную по переменным блока.
В описанной схеме построения интегральных индикаторов необходимо применение методов группировки признаков для разбиения на блоки наборов переменных, характеризующих синтетические категории. Важность данного этапа заключается в том, что на основании переменных каждого блока в дальнейшем строятся интегральные индикаторы (линейные свертки). Следовательно, от способа разбиения показателей на группы зависит и рейтинг региона по соответствующей синтетической категории.
Кроме того, интегральные индикаторы первых трех синтетических категорий фигурируют в наборе переменных-признаков для категории «инвестиционная привлекательность». (Из содержательных соображений в набор частных критериев для последней синтетической категории не включены интегральные характеристики категории «качество экологической ниши», так как не оказывают существенного влияния на
инвестиционную привлекательность региона.) Очевидно, что содержательное построение блоков зачастую может быть неоднозначным и допускать различную трактовку в зависимости от целей исследования. В силу вышесказанного, на данном шаге исследования применяются алгоритмы группировки признаков и на основании полученных результатов и содержательных соображений формируются окончательные блоки.
Ниже в таблицах 3-12 приведены результаты группировки на примере данных за 2003 г. для каждой из пяти синтетических категорий. В таблицах 3, 5, 7, 9, 11 отражены результаты группировки с помощью алгоритмов; в таблицах 4, 6, 8, 10, 12 -соответствующие итоговые разбиения, построенные на основании содержательного анализа с учетом результатов применения алгоритмов группировки. Нумерация переменных в таблицах 3, 5, 7, 9, 11 соответствует их индексам в соответствующих таблицах итоговых разбиений.
Применение метода В-коэффициентов носит вспомогательный характер и может использоваться, помимо построения групп, для определения их числа. Значения параметров алгоритма варьируются исследователем, зачастую приводя к различным разбиениям. В результате выбираются такие значения параметров, которые дают приемлемое, с точки зрения содержательного смысла, разбиение на блоки. Выбранные значения параметров алгоритма приведены в заголовках соответствующих столбцов таблиц 3,5, 7,9,11.
Таблица 3
Разбиение на блоки. Уровень благосостояния
Алгоритм Лумельского
Первый алгоритм экстремально! группировки
Второй алгоритм |й|экстремальн0й группировки
Метод В-коэффициентов (150; 50)
1
2 3 6
7
10
~
5
8 9
1
2
3
4
5
7 10
6
8
9
1
2
3
4
5
7 10
6
8 9
1 2
3
4 7 10
В остальных алгоритмах группировки число групп задается заранее. Для обоих алгоритмов экстремальной группировки признаков была выявлена относительная неустойчивость по начальному разбиению, поэтому в качестве начального выбиралось разбиение по содержательному смыслу.
Прокомментируем результаты, полученные для каждой из пятя синтетических категорий.
Таблица 4
Итоговое разбиение. Уровень благосостояния
№
Показатель
Блок 1. Доходы, имущество
1 2
3
4 7 10
ВРП на душу населения с учетом покупательной способности
Покупательная способность среднедушевых денежных доходов по отношению к наборам прожиточного минимума
Доля численности населения с денежными доходами ниже прожиточного минимума (%) (доля бедных)
Индекс концентрации доходов в виде «коэффициента фондов» по 10%-м группам населения.
Обеспеченность населения собственными легковыми автомобилями (в расчете на 1000 населения)
Общий объем розничного товарооборота и платных услуг на душу населения (с учетом уровня покупательной способности)
Блок 2. Инфраструктура
Приходится общей площади жилищного фонда на одного жителя, кв. м.
Введено жилой площади на душу населения за год
Густота автодорог общего пользования с твердым покрытием (км/1000 км2 территории региона)
Доля жилищного фонда, размещенного в ветхих и аварийных строениях, %;
Или: % семей, состоящих на учете на получение жилья.
Для переменных категории «уровень благосостояния» следует отметить, что метод ^-коэффициентов дает разбиение на три блока, выделяя пятую переменную (средняя обеспеченность населения жильем) в отдельный блок. Эта же переменная относится к первому блоку алгоритмом Лумельского, и ко второму - обоими алгоритмами
экстремальной группировки. Данный факт указывает на возможность выделения пятой переменной в отдельный блок, если это соответствует цели исследования. В данном случае строилось разбиение на три блока с помощью алгоритма Лумельского и алгоритмов экстремальной группировки, чтобы принять окончательное решение, приведенное в таблице 4. Что касается содержимого первых двух блоков показателей из таблицы 3, то можно отметить, что все алгоритмы группировки дают устойчивое разбиение.
Для синтетической категории «качество населения» результаты применения алгоритмов группировки приведены в таблице 5. Здесь также можно выделить некоторые четкие группы, в частности группу переменных (3; 5; 6; 10), объединяющую близкие по содержательному смыслу показатели демографии и здоровья. Итоговое разбиение для данной синтетической категории отображено в таблице 6. В ней третий блок строился на основании содержательных соображений, так как алгоритмы группировки дали различные результаты.
Таблица 5
Разбиение на группы. Качество населения
Алгоритм Лумельского Первый алгоритм экстремальной группировки Второй алгоритм экстремальной группировки Метод В-коэффициентов (150; 75)
1 2 4 7 8 9 11 12 14 1 2 4 7 8 9 11 1 2 4 8 9 11 1 2 4 7 8 9 12 13 14
3 5 6 10 3 5 6 10 13 3 5 6 10 3 5 6 10
13 12 14 7 12 13 14 11
Таблица 6 Итоговое разбиение. Качество населения
№ Показатель
Блок 1. Демография и здоровье 1
1 Ожидаемая продолжительность жизни при рождении
2 Младенческая смертность
4 Смертность от инфекций и паразитарных заболеваний
7 Смертность от заболеваний органов дыхания
8 Смертность от заболеваний органов пищеварения
9 Смертность от травм и несчастных случаев
11 Врожденные аномалии (на 1 ООО населения)
Блок 2. Демография и здоровье 2
3 Коэффициент естественного прироста
5 Смертность от новообразований
6 Смертность от заболеваний сердечно-сосудистой системы
10 Число инвалидов (на 1000 населения)
Блок 3. Образование
12 Доля людей с высшим образованием от общего числа занятых в экономике (N35,,)
13 Оценка степени квалификации (ВРП / М„„)
14 Доля студентов среди молодежи
Таблица 7 соответствует блокам, полученным для категории «качество социальной сферы». Можно выделить четкие группы переменных (1; 12), (9; 13), (2; 3; 4; 5; 6; 7; 11). Также обращает на себя внимание восьмой показатель (растраты и хищения), который оказывается в различных блоках, либо выделяется в отдельную группу. Данное обстоятельство указывает на возможную примерно одинаковую связь рассматриваемой переменной со всеми остальными и может служить косвенным подтверждением мнения экспертов о том, что статистика по растратам и хищениям плохо отражает действительное положение вещей. В итоговом разбиении (табл. 8) данная переменная отнесена во второй блок из содержательных соображений. Аналогичное замечание можно сделать относительно десятой переменной (наркомания и токсикомания). В данном случае
официальная статистика охватывает только членов общества, состоящих на учете в соответствующих наркологических учреждениях. В результате значение этого важного показателя оказывается заведомо ниже реального числа наркоманов в регионе. На основании содержательного анализа десятая переменная отнесена к третьему блоку.
Таблица 7
Разбиение на группы. Качество социальной сферы
Алгоритм Лумельского Первый алгоритм экстремальной группировки Второй алгоритм экстремальной группировки Метод В-коэффициентов (150; 30)
1 8 12 1 • 12 1 8 12 1 12
2 3 4 5 6 7 10 11 2 3 4 5 6 7 8 11 2 3 4 5 6 7 11 2 3 4 5 6 7 11
9 13 9 10 13 9 10 13 9 13
8 10
с
Таблица 8
Итоговое разбиение. Качество социальной сферы
№ Показатель
Блок 1. Безработица и миграция
1 Уровень безработицы
12 Коэффициент миграционного прироста
Блок 2. Условия труда и преступность
2 Цоля работающих во вредных и опасных условиях
3 Число производственных травм на 1000 работающих
4 Убийства и покушения на них
5 Умышленное причинение тяжкого вреда здоровью
6 Изнасилования и покушения на них
7 Разбои, грабежи и квартирные кражи
8 Растраты и хищения
11 Самоубийства
Блок 3. Социальная патология
9 Алкоголизм
10 Наркомания и токсикомания
13 Число ВИЧ-инфицированных на 100 тыс. населения
Таблица 9
Разбиение на группы. Состояние экологического бассейна
Алгоритм Лумельского Первый алгоритм экстремальной группировки Второй алгоритм' экстремальной группировки Метод В-коэффициснтов (150; 70)
1 2 1 2 1 2 4 5
3 4 5 3 4 5 л 5 8 6 7
6 7 8 6 7 8 б 7 10 1 2 3 8
9 10 9 10 2 9 9 10
В таблице 9 приведены результаты разбиения с помощью ачгоритмов группировки переменных синтетической категории «состояние экологического бассейна». Результаты работы алгоритмов позволяют выделить некоторые выраженные блоки. Отдельно отметим первый алгоритм экстремальной группировки. Для него (как и для второго алгоритма экстремальной группировки) в качестве начального разбиения выбиралось содержательное разбиение, но ни одна переменная не была перенесена между группами. В случаях со случайным начальным разбиением были получены неустойчивые результаты. Обращает на себя внимание тот факт, что метод 5-коэффициентов относит пары переменных (4; 5) и (6;7) к разным блокам. Причем, это явление имеет место практически при любых разумных значениях параметров алгоритма. В данном случае решение об объединении в итоговом разбиении (табл. III. 15) этих пар в один блок принималось на содержательном уровне.
Таблица 10
Итоговое разбиение. Состояние экологического бассейна
St Показатель
Блок 1. Загрязненность воздуха, воды и почв
1 Общий объем сброшенных загрязненных сточных вод на единицу площади
2 Общий объем сброшенных загрязненных сточных вод на обьем воды, забранной в природных источниках
3 Суммарная масса выбросов в атмосферу от СИЗ на единиц} площади
4 logio отношения массы ТОП, хранящихся на объектах предприятий, на единицу площади (в конце года)
5 logio отношения массы ТОП, имеющихся в наличии в регионе, на единицу плошали (в конце года)
Блок 2. Состояние природных экосистем
6 (Snoc. - Snor.) / Эл.
7 Зц.мол. / Эл.
8 Общая площадь сгоревшего леса
Блок 3. Меры по сохранению и пооаержатио природных экосистем
9 (SpeK. - Sirnp.) / Sex (защита и охрана земель)
10 Доля площади, занимаемая ООПТ федерального уровня
Обозначения:
СИЗ - стационарные источники загрязнения ТОП - токсичные отходы производства Snoc. - площадь посаженного и посеянного леса Snor. - площадь погибшего леса Эл. - площадь, покрытая лесом
Sn мол - площадь молодняка, введенная в категорию ценных лесных насаждений
SpeK. - площадь рекультивированных земель (возвращенных в сельскохозяйственное
производство)
Snap - площадь нарушенных земель (выведенных из сельскохозяйственного производства) Sex - площадь сельскохозяйственных угодий ООПТ - особо охраняемые природные территории
Таблица 11
Разбиение на группы. Инвестиционная привлекательность
Алгоритм Лумельского Первый алгоритм экстремальной Второй алгоритм экстремальной Метод В-коэффицнентов (130; 30)
группировки группировки
1 1 1 1
2 3 3 3
3 5 5 5
5 7 7 7
7 14 8 8
S 14 14
13
14
4 4 4 4
6 6 6 6
9 8 9 9
11 9 11 11
11 12 12
12
10 2 2 2
12 10 13 10 13 13
10
Таблица 11 отображает результаты разбиения, полученные для категории «инвестиционная привлекательность». Можно четко выделить блоки переменных (I; 3; 5; 7; 14) и (4; 6; 9; 11). Третий блок формировался на основании содержательного анализа. Обращает внимание выделение методом В-коэффициентов десятой переменной (интегральный индикатор третьего блока категории «качество социальной сферы», характеризующего социальную патологию) в отдельную группу. Итоговое разбиение приводится в таблице 12.
Таблица 12
Итоговое разбнение. Инвестиционная привлекательность
№ Показатель
Блок 1
1 Доля экономически активного населения
3 У1_бл (Доходы, имущество)
5 ВРП на душу населения
7 Телефонизация
14 Доля экспорта в ВРП
Блок 2
4 У2_бл (Инфраструктура)
6 Густота автодорог общего пользования с твердым покрытием
(км/1 ООО км2 территории региона)
8 У1_соц (Безработица и миграция)
9 У2_соц (Условия труда и преступность)
11 У1_кн (Демография и здоровье 1)
12 У2_кн (Демография и здоровье 2)
Блок 3
2 Доля занятых в НИОКР
10 УЗ_соц (Социальная патология)
13 У3_кн (Образование)
Обозначения:
У1_бл - первый интегральный индикатор синтетической категории «уровень благосостояния»
У2_бл - второй интегральный индикатор синтетической категории «уровень благосостояния»
У1 _соц - первый интегральный индикатор синтетической категории «качество социальной сферы»
У2_соц - второй интегральный индикатор синтетической категории «качество социальной сферы»
УЗ_соц - третий интегральный индикатор синтетической категории «качество социальной сферы»
У1_кн- первый интегральный индикатор синтетической категории «качество населения» У2_кн - второй интегральный индикатор синтетической категории «качество населения» УЗ кн - третий интегральный индикатор синтетической категории «качество населения»
Описанная техника разбиения наборов статистических показателей на непересекающиеся блоки тесно коррелированных переменных довольно хорошо зарекомендовала себя в указанном исследовании и может иметь практическое применение не только в межрегиональных исследованиях качества и образа жизни населения, но и в различных социально-экономических исследованиях, требующих структурного анализа и разбиения наборов случайных переменных.
В качестве вспомогательного эмпирического инструмента для разбиения на блоки возможно использование алгоритмов построения графов струкгуры связей между переменными. Идея заключается в том, чтобы построить граф структуры одним из трех методов, реализованных в рамках созданной программно-алгоритмической системы, и разбить построенный граф на подграфы. В качестве примера построим методом Чоу граф-дерево для переменных категории «уровень благосостояния» (рис. 1). Нумерация вершин графа соответствует номерам переменных в таблице 4.
В порченном графе рассмотрим вершины, которые имеют больше одного ребра. Такими вершинами являются вершины 3, 10, 6 и 8. Попытаемся удалить одно из ребер, прилегающих к выбранным четыре,'и вершинам, так, чтобы граф, изображенный на рисунке 2, распался на два подграфа Рассмотрим ребра (3; 10), (10; 6) и (6; 8). Выберем из их числа ребро с наименьшим весом (абсолкмным значенном соответствующего коэффициента корреляции). 1.1кпм ребром является ребро (10; 6), его вес | г<, ю | = 0,367. Удаляя указанное ребро из [рлфл. ¡1 (пораженного на рисунке 1, получаем два подграфа, которые
соответствуют блокам показателей. Сравнивая полученные блоки с разбиением из таблицы 4, убеждаемся, что они совпадают.
Рис. 1. Граф с тру ктуры взаимосвязей переменных сиитетнчссхой категории «у ревень благосостояния», построенный методом Чоу.
Для получения блоков описанным способом, помимо метода Чоу, возможно применять и другие методы определения структуры многомерной случайной величины (метод Демпстера, метод вычисления полусумм коэффициентов информативности), если выполнены необходимые условия для их применения. Для матриц большой размерности построение графов структуры представляется нецелесообразным.
Следует отметить, что описанный прием разбиения на блоки является чисто эвристическим и может далеко не всегда давать приемлемый результат. Построение графа структуры зависимостей играет, скорее, вспомогательную роль в содержательных рассуждениях, поскольку позволяет выявить переменные (вершины), имеющие наибольшее количество связей (ребер) с другими признаками. Такие переменные могут интерпретироваться как играющие ключевую роль в анализируемом наборе признаков. Возвращаясь к рисунку I, можем заметить, что ключевыми являются переменные с номерами 3 (доля численности населения с денежными доходами ниже прожиточного минимума), 10 (общий объем розничного товарооборота и платных услуг на душу населения) и 8 (густота автодорог общего пользования с твердым покрытием) Если в графе структуры зависимостей присутствуют изолированные вершины, то они соответствуют переменным, слабо связанным с остальными. Такие переменные могут быть выделены в отдельные блоки.
> I
5. Применение алгоритмов группировки признаков и выявления структуры связей в межстрановых исследованиях качества жизни.
Методика межстрановых исследований качества жизни, основанная на построении интегральных индикаторов, повторяет изложение предыдущего раздела. Единственное отличие состоит в том, что наборы синтетических категорий и характеризующих их статистических показателей имеют иной вид по сравнению с межрегиональными исследованиями, так как в масштабах целой страны некоторые характеристики теряют свою информативность, оказываются усредненными, размытыми. В работе [Айвазян СЛ. Эмпирический анализ синтетических категорий качества жизни населения. - «Экономика и математические методы», т.39, №3, 2003 г.] предлагается рассматривать пять синтетических категорий развития стран:
• качество жизни (категория наивысшего уровня общности),
• уровень благосостояния населения,
• качество населения,
• качество развития социальной сферы,
• состояние экологического бассейна.
В качестве примера рассмотрим только первую синтетическую категорию (качество жизни). Соответствующий набор показателей приводится в таблице 13. Вычисления производятся на примере данных за 1997 г. по 42-м странам из статистического сборника [The World Competiti\eness Yearbook. Edition IMD-Intemational, Lausanne, Switzerland. (1997)].
Таблица 13
Набор частных критериев синтетической категории «Качество жизни»
Л- Показатель
1 ВВП на душу населения с учетом покупательной способности тыс. долл.
2 Производительность труда (ВВП на одного работающего), тыс. долл.
3 Личное конечное потребление на душу в год, тыс. долл.
4 Доля ВВП. создаваемого в сфере обслуживания, %
5 Доля неграмотных среди населения старше 15 лет
6 Уровень персональной и имущественной безопасности членов общества, экспертная оценка в баллах
7 Доля доходов 20% богатейшего населения, %
8 Уровень инфляции. %
9 Рехльный рост ВВП на душу населения, %
Применение к указанным переменным алгоритмов группировки дает результат, приведенный в таблице 14. Для первого алгоритма экстремальной группировки в качестве начального выбиралось разбиение, полученное алгоритмом Лумельского, так как для случайного начального разбиения были получены неустойчивые результаты. Второй алгоритм экстремальной группировки приводит к разбиению, приведенному в таблице 14, при различных случайных начальных разбиениях.
Таблица 14
Разбиение на группы. Качество жизни
Алгоритм Лумельского Первый алгоритм экстремальной группировки Второй алгоритм экстремальной группировки Метод В-коэффициентов (130; 20)
2 3 5 6 7 8 2 3 5 6 7 8 2 3 5 6 7 8 2 3 5 6 7 8
1 4 9 1 4 9 1 4 9 4 9
1
Метод В-коэффициентов выделяет первую переменную (ВВП на душу населения) в отдельную группу. Аналогичное явление имеет место при попытке разбить набор показателей на три группы алгоритмом Лумельского. Тем не менее, из содержательных соображений, указанная переменная в итоговом разбиении отнесена ко второму блоку
Итоговое разбиение приведено в таблице 15 Полученное разбиение на бюки вполне приемлемо с содержательной точки зрения, особенно близки по смыслу показатели второго блока переменных, объединяющего основные характеристики ватового внутреннего продукта. Переменные первого блока фактически явчяготся основными показателями социально-экономического развития страны.
Таблица 15
Итоговое разбиение. Качество жизни
№ Показатель
Блок 1. Основные характеристики социально-экономического
развития страны
2 Производительность труда (ВВП на одного работающего), тыс.
долл.
3 Личное конечное потребление на душу в год, тыс. долл.
5 Доля неграмотных среди населения старше 15 лет
б Уровень персональной и имущественной безопасности членов
общества, экспертная оценка в баллах
7 Доля доходов 20% богатейшего населения, %
8 Уровень инфляции, %
Блок 2. Основные характеристики ВВП
1 ВВП на душу населения с учетом покупательной способности
тыс. долл.
4 Доля ВВП, создаваемого в сфере обслуживания, %
9 Реальный рост ВВП на душу населения, %
Основные результаты работы и предложения
1. Проведена классификация методов исследования структуры взаимосвязей между социально-экономическими показателями и сравнительный анализ их эффективности. Выявлены сильные и слабые стороны методов, область их применимости, целесообразное гь применения в различных ситуациях.
2. Создан про! раммный продукт, позволяющий применять исследованные методы на практике, и предоставляющий исследователю необходимый инструментарий для построения и анализа интегральных индикаторов качества жизни населения территорий. Учитывая, что рассматриваемые алгоритмы, на сегодняшний день, не реализованы в известных статистических программных пакетах, их машинная реализация является важным результатом проделанной работы.
3. На основании практического применения методов группировки признаков сделаны выводы об их практической полезности и достаточной эффективности в социально-экономических исследованиях качества и образа жизни населения стран и регионов. Кроме тою, рассмотренные алгоритмы представляют собой полезный инструмент в исследованиях любого рода, требующих разбиения наборов случайных величин на непересекающиеся группы однородных тесно коррелированных переменных
4. Относительно методов построения графа структуры связей между компонентами многомерного случайного признака можно сделать вывод об их полезности при исследовании не очень больших наборов переменных (порядка 10-15 признаков), так как они предоставляют инструмент для выявления признаков, играющих центральную роль в анализируемом наборе, а также дают возможность визуального анализа структуры взаимосвязей между признаками. В случае анализа наборов переменных большей размерности ответ на вопрос о ценности методов выявления графа структуры связей могут дать только дальнейшие практические исследования.
5. Все рассмотренные в работе методы являются эвристическими, и представляют собой важный вспомогательный инструмент в рамках различных исследований. Назначение методов состоит не в том, чтобы найти единственно правильный ответ на поставленную задачу, а в том, чтобы помочь исследователю принять то или иное решение, сообразно целям исследования.
6. Реализовано применение рассмотренных в работе методов в актуальных исследованиях качества и образа жизни населения При этом пол\чеиы хорошие
результаты, допускающие содержательную экономическую трактовку в большинстве случаев.
7. Исходя из сделанных выше выводов, предлагается применение созданного программно-алгоритмического средства в различных исследованиях социально-экономического характера. Это сократит время и усилия, затрачиваемые исследователями на решение проблемы описания и структурного анализа статистических показателей.
Список работ, опубликованных по теме диссертации.
1. Анализ структуры зависимостей компонент многомерного признака: алгоритмы, программная реализация, примеры применения к эмпирическому анализу качества жизни населения субъектов Российской Федерации. В сб.: Труды У1-й (юбилейной) Международной школы-семинара «Многомерный статистический анализ и эконометрика». - М.: ЦЭМИ РАН, 2004. - с. 71 -72 (0,1 п. л.)
2. Разработка и анализ интегральных индикаторов качества жизни населения. (В соавт.) - М.: ЦЭМИ РАН, 2005. - 4,9 п.л. (Лично автору принадлежит 0,8 п. л.)
3. Методы анализа структуры взаимосвязей социально-экономических показателей (на примере межстрановых и межрегиональных исследований). Препринт № )УР/2006/198. -М.: ЦЭМИ РАН, 2006. - 3,1 п.л. (Рус.)
Губу ров Эльбрус Вячеславович
МЕТОДЫ АНАЛИЗА СТРУКТУРЫ ВЗАИМОСВЯЗЕЙ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ПОКАЗАТЕЛЕЙ (НА ПРИМЕРЕ МЕЖСТРАНОВЫХ И МЕЖРЕГИОНАЛЬНЫХ ИССЛЕДОВАНИЙ)
Специальность 08.00.13 - «Математические и инструментальные методы экономики»
Автореферат диссертации на соискание ученой степени кандидата экономических наук
Заказ N»5"
Объем {, б пл.
ЦЭМИ РАН
Тираж < ООП^
Диссертация: содержание автор диссертационного исследования: кандидата экономических наук, Губуров, Эльбрус Вячеславович
ВВЕДЕНИЕ
ГЛАВА I. АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ АНАЛИЗА СТРУКТУРЫ ВЗАИМОСВЯЗЕЙ МЕЖДУ КОМПОНЕНТАМИ МНОГОМЕРНОГО СЛУЧАЙНОГО ПРИЗНАКА.
1.1. Метод В-коэффициентов
1.2. Два алгоритма экстремальной группировки признаков
Первый алгоритм экстремальной группировки
Второй алгоритм экстремальной группировки
1.3. Алгоритм Лумельского
1.4. Метод корреляционных плеяд
1.5. Деревья зависимостей
Прямые и опосредованные связи
1.6. Метод Чоу
Качество оценок
1.7. Метод Демпстера
Итерационная процедура алгоритма Демпстера
1.8. Теоретико-информационный подход к структуре случайной величины
Энтропия и информация случайной величины
Алгоритм определения жесткой структуры
Алгоритм приближенного определения жесткой структуры, коэффициент информативности
Энтропия и информация в случае нормального распределения
Выводы и результаты первой главы
ГЛАВА II. ПРОГРАММНО-АЛГОРИТМИЧЕСКАЯ РЕАЛИЗАЦИЯ МЕТОДОВ АНАЛИЗА СТРУКТУРЫ ВЗАИМОСВЯЗЕЙ МЕЖДУ КОМПОНЕНТАМИ МНОГОМЕРНОГО НОРМАЛЬНОГО ВЕКТОРА
II. 1. Выбор инструментальных средств
Хранение данных
Клиентское приложение
II.2. Структура базы данных
11.3. Библиотека матричных вычислений
11.4. Генерирование псевдослучайных нормально распределенных чисел с заданной ковариационной матрицей
Выводы и результаты второй главы
ГЛАВА III. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЭФФЕКТИВНОСТИ МЕТОДОВ ГРУППИРОВКИ ПРИЗНАКОВ И ВЫЯВЛЕНИЯ СТРУКТУРЫ СВЯЗЕЙ. ВЫЧИСЛИТЕЛЬНЫЕ ЭКСПЕРИМЕНТЫ И ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ МЕТОДОВ В ИССЛЕДОВАНИЯХ КАЧЕСТВА И ОБРАЗА ЖИЗНИ НАСЕЛЕНИЯ ТЕРРИТОРИЙ
111.1. Исследование эффективности алгоритмов группировки признаков и выявления структуры связей с помощью вычислительных экспериментов
111.1.1. Анализ эффективности алгоритмов группировки признаков.
III. 1.2. Анализ эффективности методов выявления структуры связей многомерного случайного признака
111.2. Применение алгоритмов группировки признаков и выявления структуры связей в межрегиональных и межстрановых исследованиях
111.2.1. Эконометрический анализ синтетических категорий качества жизни населения субъектов РФ
111.2.2. Межстрановые исследования качества жизни населения
Выводы и результаты третьей главы
Диссертация: введение по экономике, на тему "Методы анализа структуры взаимосвязей социально-экономических показателей"
При изучении сложных объектов, характеризующихся большим количеством признаков (переменных) перед исследователем неизбежно встает проблема обработки исходных экспериментальных данных и их структурного анализа. Часто этот процесс сопряжен со значительными трудностями, и вполне естественным и логичным является желание сократить описание измеряемой информации с целью получения легко интерпретируемых результатов. Решение последней задачи осложнено тем, что, как правило, измеряемые признаки лишь косвенно отражают существенные факторы, характеризующие исследуемые объекты, так что возникает необходимость в разработке специальных методов для извлечения требуемой информации об этих факторах.
Например, в экономических исследованиях качества и образа жизни населения территорий измеряемыми признаками являются различные статистически регистрируемые показатели: ВВП на душу населения, уровень инфляции, среднедушевой доход, неграмотность, количество тяжких преступлений и др. Существенными же факторами являются такие синтетические категории, как «качество жизни», «уровень благосостояния», «качество социальной сферы», «качество населения», «качество экологической ниши» и др. В процессе изучения химических реакторов может быть измерена температура и давление в различных точках, расходы реагентов и т. п., тогда как существенными факторами, характеризующими состояние реактора, являются качество катализатора, интенсивность массообмена, граница жидкой и паровой фаз и т. д. В психологии измеряемыми признаками являются реакции людей на различные тесты, а существенными факторами - такие непосредственно не измеряемые характеристики субъекта, как «степень интеллектуальности», «работоспособность», «тип нервной системы» и т. д. В социологических исследованиях измеряемыми признаками являются ответы на различные вопросы анкет или реакции людей в условиях социологических экспериментов, а существенным фактором - отношение людей к той или иной социальной или демографической группе.
В этих и других многочисленных примерах такого рода количество измеряемых признаков несоизмеримо больше числа существенных факторов и задача, прежде всего, заключается в том, чтобы выявить эти факторы. Когда такие факторы выявлены, естественно возникает задача сокращения числа измеряемых признаков (число показателей, определяющих качество жизни, число тестов в психологических исследованиях, число вопросов в социологических исследованиях и т. д.), при котором не теряется информация, нужная для определения существенных факторов.
Решение обеих указанных выше задач может опираться на следующее обстоятельство, как правило, имеющее место в приложениях, примеры которых были ранее приведены. В этих приложениях изменение какого-либо фактора сказывается неодинаково на всех измеряемых величинах, и поэтому среди измеряемых величин могут быть выделены группы, наиболее сильно реагирующие в отдельности на каждый из факторов.
Из сказанного вытекает следующее естественное предположение: измеряемые признаки наиболее сильно коррелируют друг с другом в том случае, когда они наиболее сильно зависят от одного и того же фактора. Приняв это предположение как исходную гипотезу, можно строить разбиение всех измеряемых признаков на такие непересекающиеся группы, что признаки, принадлежащие одной группе, в некотором смысле сильно коррелируют между собой, а признаки, принадлежащие разным группам, коррелированы относительно слабо. Задача такого рода называется задачей группировки признаков [Браверман (1970)], и может иметь как самостоятельное, так и вспомогательное значение. (Задача о выявлении факторов без группировки признаков, либо в условиях, когда эта группировка предопределена заранее, решается методами факторного анализа).
В упоминавшемся выше примере исследования качества и образа жизни населения задача группировки признаков имеет самостоятельное значение. В этом случае набор переменных разбивается на непересекающиеся группы таким образом, чтобы первая группа хорошо характеризовала качество населения, вторая - уровень благосостояния и т.д.
Приведем примеры, в которых задача группировки признаков возникает как вспомогательная.
Некоторые методы факторного анализа, например би-факторный метод К. Холзингера [Харман (1972)], требуют предварительного разбиения признаков на группы с сильной внутренней связью. Как правило, это делается неформально исследователем-специалистом в данной области.
В задаче автоматической классификации (распознавание образов без обучения) часто бывает необходимо проводить классификацию в подпространствах разных групп признаков, каждая из которых характеризует какую-либо одну сторону объекта. Поэтому предварительно необходимо из всего имеющегося набора тестов выделить данные группы.
В качестве еще одного примера можно привести задачу построения интегрального латентного показателя качества сложной системы в том случае, когда в составе исследуемого набора частных показателей имеется определенное количество взаимно слабо коррелированных переменных, хотя каждая из них вносит существенный вклад в описание и интерпретацию анализируемого интегрального показателя. В этой ситуации аппроксимация всех исследуемых признаков по значению единственного скалярного индикатора может не давать удовлетворительного результата, и одним из способов решения задачи является разбиение исходного набора переменных на группы и построение интегрального показателя для каждой из групп [Айвазян (2003а)].
Известны несколько различных эвристических алгоритмов решения задачи группировки признаков. Большинство из них используют в качестве матрицы меры связи между переменными матрицу корреляций или ковариаций. Здесь мы дадим краткое описание алгоритмов на уровне идеи, более подробные сведения изложены в первой главе данной работы.
Метод ^-коэффициентов основывается на последовательном формировании групп посредством вычисления так называемого В-коэффициента (коэффициента принадлежности, определяемого как отношение среднего коэффициентов корреляции между признаками текущей группы к среднему коэффициентов корреляции признаков текущей группы со всеми остальными), и отслеживания момента резкого уменьшения значения указанного коэффициента [Харман (1972), с. 132-135].
Метод экстремальной группировки признаков, основан на экстремизации некоего функционала, зависящего как от способа группировки, так и от выбора скрытых факторов. Функционал выбирается таким образом, что его экстремизация (как по разбиению, так и по выбору факторов) интуитивно соответствует описанной содержательной задаче разбиения признаков на группы, также решая задачу выявления существенных факторов [Браверман (1970)].
Алгоритм Лумельского, позволяет группировать признаки на основе квадратной матрицы связей произвольной природы (например, матрицы дисперсионных отношений, ранговой корреляции и т.д.) В основе процедуры алгоритма лежит понятие меры близости между группами переменных и последовательное объединение наиболее близких групп до достижения заданного числа групп [Лумельский (1970)].
В различных версиях метода корреляционных плеяд по определенным правилам строится некоторый ненаправленный граф с вершинами, соответствующими переменным, и ребрами, соответствующими связям между переменными. На конечном шаге алгоритма, когда граф построен, задается пороговое значение коэффициента корреляции между признаками, и граф разбивается на подграфы, вершины каждого из которых соответствуют группам признаков [Айвазян, Мхитарян (2001), т.1, с. 577-580], [Лумельский (1970)].
Помимо разбиения множества исследуемых признаков на непересекающиеся группы, еще одним инструментом структурного анализа данного множества являются графы структуры зависимостей многомерной случайной величины. Идея данного подхода состоит в представлении характера связей между переменными в виде ненаправленного графа, вершины которого (аналогично методу корреляционных плеяд) соответствуют признакам, а ребра - связям между ними. Однако ребрами соединяются только те вершины, которые соответствуют переменным, непосредственно связанным между собой, либо переменным, связь которых между собой статистически значима.
Графы структуры предоставляют исследователю инструмент визуального анализа, опирающийся на серьезный математический аппарат, и позволяют выявить те признаки (вершины графа), которые имеют наибольшее количество связей (ребер графа) с другими переменными, и, следовательно, играют центральную, ключевую роль в изучаемом наборе переменных. В некоторых случаях вокруг таких признаков могут образовываться выраженные группы переменных. Также граф структуры зависимостей может иметь изолированные вершины, соответствующие признакам, не связанным с остальными.
Теоретические аспекты подхода, опирающегося на графы структуры зависимостей многомерной случайной величины, подробно исследованы в работе [Гаврилец (1974), с. 117-166], в которой формализуется понятие структуры многомерной случайной величины и подробно исследуются ее свойства. В этой же работе предлагаются алгоритмы выявления графа структуры, основанные на теоретико-информационном подходе, которые будут рассмотрены в главе I.
Одной из реализаций графов структуры зависимостей являются деревья зависимостей, введенные в статистическую практику Чоу [Chow, Liu (1968)]. Предлагается представлять структуру связей между компонентами многомерного нормально распределенного признака в виде связанного графа без циклов {дерева), вершины которого, как и ранее, соответствуют переменным, а ребра - связям между ними. Весом ребра называется абсолютная величина коэффициента корреляции между признаками, которым соответствуют соединяемые данным ребром вершины графа [Айвазян, Енюков, Мешалкин (1985)]. В работе [Chow, Liu (1968)] доказывается, что задача построения дерева структуры зависимостей на основании корреляционной матрицы может быть сведена к задаче построения дерева максимального веса на вершинах, соответствующих исходным признакам, которая, в свою очередь, решается с помощью алгоритма Крускала [Айвазян, Енюков, Мешалкин (1985)], [Weinberg (2005)]. Существуют модификации указанного метода для больших объемов данных [Meila (1999)].
Подход Демпстера к построению графа структуры зависимостей многомерного нормально распределенного случайного признака с нулевым вектором средних значений состоит в первоначальном предположении, что все переменные независимы, ковариационная (корреляционная) матрица имеет диагональный вид, ребра в графе отсутствуют. На каждом шаге выбирается такой из элементов выборочной ковариационной (корреляционной) матрицы, который дает наибольшее приращение оценке логарифмической функции максимального правдоподобия для этой матрицы, и строится соответствующее ребро графа. Процесс продолжается до тех пор, пока приращение на следующем шаге не станет статистически незначимым (уровень значимости задается исследователем). Построенный таким образом граф не обязательно будет представлять собой дерево [Dempster (1972)], [Weinberg (2005)].
Актуальность темы. Рассматриваемые в данной работе методы группировки признаков и выявления структуры взаимосвязей между признаками, имеют широкое применение в социально-экономических исследованиях, оперирующих большим количеством статистических показателей. На определенных этапах подобных исследований, как правило, возникает необходимость снижения количества обрабатываемой информации, ее структурного анализа, классификации сообразно целям исследования. Чаще всего решение перечисленных задач производится экспертом-исследователем на основании содержательных рассуждений о природе изучаемых объектов и, очевидно, при большом количестве признаков связано с серьезными трудностями. В связи с этим становится актуальным применение математического инструментария для поиска решения описанных задач.
Анализ литературы показывает, что исследователями в разные годы проделана большая работа по разработке методов решения проблемы анализа и описания структуры статистических связей, существующих между исследуемыми статистическими показателями. Но на сегодняшний день указанные методы не получили широкого практического применения по причине очень малого числа работ, посвященного их сравнительному анализу, а также вследствие отсутствия программно-алгоритмической реализации, позволяющей автоматизировать их применение на практике. Высказанные соображения предопределили выбор темы, целей и задач данной работы.
Целью работы является создание программно-алгоритмической системы анализа структуры взаимосвязей между статистическими показателями и использование этой системы в межстрановом и межрегиональном анализе синтетических категорий качества жизни населения.
Задачи, возникающие в рамках достижения поставленной цели, можно обозначить следующим образом:
1) Аналитический обзор существующих методов выявления структуры взаимосвязей между компонентами многомерного случайного признака.
2) Сравнительный анализ эффективности рассматриваемых методов с помощью проведения вычислительных экспериментов на модельных и реальных данных.
3) Разработка необходимого программного обеспечения, т.е. создание программного комплекса, позволяющего осуществлять вычислительную реализацию каждого из рассматриваемых методов.
4) Структуризация и анализ переменных, характеризующих уровень материального благосостояния в межрегиональном исследовании субъектов РФ и качество жизни населения в межстрановых сопоставлениях.
В настоящее время существует множество программно-алгоритмических средств (пакетов), обладающих мощным статистическим инструментарием: EViews, SPSS, Statistica и др. Однако при всем богатстве предоставляемых исследователю методов, вышеперечисленные алгоритмы структурного анализа исследуемых показателей на сегодняшний день, насколько нам известно, в данных пакетах не представлены. Принимая во внимание указанный факт, приходим к следующему выводу.
Новизна и основные результаты предлагаемой работы:
1) Произведен сравнительный анализ эффективности методов структурного анализа взаимосвязей между компонентами многомерного случайного вектора, а именно: алгоритмов ^-коэффициентов, экстремальной группировки признаков, Лумельского, Чоу, Демпстера и алгоритмов, основанных на теоретико-информационном подходе. Создано программно-алгоритмическое средство, в рамках которого исследователю предоставляется возможность практического применения перечисленных методов структурного анализа статистических данных, которые не представлены, насколько нам известно, в распространенных статистических пакетах.
2) На базе методики построения синтетических показателей (интегральных индикаторов) качества жизни населения, предложенной в работе [Айвазян (20036)], разработанное программное средство использовано для построения и эмпирического анализа структуры связей, существующих между указанными индикаторами. Расчеты производятся на основе данных по странам [WCY (1996 - 2004)] и регионам Российской Федерации за 1997-2003 гг.
Кроме того, созданный программный продукт обладает удобным современным интерфейсом и предоставляет возможности полноценного ввода, хранения, обработки статистических данных, гибкого экспорта полученных результатов в другие приложения, а также ряд вспомогательных инструментов. Среди этих инструментов: унификация шкал измерений; основные операции матричной алгебры (вычисление определителей, обратных матриц, собственных значений); генерирование нормально распределенных псевдослучайных величин с заданными параметрами; определение размерности многокритериального пространства (многокритериальная классификация в условиях отсутствия обучения); вычисление первых главных компонент, включая модифицированные; определение удельной значимости каждой из построенных интегральных характеристик (в случае разбиения исходного набора признаков на группы); взвешенная многокритериальная процедура индивидуального рейтингования наблюдений в пространстве модифицированных первых главных компонент; ранжировка наблюдений по значению вычисленного интегрального индикатора, а также по экспертному значению индикатора (если экспертная оценка существует и известна); вычисление ранговых коэффициентов корреляции Спирмена.
При создании программного продукта в качестве инструментального средства использовалась среда разработки Borland Delphi 6. Роль хранилища данных выполняет Microsoft Access, как одно из наиболее доступных средств для большинства пользователей. В процессе проектирования и программирования автор всячески старался не ограничивать возможности расширения (масштабируемости) создаваемого приложения. В этой связи внутренняя реализация библиотеки операций над матрицами использует все основные преимущества объектно-ориентированного программирования. Кроме того, реализованное программное средство использует технологию Microsoft ADO [Кэнту (2001), с. 512-514] для связи с хранилищем данных и производит операции над данными посредством инструкций языка SQL [Грабер (2003)]. Примененный подход позволяет, в случае необходимости, с минимальными затратами преобразовать приложение в клиент-серверную систему, перенеся данные на мощную серверную платформу, например Oracle, Microsoft SQL Server, InterBase и т.п. Это даст возможность одновременного использования данных несколькими пользователями в сети и позволит производить трудоемкие расчеты на стороне сервера, что значительно повысит производительность и вычислительные возможности системы [Кэнту (2001), с. 465-467].
Диссертация: заключение по теме "Математические и инструментальные методы экономики", Губуров, Эльбрус Вячеславович
Выводы и результаты третьей главы
1.С помощью численных экспериментов осуществлен сравнительный анализ эффективности методов, анализируемых в данной работе. Выявлены их сильные и слабые стороны, область применимости методов, целесообразность применения в различных ситуациях.
2. На основании практического применения методов группировки признаков можно сделать вывод об их практической полезности и достаточной эффективности в социально-экономических исследованиях качества и образа жизни населения стран и регионов. Кроме того, очевидно, что рассмотренные алгоритмы группировки представляют собой полезный инструмент в исследованиях любого рода, требующих разбиения наборов случайных величин на непересекающиеся группы однородных тесно коррелированных переменных.
3. Не вызывает сомнений полезность методов построения графа структуры связей между компонентами многомерного случайного признака при исследовании не очень больших наборов переменных (порядка 10-15 признаков), так как указанные методы предоставляют инструмент для выявления признаков, играющих центральную роль в анализируемом наборе, а также дают возможность визуального анализа структуры взаимосвязей между признаками.
4. Реализовано применение рассмотренных методов в актуальных исследованиях качества и образа жизни населения территорий. При этом получены хорошие результаты, в большинстве случаев допускающие содержательную экономическую трактовку.
Заключение
Оформим основные результаты работы, выводы и предложения в виде следующих пунктов:
1. Проведена классификация методов исследования структуры взаимосвязей между социально-экономическими показателями и осуществлен сравнительный анализ их эффективности. Выявлены сильные и слабые стороны методов, область их применимости, целесообразность применения в различных ситуациях.
2. Создан программный продукт, позволяющий применять исследованные методы на практике, и предоставляющий исследователю необходимый инструментарий для построения и анализа интегральных индикаторов качества жизни населения территорий. Учитывая, что рассматриваемые алгоритмы, на сегодняшний день, не реализованы в известных статистических программных пакетах, их машинная реализация является важным результатом проделанной работы.
3. На основании практического применения методов группировки признаков сделаны выводы об их практической полезности и достаточной эффективности в социально-экономических исследованиях качества и образа жизни населения стран и регионов. Кроме того, рассмотренные алгоритмы представляют собой полезный инструмент в исследованиях любого рода, требующих разбиения наборов случайных величин на непересекающиеся группы однородных тесно коррелированных переменных.
4. Относительно методов построения графа структуры связей между компонентами многомерного случайного признака можно сделать вывод об их полезности при исследовании не очень больших наборов переменных (порядка 10-15 признаков), так как они предоставляют инструмент для выявления признаков, играющих центральную роль в анализируемом наборе, а также дают возможность визуального анализа структуры взаимосвязей между признаками. В случае анализа наборов переменных большей размерности ответ на вопрос о ценности методов выявления графа структуры связей могут дать только дальнейшие практические исследования.
5. Все рассмотренные в работе методы являются эвристическими, и представляют собой важный вспомогательный инструмент в рамках различных исследований. Назначение методов состоит не в том, чтобы найти единственно правильный ответ на поставленную задачу, а в том, чтобы помочь исследователю принять то или иное решение, сообразно целям исследования.
6. Реализовано применение рассмотренных в работе методов в актуальных исследованиях качества и образа жизни населения. При этом получены хорошие результаты, допускающие содержательную экономическую трактовку в большинстве случаев.
7. Исходя из сделанных выше выводов, предлагается применение созданного программно-алгоритмического средства в различных исследованиях социально-экономического характера. Это сократит время и усилия, затрачиваемые исследователями на решение проблемы описания и структурного анализа статистических показателей.
Диссертация: библиография по экономике, кандидата экономических наук, Губуров, Эльбрус Вячеславович, Москва
1. Айвазян С.А. (2003а). К методологии измерения синтетических категорий качества жизни населения. «Экономика и математические методы», т.39, №2, с. 33-53.
2. Айвазян С.А. (20036). Эмпирический анализ синтетических категорий качества жизни населения. «Экономика и математические методы», т.39, №3, с. 19-53.
3. Айвазян С.А., Бухштабер В.М., Енюков И.С., МешалкинЛ.Д. (1989). Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика.
4. Айвазян С.А., Енюков И.С., МешалкинЛ.Д. (1985). Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика.
5. Айвазян С.А., Мхитарян B.C. (2001). Прикладная статистика и основы эконометрики (издание 2-е, в 2-х томах). М.: Юнити.
6. Айвазян С.А., Степанов B.C. и др. (2005а). Отчет о научно-исследовательской работе по теме: «Разработка интегрального показателя, отражающего основные тенденции динамики качества жизни населения Самарской области».
7. Айвазян С.А., Степанов B.C. и др. (20056). Разработка и анализ интегральных индикаторов качества жизни населения. М.: ЦЭМИ РАН.
8. Благовещенский Ю.Н. (1998). Многомерные Т-нормальные распределения в прикладной статистике. В сб.: «Статистические методы оценивания и проверка гипотез». Пермь: ПГУ.
9. Благовещенский Ю.Н., МешалкинЛ.Д. (1985). Визуализация многомерных данных. Тезисы симпозиума "Методы и программное обеспечение обработки информации и прикладного статистического анализа". Минск: БГУ.
10. БогачевК.Ю. (1998). Практикум на ЭВМ. Методы решения линейных систем и нахождения собственных значений. М.: МГУ.
11. Браверман Э.М. (1970). Методы экстремальной группировки параметров и задача выделения существенных факторов. «Автоматика и телемеханика», № 1, с. 123-132.
12. Гаврилец Ю.Н. (1969). Некоторые вопросы количественного изучения социальных явлений. «Экономика и математические методы», вып. V, №5, с. 703-716.
13. Гаврилец Ю.Н. (1970). О количественном исследовании структуры сложных социальных систем. В кн.: Моделирование социальных процессов. М.: Наука.
14. Гаврилец Ю.Н. (1974). Социально-экономическое планирование. Системы и модели. М.: Экономика.
15. Грабер М. (2003). SQL. Описание SQL92, SQL99 и SQLJ. (Пер. с англ.) М.: Лори.
16. Доугерти К. (1997). Введение в эконометрику. (Пер. с англ.) М.: ИНФРА1. М.
17. Заруцкий В.И. (1978). Классификация нормальных векторов простой структуры в пространстве большой размерности. В кн.: Прикладной многомерный статистический анализ. М.: Наука.
18. Заруцкий В.И. (1980). О выделении некоторых графов связей для нормальных векторов в пространстве большой размерности. В кн.: Алгоритмическое и программное обеспечение прикладного статистического анализа. М.: Наука.
19. Карапетян К.А. (1974). Об одном статистическом критерии проверки гипотезы о структуре многомерных наблюдений. В кн.: Многомерный статистический анализ в социально-экономических исследованиях. М.: Наука.
20. КэнтуМ. (2001). Delphi 5 для профессионалов. (Пер. с англ.). СПб.: Питер.
21. Лумельский В.Я. (1970). Агрегирование объектов на основе квадратной матрицы связи. — «Автоматика и телемеханика», №1, с. 133- 143.
22. Магнус Я.Р., Катышев П.К., Пересецкий А.А. (2001). Эконометрика. Начальный курс (издание 5-е). М.: Дело.
23. МэтьюзДж.Г., Куртис Д.Ф. (2001). Численные методы. Использование MATLAB (издание 3-е, пер. с англ.). М.: Издательский дом «Вильяме».
24. Монастырский П.И. (1983). Сборник задач по численным методам. Минск: Издательство БГУ.
25. НагаоМ., КатаямаТ., УэмураС. (1986). Структуры и базы данных. (Пер. с яп.) М.: Мир.
26. Озеров В. (2003). Delphi. Советы программистов. СПб.: Символ-Плюс.
27. Рао С.Р. (1968). Линейные статистические методы и их применения. (Пер. с англ.) М.: Наука.
28. Родионов М.А. (1971) Условия существования жесткой структуры случайной величины. В сб.: Проблемы уровня жизни. М.: ротапринт ЦЭМИ АН СССР.
29. Турчак Л.И., Плотников П.В. (2003). Основы численных методов (издание 2-е). М.: Физматлит.
30. Фаддеев Д.К., Фадцеева В.Н. (2002). Вычислительные методы линейной алгебры (издание 3-е). СПб.: Лань.
31. Харман Г. (1972). Современный факторный анализ. М.: Статистика.
32. CantuM. (2003) Essential Pascal (2nd edition, version 2.01). www.marcocantu.com/epascal/.
33. ChowC.K., Liu C.N. (1966). An approach to structure adaptation in pattern recognition. IEEE Transactions On Systems and Cybernetics, vol. SSC 2, №2, p. 73 -80.
34. ChowC.K., Liu C.N. (1968). Approximating discrete probability distributions with dependence trees. IEEE Transactions On Information Theory, vol. IT 14, №3, p. 462-467.
35. Chow С. K. (1970). Tree Dependence in Normal Distribution. In The 1970 International Symposium on Information Theory. The Netherlands, p. 2 - 9.
36. Dempster A. (1972). Covariance selection. Biometrics, vol. 28, №1, p. 167175.
37. Weinberg A.L. (2005). Quantitative analysis of the situation and development of Russian regions during the transition period. PhD Thesis. University of Geneva.
38. WCY (1996 2004): The World Competitiveness Yearbook. Edition IMD-International, Lausanne, Switzerland.