Разведочные алгоритмы классификации экономических объектов тема диссертации по экономике, полный текст автореферата

Ученая степень
кандидата экономических наук
Автор
Смирнова, Елена Юрьевна
Место защиты
Санкт-Петербург
Год
1993
Шифр ВАК РФ
08.00.13
Диссертации нет :(

Автореферат диссертации по теме "Разведочные алгоритмы классификации экономических объектов"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

„ ^ „ „ На правах рукописи

I 1 и V.'1«

СМИРНОВА Елена Юрьевна

РАЗВЕДОЧНЫЕ АЛГОРИТМЫ КЛАССИФИКАЦИИ ЭКОНОМИЧЕСКИХ ОБЪЕКТОВ

Специальность 08. 00.13 - экономике-математические методы

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата экономических наук

Санкт-Петербург

1993

I Работа выполнена на кафедре экономической кибернетики I экономического факультета

Санкт-Петербургского государственного университета

Научный руководитель - кандидат экономических наук,

доцент В. Ф. Капустин

Официальные оппоненты - доктор экономических наук,

профессор Ю. А. ЛЬВОВ кандидат экономических наук М. К. ПЛАКУНОВ

■ Ведущая организация - Санкт-Петербургский Экономико-

Математический институт РАН

Защита диссертации состоится " 1394 года

¡з ^ £ часов на заседании специализированного Совета | Д. 063. 57. 43 по защите диссертаций на соискание ученой степени доктора экономических наук при Санкт-Петербургском государственном университете по адресу: 191194, Санкт-Петербург, ул.Чайковского, д. 62, ауд. 301.

! С диссертацией можно ознакомиться в научной библиотеке имени Л. М. Горького Санкт-Петербургского государственного университета

Автореферат разослан " £

года

Ученый секретарь специализированного Совета, кандидат экономических наук,

| доцент Л. В. Монахов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Сложность большинства экономических систем для управления проявляется прежде всего как недостаточная изученность, обусловленная большим числом разнородных объектов и характеризующих их разнотипных признаков с неустановленной структурой взаимосвязей. Классификация элементов сложных систем по осмысленным однородным группам является простейшей формой логического моделирования и исходным моментом дальнейшего анализа. Методы классификации данных, реализующие геометрический подход к измерению сходства объектов как близости точек во многомерном признаковом пространстве, называются кластерным анализом.

В нашей стране опубликованы переводы трудов зарубежных специалистов по кластер-анализу и его приложениям в различных отраслях науки. Известен отечественный позитивный опыт построения многомерных классификаций и их использования в решении конкретных социально-экономических задач. Появились первые отечественные работы по общей методологии кластерного анализа, сравнению и оценке развиваемых в его рамках различными авторами подходов и методов. Ряд популярных алгоритмов многомерной классификации представлен вычислительными процедурами в составе пакетов программ статистической обработки данных на ЭВМ, которые легко могут быть применены даже при минимальном уровне подготовки пользователя.

Однако, корректное применение большинства кластерных алгоритмов предполагает априорное знание или предварительное оценивание исследователем характеристик внутренней структуры классифицируемого множества объектов, например, гипотетического числа классов, их размеров или набора эталонных точек. При отсутствии подобной обучающей информации классификацию приходится строить в итеративном режиме путем перебора как значений входных параметров, так и самих группировочных алгоритмов и поиска стабильного кластерного решения. Альтернативной и более дешевой стратегией вычислительных экспериментов является предварительное ' оценивание входных параметров

работы основного классификационного алгоритма с помощью процедур разведочного характера, позволяющих выявить существенные особенности неизвестной внутренней структуры данных. Большинство современных авторов подчеркивает узловое значение этапа разведочного анализа данных в проведении прикладного классификационного исследования.

Целью диссертации является разработка разведочных алгоритмов анализа данных, позволяющих до применения методов кластерного анализа составить набор объектов-представителей имеющихся в совокупности классов и оценить их гипотетическое число.

Цель исследования может быть достигнута решением следующих задач:

- изучить современное состояние методологии и инструментальных средств кластерного анализа и специфики его применения к построению классификации экономических объектов;

- разработать процедуры разведочного анализа данных, позволяющие выделить эталонные объекты, представлящие все классы исходной совокупности, и выбрать из них по одному представителю каждого класса;

- осуществить программную реализацию предложенных алгоритмов средствами ПЭВМ;

- провести тестирование предложенных алгоритмов на наборах данных известной структуры;

- применить предложенные алгоритмы разведочного анализа данных для решения конкретной прикладной задачи классификации экономических объектов с использованием методов кластерного анализа.

Методологической основой диссертации явились работы зарубежных и отчеетвенных авторов, посвященные кластерному анализу и его;приложению к решению задач многомерной классификации объектов произвольной природы.

При реализации вычислительных процедур предложенных в диссертации алгоритмов использовалось стандартное программ-

ное обеспечение персональных ЭВМ: языки программирования Turbo-BASIC и СУБД dBASE Ш PLUS, электронные таблицы SuperCalc и универсальный пакет процедур статистической обработки данных STATGRAPHICS.

К числу основных результатов работы, обладающих научной новизной, можно отнести:

- алгоритм упорядочения объектов по типичности, строящий их ранжирование на основе частот'ного анализа номинальной части вариационного ряда результатов парных сравнений по значениям выбранной меры сходства;

- алгоритм выделения единственных представителей классов и оценивания их числа;

- вывод о соответствии действующей практики исчисления условных обобщающих показателей 'загрязнения вод частной задаче многомерной классификации;

- разработку общего подхода к построению классификации промышленных предприятий по загрязнению природной среды;

- предложение использовать кластерный анализ для решения задачи классификации предприятий как источников промышленного загрязнения вод и разработанные алгоритма разведочного анализа для предварительной оценки . параметров неизвестной кластерной структуры данных;

- рекомендации по применению результатов классификации предприятий по загрязнению окружающей среды в региональном экономико-экологическом управлении. !

- варианты программной реализации вычислительных процедур предложенных разведочных алгоритмов средствами ГОБИ j

Практическое значение диссертации состоит в том, что

I

предложенные разведочные алгоритмы позволяют до применения методов кластерного анализа оценить значения входных параметров (число классов или набор эталонных точек), необходимых для начала работы большинства известных процедур классификации множества объектов по большому набору признаков.

Отсутствие обучающей информации о неизвестной внутренней структуре исследуемого множества объектов типично дзя раннего этапа решения задачи классификации элементов сложньх

социально-экономических систем. Использование разработанных алгоритмов позволяет избежать перебора значений входных параметров и значительно сократить объем вычислений при проведении классификационных экспериментов в прикладных исследованиях поискового характера.

Результаты разведочного анализа первичных статистических данных о загрязнении водоемов бассейна Ладожского озера стоками промышленных предприятий в 1987 году позволили применить для построения классификации загрязнителей водной среды процедуры кластерного анализа, входящие в состав универсального пакета программ статистической обработки данных БТАТСНЗАРШСБ.

Построение многомерной классификации предприятий региона по набору показателей их природоохранной деятельности развивает традиционный подход к оценке уровня загрязнения среды условными обобщающими показателями и может быть рекомендовано как основа принятия решений экономико-экологического управления.

Апробация работы. Основные положения и отдельные результаты диссертации докладывались на Всесоюзной научно-практической конференции "Новые формы хозяйствования в условиях перехода к рыночным отношениям" (Ленинград, 1991 год); научных конференциях экономического факультета СПбГУ, семинарах кафедры экономической кибернетики экономического факультета СГОГУ.

Публикации. Основные результаты исследования нашли отражение в 3 опубликованных работах.

Объем и структура работы. Диссертация состоит из введения, трех глав, заключения, четырех приложений и списка использованной литературы, включающего 85 наименований.

Основное содержание диссертации изложено на 98 страницах машинописного текста, приложения и список литературы - на 27 страницах. Основной текст и приложения содержат 49 таблиц и 16 рисунков.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ ■

Во введении обоснована актуальность теми диссертации,: сформулирована цель исследования и отражены научная новиана,: теоретическая и практическая значимость работы.

В первой главе - "Методические принципы классификации экономических объектов" исследуется современное состояние общенаучной методологии кластер-анализа и возможность его: приложения к построению классификации экономических объек-. тов, а также роль разведочного анализа данных как начального этапа процесса построения классификации.

В первом параграфе осуществлен анализ отечественной и зарубежной литературы, посвященной методам кластерного анализа. Как наиболее существенные аспекты проблемы их применения для к решению практических задач классификации выделяются следующие моменты.

Большинство современных авторов отмечает зависимость результатов работы алгоритмов классификации от начальных установок исследователя и значений применяемых входных парк-метров.

Многие алгоритмы для начала расчетов требуют постулирования числа классов, задания размеров классов и расстояний между ними, набора эталонов и некоторых других характеристик структуры множества, заранее обычно неизвестных.

Изменение входных параметров влияет на результат классификации. Поиск стабильного кластерного решения обычно ведется итеративно, последойателышм перебором как начальных значений параметров, так и самых группировочных процедур.

В связи с этим актуальна проблема предклассификационно-го, разведочного этапа анализа данных с целью предварительного выявления основных черт неизвестной структуры совокупности. При этом под разведочным анализом понимают совокупность моделей структуры данных и методов ее анализа путем компактного и понятного пользователю описания при воз-

можно более полном сохранении информации об особенностях взаимного положения объектов.

Во втором параграфе обсуждается специфика применения методов кластерного анализа к исследованию экономических систем. Она сводится к таким особенностям данных первичных статистических наблюдений, как большое число объектов и признаков, измерение группировочных показателей в разных шкалах и отсутствие априорных сведений об особенностях внутренней структуры классифицируемого множества объектов.

Эти характеристики экономической информации не являются

принципиальным препятствием для применения алгоритмов кластер-анализа при построении многомерной классификации.

В общем случае характер совместного многомерного распределения признаков, выражающих существенные свойства экономических объектов, обычно неизвестен и не может быть надежно оценен по выборке. Поэтому до применения кластерных алгоритмов в прикладном классификационном исследовании экономических объектов обычно необходим этап разведочного анализа для уточнения модели кластерной структуры данных и выбора начальных значений параметров работы применяемых в дальнейшем алгоритмов классификации.

Обсуждается конкретный пример многомерной классификации

республик ССОР по набору показателей социально-экономического развития, принадлежащий Ыиркину Б. Г. Его результаты сравниваются с вариантами кластерных решений, полученными автором при обработке тех же данных стандартными процедурами классификации из состава известного пакета ЕГГАТбИАРНЮЭ.

Приводится постановка задачи классификации предприятий региона по вагрявнению водной среды. Основное внимание уделено анализу действующей практики исчисления условных показателей качества вод. Покааано, что единый обобщающий показатель уровня загрязнения является аналогом многомерной группировки предприятий по набору частных показателей и предложено использовать методы кластерного анализа для построения региональной классификации предприятий как источников загрязнения вод.

Во второй главе - "Разведочные алгоритмы классификации" - предлагаются две эвристические; процедуры разведочного

анализа данных.

В первом параграфе предлагается и поясняется на простейших геометрических примерах алгоритм разведочного анализа данных, упорядочивающий объекты по типичности. Типичность объекта понимается как его сходство с большинством своих соседей.

Новизна подхода заключается в выявлении типичности на основе частотного анализа номинальной части вариационного ■ ряда результатов сравнений пар объектов по значениям выбранной меры сходства.

Построенное упорядочение зависит от выбора способа из- ' мерения сходства объектов, в связи с чем рекомендуется режим повторного применения алгоритма к обработке одних и тех же данных по разным мерам сходства и согласования построенных \ ранжировок для выявления истинного упорядочения.

Наличие способов измерения сходства даже для объектов, \ одновременно описанных многими признаками в разных шкалах, дает возможность применения предложенного алгоритма к исходным данным смешанной природы.

Второй параграф посвяшен описанию алгоритма равведочно-го анализа данных, выделяющего единственных представителей всех имеющихся в совокупности классов, и тем самым оценивающего их число.

В качестве исходной информации"алгоритм использует упорядочение объектов по. типичности и порог значений меры сходства для однородных (входящих в один и тот же класс) и неоднородных пар объектов.

Порог межклассовых расстояний определяется по гистограмме эмпирического распределения значений сравнения всех пар объектов по выбранной мере сходства.

В результате работы алгоритма выделяется набор реальных эталонных объектов, представляющих все классы исходной совокупности. Изолированные объекты также выделяются и считаются самостоятельными тривиальными классами.

- 10 -

Количество выделенных эталонных объектов и совпадающее с ним гипотетическое число классов зависят от выбора порога меры сходства, оценке которого по гистограмме необходимо уделять самое пристальное внимание.

В третьем параграфе предложенные алгоритмы тестируются на небольших наборах данных известной структуры - допускающих геометрическую интерпретацию на плоскости, либо ранее изучавшихся другими авторами, опубликовавшими результаты своей классификации в специальной научной литературе.

Четвертый параграф посвящен технологическим вариантам реализации предложенных процедур разведочного анализа данных программными средствами ПЭВМ.

- и -

Последовательность обработки данных в процессе применения разработанных алгоритмов схематично изображена на рис. 1.

Даны рекомендации по выбору программных средств реаливации

каждого этапа вычислений.

В третьей главе - "Классификация предприятий региона по :

загрязнению водной среды"- предложенные разведочные алгоритмы и стандартные методы кластерного анализа применяются к первичной информации о загрязнении водоемов бассейна Ладожского озера 59 промышленными предприятиями Ленинградской области в 1987 году по таблицам форм статистической отчетности 2-тп водхоз.

Обосновывается состав группировочных признаков в основании многомерной классификации. С учетом современного ссс-■; тояния фактографической и нормативной базы природоохранной; статистики региона в качестве исходных данных решено исполь- ! вовать кратности превышения ЦЦК шести основных вредных при-! месей: нефть, СПАВ, фосфор, нитраты, ВПК, азот аммонийный; при сбросе производственных сточных вод.

В качестве меры сходства объектов используется тради- | ционное евклидово расстояние между точками во многомерном; признаковом пространстве. Просмотр вариационного ряда расстояний позволяет сразу выделить из 59 точек 2 изолированные. ; Все расстояния между ними и другими точками гораздо больше: остальных попарных значений расстояний.

Предложение во второй главе диссертации разведочные ал-; горитмы применяются к данным о 57 объектах. Делается вывод о соответствии структуры данных модели однородного облака то-, чек с выбросами. Выделяется 9 изолированных объектов и одна! типичная точка ~ представитель основного облака.

Результаты разведочного анализа данных применяются как; входные параметры процедур кластерного анализа. Многомерные группировки предприятий, построенные в ЗТАТОНАРШСЗ методами, дальнего и ближнего соседа и по эталонному набору точек хо-| рошо согласуются между собой.

Решение задачи классификации предприятий по имеющимся! данным о загрязнении вод с использованием предложенных раз-;

□с/

во пре

0К£

ГТл О"1 ТТГПГТ1-1ТТТТГ П/ П ЛПГГПППТТГДЛЧ »*1ТППП1*А>11»ПТТТт ппмпппгвлтгпи ОПЧ*

11и ХЗП-шичсППИМ Ь ' " —------- ~ . ............•<■ — ~ • — — .....

иьписоппс гьиси^иг&флгъацгип иигисюах сллм ии/а

дприягий выборки однородны и образуют единственный класс, ются изолированные и аномальные наблюдения, которые могут заться представителями реально существующих групп предприятий, не попавших в выборку для классификации.

В целом проведенное исследование позволяет сделать вывод о том, что постановка задачи классификации региональной зкупкости пркродопользователей по общему уровню загрязнения среды принципиально возможна и должна сопровождаться содержательным обоснованием состава группировочных признаков и опираться на достоверную фактографическую и адекватную санитарно-гигиеническую и технологическую нормативную базу природоохранной статистики.

Результаты классификации предприятий как источников загрязнения природной среды могут быть рекомендованы для использования в принятии экономико-экологических решений на региональном уровне, например при разработке систем экономического стимулирования природоохранной деятельности предприятий.

Однородность региональной совокупности предприятий по набору показателей природоохранной деятельности может служить обоснованием применения к ним единой акономико-экологической политики, например установления единого тарифа платы за загрязнение среды. В случае выделения в результате решения задачи -классификации нескольких групп предприятий-загрязнителей целесообразно рассмотреть'возможность дифференцированного подхода к управлению их природоохранной деятельностью на региональном уровне.

В заключении сформулированы основные научные результаты диссертации и выводы по отдельным главам.

- 13 - :

|

Основные положения диссертации опубликованы автором в

г» пул-тпптптлг плЛлтиг!

иш/1Л уаиихал..

1. Капустин В. Ф., Смирнова Е. Ю. О классификации предприятий региона по уровню загрязнения промышленных стоков и возможности в© использования 2 условиях рыночной экономики // Тезисы Ееесовз. научно-практ. конф. "Новые форыы хозяйствования а условиях перехода к рыночным отношениям" (16-13 ыая 1991 года). - Ж, 1991. - С.405-4С6.

2. Капустин а Ф., Смирнова Е. Ю. Классификация предприятий региона по сбросу загрязняющих вешэств в водную среду // Вестник СПбГУ, сер. 5 "Экономика", 1992. - Вып. 1. С. 42-47. .

3. Смирнова Е. Ю. Предварительный анализ типичности в : задаче многомерной классификации. - СШ, 1993. - 21 с. - Де-ПОНИр. В ИНИОН РАЕ 07.12. 93. N 48713.

I (