Исследование и разработка системы информационного обслуживания пользователей на базе естественноязыкового интерфейса к банку данных экономической тематики тема диссертации по экономике, полный текст автореферата

Ученая степень
кандидата экономических наук
Автор
Стронская, Татьяна Николаевна
Место защиты
Москва
Год
1992
Шифр ВАК РФ
08.00.13
Диссертации нет :(

Автореферат диссертации по теме "Исследование и разработка системы информационного обслуживания пользователей на базе естественноязыкового интерфейса к банку данных экономической тематики"



ИИНКСТЕРСТЮ НАУКИ, ВЫСШЕЙ ШКОЛЫ И ТЕХНИЧЕСКОЙ ПОЛИТИКИ РФ МОСКОВСКИЙ ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ЭКОНОМИЛО-СТАТИСТИЧЕСКИЙ ИНСТИТУТ

На правах рукописи УДК 002:519.256

Строкская Татьяна Николаевна

ИССЛЕДОВАНИЕ И РАЗРАБОТКА СИСТЕМЫ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ ПОЛЬЗОВАТЕЛЕЙ КА БАЗЕ ЕСТЕСТШШОЯЗНйОВОГО . ИНТЕРФЕЙСА К БАНКУ ДАННЫХ ЭШКШЧЕС50Я ТЕМАТИКИ

специальность 09. 00.13 - эиономико-матемагачепкио методы

АВТОРЕФЕРАТ диссертации на соисканиэ ученой сгепени кандидата экономических наук

Моста 1992

Работа выполнена на кафедре систем обработки экономической информации Московского ордена Трудового Красного Знамени вкономико-статистического института.

Научный руководитель - кандидат экономических наук,

доцент Лихачева Галина Николаевна

Официалышэ оппоненты - доктор экономических наук

Аппак Михаил Алексеевич - кандидат экономических наук Яиго Светлана Михайловна

Ведущая организация - Главный Вычислительный Центр

Госкомстата Российской Федерации

Еоцита состоится "19' ноября_ 1992 г. в 14 часов н;

азаедании слециаишированного совета К 053.10.03 Мэсковокогс ордена Трудового Красного Знамени экшомико-статисгяческог! института по адресу: 119501, Москва, Нежинская ул. 7..

С! диссертацией можно овначомиться в библиотеке института.

Огбывы на автореферат в двух экземплярах• с подписями ваваренными печатают, просим направлять ученому секретарю МЭ СИ.

Автороферат разослан . "___" октября 1992 г.

Ученый секретарь специалиэированяого совета кандидат экономических гиук> профессор

/Г. С. КелнинскиЯ

! От.; "Л I I я '

ОЩ\Я ХАРАКТЕРИСТИКА РАБОТЫ

Акл^аднооть проблемы. Процесо преобразования отечественной экономики в рьшочнух проиоходит на фоне появления и рае вития новых организационных структур: коммерческих банков, акционерных общэств, бирж. Их успешное функционирование ко многом определяется вовмокностыо оперативного доступа к экономической информации, имекедэй коммерческую ценность. В втой свяеи приобретает Особое вначенш развитие сети обща доступных банков данных (ВнД) экономической тематики, как одной ив составляющих формируемой в наотоявда время информационной инфраструктуры.

Проблема • оперативного и комфортного доступа к экономической информации встает осоСонно остро, так как вздержки при совершении деловых операций, отсутствие своевременной информации о коныоктуре рынка, средних ценах на товары и услуги в равличных регионах республики, недопустимо Солъшо сроки проведения банковских расчетов и бкриезых -операций приводят в условиях рынка к суиэствокным финансовым и вкапомичоеккм потерям.

Вовнгашовениэ новых рыночных структур обусловливает две определяющие тенденции в процессе распространения и потребления экономической информации. Во-первых, вяачитвлыю рассорился круг потребителей экономической информации, основную пассу которых составляют пользователи, не имеющие подготовки в области экономической информатики, и которых не удовлетворяет ориентация большинства соответствуют?« государстгенных банков на польвоватоля-зкономиста. Во-вторых, появились коммерческие

:шх оударстзе ним срганисацик ( агекотва аконошческих новостей, информационные олудйи, органивованнью при бирках и г. п.), ооуирствлящие формирование и распространение ВнД б,ю-ноыической тематики. В этих условиях крайне актуальным является равработка специальны! средств, повволягадах быстро и без серьееных материальных и интеллектуальных ватрат, довести вко-цомическум информацию до конкретного потребителя .

Быстрое развитие потребностей доступа к. экономической информации выдвигает на первый план ряд новых требований к интерфейса»», обеспечивающим обращвние полъвователей к соответствующим ЕаД:

- формулировка интеграционных потребностей в простой и доступной форш бев предварительного изучения явыка общения с системой;

• - - обеспечение приемлемых показателей полноты и точности информационного "оиска в оперативной рапмэ;

- возможность автоматического описания экономической информации специальными явыковыми средствами.

Актуальность перечисленных проблем и их недостаточная теоретическая равработка определили направления исследования, его цедь и вадачи.

Целью диссертационной работы является исследование и развитие, а такжэ практичеокая реализация комплекса теоретических и методологических положений по проектированию и орга-нивации ябыковых средств вьюогауровнового пользовательского интерфейса, обеспечивающего обращение неподготовленного клиента к ЕнД экономической тематики на естественном явыке.

Для доотииэкея у!саванной цели а диссертационной работе оставлены и режаны следуювдз научные и практические оадачи:

- анализ супдаствующюг форм и методов информационного оО-лужившия клиентов ВнД экономической тематики и на его оско-о определение требований к пользовательскому интерфейсу ;

- алалив особенностей предметной области ЕнД экономичзо-ой тематики и обоснование структуры информационного явька ольвоватвльского иитерфэйсг, ориентированного на оСолудива-иэ неподготовленных клиентов;

- определение архитектуры польвоватэльского интерфейса;

- построение модели информационного поиска по вапросу мента;

- разработка методов автоматического построения лингвистического обеспечения интерфейса ;

- определение система критериев для оценки потребитель-гак качеств еотествеякоявшового интерфейса.

Методологическая основа исследования. В работе иопольво-1ались труды советских и варуЗежных ученых по искусственному ителлекту, проектированию СангсоЕ данных, нечетки« щюлистам. фи ре ни пии конкретных вадач применялись элементы клас-ерного анализа, математической лингеипти«, теории информа-(ионных систем.

Научнач новивна исследования вакяючаэтея в разработке гового подхода к решению задачи проектирования яеыковых средне высокоуровнего пользовательского интерфейса, шевелящего юуеэствить информационнее обслуживание на Саве естественного щика. Научную новиену содержат следуюшле ревультаты:

- в -

коядап'гуагьная модель вдаокоуровнеадго полызаватбльскоп интерфейса, построенная на основе аппарата нечетких множеств;

модель анализа вапросов и фрагментов ЕнД на основе автоматического индексирования с учетом весов терминов;

модель автоматического построения лингвистического обес печатая, в том числе модель лостроониа информационно-поиско вого тевадруса на основе ииастврквации терминов по ковфф.'щк енту собирательной способности терминоз;

эвристические алгоритмы информационного поиска в БнД а вапросу клиента на естественном языке;

методика . отбора релевантных бапрооу фрагментов БнД н основе определения веса ерминов к критерия смыслового соот ■вэтствия ;

подход к определений потребительских свойств польвова тальского интерфейса как системы, реализующей обшэние на Сав естественного яг ^ка.

Практическая вначимость диссертации состоит в равработи обоснованной методики проектирования явыковых средств высока уровневого польвсватежьского интерфейса, позволивших реалиас вать информационное обслуживание клиентов БнД вкономичеокс тематики на Саве естественного яеыка. Практическую ценносч представляют : комплекс алгоритмов автоматического построеш лингвистического обеспечения,алгоритмы информационного поись . в БнД по вапросу клиента. .

Внедрение и апробация. Ревультаты диссертационного исс лздовакия использовалась малым многоотраслевым предприятие "1С" для разработки программно-технологической среды "1С'

\

Внедрение предлагаемого интер&эйса в рамкаг системы "10" осуществлено в 70 региональных управлениях ста.иотжи РФ, в Ассоциации Делового Сотрудничества "МИР", в ГВЦ Госкомстата РФ.

Основные теоретические положения диссертационной работы и результатн их практической реаливацик обсувдались на Всэсо-ганой научной конференции "Компигеривг ^ия информационных процессов в управлении народным хозяйством" (к^екза, 3-5 Октября 1989 г.), на Всесоюзном совещании специалистов в области научно-технической информации но проблещи совдания и ис-польвования фактографических бав данных" (Мзсква, 19-21 декабря 1989 г.), на Всесоюзной конференции "Вовне информационные технологии в управдеккл городом" (5-7 ишя 1990 г.), на научно-техническом евтнаре "Программное обеспечение ЕС ЭВМ, ПЭВМ и ко--шюксое АРМ" (Минск", 10-12 декабря 1990.г.).

Публикации . По теме диссертационного исследования опубликовано 8 работ общим объемом 1,4 печатных лкота.

Структура работы. Диссертация подержит 121 страницу текста и состоят из введения, грех глав, заключении, оплот литературы и 6 приложений.

ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЩИ

Во введении обосновала актуальность чыбрапкой тощ.', сформулированы цели и задачи исследования.

В первой глзеь диссертационной работы представлены результаты анализ? приблеи информационного обслуживания неподготовленных клиентов и обосновывается необходимость развития

оутаэствуших в настоящее вранш явыковых средств польеов^твль-оких интерфейсов. Ориентация на БнД экономической тематики ■ обусловила проведение всестороннего аналявз предметной области соответствующих банков, иа основе которого автором были сформулированы принципы построепия высокоуровне-эго польвова-тельского интерфейса

В работе выявлены следующие особенности экономической информации: линейная форма; дискретный характер и представление в алфавитно-цифровом виде; относительная однотипность и однородность в сочетании с массовостью и общностью источников возникновения; фиксация исходной информации в первичных документах, которые непригодны для автоматического ввода в БнД. Показана необходимость учета атих особенностей при проектировании явыковых средств польвовательского интерфейса.

Проведена многоаспектная классификация экономической иг -формации; особое внимание уделялось делению информации по длительности периода, в течение которого она сохраняет свою актуальность и испольеуется в принятии решений : теоретическая ( ревудьтагы фундаментальных и прикладных исследований) ; стратегическая, т. о. сохраняющие актуальность в течение длительного периода времени (равличнш еамонодательные акты) ; тактическая (конъхиктурная) информация с периодом актуальности от квартала до 1-2 лет ( сведения о предприятиях, фирмах, статистические данные и т.д.); оперативная информация, сохраняю^. актуальность короткий промежуток времени (сведения о ценах, коммерческие объявления, ревультаты торгов ва бирже). Обоснован рентабельный состав общедоступного БнД вкономичес-

- В -

кой тзматгош.

Анализ оутзэотвущзй практики инфэрмзционвого обохужива-ния а отечественных БнД вкопоыическсй теиатики показал, что большинство ив них ориентированы ва вюномястов и. отатиоти-ков; как правило в них отсутствуют диалоговые средогва, ио-польвулдиа влешиты естественного явыка, что обуславливает необходимость предварительного ивучокйя яеыковьк средств информационной системы; им свойстЕэна нивкая оперативность, нэ-вооможнооть доступа к информационным ресурсам • в рекше "оп-Нпэ".

На основании проведенного автором аналива форм, - в которых сусэствукт в настояло время информационные явнчи, обоснован выбор в качестве осповного коммуникативного средства диалога на ограниченном естественном Я8ыке. Ограничения на естественный явык проявляются в ограничэнш количества смыо-ловьп свявей (предлогов и служебных слов) и четкой фиксации их смысла; определении достаточно проотьп структур предложения и вовмояных вариантов • их эквивалентных цредогавлений; фиксации с помощью тезауруса состава и смысла используемых понятий с устранением их синонимия (путем кодирования) и омонимии (путем установления привнаков смысловых категорий слов).

Е ревультате ивучения современных средств ияформацисг'о-го обслуживания сформулированы принципы построения высокоуровневого польеова.тпьского интерфейса ЕпГ основными ив которых являются: относительная универсальность в пределах вко-номической сферы; возможность осуществления поиска и обработ-

ки данных, включающая в себя смысловой поиск информации, оперативное варьирование критериев поиска; гибкость ивменения формы выдачи информации, то есть еовмокзюсть получения полных •текстов документов, отдельных аспектов, ссылок; простота ведения БкД; наличие автоматизированной подсистем: инструктирования абонентов.

Пэкавако, что исполъвование средств естеотвенноявыкового интерфейса в составе ужв существующих ВнД, ориентированных на экономистов, позволит неподготовленным польвователям обратиться к-таким специфическим банкам как Автоматизированная статистическая информационная система. При атом вовможна реализация еапрооов следующих типов: поиск показателей по примерной формулировке его экономического смысла и указания наименования объекта на естественном явыка; агрегирование данных по множстау объектов для пскавателей, чьи наименования сфо[ -мулированн на естественном явьке; агрегирование данных по множеству свяванных классификационными отношениями показателей для объектов, наименования которых заданы на естественном яяыке; отбор входных и выходных объе)стов по качественным и количественным признакам, -ввитым отдельно или в комбинации.

Во второй главе исследуются вопросы построения концептуальной модели высокоуровневого пользовательского интерфейса, методологической основой построения которой являотся теория нечетких множеств Еаде и предложенное ям понятие лингвистической переменной. В этой свивн автором решбны следующие основные проблемы: разработана модель ачашгаа содержания Фрагментов и еапросов, определен подход к построению лингвисти-

ческого обеспечения и обоснована ыотодика формаливацки критерия выбора по (запросу релевантных фрагментов ив БнД. Модель анализа содержания, разработанная автором, основывается на принципе автоматического индексирования о учетом весов терминов. Для выбора релевантных фрагментов ив БнД автором предлагается методика, основанная на расчета весов терминов и меры Танимото в качестве крг^ерия смыслоеого соответствия. Валное место ванимает рассмотрение оригинального подхода к построению лингвистического обеспечения пользовательского интерфейса, позволяющего автоматизировать все его этапы, в том числе построение информационно-поискового тезауруса на основе кластеризации терминов по коэффициенту собирательной способности.

Концептуальная модель интерфейса включает в себя следующие компоненты : множество первичных фрагментов БнД X; множество поисковых обравов фрагментов Р; множество запросов клиентов Я; множество поисковых образов запросов языковые средства I. При этом валрос клиента либо фрагмент ВнД представляется как линейьо-неупорядоченное множестве ненормализованных терминов естественног'о явыка Е(г) или ключевых слов : Е( г) = <е>.

Рассматриваемая л работе модель анализа содержания 8лемэн-тов БнД основывается на принципе индексирования, то есть приписывании единицам информации специальна обозначений, адекватно отражающих их смысл. Проведенный автором анализ семантики экономических данных показывает, что смысловое содержание фрагмента и запроса может быть с достаточной стэпеньи полноты выражено списком индексных терминов, представлявших

собой слова естественного явыка и выбираемых в соответствии с автоматической охеыой. В этом случае каждому фрагменту ставится в соответствие некоторое множэотво ключевых слов, называемый поисковым обравои фрагмента (Ш3>), а каждому вапрооу -поисковый обрав вапроса (ПОЗ). Соответствие, вадаваемое пра-111 ¿'¡ами перевода фрагментов и. вапросов с естественного явыкг на информационный, рассматривается как отношение К ив II ХШ, которое свявывает о !щоадым термином Ь £ Т и каядым фраг-ментоы/вапрооом действительное число д, ив интервала 10,1]

Индексирование фрагмента ваклачаетоп в преобразовании Ь

Ь. Е Т.гдо Г«Л(к)Ь .4-1,2,____п - множество индэкса-

ционных терминов данного ЗнД. На основе аналиеа фрагмента Ен; ■и вапроса формируются ПОФ и ПОЗ. ПО® Р(к(0) представляет оо-бой нечеткое мкожеотво терминов индексирования, ваданное нг Т: РСх( 1)) и(к) ,к)> , где /<1,к) - степень релевантности (омысловоги соответствия) фрагмента ) по отношению I термину Цк), еаданная на интервале С 0,1]. ГОЗ рассматривается как нечеткое мнояиотво 0=< К к), Ь(К) >, где Ь(к) выражав: степень вамюсти Цк) для передачи основного содержания вапроса

Языковые средства (или ин^рмационный явык) рассматрива ются автором как набор двух компонент: лексики Ь и срави вваимодейотвия лексических единиц В, составляющие лингвисти ческоо обеспечение. -Лексику явыка вапросов составляет набо нечетких мнодеств Ь •= (а, Ь, ...), которые представляют ообо иап&рбеенайкркзя ьзюлэства слов и семантически неделимых ус тяй'ипзых словосочетаний, ныраизхщих, определенное в давно

пред:?этной облгата понятие. В качество математичэшсого описания правил G ззагшорвйотвмя логаичасюга одиннц обоснована ор-гакнаация лохякяя канта ввпросов а виде нечеткого tseaypyoa, который в тврюшах нечеткой модsjej продстаздяэтса кзн линг-вистичзсквя перэиэнвва L:(T(L)»E, G, , гдэ T(L) - етожвотво TepfbüoB оловарл, Е - универсальное дас.тэотсо терминов естественного языка, а - к:-Лор сиктакоичес.чх правил (Лорнирования терминов оловсря на основе сканирования иножэства В; Ы ■■ шо-кзотео семантических правил, птавящэе в соответствий каждому элементу словаря ого смюл и (t). На кнолгаотве Т определены отношения подобия S, и отношение сбобцения Отношение S. ( ТиТ, удовлетворяет оледукизм условиям :

1. (Vfc' . t"£ Т) (<t'.t"> е S><—> js\y(t ,t")

2. (Vt' , t"£ U) (t * t"«> <t', t"> fs^ ).

3. Ы t tv (jt'ew c<t', Cxsj.

Сткопэиие обобщения üa (J5) определено слэдущкм сбра-во»й если элзкэетарньй дескриптор t' икает более обг^е значение там элементарный дескриптор t", a <t', t"> £5^, то nomo сказать что дескриптор t',находится в огяопэкяи Gu. (J3) к дескриптору t? то есть t*G-e (.&) t\ t*^ t",J< aC .

С помощью отношений подобия моделируется вккояюям, существующая между терминами естественного авькл, посредством отношения обобщения отразимся родо-видовые отноээяия мвнду понятиями.

В работа предлагается алгоритм корректировки первоначально составлэнногс ITOS с учетом нечеткого тезауруса:

1. Термины ГШ ёамэняотся в соответствии с соответствую-

- и -

циш дискриптораьа - синонимами, то ость ira множества P«i(f(0) исключается множаство упорядоченных пар: -«t'.jjuu') >/<t',t"> Gt'CT\U t"e 1Л функция принадлежности модифицированного множества будет

равна

jw(t') - mx(jpv(t')• где t'£T\T.<; t£lл

2. Из двух влешнтарных дескрипторов, свяванних отноде-кием обобщения удаляется наиболее общий по вначеншо, то есть ив множества Pj (f()) исключается множество упорядоченных пар { <t' , pu(t' ) >/ t'Ooe t* >.

В случае ju(i ,k)-0 фрагмент не индексируется термином t(k). Еоли jrii,k)»l, то ДО полностью релевантен по отношению к t(k). Промежуточные значения jii(i ,к) соответствуют весу термина t(k) в ПОФ. В работе рассмотрены равличные подходы к выделению и вгвешивакию (определению весов) терминов, то еогь к осушэствлению отображения множества терминов T«it(k)>,

k»l,2,......п в- пространстве принадлежности [0,1]. Задача

сводится к нахождению метода получения вначения jn(i ,k) для каждого термина t(k), входящего во фрагмента р(0 •

Основными параметрами, используемыми в формальных критериях вввешивания терминов, традиционно являются частотные моры : jtfi.k) - f(f"(0) и Ji(i ,k) » f(F*).

X

где f (i) - чаатота появления термина t(k) во фрагменте Г(0; F*» Sum (f'u)) i-1,го - суммарная частота термина t(k), определяемая на массиве ив m фрагментов. Полученные на основе частотных мор оценки терминов не обеспечивают необходимых по-каеателэй полноты и точности информационного поиска, поэтому

в работе предлагался использование относ1тодышх-оценок, позволяющих сравнивать F или f (i) с частотой появления торшна t(k) во всем массиве фрагментов N. Тагаш образом на осново развития сущэствующгас методов автором определены подходы к ироблс э анализа содержания фрагментов и запросов.

^алео в диссертации рассиатрк оотсп "опрос р выборе по ЕнД релевантных фрагнэнтоз по запросу польвов1лелй. Предлагаемая автором кетодика отбора релевантных фрагментов основыза-отся на определении формализованной «еры релевантности мо.%ду запросом и фрагментом, »фи отон система опорируэт арсеналом логически и лингвистических средств идентификации, совокупность которш определяет : рптерки смыслового соответствия (ИЗО) фрагментов м запросов. RCC рассматривается как пара R « < г =fС Р, О-) ; Y> , где г «Г(Р, Q) - функция вычисления меры корреляции между ПОЗ и ПОЗ, а У - условие такое, что

При й=1 - фрагмент выдается клиенту, а при К = О - не выдается.

В действующих информационных систе>..лх наиболее распространены такие критерии как мера пересечения, мэра объединения, коэффициент Спкедиела и Беннэтта, мера Марона I! Кпхнса, мера Танпмото. В данных КОС.изменение порогового ¡значениям позволяет органивовать пелонированную выдачу г > й> . В результата анализа существующих КСС автором з качество основной мэры для вычислрния корреляции шкду запросом и фрагмента была выбрана мера Танпмото : г - |РСН/(|Р|+|Ц!-|РЦ|)

Л, если Ï - истинно О, в противном случае

В работе сформулированы основные отличительные особенности данной меры: 1. Ыэра Танимото имеет нормаливованный характер и чзткке границы изменения величины п 0 < г < 1 2. Шкоимум (значения г (максимальная корреляции) соответствует олуча», ¡согда множество Р содержится в нечетком множестве О, либо множество 0 содержится в мнокестве Р, либо Р»0. 3. Минимум вначэния г (минимальная корреляция) имеет место в случае, когда множество Р содержится в дополнении множества либо если множество Ц содержится в дополнении -множества Р, либо одно ив множеств является дополнением другого. 4. Мера Танимото учитывает веса терминов, отсутствующих в вапросе, но присутствующих во фрагменте.

На рис. 1 представлен график ивменения величины меры Та-

Анализ ивменения меры Танимото позволяет сделать вывод о том, что чем специфичнее вапроо, тем меньшая суммарная мощность соответствующего ему множества фрагментов. И наоборот, меньшему числу испольвуемых в иапросе терминов соответствует большая суммарная мощность мно.чоства находимых фрагментов.

На основе критерия смыслового соответствия в.диссертации рзаработаны алгоритмы информационного поиска по вапрооу клиента, рассмотрено вваииодействия поисковых струетур ( ПОФ, ГЮ0, словарей, всяогательных инворсньн файлов).

Важное место в работе ванимает модель автоматического посгпоения лингвистического сбеолзчения. Обосновывается его струотура в виде системы словарей (ннформэ'тюнно-поисковый тезаурус, кодовый словарь терминов, шумовой словарь). Ядром является информационно-поисковый теэаурус. В настоящее время шфоко наиболее разщ._ютранены ручныэ и гюлуав т с мзт ичо с к.. j методы построения тезаурусов. На оонове развития существующих подходов автором разработан алгоритм автоматического построения тезауруса на основе кластбри8ации (группировки) терминов по коэффициенту собирательной 'способности.

На первом втапе все множество хранимых в БнД фрагментов представляется в виде матрицы "термин-фрагмент" р-.эмарносги пкп N : "

ТЕРМИНЫ

® tM.l) t(l»2) ..... til.nl

Р t(2,1)4(2,2) ..... t(2,n)

А .........................

Г

м

Е Н

т ..........................

Ы t(m,l) t(rv,2) ...... t(m,n)

На основе определения весовых оценок тэрминов матрица N

/

преобразуется в матрицы весовых ковффициек ов М и Е-M(i.j) = t(i,jV'Sum(t(lA)), k~l,n M'(i.J) = t(i,j)/Sum(t(k,;j)), k«l,m для l<i<m и Kjcn

Далее сгроитоя патрица ассоциируемое™ А : А ■ М х М'т

>

где ? оОоаначает операцию транспонирования матрицы.

Каждой вламент а(1,3) матрицы А представляет собой пока-еатель ассоциируемооти (овяэи) терминов 1 х 1 к определяется сдедукщш обравом : а(1,3)-Бит(м (к,1>*м(к,})), к»1,ы.

Показано, что диагональные влементы а(1.0 характерна уют уникальность5()) для термина 1. Их сумма равна ТО) -БитС&О^)) « 1-8(1), где 1»]. Вэлишша^О) обоеначаэт коэффициент свяви термина с другими терщиками. Для термина ; име-гарго большое число об!щх фрагментов с другими терминами, ена-чениэ коэффициента свяви будет высоким, но вначение коэффициентов уникальности низким. Общие коэффициенты свяви и уникальности для всего набора равкьс

Ь'ип((Г(1))/п) где 1»1,...,31 ; Т - 1 -5, где На следующем втале ассоциированные термины распределяются по кластерам (группам). Чиг по кластеров предлагается определять следующим обравом: Г|с - <5'- п.

Построение кластеров начинается с выбора ядер. Ядра выбираются исходя ив понятия собирательной способности р(1) для термина 1. г Р(1)

Б соответствии с в отчисленным вначением в качество ядер кластеров выбираются термины с наибольшими собирательными способностями. Очередной термин 1 приписывается к кластеру

с ядром бь эсли а(1 ,£^)«=тах{а(1,5,), вО ,Бг)......

где инд&кс ядра. Если Д'т ядра имеют одинаковый коэффициент ассоцикруемости, то фрагмент 1 присоединяется к кластеру , ядро которого имеет максимальную собирательную способ-

ность. Покавано, что при такой стратегии кластерпвацж ожидаемое число терминов в кластере 1, ядром которого являэтся термин ) равно и вычисляется по формуле:

1ус- (р(1)/5ця(р(к))) * п к-1,— для 1<1<т О помощью данного алгоритма производится одноуровневая классификация терминов в синонимичесюте группы, лежащие на нижнем уровне иерархического дерева кластеров. Дм построения верхних уровней дерева "■пецифицируются родо-видсвие отношения между терминами на основе расчета коэффициентов ассоциируе-мости для центроидов кластеров, которые рассматриваются как "родители", для терминов, находящихся на нижнем уровне. Показано, что процесс построения иерархического дерева кластеров носит итерационный характер, в каждой итерации в качестве векторов терминов выступают центроиды кластеров, получонных на предыдущем шаге. Процедура продолжается до тех пор пока не будет построен кластер, состоящий лэ одного термина - суперцентроид.

Сравнение данного метода с другими подходами к автоматическому построение словарей продемонстрировало его следующие преимущества: возможна оценка числа кластеров, на которые надо равбить имеющийся набор терминов; распределение терминов по кластерам довольно равномерно, поэтому слишком больших кластеров и наоборот, много одноэлементных кластеров не сбра-вувтея.

В третьей глава рассматриваются вопросы практической ро-аливации предлагаемого интерфейса и оценке его функциональной эффективности. Рвалиеованная модель пользовательского интер-

фейса исполъвуетоя в качестве одной из функциональных подсистем программяо-технодогической среды "10м, предназначенной для совдания БнД и организации информационного обслуживания в различных решмах. В работе рассмотрена технология информационного обслуживания клиентов на Саве естественноязыкового интерфейса.

Обоснована методика оценки функциональной вффективности польвовательского интерфейса на основе следующих критериев (табл.1):

- семантичэскиэ характеристики скотомы;

- усилия, интеллектуальные или фивичесшге, ватрачивавмые клиентами на ивучение явыковых средств и формулировку запросов;

- время с момента поступления запроса в систему до выдачи ответа; .

- форма представ лени., выдачи, которая влияет на возможность испольэования выданных мат&риаяэв клиентами;

- степень универсаливации.

Таблица 1

Критерии функциональной эффективности Пользовательский интерфейс

1 г 3 4 5 Ерэмч, ватрачяваемое клиентом на предварительное ивучение явыковых средств системы. Примеры вапросов: Затраты труда на подготовку запроса Время реакции системы Соома представления ревультатов Степень универсальности не требуется Цветные металлы (с лицензией) Ерсдам кирпич селикатный Модемы и свявное оборудование Юцэм порошок для ксероксов 1-2 мин Б - 8 сек визуализация на вкраяе, печать любые текстовке БнД

В работе приведены фактические данное по рввудьтагсм определения вффэктизности предлагаемого интерфейса, фуикционк-рухщэго в среда банка коммерческих предложений, содержащего около 10 тью. коммерческих объявлений типа "ищэм-предлаг; эм". В течении трех месяцев аналивировалась работа 140 удаленных абонентов банка, обслуживаемых'по телекоммуникационным канала?^ и приславших 1237 вапроса на поиск информации. Автором проанализирован характер вависимости между объемом словарной базы и временем реакции на sanpoc клиента (рио. 2).

Для оценки семантически характеристик предлагается использование двух основных покавателэй - коэффициентов полноты (R) и точности (Р), а также их нормированных версий. Семантические характеристики системы оценивались на основе обработки 1000 реальных вапросов клиентов банка. В качество КОС использовалась мера Танимото с пороговым значением 0.3. В ревульта-те усреднения частных коэффициентов были получены средние значения коэффициентов полноты и точности (рис. 3), а также нормализованной полноты и точности:

К( среди) = 0.749 Р( среди) -0.332

R( нормал. среди) = 0. 984 Р( нормал. средн) = 0.968 •

j i

р

~s wи- д

Рис.3 Усредненная кривая зависимости точности от полноты.

te.2 Зависимость среднего Бремени реакции 0т объема словаря.

- 22 -

В качестве способа повыиэния полноты информационного поиска автором обосновывается применение нормализации терминов.

Таким образом эффективность равработанных средств подтверждена експерименталышми исследованиями.

ОСВОЕНИЕ РЕЗУЛЬТАТЫ РАБОТЫ .

1. Равработана концепция высокоуровневого польвователь-ского интерфейса, реадивужщэго обрапэнио неподготовленное клиента с вапросами на естественном явыке к БнД акономическо: тематике..'

2, Предложена модел автоматического построения лингвис •гического обеспечения (информационно-поискового тевауруса словаря терминов и ряда служебных файлов) естествэнноязыкозо

, го интерфейс?

'3. Щюдложе :а модель отбора релевантных вапросу фрагьш тов БнД на основе определения весов терминов и критерия смыс дового соответствия.

4. Разработаны алгоритмы информационного поиска по ва] росу на естественном явите.

Б. Равработана методика определения функциональной фекгивности предлагаемого интерфейса.

6. Предложен и обоснован подход к определению семант . ческих свойств предлагаемого инфтерфэйса на основе вычислен покавателей полпоты и точности.

lb томе диссертации опубгаювшш следующие работы:

1. система автоматизации обследования i. проецирования Cas данных // Технологические средства проектирования систем обработки данных нз Case юти- и микроЭБЫ : Сб. науч. трудов. -U.-. и*":*., 1987. - 0,3 п.л. (2 соавторстве).

г. Технология структурирован л даи"ых на кикроЭЕУ // Компьютеризация информационных процессов в упр. млении народным хозяйством : Тезисы докл. Всесога. научной коиф., ч.1. -Ы.: ШСИ, 1988. - 0,1.п. л. (в соавторстве).

3. Аспекты семантического анализа метаданных з системе автоматизации. построения информационной модели для микроЭШ // Программно-алгоритмические средства технологической среды проектирования систем обработки экономической информации : Об. науч. трудов. ■• М.: МЭСИ, 198é. - 0,3 п. л.

4. Подсистема реализации вапросов пользователя в АБД "Интврстат" // Разработга и внедрение систем обработки sitoHo-мической информации : Сб. науч. трудов. - М. : ИЭСИ, 1989. - 0,2 п. л. (в соавторстве).

5. Информационное обслуживание пользователей АБД "Интор-стат" на основе естестзеннэго языка // Тезисы докл. Всесоив. совещания специалистов в области научно-технической информа-

I

щи по проблемам создания и использования фактографических баз данных . - М. : ВИНИТИ, 1989. - ОД п. л.

6. Обработка, информационных вапросов на естественном .языке в автоматизироьанном банке давних "Интерстат" // Новые

информационные технологии в АСУ городом, : Тезисы докл. Вг^со-юен. "конф. - М. : HIM стандартизации и унификации, 1990. - 0,1

п. л. (в соавторства).

7. Оценка и развитие средств информационного поиска на естественном явыке // Программное обеспечение ЕС ЭВМ, 1ВШ и котле коса АРМ. : Тевисы докл. научнс-практич. семинара. -Шнек : ЗэлШКТИ, 1В°0. - 0,1 п.л. (в соавторстве).

8. Ачалив явькоеых средств Еторой очереди АЕД "Интере-•хат" // Совдание и функционирование систем автомативированной обработки экономической информации.: Сб. науч. трудов. - М.: ИЭ-СИ, 1991. - 0,2 п. л.

ХшиСЬ/ЯТир. /Се?