Исследование и разработка системы информационного обслуживания пользователей на базе естественноязыкового интерфейса к банку данных экономической тематики тема диссертации по экономике, полный текст автореферата
- Ученая степень
- кандидата экономических наук
- Автор
- Стронская, Татьяна Николаевна
- Место защиты
- Москва
- Год
- 1992
- Шифр ВАК РФ
- 08.00.13
Автореферат диссертации по теме "Исследование и разработка системы информационного обслуживания пользователей на базе естественноязыкового интерфейса к банку данных экономической тематики"
ИИНКСТЕРСТЮ НАУКИ, ВЫСШЕЙ ШКОЛЫ И ТЕХНИЧЕСКОЙ ПОЛИТИКИ РФ МОСКОВСКИЙ ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ЭКОНОМИЛО-СТАТИСТИЧЕСКИЙ ИНСТИТУТ
На правах рукописи УДК 002:519.256
Строкская Татьяна Николаевна
ИССЛЕДОВАНИЕ И РАЗРАБОТКА СИСТЕМЫ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ ПОЛЬЗОВАТЕЛЕЙ КА БАЗЕ ЕСТЕСТШШОЯЗНйОВОГО . ИНТЕРФЕЙСА К БАНКУ ДАННЫХ ЭШКШЧЕС50Я ТЕМАТИКИ
специальность 09. 00.13 - эиономико-матемагачепкио методы
АВТОРЕФЕРАТ диссертации на соисканиэ ученой сгепени кандидата экономических наук
Моста 1992
Работа выполнена на кафедре систем обработки экономической информации Московского ордена Трудового Красного Знамени вкономико-статистического института.
Научный руководитель - кандидат экономических наук,
доцент Лихачева Галина Николаевна
Официалышэ оппоненты - доктор экономических наук
Аппак Михаил Алексеевич - кандидат экономических наук Яиго Светлана Михайловна
Ведущая организация - Главный Вычислительный Центр
Госкомстата Российской Федерации
Еоцита состоится "19' ноября_ 1992 г. в 14 часов н;
азаедании слециаишированного совета К 053.10.03 Мэсковокогс ордена Трудового Красного Знамени экшомико-статисгяческог! института по адресу: 119501, Москва, Нежинская ул. 7..
С! диссертацией можно овначомиться в библиотеке института.
Огбывы на автореферат в двух экземплярах• с подписями ваваренными печатают, просим направлять ученому секретарю МЭ СИ.
Автороферат разослан . "___" октября 1992 г.
Ученый секретарь специалиэированяого совета кандидат экономических гиук> профессор
/Г. С. КелнинскиЯ
! От.; "Л I I я '
ОЩ\Я ХАРАКТЕРИСТИКА РАБОТЫ
Акл^аднооть проблемы. Процесо преобразования отечественной экономики в рьшочнух проиоходит на фоне появления и рае вития новых организационных структур: коммерческих банков, акционерных общэств, бирж. Их успешное функционирование ко многом определяется вовмокностыо оперативного доступа к экономической информации, имекедэй коммерческую ценность. В втой свяеи приобретает Особое вначенш развитие сети обща доступных банков данных (ВнД) экономической тематики, как одной ив составляющих формируемой в наотоявда время информационной инфраструктуры.
Проблема • оперативного и комфортного доступа к экономической информации встает осоСонно остро, так как вздержки при совершении деловых операций, отсутствие своевременной информации о коныоктуре рынка, средних ценах на товары и услуги в равличных регионах республики, недопустимо Солъшо сроки проведения банковских расчетов и бкриезых -операций приводят в условиях рынка к суиэствокным финансовым и вкапомичоеккм потерям.
Вовнгашовениэ новых рыночных структур обусловливает две определяющие тенденции в процессе распространения и потребления экономической информации. Во-первых, вяачитвлыю рассорился круг потребителей экономической информации, основную пассу которых составляют пользователи, не имеющие подготовки в области экономической информатики, и которых не удовлетворяет ориентация большинства соответствуют?« государстгенных банков на польвоватоля-зкономиста. Во-вторых, появились коммерческие
:шх оударстзе ним срганисацик ( агекотва аконошческих новостей, информационные олудйи, органивованнью при бирках и г. п.), ооуирствлящие формирование и распространение ВнД б,ю-ноыической тематики. В этих условиях крайне актуальным является равработка специальны! средств, повволягадах быстро и без серьееных материальных и интеллектуальных ватрат, довести вко-цомическум информацию до конкретного потребителя .
Быстрое развитие потребностей доступа к. экономической информации выдвигает на первый план ряд новых требований к интерфейса»», обеспечивающим обращвние полъвователей к соответствующим ЕаД:
- формулировка интеграционных потребностей в простой и доступной форш бев предварительного изучения явыка общения с системой;
• - - обеспечение приемлемых показателей полноты и точности информационного "оиска в оперативной рапмэ;
- возможность автоматического описания экономической информации специальными явыковыми средствами.
Актуальность перечисленных проблем и их недостаточная теоретическая равработка определили направления исследования, его цедь и вадачи.
Целью диссертационной работы является исследование и развитие, а такжэ практичеокая реализация комплекса теоретических и методологических положений по проектированию и орга-нивации ябыковых средств вьюогауровнового пользовательского интерфейса, обеспечивающего обращение неподготовленного клиента к ЕнД экономической тематики на естественном явыке.
Для доотииэкея у!саванной цели а диссертационной работе оставлены и режаны следуювдз научные и практические оадачи:
- анализ супдаствующюг форм и методов информационного оО-лужившия клиентов ВнД экономической тематики и на его оско-о определение требований к пользовательскому интерфейсу ;
- алалив особенностей предметной области ЕнД экономичзо-ой тематики и обоснование структуры информационного явька ольвоватвльского иитерфэйсг, ориентированного на оСолудива-иэ неподготовленных клиентов;
- определение архитектуры польвоватэльского интерфейса;
- построение модели информационного поиска по вапросу мента;
- разработка методов автоматического построения лингвистического обеспечения интерфейса ;
- определение система критериев для оценки потребитель-гак качеств еотествеякоявшового интерфейса.
Методологическая основа исследования. В работе иопольво-1ались труды советских и варуЗежных ученых по искусственному ителлекту, проектированию СангсоЕ данных, нечетки« щюлистам. фи ре ни пии конкретных вадач применялись элементы клас-ерного анализа, математической лингеипти«, теории информа-(ионных систем.
Научнач новивна исследования вакяючаэтея в разработке гового подхода к решению задачи проектирования яеыковых средне высокоуровнего пользовательского интерфейса, шевелящего юуеэствить информационнее обслуживание на Саве естественного щика. Научную новиену содержат следуюшле ревультаты:
- в -
коядап'гуагьная модель вдаокоуровнеадго полызаватбльскоп интерфейса, построенная на основе аппарата нечетких множеств;
модель анализа вапросов и фрагментов ЕнД на основе автоматического индексирования с учетом весов терминов;
модель автоматического построения лингвистического обес печатая, в том числе модель лостроониа информационно-поиско вого тевадруса на основе ииастврквации терминов по ковфф.'щк енту собирательной способности терминоз;
эвристические алгоритмы информационного поиска в БнД а вапросу клиента на естественном языке;
методика . отбора релевантных бапрооу фрагментов БнД н основе определения веса ерминов к критерия смыслового соот ■вэтствия ;
подход к определений потребительских свойств польвова тальского интерфейса как системы, реализующей обшэние на Сав естественного яг ^ка.
Практическая вначимость диссертации состоит в равработи обоснованной методики проектирования явыковых средств высока уровневого польвсватежьского интерфейса, позволивших реалиас вать информационное обслуживание клиентов БнД вкономичеокс тематики на Саве естественного яеыка. Практическую ценносч представляют : комплекс алгоритмов автоматического построеш лингвистического обеспечения,алгоритмы информационного поись . в БнД по вапросу клиента. .
Внедрение и апробация. Ревультаты диссертационного исс лздовакия использовалась малым многоотраслевым предприятие "1С" для разработки программно-технологической среды "1С'
\
Внедрение предлагаемого интер&эйса в рамкаг системы "10" осуществлено в 70 региональных управлениях ста.иотжи РФ, в Ассоциации Делового Сотрудничества "МИР", в ГВЦ Госкомстата РФ.
Основные теоретические положения диссертационной работы и результатн их практической реаливацик обсувдались на Всэсо-ганой научной конференции "Компигеривг ^ия информационных процессов в управлении народным хозяйством" (к^екза, 3-5 Октября 1989 г.), на Всесоюзном совещании специалистов в области научно-технической информации но проблещи совдания и ис-польвования фактографических бав данных" (Мзсква, 19-21 декабря 1989 г.), на Всесоюзной конференции "Вовне информационные технологии в управдеккл городом" (5-7 ишя 1990 г.), на научно-техническом евтнаре "Программное обеспечение ЕС ЭВМ, ПЭВМ и ко--шюксое АРМ" (Минск", 10-12 декабря 1990.г.).
Публикации . По теме диссертационного исследования опубликовано 8 работ общим объемом 1,4 печатных лкота.
Структура работы. Диссертация подержит 121 страницу текста и состоят из введения, грех глав, заключении, оплот литературы и 6 приложений.
ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЩИ
Во введении обосновала актуальность чыбрапкой тощ.', сформулированы цели и задачи исследования.
В первой глзеь диссертационной работы представлены результаты анализ? приблеи информационного обслуживания неподготовленных клиентов и обосновывается необходимость развития
оутаэствуших в настоящее вранш явыковых средств польеов^твль-оких интерфейсов. Ориентация на БнД экономической тематики ■ обусловила проведение всестороннего аналявз предметной области соответствующих банков, иа основе которого автором были сформулированы принципы построепия высокоуровне-эго польвова-тельского интерфейса
В работе выявлены следующие особенности экономической информации: линейная форма; дискретный характер и представление в алфавитно-цифровом виде; относительная однотипность и однородность в сочетании с массовостью и общностью источников возникновения; фиксация исходной информации в первичных документах, которые непригодны для автоматического ввода в БнД. Показана необходимость учета атих особенностей при проектировании явыковых средств польвовательского интерфейса.
Проведена многоаспектная классификация экономической иг -формации; особое внимание уделялось делению информации по длительности периода, в течение которого она сохраняет свою актуальность и испольеуется в принятии решений : теоретическая ( ревудьтагы фундаментальных и прикладных исследований) ; стратегическая, т. о. сохраняющие актуальность в течение длительного периода времени (равличнш еамонодательные акты) ; тактическая (конъхиктурная) информация с периодом актуальности от квартала до 1-2 лет ( сведения о предприятиях, фирмах, статистические данные и т.д.); оперативная информация, сохраняю^. актуальность короткий промежуток времени (сведения о ценах, коммерческие объявления, ревультаты торгов ва бирже). Обоснован рентабельный состав общедоступного БнД вкономичес-
- В -
кой тзматгош.
Анализ оутзэотвущзй практики инфэрмзционвого обохужива-ния а отечественных БнД вкопоыическсй теиатики показал, что большинство ив них ориентированы ва вюномястов и. отатиоти-ков; как правило в них отсутствуют диалоговые средогва, ио-польвулдиа влешиты естественного явыка, что обуславливает необходимость предварительного ивучокйя яеыковьк средств информационной системы; им свойстЕэна нивкая оперативность, нэ-вооможнооть доступа к информационным ресурсам • в рекше "оп-Нпэ".
На основании проведенного автором аналива форм, - в которых сусэствукт в настояло время информационные явнчи, обоснован выбор в качестве осповного коммуникативного средства диалога на ограниченном естественном Я8ыке. Ограничения на естественный явык проявляются в ограничэнш количества смыо-ловьп свявей (предлогов и служебных слов) и четкой фиксации их смысла; определении достаточно проотьп структур предложения и вовмояных вариантов • их эквивалентных цредогавлений; фиксации с помощью тезауруса состава и смысла используемых понятий с устранением их синонимия (путем кодирования) и омонимии (путем установления привнаков смысловых категорий слов).
Е ревультате ивучения современных средств ияформацисг'о-го обслуживания сформулированы принципы построения высокоуровневого польеова.тпьского интерфейса ЕпГ основными ив которых являются: относительная универсальность в пределах вко-номической сферы; возможность осуществления поиска и обработ-
ки данных, включающая в себя смысловой поиск информации, оперативное варьирование критериев поиска; гибкость ивменения формы выдачи информации, то есть еовмокзюсть получения полных •текстов документов, отдельных аспектов, ссылок; простота ведения БкД; наличие автоматизированной подсистем: инструктирования абонентов.
Пэкавако, что исполъвование средств естеотвенноявыкового интерфейса в составе ужв существующих ВнД, ориентированных на экономистов, позволит неподготовленным польвователям обратиться к-таким специфическим банкам как Автоматизированная статистическая информационная система. При атом вовможна реализация еапрооов следующих типов: поиск показателей по примерной формулировке его экономического смысла и указания наименования объекта на естественном явыка; агрегирование данных по множстау объектов для пскавателей, чьи наименования сфо[ -мулированн на естественном явьке; агрегирование данных по множеству свяванных классификационными отношениями показателей для объектов, наименования которых заданы на естественном яяыке; отбор входных и выходных объе)стов по качественным и количественным признакам, -ввитым отдельно или в комбинации.
Во второй главе исследуются вопросы построения концептуальной модели высокоуровневого пользовательского интерфейса, методологической основой построения которой являотся теория нечетких множеств Еаде и предложенное ям понятие лингвистической переменной. В этой свивн автором решбны следующие основные проблемы: разработана модель ачашгаа содержания Фрагментов и еапросов, определен подход к построению лингвисти-
ческого обеспечения и обоснована ыотодика формаливацки критерия выбора по (запросу релевантных фрагментов ив БнД. Модель анализа содержания, разработанная автором, основывается на принципе автоматического индексирования о учетом весов терминов. Для выбора релевантных фрагментов ив БнД автором предлагается методика, основанная на расчета весов терминов и меры Танимото в качестве крг^ерия смыслоеого соответствия. Валное место ванимает рассмотрение оригинального подхода к построению лингвистического обеспечения пользовательского интерфейса, позволяющего автоматизировать все его этапы, в том числе построение информационно-поискового тезауруса на основе кластеризации терминов по коэффициенту собирательной способности.
Концептуальная модель интерфейса включает в себя следующие компоненты : множество первичных фрагментов БнД X; множество поисковых обравов фрагментов Р; множество запросов клиентов Я; множество поисковых образов запросов языковые средства I. При этом валрос клиента либо фрагмент ВнД представляется как линейьо-неупорядоченное множестве ненормализованных терминов естественног'о явыка Е(г) или ключевых слов : Е( г) = <е>.
Рассматриваемая л работе модель анализа содержания 8лемэн-тов БнД основывается на принципе индексирования, то есть приписывании единицам информации специальна обозначений, адекватно отражающих их смысл. Проведенный автором анализ семантики экономических данных показывает, что смысловое содержание фрагмента и запроса может быть с достаточной стэпеньи полноты выражено списком индексных терминов, представлявших
собой слова естественного явыка и выбираемых в соответствии с автоматической охеыой. В этом случае каждому фрагменту ставится в соответствие некоторое множэотво ключевых слов, называемый поисковым обравои фрагмента (Ш3>), а каждому вапрооу -поисковый обрав вапроса (ПОЗ). Соответствие, вадаваемое пра-111 ¿'¡ами перевода фрагментов и. вапросов с естественного явыкг на информационный, рассматривается как отношение К ив II ХШ, которое свявывает о !щоадым термином Ь £ Т и каядым фраг-ментоы/вапрооом действительное число д, ив интервала 10,1]
Индексирование фрагмента ваклачаетоп в преобразовании Ь
Ь. Е Т.гдо Г«Л(к)Ь .4-1,2,____п - множество индэкса-
ционных терминов данного ЗнД. На основе аналиеа фрагмента Ен; ■и вапроса формируются ПОФ и ПОЗ. ПО® Р(к(0) представляет оо-бой нечеткое мкожеотво терминов индексирования, ваданное нг Т: РСх( 1)) и(к) ,к)> , где /<1,к) - степень релевантности (омысловоги соответствия) фрагмента ) по отношению I термину Цк), еаданная на интервале С 0,1]. ГОЗ рассматривается как нечеткое мнояиотво 0=< К к), Ь(К) >, где Ь(к) выражав: степень вамюсти Цк) для передачи основного содержания вапроса
Языковые средства (или ин^рмационный явык) рассматрива ются автором как набор двух компонент: лексики Ь и срави вваимодейотвия лексических единиц В, составляющие лингвисти ческоо обеспечение. -Лексику явыка вапросов составляет набо нечетких мнодеств Ь •= (а, Ь, ...), которые представляют ообо иап&рбеенайкркзя ьзюлэства слов и семантически неделимых ус тяй'ипзых словосочетаний, ныраизхщих, определенное в давно
пред:?этной облгата понятие. В качество математичэшсого описания правил G ззагшорвйотвмя логаичасюга одиннц обоснована ор-гакнаация лохякяя канта ввпросов а виде нечеткого tseaypyoa, который в тврюшах нечеткой модsjej продстаздяэтса кзн линг-вистичзсквя перэиэнвва L:(T(L)»E, G, , гдэ T(L) - етожвотво TepfbüoB оловарл, Е - универсальное дас.тэотсо терминов естественного языка, а - к:-Лор сиктакоичес.чх правил (Лорнирования терминов оловсря на основе сканирования иножэства В; Ы ■■ шо-кзотео семантических правил, птавящэе в соответствий каждому элементу словаря ого смюл и (t). На кнолгаотве Т определены отношения подобия S, и отношение сбобцения Отношение S. ( ТиТ, удовлетворяет оледукизм условиям :
1. (Vfc' . t"£ Т) (<t'.t"> е S><—> js\y(t ,t")
2. (Vt' , t"£ U) (t * t"«> <t', t"> fs^ ).
3. Ы t tv (jt'ew c<t', Cxsj.
Сткопэиие обобщения üa (J5) определено слэдущкм сбра-во»й если элзкэетарньй дескриптор t' икает более обг^е значение там элементарный дескриптор t", a <t', t"> £5^, то nomo сказать что дескриптор t',находится в огяопэкяи Gu. (J3) к дескриптору t? то есть t*G-e (.&) t\ t*^ t",J< aC .
С помощью отношений подобия моделируется вккояюям, существующая между терминами естественного авькл, посредством отношения обобщения отразимся родо-видовые отноээяия мвнду понятиями.
В работа предлагается алгоритм корректировки первоначально составлэнногс ITOS с учетом нечеткого тезауруса:
1. Термины ГШ ёамэняотся в соответствии с соответствую-
- и -
циш дискриптораьа - синонимами, то ость ira множества P«i(f(0) исключается множаство упорядоченных пар: -«t'.jjuu') >/<t',t"> Gt'CT\U t"e 1Л функция принадлежности модифицированного множества будет
равна
jw(t') - mx(jpv(t')• где t'£T\T.<; t£lл
2. Из двух влешнтарных дескрипторов, свяванних отноде-кием обобщения удаляется наиболее общий по вначеншо, то есть ив множества Pj (f()) исключается множество упорядоченных пар { <t' , pu(t' ) >/ t'Ooe t* >.
В случае ju(i ,k)-0 фрагмент не индексируется термином t(k). Еоли jrii,k)»l, то ДО полностью релевантен по отношению к t(k). Промежуточные значения jii(i ,к) соответствуют весу термина t(k) в ПОФ. В работе рассмотрены равличные подходы к выделению и вгвешивакию (определению весов) терминов, то еогь к осушэствлению отображения множества терминов T«it(k)>,
k»l,2,......п в- пространстве принадлежности [0,1]. Задача
сводится к нахождению метода получения вначения jn(i ,k) для каждого термина t(k), входящего во фрагмента р(0 •
Основными параметрами, используемыми в формальных критериях вввешивания терминов, традиционно являются частотные моры : jtfi.k) - f(f"(0) и Ji(i ,k) » f(F*).
X
где f (i) - чаатота появления термина t(k) во фрагменте Г(0; F*» Sum (f'u)) i-1,го - суммарная частота термина t(k), определяемая на массиве ив m фрагментов. Полученные на основе частотных мор оценки терминов не обеспечивают необходимых по-каеателэй полноты и точности информационного поиска, поэтому
в работе предлагался использование относ1тодышх-оценок, позволяющих сравнивать F или f (i) с частотой появления торшна t(k) во всем массиве фрагментов N. Тагаш образом на осново развития сущэствующгас методов автором определены подходы к ироблс э анализа содержания фрагментов и запросов.
^алео в диссертации рассиатрк оотсп "опрос р выборе по ЕнД релевантных фрагнэнтоз по запросу польвов1лелй. Предлагаемая автором кетодика отбора релевантных фрагментов основыза-отся на определении формализованной «еры релевантности мо.%ду запросом и фрагментом, »фи отон система опорируэт арсеналом логически и лингвистических средств идентификации, совокупность которш определяет : рптерки смыслового соответствия (ИЗО) фрагментов м запросов. RCC рассматривается как пара R « < г =fС Р, О-) ; Y> , где г «Г(Р, Q) - функция вычисления меры корреляции между ПОЗ и ПОЗ, а У - условие такое, что
При й=1 - фрагмент выдается клиенту, а при К = О - не выдается.
В действующих информационных систе>..лх наиболее распространены такие критерии как мера пересечения, мэра объединения, коэффициент Спкедиела и Беннэтта, мера Марона I! Кпхнса, мера Танпмото. В данных КОС.изменение порогового ¡значениям позволяет органивовать пелонированную выдачу г > й> . В результата анализа существующих КСС автором з качество основной мэры для вычислрния корреляции шкду запросом и фрагмента была выбрана мера Танпмото : г - |РСН/(|Р|+|Ц!-|РЦ|)
Л, если Ï - истинно О, в противном случае
В работе сформулированы основные отличительные особенности данной меры: 1. Ыэра Танимото имеет нормаливованный характер и чзткке границы изменения величины п 0 < г < 1 2. Шкоимум (значения г (максимальная корреляции) соответствует олуча», ¡согда множество Р содержится в нечетком множестве О, либо множество 0 содержится в мнокестве Р, либо Р»0. 3. Минимум вначэния г (минимальная корреляция) имеет место в случае, когда множество Р содержится в дополнении множества либо если множество Ц содержится в дополнении -множества Р, либо одно ив множеств является дополнением другого. 4. Мера Танимото учитывает веса терминов, отсутствующих в вапросе, но присутствующих во фрагменте.
На рис. 1 представлен график ивменения величины меры Та-
Анализ ивменения меры Танимото позволяет сделать вывод о том, что чем специфичнее вапроо, тем меньшая суммарная мощность соответствующего ему множества фрагментов. И наоборот, меньшему числу испольвуемых в иапросе терминов соответствует большая суммарная мощность мно.чоства находимых фрагментов.
На основе критерия смыслового соответствия в.диссертации рзаработаны алгоритмы информационного поиска по вапрооу клиента, рассмотрено вваииодействия поисковых струетур ( ПОФ, ГЮ0, словарей, всяогательных инворсньн файлов).
Важное место в работе ванимает модель автоматического посгпоения лингвистического сбеолзчения. Обосновывается его струотура в виде системы словарей (ннформэ'тюнно-поисковый тезаурус, кодовый словарь терминов, шумовой словарь). Ядром является информационно-поисковый теэаурус. В настоящее время шфоко наиболее разщ._ютранены ручныэ и гюлуав т с мзт ичо с к.. j методы построения тезаурусов. На оонове развития существующих подходов автором разработан алгоритм автоматического построения тезауруса на основе кластбри8ации (группировки) терминов по коэффициенту собирательной 'способности.
На первом втапе все множество хранимых в БнД фрагментов представляется в виде матрицы "термин-фрагмент" р-.эмарносги пкп N : "
ТЕРМИНЫ
® tM.l) t(l»2) ..... til.nl
Р t(2,1)4(2,2) ..... t(2,n)
А .........................
Г
м
Е Н
т ..........................
Ы t(m,l) t(rv,2) ...... t(m,n)
На основе определения весовых оценок тэрминов матрица N
/
преобразуется в матрицы весовых ковффициек ов М и Е-M(i.j) = t(i,jV'Sum(t(lA)), k~l,n M'(i.J) = t(i,j)/Sum(t(k,;j)), k«l,m для l<i<m и Kjcn
Далее сгроитоя патрица ассоциируемое™ А : А ■ М х М'т
>
где ? оОоаначает операцию транспонирования матрицы.
Каждой вламент а(1,3) матрицы А представляет собой пока-еатель ассоциируемооти (овяэи) терминов 1 х 1 к определяется сдедукщш обравом : а(1,3)-Бит(м (к,1>*м(к,})), к»1,ы.
Показано, что диагональные влементы а(1.0 характерна уют уникальность5()) для термина 1. Их сумма равна ТО) -БитС&О^)) « 1-8(1), где 1»]. Вэлишша^О) обоеначаэт коэффициент свяви термина с другими терщиками. Для термина ; име-гарго большое число об!щх фрагментов с другими терминами, ена-чениэ коэффициента свяви будет высоким, но вначение коэффициентов уникальности низким. Общие коэффициенты свяви и уникальности для всего набора равкьс
Ь'ип((Г(1))/п) где 1»1,...,31 ; Т - 1 -5, где На следующем втале ассоциированные термины распределяются по кластерам (группам). Чиг по кластеров предлагается определять следующим обравом: Г|с - <5'- п.
Построение кластеров начинается с выбора ядер. Ядра выбираются исходя ив понятия собирательной способности р(1) для термина 1. г Р(1)
Б соответствии с в отчисленным вначением в качество ядер кластеров выбираются термины с наибольшими собирательными способностями. Очередной термин 1 приписывается к кластеру
с ядром бь эсли а(1 ,£^)«=тах{а(1,5,), вО ,Бг)......
где инд&кс ядра. Если Д'т ядра имеют одинаковый коэффициент ассоцикруемости, то фрагмент 1 присоединяется к кластеру , ядро которого имеет максимальную собирательную способ-
ность. Покавано, что при такой стратегии кластерпвацж ожидаемое число терминов в кластере 1, ядром которого являэтся термин ) равно и вычисляется по формуле:
1ус- (р(1)/5ця(р(к))) * п к-1,— для 1<1<т О помощью данного алгоритма производится одноуровневая классификация терминов в синонимичесюте группы, лежащие на нижнем уровне иерархического дерева кластеров. Дм построения верхних уровней дерева "■пецифицируются родо-видсвие отношения между терминами на основе расчета коэффициентов ассоциируе-мости для центроидов кластеров, которые рассматриваются как "родители", для терминов, находящихся на нижнем уровне. Показано, что процесс построения иерархического дерева кластеров носит итерационный характер, в каждой итерации в качестве векторов терминов выступают центроиды кластеров, получонных на предыдущем шаге. Процедура продолжается до тех пор пока не будет построен кластер, состоящий лэ одного термина - суперцентроид.
Сравнение данного метода с другими подходами к автоматическому построение словарей продемонстрировало его следующие преимущества: возможна оценка числа кластеров, на которые надо равбить имеющийся набор терминов; распределение терминов по кластерам довольно равномерно, поэтому слишком больших кластеров и наоборот, много одноэлементных кластеров не сбра-вувтея.
В третьей глава рассматриваются вопросы практической ро-аливации предлагаемого интерфейса и оценке его функциональной эффективности. Рвалиеованная модель пользовательского интер-
фейса исполъвуетоя в качестве одной из функциональных подсистем программяо-технодогической среды "10м, предназначенной для совдания БнД и организации информационного обслуживания в различных решмах. В работе рассмотрена технология информационного обслуживания клиентов на Саве естественноязыкового интерфейса.
Обоснована методика оценки функциональной вффективности польвовательского интерфейса на основе следующих критериев (табл.1):
- семантичэскиэ характеристики скотомы;
- усилия, интеллектуальные или фивичесшге, ватрачивавмые клиентами на ивучение явыковых средств и формулировку запросов;
- время с момента поступления запроса в систему до выдачи ответа; .
- форма представ лени., выдачи, которая влияет на возможность испольэования выданных мат&риаяэв клиентами;
- степень универсаливации.
Таблица 1
Критерии функциональной эффективности Пользовательский интерфейс
1 г 3 4 5 Ерэмч, ватрачяваемое клиентом на предварительное ивучение явыковых средств системы. Примеры вапросов: Затраты труда на подготовку запроса Время реакции системы Соома представления ревультатов Степень универсальности не требуется Цветные металлы (с лицензией) Ерсдам кирпич селикатный Модемы и свявное оборудование Юцэм порошок для ксероксов 1-2 мин Б - 8 сек визуализация на вкраяе, печать любые текстовке БнД
В работе приведены фактические данное по рввудьтагсм определения вффэктизности предлагаемого интерфейса, фуикционк-рухщэго в среда банка коммерческих предложений, содержащего около 10 тью. коммерческих объявлений типа "ищэм-предлаг; эм". В течении трех месяцев аналивировалась работа 140 удаленных абонентов банка, обслуживаемых'по телекоммуникационным канала?^ и приславших 1237 вапроса на поиск информации. Автором проанализирован характер вависимости между объемом словарной базы и временем реакции на sanpoc клиента (рио. 2).
Для оценки семантически характеристик предлагается использование двух основных покавателэй - коэффициентов полноты (R) и точности (Р), а также их нормированных версий. Семантические характеристики системы оценивались на основе обработки 1000 реальных вапросов клиентов банка. В качество КОС использовалась мера Танимото с пороговым значением 0.3. В ревульта-те усреднения частных коэффициентов были получены средние значения коэффициентов полноты и точности (рис. 3), а также нормализованной полноты и точности:
К( среди) = 0.749 Р( среди) -0.332
R( нормал. среди) = 0. 984 Р( нормал. средн) = 0.968 •
j i
р
~s wи- д
Рис.3 Усредненная кривая зависимости точности от полноты.
te.2 Зависимость среднего Бремени реакции 0т объема словаря.
- 22 -
В качестве способа повыиэния полноты информационного поиска автором обосновывается применение нормализации терминов.
Таким образом эффективность равработанных средств подтверждена експерименталышми исследованиями.
ОСВОЕНИЕ РЕЗУЛЬТАТЫ РАБОТЫ .
1. Равработана концепция высокоуровневого польвователь-ского интерфейса, реадивужщэго обрапэнио неподготовленное клиента с вапросами на естественном явыке к БнД акономическо: тематике..'
2, Предложена модел автоматического построения лингвис •гического обеспечения (информационно-поискового тевауруса словаря терминов и ряда служебных файлов) естествэнноязыкозо
, го интерфейс?
'3. Щюдложе :а модель отбора релевантных вапросу фрагьш тов БнД на основе определения весов терминов и критерия смыс дового соответствия.
4. Разработаны алгоритмы информационного поиска по ва] росу на естественном явите.
Б. Равработана методика определения функциональной фекгивности предлагаемого интерфейса.
6. Предложен и обоснован подход к определению семант . ческих свойств предлагаемого инфтерфэйса на основе вычислен покавателей полпоты и точности.
lb томе диссертации опубгаювшш следующие работы:
1. система автоматизации обследования i. проецирования Cas данных // Технологические средства проектирования систем обработки данных нз Case юти- и микроЭБЫ : Сб. науч. трудов. -U.-. и*":*., 1987. - 0,3 п.л. (2 соавторстве).
г. Технология структурирован л даи"ых на кикроЭЕУ // Компьютеризация информационных процессов в упр. млении народным хозяйством : Тезисы докл. Всесога. научной коиф., ч.1. -Ы.: ШСИ, 1988. - 0,1.п. л. (в соавторстве).
3. Аспекты семантического анализа метаданных з системе автоматизации. построения информационной модели для микроЭШ // Программно-алгоритмические средства технологической среды проектирования систем обработки экономической информации : Об. науч. трудов. ■• М.: МЭСИ, 198é. - 0,3 п. л.
4. Подсистема реализации вапросов пользователя в АБД "Интврстат" // Разработга и внедрение систем обработки sitoHo-мической информации : Сб. науч. трудов. - М. : ИЭСИ, 1989. - 0,2 п. л. (в соавторстве).
5. Информационное обслуживание пользователей АБД "Интор-стат" на основе естестзеннэго языка // Тезисы докл. Всесоив. совещания специалистов в области научно-технической информа-
I
щи по проблемам создания и использования фактографических баз данных . - М. : ВИНИТИ, 1989. - ОД п. л.
6. Обработка, информационных вапросов на естественном .языке в автоматизироьанном банке давних "Интерстат" // Новые
информационные технологии в АСУ городом, : Тезисы докл. Вг^со-юен. "конф. - М. : HIM стандартизации и унификации, 1990. - 0,1
п. л. (в соавторства).
7. Оценка и развитие средств информационного поиска на естественном явыке // Программное обеспечение ЕС ЭВМ, 1ВШ и котле коса АРМ. : Тевисы докл. научнс-практич. семинара. -Шнек : ЗэлШКТИ, 1В°0. - 0,1 п.л. (в соавторстве).
8. Ачалив явькоеых средств Еторой очереди АЕД "Интере-•хат" // Совдание и функционирование систем автомативированной обработки экономической информации.: Сб. науч. трудов. - М.: ИЭ-СИ, 1991. - 0,2 п. л.
ХшиСЬ/ЯТир. /Се?