Исследование и разработка системы информационного обслуживания пользователей на базе естественноязыкового интерфейса к банку данных экономической тематики

Стронская, Татьяна Николаевна

Темы диссертаций по экономике » Математические и инструментальные методы экономики

Исследование и разработка системы информационного обслуживания пользователей на базе естественноязыкового интерфейса к банку данных экономической тематики тема диссертации по экономике, полный текст автореферата

Автореферат

Ученая степень: кандидата экономических наук
Автор: Стронская, Татьяна Николаевна
Место защиты: Москва
Год: 1992
Шифр ВАК РФ: 08.00.13

Диссертации нет :(

Автореферат диссертации по теме "Исследование и разработка системы информационного обслуживания пользователей на базе естественноязыкового интерфейса к банку данных экономической тематики"

ИИНКСТЕРСТЮ НАУКИ, ВЫСШЕЙ ШКОЛЫ И ТЕХНИЧЕСКОЙ ПОЛИТИКИ РФ МОСКОВСКИЙ ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ЭКОНОМИЛО-СТАТИСТИЧЕСКИЙ ИНСТИТУТ

На правах рукописи УДК 002:519.256

Строкская Татьяна Николаевна

ИССЛЕДОВАНИЕ И РАЗРАБОТКА СИСТЕМЫ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ ПОЛЬЗОВАТЕЛЕЙ КА БАЗЕ ЕСТЕСТШШОЯЗНйОВОГО . ИНТЕРФЕЙСА К БАНКУ ДАННЫХ ЭШКШЧЕС50Я ТЕМАТИКИ

специальность 09. 00.13 - эиономико-матемагачепкио методы

АВТОРЕФЕРАТ диссертации на соисканиэ ученой сгепени кандидата экономических наук

Моста 1992

Работа выполнена на кафедре систем обработки экономической информации Московского ордена Трудового Красного Знамени вкономико-статистического института.

Научный руководитель - кандидат экономических наук,

доцент Лихачева Галина Николаевна

Официалышэ оппоненты - доктор экономических наук

Аппак Михаил Алексеевич - кандидат экономических наук Яиго Светлана Михайловна

Ведущая организация - Главный Вычислительный Центр

Госкомстата Российской Федерации

Еоцита состоится "19' ноября_ 1992 г. в 14 часов н;

азаедании слециаишированного совета К 053.10.03 Мэсковокогс ордена Трудового Красного Знамени экшомико-статисгяческог! института по адресу: 119501, Москва, Нежинская ул. 7..

С! диссертацией можно овначомиться в библиотеке института.

Огбывы на автореферат в двух экземплярах• с подписями ваваренными печатают, просим направлять ученому секретарю МЭ СИ.

Автороферат разослан . "___" октября 1992 г.

Ученый секретарь специалиэированяого совета кандидат экономических гиук> профессор

/Г. С. КелнинскиЯ

! От.; "Л I I я '

ОЩ\Я ХАРАКТЕРИСТИКА РАБОТЫ

Акл^аднооть проблемы. Процесо преобразования отечественной экономики в рьшочнух проиоходит на фоне появления и рае вития новых организационных структур: коммерческих банков, акционерных общэств, бирж. Их успешное функционирование ко многом определяется вовмокностыо оперативного доступа к экономической информации, имекедэй коммерческую ценность. В втой свяеи приобретает Особое вначенш развитие сети обща доступных банков данных (ВнД) экономической тематики, как одной ив составляющих формируемой в наотоявда время информационной инфраструктуры.

Проблема • оперативного и комфортного доступа к экономической информации встает осоСонно остро, так как вздержки при совершении деловых операций, отсутствие своевременной информации о коныоктуре рынка, средних ценах на товары и услуги в равличных регионах республики, недопустимо Солъшо сроки проведения банковских расчетов и бкриезых -операций приводят в условиях рынка к суиэствокным финансовым и вкапомичоеккм потерям.

Вовнгашовениэ новых рыночных структур обусловливает две определяющие тенденции в процессе распространения и потребления экономической информации. Во-первых, вяачитвлыю рассорился круг потребителей экономической информации, основную пассу которых составляют пользователи, не имеющие подготовки в области экономической информатики, и которых не удовлетворяет ориентация большинства соответствуют?« государстгенных банков на польвоватоля-зкономиста. Во-вторых, появились коммерческие

:шх оударстзе ним срганисацик ( агекотва аконошческих новостей, информационные олудйи, органивованнью при бирках и г. п.), ооуирствлящие формирование и распространение ВнД б,ю-ноыической тематики. В этих условиях крайне актуальным является равработка специальны! средств, повволягадах быстро и без серьееных материальных и интеллектуальных ватрат, довести вко-цомическум информацию до конкретного потребителя .

Быстрое развитие потребностей доступа к. экономической информации выдвигает на первый план ряд новых требований к интерфейса»», обеспечивающим обращвние полъвователей к соответствующим ЕаД:

- формулировка интеграционных потребностей в простой и доступной форш бев предварительного изучения явыка общения с системой;

• - - обеспечение приемлемых показателей полноты и точности информационного "оиска в оперативной рапмэ;

- возможность автоматического описания экономической информации специальными явыковыми средствами.

Актуальность перечисленных проблем и их недостаточная теоретическая равработка определили направления исследования, его цедь и вадачи.

Целью диссертационной работы является исследование и развитие, а такжэ практичеокая реализация комплекса теоретических и методологических положений по проектированию и орга-нивации ябыковых средств вьюогауровнового пользовательского интерфейса, обеспечивающего обращение неподготовленного клиента к ЕнД экономической тематики на естественном явыке.

Для доотииэкея у!саванной цели а диссертационной работе оставлены и режаны следуювдз научные и практические оадачи:

- анализ супдаствующюг форм и методов информационного оО-лужившия клиентов ВнД экономической тематики и на его оско-о определение требований к пользовательскому интерфейсу ;

- алалив особенностей предметной области ЕнД экономичзо-ой тематики и обоснование структуры информационного явька ольвоватвльского иитерфэйсг, ориентированного на оСолудива-иэ неподготовленных клиентов;

- определение архитектуры польвоватэльского интерфейса;

- построение модели информационного поиска по вапросу мента;

- разработка методов автоматического построения лингвистического обеспечения интерфейса ;

- определение система критериев для оценки потребитель-гак качеств еотествеякоявшового интерфейса.

Методологическая основа исследования. В работе иопольво-1ались труды советских и варуЗежных ученых по искусственному ителлекту, проектированию СангсоЕ данных, нечетки« щюлистам. фи ре ни пии конкретных вадач применялись элементы клас-ерного анализа, математической лингеипти«, теории информа-(ионных систем.

Научнач новивна исследования вакяючаэтея в разработке гового подхода к решению задачи проектирования яеыковых средне высокоуровнего пользовательского интерфейса, шевелящего юуеэствить информационнее обслуживание на Саве естественного щика. Научную новиену содержат следуюшле ревультаты:

- в -

коядап'гуагьная модель вдаокоуровнеадго полызаватбльскоп интерфейса, построенная на основе аппарата нечетких множеств;

модель анализа вапросов и фрагментов ЕнД на основе автоматического индексирования с учетом весов терминов;

модель автоматического построения лингвистического обес печатая, в том числе модель лостроониа информационно-поиско вого тевадруса на основе ииастврквации терминов по ковфф.'щк енту собирательной способности терминоз;

эвристические алгоритмы информационного поиска в БнД а вапросу клиента на естественном языке;

методика . отбора релевантных бапрооу фрагментов БнД н основе определения веса ерминов к критерия смыслового соот ■вэтствия ;

подход к определений потребительских свойств польвова тальского интерфейса как системы, реализующей обшэние на Сав естественного яг ^ка.

Практическая вначимость диссертации состоит в равработи обоснованной методики проектирования явыковых средств высока уровневого польвсватежьского интерфейса, позволивших реалиас вать информационное обслуживание клиентов БнД вкономичеокс тематики на Саве естественного яеыка. Практическую ценносч представляют : комплекс алгоритмов автоматического построеш лингвистического обеспечения,алгоритмы информационного поись . в БнД по вапросу клиента. .

Внедрение и апробация. Ревультаты диссертационного исс лздовакия использовалась малым многоотраслевым предприятие "1С" для разработки программно-технологической среды "1С'

Внедрение предлагаемого интер&эйса в рамкаг системы "10" осуществлено в 70 региональных управлениях ста.иотжи РФ, в Ассоциации Делового Сотрудничества "МИР", в ГВЦ Госкомстата РФ.

Основные теоретические положения диссертационной работы и результатн их практической реаливацик обсувдались на Всэсо-ганой научной конференции "Компигеривг ^ия информационных процессов в управлении народным хозяйством" (к^екза, 3-5 Октября 1989 г.), на Всесоюзном совещании специалистов в области научно-технической информации но проблещи совдания и ис-польвования фактографических бав данных" (Мзсква, 19-21 декабря 1989 г.), на Всесоюзной конференции "Вовне информационные технологии в управдеккл городом" (5-7 ишя 1990 г.), на научно-техническом евтнаре "Программное обеспечение ЕС ЭВМ, ПЭВМ и ко--шюксое АРМ" (Минск", 10-12 декабря 1990.г.).

Публикации . По теме диссертационного исследования опубликовано 8 работ общим объемом 1,4 печатных лкота.

Структура работы. Диссертация подержит 121 страницу текста и состоят из введения, грех глав, заключении, оплот литературы и 6 приложений.

ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЩИ

Во введении обосновала актуальность чыбрапкой тощ.', сформулированы цели и задачи исследования.

В первой глзеь диссертационной работы представлены результаты анализ? приблеи информационного обслуживания неподготовленных клиентов и обосновывается необходимость развития

оутаэствуших в настоящее вранш явыковых средств польеов^твль-оких интерфейсов. Ориентация на БнД экономической тематики ■ обусловила проведение всестороннего аналявз предметной области соответствующих банков, иа основе которого автором были сформулированы принципы построепия высокоуровне-эго польвова-тельского интерфейса

В работе выявлены следующие особенности экономической информации: линейная форма; дискретный характер и представление в алфавитно-цифровом виде; относительная однотипность и однородность в сочетании с массовостью и общностью источников возникновения; фиксация исходной информации в первичных документах, которые непригодны для автоматического ввода в БнД. Показана необходимость учета атих особенностей при проектировании явыковых средств польвовательского интерфейса.

Проведена многоаспектная классификация экономической иг -формации; особое внимание уделялось делению информации по длительности периода, в течение которого она сохраняет свою актуальность и испольеуется в принятии решений : теоретическая ( ревудьтагы фундаментальных и прикладных исследований) ; стратегическая, т. о. сохраняющие актуальность в течение длительного периода времени (равличнш еамонодательные акты) ; тактическая (конъхиктурная) информация с периодом актуальности от квартала до 1-2 лет ( сведения о предприятиях, фирмах, статистические данные и т.д.); оперативная информация, сохраняю^. актуальность короткий промежуток времени (сведения о ценах, коммерческие объявления, ревультаты торгов ва бирже). Обоснован рентабельный состав общедоступного БнД вкономичес-

- В -

кой тзматгош.

Анализ оутзэотвущзй практики инфэрмзционвого обохужива-ния а отечественных БнД вкопоыическсй теиатики показал, что большинство ив них ориентированы ва вюномястов и. отатиоти-ков; как правило в них отсутствуют диалоговые средогва, ио-польвулдиа влешиты естественного явыка, что обуславливает необходимость предварительного ивучокйя яеыковьк средств информационной системы; им свойстЕэна нивкая оперативность, нэ-вооможнооть доступа к информационным ресурсам • в рекше "оп-Нпэ".

На основании проведенного автором аналива форм, - в которых сусэствукт в настояло время информационные явнчи, обоснован выбор в качестве осповного коммуникативного средства диалога на ограниченном естественном Я8ыке. Ограничения на естественный явык проявляются в ограничэнш количества смыо-ловьп свявей (предлогов и служебных слов) и четкой фиксации их смысла; определении достаточно проотьп структур предложения и вовмояных вариантов • их эквивалентных цредогавлений; фиксации с помощью тезауруса состава и смысла используемых понятий с устранением их синонимия (путем кодирования) и омонимии (путем установления привнаков смысловых категорий слов).

Е ревультате ивучения современных средств ияформацисг'о-го обслуживания сформулированы принципы построения высокоуровневого польеова.тпьского интерфейса ЕпГ основными ив которых являются: относительная универсальность в пределах вко-номической сферы; возможность осуществления поиска и обработ-

ки данных, включающая в себя смысловой поиск информации, оперативное варьирование критериев поиска; гибкость ивменения формы выдачи информации, то есть еовмокзюсть получения полных •текстов документов, отдельных аспектов, ссылок; простота ведения БкД; наличие автоматизированной подсистем: инструктирования абонентов.

Пэкавако, что исполъвование средств естеотвенноявыкового интерфейса в составе ужв существующих ВнД, ориентированных на экономистов, позволит неподготовленным польвователям обратиться к-таким специфическим банкам как Автоматизированная статистическая информационная система. При атом вовможна реализация еапрооов следующих типов: поиск показателей по примерной формулировке его экономического смысла и указания наименования объекта на естественном явыка; агрегирование данных по множстау объектов для пскавателей, чьи наименования сфо[ -мулированн на естественном явьке; агрегирование данных по множеству свяванных классификационными отношениями показателей для объектов, наименования которых заданы на естественном яяыке; отбор входных и выходных объе)стов по качественным и количественным признакам, -ввитым отдельно или в комбинации.

Во второй главе исследуются вопросы построения концептуальной модели высокоуровневого пользовательского интерфейса, методологической основой построения которой являотся теория нечетких множеств Еаде и предложенное ям понятие лингвистической переменной. В этой свивн автором решбны следующие основные проблемы: разработана модель ачашгаа содержания Фрагментов и еапросов, определен подход к построению лингвисти-

ческого обеспечения и обоснована ыотодика формаливацки критерия выбора по (запросу релевантных фрагментов ив БнД. Модель анализа содержания, разработанная автором, основывается на принципе автоматического индексирования о учетом весов терминов. Для выбора релевантных фрагментов ив БнД автором предлагается методика, основанная на расчета весов терминов и меры Танимото в качестве крг^ерия смыслоеого соответствия. Валное место ванимает рассмотрение оригинального подхода к построению лингвистического обеспечения пользовательского интерфейса, позволяющего автоматизировать все его этапы, в том числе построение информационно-поискового тезауруса на основе кластеризации терминов по коэффициенту собирательной способности.

Концептуальная модель интерфейса включает в себя следующие компоненты : множество первичных фрагментов БнД X; множество поисковых обравов фрагментов Р; множество запросов клиентов Я; множество поисковых образов запросов языковые средства I. При этом валрос клиента либо фрагмент ВнД представляется как линейьо-неупорядоченное множестве ненормализованных терминов естественног'о явыка Е(г) или ключевых слов : Е( г) = <е>.

Рассматриваемая л работе модель анализа содержания 8лемэн-тов БнД основывается на принципе индексирования, то есть приписывании единицам информации специальна обозначений, адекватно отражающих их смысл. Проведенный автором анализ семантики экономических данных показывает, что смысловое содержание фрагмента и запроса может быть с достаточной стэпеньи полноты выражено списком индексных терминов, представлявших

собой слова естественного явыка и выбираемых в соответствии с автоматической охеыой. В этом случае каждому фрагменту ставится в соответствие некоторое множэотво ключевых слов, называемый поисковым обравои фрагмента (Ш3>), а каждому вапрооу -поисковый обрав вапроса (ПОЗ). Соответствие, вадаваемое пра-111 ¿'¡ами перевода фрагментов и. вапросов с естественного явыкг на информационный, рассматривается как отношение К ив II ХШ, которое свявывает о !щоадым термином Ь £ Т и каядым фраг-ментоы/вапрооом действительное число д, ив интервала 10,1]

Индексирование фрагмента ваклачаетоп в преобразовании Ь

Ь. Е Т.гдо Г«Л(к)Ь .4-1,2,____п - множество индэкса-

ционных терминов данного ЗнД. На основе аналиеа фрагмента Ен; ■и вапроса формируются ПОФ и ПОЗ. ПО® Р(к(0) представляет оо-бой нечеткое мкожеотво терминов индексирования, ваданное нг Т: РСх( 1)) и(к) ,к)> , где /<1,к) - степень релевантности (омысловоги соответствия) фрагмента ) по отношению I термину Цк), еаданная на интервале С 0,1]. ГОЗ рассматривается как нечеткое мнояиотво 0=< К к), Ь(К) >, где Ь(к) выражав: степень вамюсти Цк) для передачи основного содержания вапроса

Языковые средства (или ин^рмационный явык) рассматрива ются автором как набор двух компонент: лексики Ь и срави вваимодейотвия лексических единиц В, составляющие лингвисти ческоо обеспечение. -Лексику явыка вапросов составляет набо нечетких мнодеств Ь •= (а, Ь, ...), которые представляют ообо иап&рбеенайкркзя ьзюлэства слов и семантически неделимых ус тяй'ипзых словосочетаний, ныраизхщих, определенное в давно

пред:?этной облгата понятие. В качество математичэшсого описания правил G ззагшорвйотвмя логаичасюга одиннц обоснована ор-гакнаация лохякяя канта ввпросов а виде нечеткого tseaypyoa, который в тврюшах нечеткой модsjej продстаздяэтса кзн линг-вистичзсквя перэиэнвва L:(T(L)»E, G, , гдэ T(L) - етожвотво TepfbüoB оловарл, Е - универсальное дас.тэотсо терминов естественного языка, а - к:-Лор сиктакоичес.чх правил (Лорнирования терминов оловсря на основе сканирования иножэства В; Ы ■■ шо-кзотео семантических правил, птавящэе в соответствий каждому элементу словаря ого смюл и (t). На кнолгаотве Т определены отношения подобия S, и отношение сбобцения Отношение S. ( ТиТ, удовлетворяет оледукизм условиям :

1. (Vfc' . t"£ Т) (<t'.t"> е S><—> js\y(t ,t")

2. (Vt' , t"£ U) (t * t"«> <t', t"> fs^ ).

3. Ы t tv (jt'ew c<t', Cxsj.

Сткопэиие обобщения üa (J5) определено слэдущкм сбра-во»й если элзкэетарньй дескриптор t' икает более обг^е значение там элементарный дескриптор t", a <t', t"> £5^, то nomo сказать что дескриптор t',находится в огяопэкяи Gu. (J3) к дескриптору t? то есть t*G-e (.&) t\ t*^ t",J< aC .

С помощью отношений подобия моделируется вккояюям, существующая между терминами естественного авькл, посредством отношения обобщения отразимся родо-видовые отноээяия мвнду понятиями.

В работа предлагается алгоритм корректировки первоначально составлэнногс ITOS с учетом нечеткого тезауруса:

1. Термины ГШ ёамэняотся в соответствии с соответствую-

- и -

циш дискриптораьа - синонимами, то ость ira множества P«i(f(0) исключается множаство упорядоченных пар: -«t'.jjuu') >/<t',t"> Gt'CT\U t"e 1Л функция принадлежности модифицированного множества будет

равна

jw(t') - mx(jpv(t')• где t'£T\T.<; t£lл

2. Из двух влешнтарных дескрипторов, свяванних отноде-кием обобщения удаляется наиболее общий по вначеншо, то есть ив множества Pj (f()) исключается множество упорядоченных пар { <t' , pu(t' ) >/ t'Ooe t* >.

В случае ju(i ,k)-0 фрагмент не индексируется термином t(k). Еоли jrii,k)»l, то ДО полностью релевантен по отношению к t(k). Промежуточные значения jii(i ,к) соответствуют весу термина t(k) в ПОФ. В работе рассмотрены равличные подходы к выделению и вгвешивакию (определению весов) терминов, то еогь к осушэствлению отображения множества терминов T«it(k)>,

k»l,2,......п в- пространстве принадлежности [0,1]. Задача

сводится к нахождению метода получения вначения jn(i ,k) для каждого термина t(k), входящего во фрагмента р(0 •

Основными параметрами, используемыми в формальных критериях вввешивания терминов, традиционно являются частотные моры : jtfi.k) - f(f"(0) и Ji(i ,k) » f(F*).

где f (i) - чаатота появления термина t(k) во фрагменте Г(0; F*» Sum (f'u)) i-1,го - суммарная частота термина t(k), определяемая на массиве ив m фрагментов. Полученные на основе частотных мор оценки терминов не обеспечивают необходимых по-каеателэй полноты и точности информационного поиска, поэтому

в работе предлагался использование относ1тодышх-оценок, позволяющих сравнивать F или f (i) с частотой появления торшна t(k) во всем массиве фрагментов N. Тагаш образом на осново развития сущэствующгас методов автором определены подходы к ироблс э анализа содержания фрагментов и запросов.

^алео в диссертации рассиатрк оотсп "опрос р выборе по ЕнД релевантных фрагнэнтоз по запросу польвов1лелй. Предлагаемая автором кетодика отбора релевантных фрагментов основыза-отся на определении формализованной «еры релевантности мо.%ду запросом и фрагментом, »фи отон система опорируэт арсеналом логически и лингвистических средств идентификации, совокупность которш определяет : рптерки смыслового соответствия (ИЗО) фрагментов м запросов. RCC рассматривается как пара R « < г =fС Р, О-) ; Y> , где г «Г(Р, Q) - функция вычисления меры корреляции между ПОЗ и ПОЗ, а У - условие такое, что

При й=1 - фрагмент выдается клиенту, а при К = О - не выдается.

В действующих информационных систе>..лх наиболее распространены такие критерии как мера пересечения, мэра объединения, коэффициент Спкедиела и Беннэтта, мера Марона I! Кпхнса, мера Танпмото. В данных КОС.изменение порогового ¡значениям позволяет органивовать пелонированную выдачу г > й> . В результата анализа существующих КСС автором з качество основной мэры для вычислрния корреляции шкду запросом и фрагмента была выбрана мера Танпмото : г - |РСН/(|Р|+|Ц!-|РЦ|)

Л, если Ï - истинно О, в противном случае

В работе сформулированы основные отличительные особенности данной меры: 1. Ыэра Танимото имеет нормаливованный характер и чзткке границы изменения величины п 0 < г < 1 2. Шкоимум (значения г (максимальная корреляции) соответствует олуча», ¡согда множество Р содержится в нечетком множестве О, либо множество 0 содержится в мнокестве Р, либо Р»0. 3. Минимум вначэния г (минимальная корреляция) имеет место в случае, когда множество Р содержится в дополнении множества либо если множество Ц содержится в дополнении -множества Р, либо одно ив множеств является дополнением другого. 4. Мера Танимото учитывает веса терминов, отсутствующих в вапросе, но присутствующих во фрагменте.

На рис. 1 представлен график ивменения величины меры Та-

Анализ ивменения меры Танимото позволяет сделать вывод о том, что чем специфичнее вапроо, тем меньшая суммарная мощность соответствующего ему множества фрагментов. И наоборот, меньшему числу испольвуемых в иапросе терминов соответствует большая суммарная мощность мно.чоства находимых фрагментов.

На основе критерия смыслового соответствия в.диссертации рзаработаны алгоритмы информационного поиска по вапрооу клиента, рассмотрено вваииодействия поисковых струетур ( ПОФ, ГЮ0, словарей, всяогательных инворсньн файлов).

Важное место в работе ванимает модель автоматического посгпоения лингвистического сбеолзчения. Обосновывается его струотура в виде системы словарей (ннформэ'тюнно-поисковый тезаурус, кодовый словарь терминов, шумовой словарь). Ядром является информационно-поисковый теэаурус. В настоящее время шфоко наиболее разщ._ютранены ручныэ и гюлуав т с мзт ичо с к.. j методы построения тезаурусов. На оонове развития существующих подходов автором разработан алгоритм автоматического построения тезауруса на основе кластбри8ации (группировки) терминов по коэффициенту собирательной 'способности.

На первом втапе все множество хранимых в БнД фрагментов представляется в виде матрицы "термин-фрагмент" р-.эмарносги пкп N : "

ТЕРМИНЫ

® tM.l) t(l»2) ..... til.nl

Р t(2,1)4(2,2) ..... t(2,n)

А .........................

Е Н

т ..........................

Ы t(m,l) t(rv,2) ...... t(m,n)

На основе определения весовых оценок тэрминов матрица N

преобразуется в матрицы весовых ковффициек ов М и Е-M(i.j) = t(i,jV'Sum(t(lA)), k~l,n M'(i.J) = t(i,j)/Sum(t(k,;j)), k«l,m для l<i<m и Kjcn

Далее сгроитоя патрица ассоциируемое™ А : А ■ М х М'т

где ? оОоаначает операцию транспонирования матрицы.

Каждой вламент а(1,3) матрицы А представляет собой пока-еатель ассоциируемооти (овяэи) терминов 1 х 1 к определяется сдедукщш обравом : а(1,3)-Бит(м (к,1>*м(к,})), к»1,ы.

Показано, что диагональные влементы а(1.0 характерна уют уникальность5()) для термина 1. Их сумма равна ТО) -БитС&О^)) « 1-8(1), где 1»]. Вэлишша^О) обоеначаэт коэффициент свяви термина с другими терщиками. Для термина ; име-гарго большое число об!щх фрагментов с другими терминами, ена-чениэ коэффициента свяви будет высоким, но вначение коэффициентов уникальности низким. Общие коэффициенты свяви и уникальности для всего набора равкьс

Ь'ип((Г(1))/п) где 1»1,...,31 ; Т - 1 -5, где На следующем втале ассоциированные термины распределяются по кластерам (группам). Чиг по кластеров предлагается определять следующим обравом: Г|с - <5'- п.

Построение кластеров начинается с выбора ядер. Ядра выбираются исходя ив понятия собирательной способности р(1) для термина 1. г Р(1)

Б соответствии с в отчисленным вначением в качество ядер кластеров выбираются термины с наибольшими собирательными способностями. Очередной термин 1 приписывается к кластеру

с ядром бь эсли а(1 ,£^)«=тах{а(1,5,), вО ,Бг)......

где инд&кс ядра. Если Д'т ядра имеют одинаковый коэффициент ассоцикруемости, то фрагмент 1 присоединяется к кластеру , ядро которого имеет максимальную собирательную способ-

ность. Покавано, что при такой стратегии кластерпвацж ожидаемое число терминов в кластере 1, ядром которого являэтся термин ) равно и вычисляется по формуле:

1ус- (р(1)/5ця(р(к))) * п к-1,— для 1<1<т О помощью данного алгоритма производится одноуровневая классификация терминов в синонимичесюте группы, лежащие на нижнем уровне иерархического дерева кластеров. Дм построения верхних уровней дерева "■пецифицируются родо-видсвие отношения между терминами на основе расчета коэффициентов ассоциируе-мости для центроидов кластеров, которые рассматриваются как "родители", для терминов, находящихся на нижнем уровне. Показано, что процесс построения иерархического дерева кластеров носит итерационный характер, в каждой итерации в качестве векторов терминов выступают центроиды кластеров, получонных на предыдущем шаге. Процедура продолжается до тех пор пока не будет построен кластер, состоящий лэ одного термина - суперцентроид.

Сравнение данного метода с другими подходами к автоматическому построение словарей продемонстрировало его следующие преимущества: возможна оценка числа кластеров, на которые надо равбить имеющийся набор терминов; распределение терминов по кластерам довольно равномерно, поэтому слишком больших кластеров и наоборот, много одноэлементных кластеров не сбра-вувтея.

В третьей глава рассматриваются вопросы практической ро-аливации предлагаемого интерфейса и оценке его функциональной эффективности. Рвалиеованная модель пользовательского интер-

фейса исполъвуетоя в качестве одной из функциональных подсистем программяо-технодогической среды "10м, предназначенной для совдания БнД и организации информационного обслуживания в различных решмах. В работе рассмотрена технология информационного обслуживания клиентов на Саве естественноязыкового интерфейса.

Обоснована методика оценки функциональной вффективности польвовательского интерфейса на основе следующих критериев (табл.1):

- семантичэскиэ характеристики скотомы;

- усилия, интеллектуальные или фивичесшге, ватрачивавмые клиентами на ивучение явыковых средств и формулировку запросов;

- время с момента поступления запроса в систему до выдачи ответа; .

- форма представ лени., выдачи, которая влияет на возможность испольэования выданных мат&риаяэв клиентами;

- степень универсаливации.

Таблица 1

Критерии функциональной эффективности Пользовательский интерфейс

1 г 3 4 5 Ерэмч, ватрачяваемое клиентом на предварительное ивучение явыковых средств системы. Примеры вапросов: Затраты труда на подготовку запроса Время реакции системы Соома представления ревультатов Степень универсальности не требуется Цветные металлы (с лицензией) Ерсдам кирпич селикатный Модемы и свявное оборудование Юцэм порошок для ксероксов 1-2 мин Б - 8 сек визуализация на вкраяе, печать любые текстовке БнД

В работе приведены фактические данное по рввудьтагсм определения вффэктизности предлагаемого интерфейса, фуикционк-рухщэго в среда банка коммерческих предложений, содержащего около 10 тью. коммерческих объявлений типа "ищэм-предлаг; эм". В течении трех месяцев аналивировалась работа 140 удаленных абонентов банка, обслуживаемых'по телекоммуникационным канала?^ и приславших 1237 вапроса на поиск информации. Автором проанализирован характер вависимости между объемом словарной базы и временем реакции на sanpoc клиента (рио. 2).

Для оценки семантически характеристик предлагается использование двух основных покавателэй - коэффициентов полноты (R) и точности (Р), а также их нормированных версий. Семантические характеристики системы оценивались на основе обработки 1000 реальных вапросов клиентов банка. В качество КОС использовалась мера Танимото с пороговым значением 0.3. В ревульта-те усреднения частных коэффициентов были получены средние значения коэффициентов полноты и точности (рис. 3), а также нормализованной полноты и точности:

К( среди) = 0.749 Р( среди) -0.332

R( нормал. среди) = 0. 984 Р( нормал. средн) = 0.968 •

j i

~s wи- д

Рис.3 Усредненная кривая зависимости точности от полноты.

te.2 Зависимость среднего Бремени реакции 0т объема словаря.

- 22 -

В качестве способа повыиэния полноты информационного поиска автором обосновывается применение нормализации терминов.

Таким образом эффективность равработанных средств подтверждена експерименталышми исследованиями.

ОСВОЕНИЕ РЕЗУЛЬТАТЫ РАБОТЫ .

1. Равработана концепция высокоуровневого польвователь-ского интерфейса, реадивужщэго обрапэнио неподготовленное клиента с вапросами на естественном явыке к БнД акономическо: тематике..'

2, Предложена модел автоматического построения лингвис •гического обеспечения (информационно-поискового тевауруса словаря терминов и ряда служебных файлов) естествэнноязыкозо

, го интерфейс?

'3. Щюдложе :а модель отбора релевантных вапросу фрагьш тов БнД на основе определения весов терминов и критерия смыс дового соответствия.

4. Разработаны алгоритмы информационного поиска по ва] росу на естественном явите.

Б. Равработана методика определения функциональной фекгивности предлагаемого интерфейса.

6. Предложен и обоснован подход к определению семант . ческих свойств предлагаемого инфтерфэйса на основе вычислен покавателей полпоты и точности.

lb томе диссертации опубгаювшш следующие работы:

1. система автоматизации обследования i. проецирования Cas данных // Технологические средства проектирования систем обработки данных нз Case юти- и микроЭБЫ : Сб. науч. трудов. -U.-. и*":*., 1987. - 0,3 п.л. (2 соавторстве).

г. Технология структурирован л даи"ых на кикроЭЕУ // Компьютеризация информационных процессов в упр. млении народным хозяйством : Тезисы докл. Всесога. научной коиф., ч.1. -Ы.: ШСИ, 1988. - 0,1.п. л. (в соавторстве).

3. Аспекты семантического анализа метаданных з системе автоматизации. построения информационной модели для микроЭШ // Программно-алгоритмические средства технологической среды проектирования систем обработки экономической информации : Об. науч. трудов. ■• М.: МЭСИ, 198é. - 0,3 п. л.

4. Подсистема реализации вапросов пользователя в АБД "Интврстат" // Разработга и внедрение систем обработки sitoHo-мической информации : Сб. науч. трудов. - М. : ИЭСИ, 1989. - 0,2 п. л. (в соавторстве).

5. Информационное обслуживание пользователей АБД "Интор-стат" на основе естестзеннэго языка // Тезисы докл. Всесоив. совещания специалистов в области научно-технической информа-

щи по проблемам создания и использования фактографических баз данных . - М. : ВИНИТИ, 1989. - ОД п. л.

6. Обработка, информационных вапросов на естественном .языке в автоматизироьанном банке давних "Интерстат" // Новые

информационные технологии в АСУ городом, : Тезисы докл. Вг^со-юен. "конф. - М. : HIM стандартизации и унификации, 1990. - 0,1

п. л. (в соавторства).

7. Оценка и развитие средств информационного поиска на естественном явыке // Программное обеспечение ЕС ЭВМ, 1ВШ и котле коса АРМ. : Тевисы докл. научнс-практич. семинара. -Шнек : ЗэлШКТИ, 1В°0. - 0,1 п.л. (в соавторстве).

8. Ачалив явькоеых средств Еторой очереди АЕД "Интере-•хат" // Совдание и функционирование систем автомативированной обработки экономической информации.: Сб. науч. трудов. - М.: ИЭ-СИ, 1991. - 0,2 п. л.

ХшиСЬ/ЯТир. /Се?

Похожие диссертации

Каталог диссертаций