Развитие методов и моделей формирования интеллектуального контента тема диссертации по экономике, полный текст автореферата

Ученая степень
кандидата экономических наук
Автор
Евсюткин, Александр Сергеевич
Место защиты
Москва
Год
2012
Шифр ВАК РФ
08.00.13

Автореферат диссертации по теме "Развитие методов и моделей формирования интеллектуального контента"

л-

На правах рукописи

Евсюткин Александр Сергеевич

Развитие методов и моделей формирования интеллектуального контента

08.00.13 - Математические и инструментальные методы экономики

Автореферат диссертации на соискание ученой степени кандидата экономических наук

5 ДПР 2012

Москва - 2012

005020257

Работа выполнена на кафедре информационных систем ФГБОУ ВПО «Государственный университет управления»

Научный руководитель; кандидат экономических наук, доцент, доцент

кафедры «Информационные системы» ФГБОУ ВПО Государственного университета управления

Лобанова Надежда Михайловна

Официальные оппоненты: доктор экономических наук, профессор,

заведующий кафедрой «Менеджмент» ФГБОУ ВПО Московского государственного университета приборостроения и информатики Белоусов Владимир Леонидович,

кандидат экономических наук руководитель проектов ООО «ИБС Экспертиза» Прохорова Екатерина Андреевна

Ведущая организация: ФГБОУ ВПО Национальный исследовательский

университет «Московский авиационный институт»

Защита состоится 25 апреля 2012 г. в 15 часов 00 минут на заседании диссертационного совета Д.212.049.09 в ФГБОУ ВПО «Государственный университет управления» по адресу: 109542, г. Москва, Рязанский проспект, 99, бизнес-центр, аудитория 211.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Государственный университет управления».

Автореферат разослан <Я> марта 2012 г.

Ученый секретарь

диссертационного совета Д.212.049.09 кандидат экономических наук, доцент

Алтухова Н. Ф.

I. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования.

Рост информационных потребностей в современном обществе связан с повышением сложности управления экономическими процессами и необходимостью принятия оптимальных решений на всех уровнях управления, поэтому современный этап развития экономики и управления требует новых форм информационного обеспечения пользователей с предоставлением им достоверной, качественной, своевременной и интеллектуально обработанной информации в соответствии с их потребностями.

В настоящее время существует большое количество поисковых систем по базам данных, по локальным ресурсам, по локальным и глобальным сетям, в которых применяются разнообразные математические модели и инструментальные средства для получения релевантных данных, удовлетворяющих заданным критериям поиска. Задача поиска информации осложняется тем, что по запросу пользователя, как правило, выводится огромное множество документов, а также с широко распространенными сегодня копипастерскими ресурсами, тайпсквоттерами и другими представителями черного и серого контента. Однако даже если детально рассмотреть результаты поиска, то часто в них обнаруживается изобилие так называемого «мусора», т.е. той информации, которая не имеет ощутимой пользы для пользователя. Все это говорит о необходимости совершенствования поисковых систем, самих алгоритмов поиска, а также о расширении существующего функционала.

Целью данной работы является развитие инструментария и математического аппарата для формирования интеллектуального контента при поисковом пользовательском запросе с целью повышения релевантности поиска и качества принимаемых управленческих решений на основе полученной в результате поиска информации.

Основными задачами исследования являются:

1. Проведение анализа и сравнительной характеристики современных поисковых систем и технологий поиска.

2. Разработка инновационных методов формирования и обработки контента.

3. Разработка метода обучения классификатора при автоматическом реферировании поисковой выдачи.

4. Разработка модели формирования интеллектуального контента.

5. Разработка механизма функционирования системы формирования интеллектуального контента.

Область исследования. Диссертация выполнена по профилю специальности 08.00.13 - «Математические и инструментальные методы экономики» и соответствует областям исследования паспорта специальности 08.00.13 Высшей аттестационной комиссии «2.6. Развитие теоретических основ методологии и инструментария проектирования, разработки и

з

сопровождения информационных систем субъектов экономической деятельности: методы формализованного представления предметной области, программные средства, базы данных, корпоративные хранилища данных, базы знаний, коммуникационные технологии» и «2.8. Развитие методов и средств аккумуляции знаний о развитии экономической системы и использование искусственного интеллекта при выработке управленческих решений».

Предметом исследования являются методы и модели формирования интеллектуального контента.

Объектом исследования является информационное обеспечение деятельности государственных, муниципальных органов самоуправления, а также субъектов бизнеса.

Методологические и теоретические основы диссертационного исследования.

Диссертационное исследование основывается на информационной, методологической и теоретической базе математического анализа, прикладной математики, маркетинговых исследований, разработок в области поиска и обработки информации и высокоуровневого программирования, а так же трудов ведущих отечественных и зарубежных специалистов в области искусственного интеллекта, поиска и обработки информации, таких как, Журавлёв Ю.И., Рязанов В.В., Сенько О.В., Загоруйко Н. Г., Круглов В. В., Борисов В. В., Уоссермен Ф., Роберт К., Розенблатт Ф., Дж. Солтон., Федоровский А.Н, Костин М. Ю., Губин М. В., Колисниченко Д. Н.

Научная новизна. Научная новизна диссертационного исследования заключается:

- в развитии и комбинации методов повторного автоматического ранжирования, автоматического реферирования, латентно-семантического индексирования и стемминга с использованием экологического подхода для формирования интеллектуального контента;

- в разработке метода извлечения значимого текста из исходного html -документа с применением классификатора на основе нейронной сети и построении модели формирования интеллектуального контента при осуществлении релевантного поиска, как в глобальных, так и в локальных сетях.

Основными результатами диссертационного исследования, обладающими элементами научной новизны, являются следующие:

1. Проведен анализ и сравнительная характеристика современных поисковых систем и технологий поиска, в результате которого установлено, что на сегодняшний день не существует ни одной поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования.

2. Предложена комбинация методов формирования и обработки контента с использованием экологического подхода к осуществлению поиска.

3. Разработана конфигурация нейронной сети для обучения классификатора при автоматическом реферировании, применение которой позволяет исключить участие пользователя для извлечения значимого текста из исходного html - документа.

4. Предложена модель формирования интеллектуального контента, алгоритм функционирования которой основан на применении предлагаемых в диссертационном исследовании методов и реализован в виде надстройки для поискового модуля системы управления контентом Drupal.

5. Разработан механизм функционирования системы формирования интеллектуального контента на базе Интернет-портала, представляющий инструментальное средство, реализующее функции поиска и обработки информации, позволяющее обеспечить дружественный интерфейс пользователя и повысить эффективность и оперативность обработки запросов при принятии экономических и управленческих решений.

6. Разработаны методические рекомендации по организации процесса поиска и формированию интеллектуального контента.

7. Проведена оценка эффективности от внедрения системы формирования интеллектуального контента в Администрации г. Реутов Московской области.

Практическая значимость полученных в исследовании выводов и рекомендаций определяется возможностью повышения эффективности поиска необходимой релевантной информации внутри локальных и глобальных сетей при хозяйственной деятельности за счет комплексного интегрированного применения современных информационных технологий.

Разработанные методические рекомендации по организации процесса поиска и формирования интеллектуального контента можно использовать в рамках осуществления хозяйственной деятельности и процесса управления как для органов государственного и муниципального управления, так и для коммерческих организаций малого, среднего и крупного бизнеса.

Достоверность научных результатов подтверждается опытом применения разработанных методов и моделей в повседневной деятельности экономического управления Администрации города Реутова Московской области. Основные результаты диссертации опубликованы в печатных работах и обсуждались на международных и всероссийских конференциях и получили одобрение специалистов.

Апробация результатов исследования. Основные положения диссертации докладывались на научных конференциях: 15-я Всероссийская научно-практическая конференция "Актуальные проблемы управления -модернизация и инновации в экономике", Москва, ГУУ, 27-28 октября 2010г.; 21-ая ежегодная выставка-конференция информационных и коммуникационных технологий Softool, Москва, ВВЦ, 26-29 октября 2010г.; третья ежегодная научно-практическая конференция «Информационные бизнес системы», Академия IBS, Институт информационных бизнес систем

НИТУ «МИСиС», Факультет информационных бизнес систем МФТИ, 23 апреля 2011 г.; 23-я международная выставка-конференция телекоммуникационного оборудования, систем управления, информационных технологий и услуг связи «Связь-Экспокомм-2011», Москва, ЦВК «Экспоцентр», 10-13 мая 2011 г.; 22-ая ежегодная выставка-конференция информационных и коммуникационных технологий Softool, Москва, ВВЦ, 25-28 октября 2011 г.

Внедрение результатов исследования проводилось в Администрации города Реутова Московской области.

Публикации. По теме диссертации в открытой печати опубликовано четыре научные работы общим объемом 1,4 п.л., из них две входят в рекомендованный ВАК перечень, лично автору принадлежит 1,4 п.л.

Объем работы. Диссертация состоит из введения, трех глав, заключения. Работа содержит 152 страницы основного машинописного текста, 27 рисунков, 17 таблиц. Библиографический список включает 111 источников, в том числе 51 отечественный, 41 зарубежный, 19 Интернет ресурсов.

Структура диссертации. Работа состоит из введения, трех глав, заключения и списка литературы.

Во введении дано обоснование актуальности, научной новизны, целей и задач исследования, приведены наиболее существенные результаты.

В первой главе «Сравнительная характеристика современных технологий поиска, методов организации поиска и поисковых систем для сети Интернет» выделены основные задачи информационного поиска, рассмотрены устройство и принцип функционирования современных Интернет-поисковых систем, рассмотрена концепция информационной экологии, дана сравнительная характеристика существующих поисковых систем.

Во второй главе «Теоретические и методические вопросы формирования интеллектуального контента» были детально рассмотрены современные механизмы и методы формирования контента, реферирования текстовой информации, поиска и обработки текстов одинаковой тематики, был предложен механизм формирования интеллектуального контента с описанием основных принципов и алгоритма, даны методические рекомендации по разработке системы формирования интеллектуального контента с модульной структурой на основе Интернет-портала, рассмотрены современные системы управления контентом (CMS), дана их сравнительная характеристика и выбрана CMS Drupal в качестве основы будущей системы.

В третьей главе «Разработка системы формирования интеллектуального контента при поисковом запросе» были выделены функциональные модули и компоненты системы формирования интеллектуального контента, построена модель формирования интеллектуального контента, закладываемая в основу будущей системы,

выделены классы пользователей и процессы системы, распределены права доступа, проведена оценка экономической эффективности создания системы.

В заключении диссертации даны основные выводы и предложения теоретического и практического плана.

И. ОСНОВНОЕ СОДЕРЖАНИЕ ИССЛЕДОВАНИЯ

1. Проведен анализ и сравнительная характеристика современных поисковых систем и технологий поиска.

Установлено, что основной задачей информационного поиска является помощь пользователю в удовлетворении его информационной потребности. Сегодня типичными задачами информационного поиска являются: классификация, фильтрация и кластеризация документов, проектирование архитектур поисковых систем и пользовательских интерфейсов, извлечение информации (аннотирование и реферирование документов), разработка новых и совершенствование существующих языков запросов.

В ходе анализа работы современных поисковых систем было выявлено, что при формировании выдачи, системы используют при описании документов привычные теги, использующиеся также при поисковой оптимизации (<Ы>, <ше1а>), однако основная информация, по которой можно судить о релевантности документа, чаще всего, разбросана по всему документу. Ни одна из современных поисковых систем не обладает возможностью реферирования документов из выдачи, а лишь выводит заголовки и ключевые слова из найденных документов, соответственно пользователю приходится пересмотреть огромное множество страниц, анализируя предлагаемую информацию, что требует немало времени, а:также значительно увеличивает трафик, стоимость которого достаточно высока.

В процессе проведения анализа выявлено, что на сегодняшний день не существует ни одной поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования.

2. Предложена комбинация методов формирования и обработки контента с использованием экологического подхода к осуществлению поиска.

Необходимость использования информационной экологии рассматривается в свете проблем, возникающих при взаимодействии человека с информационной средой. Стратегическая цель информационной экологии состоит в формировании средства фильтрации в реальном времени информационного потока, воздействующего на человека.

Концепция экологического подхода к Интернет-поиску не реализована в настоящее время ни в одной из поисковых систем. Однако следует понимать, что данную проблему невозможно решить лишь с одной стороны, поскольку концепцию экологического поиска необходимо применять еще на этапе создания сайтов и порталов.

В диссертационном исследовании при формировании интеллектуального контента предлагается использовать комбинацию из нескольких методов. В первую очередь осуществляется автоматическое реферирование первичной поисковой выдачи, за которым следует латентно-семантическое индексирование и повторное ранжирование с построением результирующей выдачи (интеллектуального контента) с использованием экологического подхода к осуществлению поиска, заключающегося в удалении невостребованной пользователем информации, а также в фильтрации в реальном времени информационного потока, воздействующего на человека.

Предлагаемая концепция представляет механизм повторного автоматического ранжирования с выделением полезного текста из найденных в процессе запроса 1ит1-документов при помощи автоматического реферирования. Суть данного подхода заключается в удалении слишком общих документов из промежуточной поисковой выдачи. В настоящее время такой механизм не применяется ни одним из существующих Интернет поисковиков.

Повторное ранжирование в данном случае представляет метод учета статического качества документа из промежуточной выдачи с тем, чтобы определить попадет ли данный документ в итоговую выдачу для пользователя. Вводится понятие «порога неспецифичности», представляющего из себя числовой коэффициент, который определяется в результате функционирования системы автоматического реферирования, а также опорного тестирования выдачи на различных значениях данного коэффициента, с последующим сравнением результатов.

Таким образом, характерным решением для увеличения релевантности поиска может стать либо удаление всех документов из поисковой выдачи, не удовлетворяющих установленному порогу неспецифичности, либо увеличение позиции в общей выдаче для таких документов. Необходимость повторного ранжирования с реферированием и неприменимость прямого реферирования связана с тем, что, объем поискового индекса современных систем настолько огромен, что для автоматического реферирования всего множества просто нецелесообразно тратить время и ресурсы, которые потребовались бы для хранения аннотаций документов.

Принцип функционирования предлагаемой системы автоматического реферирования Ь1т1-документов предполагает, что процесс реферирования разделяется на три последовательных этапа: анализ исходного текста, полученного из поисковой выдачи, выделение фрагментов, повторное ранжирование и формирование выдачи.

В настоящее время поисковыми системами применяются так называемые сниппеты - небольшие отрывки текста из документов, найденных поисковиком по запросу. Просмотрев сниппет, можно лишь

приблизительно судить о контенте веб-страницы. В лучшем случае они содержат контекст, в котором встретилось ключевое слово относительно документа, но чаще просто выводят содержимое тега «Description», который у 90% сайтов не заполнен общей информацией по правилам поисковой оптимизации, соответственно для рядового пользователя эта информация носит лишь рекламный характер. Для нашей же концепции экологического поиска в сети Интернет данный подход не применим.

Задачи анализа текста и выделения фрагментов могут быть решены различными способами: составление выдержек, формирование краткого изложения. Для решения поставленной задачи метод формирования краткого изложения не применим, поскольку для его реализации требуются мощные вычислительные ресурсы, направленные на обработку естественных языков, в том числе грамматики и генерацию естественно-языковых конструкций, а в любой поисковой системе основные ресурсы затрачиваются на выполнение полнотекстового поиска и на обработку поискового индекса.

Метод составления выдержек предполагает акцент на выделение характерных фрагментов (как правило, предложений). Для этого методом сопоставления фразовых шаблонов, выделяются блоки наибольшей лексической и статистической релевантности. Создание итогового документа в данном случае - просто соединение выбранных фрагментов.

Автоматическое реферирование документов предполагает составление рефератов html-документов без активного участия пользователя. Полезный для пользователя текст содержится в , теле html документа, в основном между тегами <body> и </body> и может состоять из меню, заголовков, метаданных, программного кода, скриптов, таблиц, списков и т.д. В соответствии с предложенной концепцией исходный документ разбивается на N-oe количество частей (например, строки или параграфы). В . нашем случае остановимся именно на строках, поскольку далеко не все документы разбиваются по параграфам, да и чем крупнее части используются для анализа, тем больше полезной информации пропускается.

В данном случае возникает проблема: могут быть пропущены некоторые из строк, содержащих полезную для пользователя информацию, если в данной строке оказалось много разметки или сама строчка была слишком короткой. Для того, чтобы избежать описанной проблемы и тем самым улучшить фильтрацию полезного текста, при анализе текущей строки документа, следует рассматривать не только данную строку, но и соседние с ней, применив модель определения критериев адекватного выбора фрагментов.

Для этого на аналитическом этапе обработки документа применяется модель линейных весовых коэффициентов, предполагающая выполнение последовательности вычислений частоты и операций сопоставления строк или шаблонов, которые для каждого блока исходного текста выдают весовые коэффициенты четырех типов: Расположение, Частота появления, Частота

использования, Статистическая значимость. Затем эти коэффициенты суммируются для каждого блока, после чего выбираются п блоков, обладающих наивысшей суммой коэффициентов (значение п может быть определено на основании степени сжатия) для включения в реферат. 3. Разработка конфигурации нейронной сети для обучения классификатора при автоматическом реферировании.

В большинстве систем, созданных на сегодняшний день для автоматического реферирования отдельных документов, пользователь задает параметры и производит настройку вручную, и выбор параметров зависит скорее от текущих потребностей, поскольку относительная значимость различных характеристик может сильно различаться для текстов разного стиля. Для автоматизации данного процесса, необходимо ввести классификатор, способный обучаться правилам выделения фрагментов.

Для обучения классификатора предлагается использовать такой метод машинного обучения, как нейронная сеть. В данном случае при проверке является ли текущая строка текста полезной информацией или мусором используется нейронная сеть, предварительно натренированная на некотором наборе данных.

В результате анализа данных, полученных в ходе тестирования алгоритма на одной из статей, можно сформулировать следующие недостатки: в тексте сохранилась подпись (теги), а также могут быть пропущены строки значимого текста, если в данной строке оказалось очень много разметки или сама строка была слишком короткой. Данные недостатки не отвечает требованию универсальности предлагаемого метода. Поэтому, с целью улучшения фильтрации текста, следует рассматривать не только текущую строку, но и соседние с ней.

Основная идея состоит в том, чтобы при проверке очередной строки на наличие значимого текста, обратиться к предварительно натренированной на тестовом наборе данных нейронной сети.

В качестве входных параметров для нейронной сети используются следующие характеристики: порядковый номер строки в документе, плотность Ь1тп1-разметки в данной строке, длина строки, плотность ЬНп1-разметки в предыдущей строке, длина предыдущей строки, плотность Ыт1-разметки в следующей строке, длина следующей строки.

Длины всех строк (strleng) следует предварительно нормировать относительно максимальной длины строки в документе, а номер строки в документе 0) относительно общего количества строк N. Таким образом, каждый из перечисленных входных параметров принимает значение от 0 до 1 включительно.

Для решения задачи была выбрана простая нейронная сеть с прямым распространением ошибки, а в качестве активирующей функции, с целью введения нелинейной зависимости, гиперболический тангенс.

ю

Для выбора оптимальной конфигурации нейронной сети применяется алгоритм прореживания, позволяющий последовательно упрощать, либо усложнять нейронную сеть, в поисках варианта с наименьшей ошибкой. В итоге лучшие результаты получились с нейронной сетью из трех невидимых уровней, с семью нейронами в первых двух и с тремя в последнем. Стоит отметить, что слишком большое количество невидимых уровней позволит слишком точно настроить сеть на конкретные данные, что в итоге скажется на ухудшении результатов работы алгоритма. Схема нейронной сети представлена на рисунке 1.

Входные параметры Входной уровень

Первый невидимый уровень

Второй невидим уровень

\ \\\ Третий невидимый уровень

М01НПС|Ь ||»|||-р;)'!М

предыдущей СфОКУ

„ щт шш -

Выходной уровень

Результат

___11

| Яаднито! ли ароил

щей строки V 7_,

«Ш - Р Ш

/

Ч7

Рисунок 1 - Схема нейронной сети

Для тренировки нейронной сети были созданы тренировочный и проверочный наборы данных. По двадцать Ь1т1-документов экономической направленности для каждого, выбранных случайным образом. В результате анализа созданной нейронной сети получились следующие параметры: количество ложных срабатываний 0.3%, количество пропусков события 0%. 4. Предложена модель формирования интеллектуального контента.

В результате комбинирования существующих методов обработки текстовой информации, применяемых современными поисковыми системами, таких как, латентно-семантический анализ, стемминг, с предложенными методами повторного ранжирования и автоматического реферирования, была построена модель формирования интеллектуального контента с использованием принципов экологического подхода к поиску.

Алгоритмическая схема предлагаемой модели формирования интеллектуального контента представлена на рисунке 2. Для реализации предлагаемого метода формирования интеллектуального контента далее необходимо определиться с системой управления контентом. На базе

выбранной CMS (системы управления контентом) возможно разработать поисковый модуль, в функционал которого заложить рассмотренный выше алгоритм формирования интеллектуального контента.

Рисунок 2 - Алгоритмическая схема модели формирования интеллектуального контента

Математическая модель алгоритма формирования интеллектуального контента имеет следующий вид: str = str + str [¡]

кз [i] = htmlleng [¡] / strleng [i], при

кз < const и i е [1; N], где

NeZ,N>0, const = 0,3 5

str - переменная, включающая текст реферата

str [i] - вектор, значения которого - текущие строки

кз - коэффициентом значимости

В качестве константы, опытным путем, в ходе эксперимента, лучший результат был получен при const = 0,35

5. Разработан механизм функционирования системы формирования

интеллектуального контента на базе Интернет-портала.

Для функционирования системы формирования интеллектуального контента предполагается создание ряда модулей на базе Интернет-портала. Эти функциональные модули позволят решить задачи обеспечения информационного поиска, формирования поисковой выдачи, формирования поискового индекса, формирования интеллектуального контента из выдачи, реализации экологического подхода к поиску, обеспечить интерфейс пользователя с информационной системой. Варьируя набор модулей, можно дополнять или ограничивать функциональность информационного портала, для максимального соответствия потребностям пользователей. Для системы формирования интеллектуального контента необходимы следующие модули:

1. Web-браузер - для корректной работы с информационной системой подойдёт любой современный Интернет-браузер, поддерживающий языки html и java.

2. phpMyAdmin - веб-интерфейс для администрирования СУБД MySQL, позволяет через браузер осуществлять администрирование сервера MySQL, запускать команды SQL и просматривать содержимое таблиц и баз данных.

3. СУБД MySQL - СУБД, управляющая реляционными базами данных. В его задачу входит работа с данными (хранение, выдача и т.д.).

4. Web-сервер Apache - HTTP-сервер. Apache принимает запрос и генерирует ответ (например, в виде html - страницы), передавая его обратно браузеру. Он позволяет подключать внешние модули для предоставления данных, использовать СУБД для аутентификации пользователей, модифицировать сообщения об ошибках.

5. PHP 5.0 - язык программирования (интерпретатор), созданный для генерирования HTML-страниц на веб-сервере и работы с базами данных. В его задачу входит подготовка (трансляция) программного кода и его исполнение (интерпретация).

6. Ядро CMS Drupal - основа системы управления контентом, организующая общее взаимосвязанное функционирование модулей и осуществляющая интерфейс с web-сервером.

7. Модуль Admin - осуществляет доступ к административному разделу CMS, в котором осуществляются основные настройки системы, подключение дополнительных модулей, а также наполнение Интернет-портала и поискового индекса контентом.

8. Модуль Profile - осуществляет создание и управление профилями пользователей портала, содержит пользовательские настройки.

9. Модуль Menu - позволяет формировать пользовательское меню для проекта, отвечает за навигацию по порталу.

10. Модуль Search - осуществляет поиск информации по порталу.

11. Модуль UserRange - позволяет организовывать систему пользовательских рейтингов контента.

12. Модуль Stemm - выполняет функции по выделению основы из слова.

13. Модуль Neuralnet - реализовывает нейронную сеть для модуля Referate, используемую при автоматическом реферировании.

14. Модуль LSI - реализовывает алгоритм латентно-семантического индексирования при анализе поисковой выдачи с целью выделения одинаковых документов.

15. Модуль Referate - основной модуль, отвечающий за автоматическое реферирование поисковой выдачи

16. Модуль Rerange — отвечает за повторное ранжирование документов из поисковой выдачи.

Схема взаимодействия модулей представлена ниже, на рисунке 3.

Y

Рисунок 3 - Диаграмма модулей системы формирования интеллектуального контента

Создаваемая система формирования интеллектуального контента на базе Интернет-портала состоит из трёх основных компонентов: Удалённый сервер, Автоматизированное рабочее место администратора системы и Автоматизированное рабочее место пользователя, соединение между которыми будет осуществляться через сеть Интернет. Кроме того, компонентами информационной системы могут являться локальные вычислительные сети любых заинтересованных организаций, в которые будут объединяться АРМ пользователей информационной системы, работающих в данных организациях, ЛВС должны будут построены по принципу клиент-сервер, а сервер должен иметь подключение к сети

14

Интернет. На рисунке 4 представлена общая схема взаимодействия компонентов создаваемой информационной системы.

Удаленный сервер

<остинг-проваидера

ПК Администратора системы

Интернет

ПК Пользователи системы 1 ПК Пользователя системы N

Сервер Пользователи системы 1 Сервер Пользователи системы N

( Ламг.ь, щ сеть. J)

Локальная сеть J

ПК Пользователя системы 1 ПК Пользователя

ПК Пользователи системы 1 ПК Пользователи системы N

Рисунок 4 - Диаграмма размещения компонентов

6. Разработаны методические рекомендации по организации процесса поиска и формированию интеллектуального контента.

Ниже представлены рекомендации по реализации функций, выполняемых каждым компонентом информационной системы.

1. Удалённый сервер хостинг-провайдера. На удалённом сервере устанавливаются сервер баз данных MySQL Server для работы с базой данных информационной системы на базе Интернет-портала, программный интерпретатор PHP для трансляции и интерпретации файлов с исходным кодом информационной системы, веб-сервер Apache для обеспечения интерфейса создаваемой информационной системы и будущих пользователей по протоколу HTTP. Кроме того, на удалённый сервер устанавливается контрольная администраторская панель, обеспечивающая доступ к пользовательскому аккаунту услуг хостинга, позволяющая производить основные настройки программных серверов, а также работать с исходными файлами информационной системы. Также на сервер хостинг-провайдера крайне необходимо установить FTP-сервер, позволяющий работать с исходными и прочими файлами информационной системы через программу-клиент по технологии FTP. Кроме системного программного обеспечения на удалённый сервер провайдера будут загружаться как сами исходные файлы CMS Drupal, так и прочие файлы, необходимые для полноценного

15

функционирования будущей информационной системы на базе Интернет-портала, т.е. сервер будет также выполнять функцию хранения информации.

2. Автоматизированное рабочее место (ПК) администратора системы. АРМ администратора представляет персональный компьютер с определённым набором установленного программного обеспечения, имеющий высокоскоростное подключение к сети Интернет. АРМ администратора выполняет все основные функции по настройке информационной системы, по наполнению Интернет-портала контентом, а также по обновлению данного контента и поддержке общего функционирования системы.

3. Автоматизированное рабочее место (ПК) пользователя системы. АРМ пользователя представляет персональный компьютер с установленным веб-браузером, поддерживающим протокол HTTP. Кроме того, ПК пользователя должен иметь подключение к сети Интернет, достаточно скоростное для комфортной работы с порталом. Число АРМ пользователей, одновременно работающих с Интернет-порталом ограничивается лишь техническими возможностями удалённого сервера, а также программных серверов, и пропускной способностью Интернет-канала.

7. Проведена оценка эффективности от внедрения системы формирования интеллектуального контента в Администрации г. Реутов Московской области.

Поскольку основной упор при внедрении системы делается на органы самоуправления муниципальных образований, а так же на субъекты малого и среднего бизнеса, то внедрение системы рассмотрено на примере Администрации города Реутов Московской области и ООО «Социально-деловой центр «Инициатива». В процессе внедрения системы была проведена классификация пользователей и определены их права доступа при эксплуатации системы формирования интеллектуального контента.

Использование системы предполагается экономическим управлением Администрации города Реутов Московской области. Основными задачами управления являются:

- разработка мероприятий по расширению налогооблагаемой базы, оказание поддержки предприятиям города, подготовка отчетов по социально-экономическим показателям развития города,

- подготовка доклада о достигнутых значениях показателей для оценки эффективности деятельности Администрации города за отчетный год и их планируемых значениях на трехлетний период.

Основными источниками экономической эффективности разрабатываемой системы являются:

1. Снижение нагрузки на сотрудников за счет автоматизации рутинной работы с помощью интеллектуальных алгоритмов.

2. Снижение времени на поиск документа, повышение своевременности, достоверности получаемой информации благодаря экологическому подходу и снижению количества «мусора» в поисковой выдаче.

3. Уменьшение времени подбора необходимой экономической информации за счет автоматизации и простоты поиска.

4. Ускорение ввода основных данных в информационную систему за счет применения шаблонов и классификаторов.

5. Небольшая трудоемкость и простота расширения системы с помощью незначительных изменений существующих компонентов и организации взаимодействия с другими информационными системами через стандартные протоколы обмена информацией (HTML, XML, ODBC).

6. Повышение оперативности и удобства взаимодействия с системой в результате формирования дружественного интерфейса пользователя с помощью Интернет-портала.

Для оценки эффективности была рассчитана трудоемкость создания системы формирования интеллектуального контента и определены основные количественные показатели эффективности. При ожидаемой команде разработчиков из 5 человек, 8-часовом рабочем дне и 5-дневной рабочей неделе система формирования интеллектуального контента будет готова через 4 месяца с учётом добавления месяца для непредвиденных ситуаций.

Чистый дисконтированный доход составляет 993923 руб., внутренняя норма доходности системы формирования интеллектуального контента составит 47 %, что намного выше нормы дисконта, которая при расчётах принималась равной 12 %. Срок окупаемости равен 3 года.

При оценке трудоемкости и эффективности действующие лица, типы пользователей и весовые коэффициенты, единовременные и текущие затраты, норма дисконта, экономия на заработной плате сотрудникам, выраженная в качестве дохода, определялись с помощью экспертных оценок, в роли экспертов выступали: Руководитель Администрации, заместители Руководителя Администрации, а также начальник экономического управления. Экономия на заработной плате стала возможной благодаря снижению нагрузки на сотрудников, экономии времени на поиск документов, автоматизации процессов поиска и подбора требуемой экономической информации.

III. ВЫВОДЫ

В процессе диссертационного исследования получены следующие основные результаты и сформулированы выводы:

1. В результате проведенного анализа и сравнительной характеристики современных поисковых систем и технологий поиска установлено, что поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования, в настоящее время не существует.

2. Концепция экологического подхода к Интернет-поиску, заключающегося в формировании средства фильтрации в реальном времени информационного потока, воздействующего на человека, является важной составляющей системы формирования интеллектуального контента.

3. Разработаны инновационные методы формирования и обработки контента в соответствии с экологическим подходом к поиску, которые представляют комбинацию из нескольких методов, а именно, автоматическое реферирование первичной поисковой выдачи, за которым следует латентно-семантическое индексирование и повторное ранжирование с построением результирующей выдачи (интеллектуального контента) с использованием экологического подхода к осуществлению поиска, заключающегося в отбросе невостребованной пользователем информации, а также в фильтрации в реальном времени информационного потока, воздействующего на человека.

4. Для обучения классификатора предлагается использовать нейронную сеть, конфигурация которой позволяет исключить участие пользователя при анализе и обработке исходного текста документа из поисковой выдачи.

5. Предложена модель формирования интеллектуального контента, построенная на основе комбинации методов, применяемых современными поисковыми системами, таких как, латентно-семантический анализ, стемминг, и предлагаемых в диссертационном исследовании методов повторного ранжирования и автоматического реферирования с использованием принципов экологического подхода к поиску.

6. Разработан механизм функционирования системы формирования интеллектуального контента на базе Интернет-портала, состоящего из функциональных модулей, позволяющих решать задачи обеспечения информационного поиска, формирования поисковой выдачи, формирования поискового индекса, формирования интеллектуального контента из выдачи с использованием экологического подхода к поиску, обеспечивая интерфейс пользователя с информационной системой.

7. Дана оценка экономической эффективности от внедрения системы формирования интеллектуального контента на примере экономического управления Администрации города Реутов Московской области.

8. Теоретические положения и практическая реализация результатов исследования ориентированы на широкое использование в хозяйственной деятельности органов муниципального самоуправления субъектов РФ, а также субъектов малого и среднего бизнеса.

IV.Работы, опубликованные автором в ведущих рецензируемых научных журналах и журналах, рекомендованных ВАК Министерства образовании и науки РФ

1. Евсюткин A.C. Интеллектуальные технологии . поддержки современного бизнеса. // «Вестник университета» №19. - Москва: ГУУ -2011.-С. 169-171.-0,3 пл.

2. Евсюткин A.C. Формирование интеллектуального контента при поисковом запросе. // «Вестник университета» №21. - Москва: ГУУ -2011.-С. 39-42.-0,3 п.л.

Другие работы, опубликованные автором по теме кандидатской диссертации

3. Евсюткин A.C. Формирование контента на базе CMS Drupal. // Материалы 15-ой Всероссийской научно-практической конференции " Актуальные проблемы управления - модернизация и инновации в экономике ". Вып. 4. - Москва: ГУУ - 2010. - С. 30-33,- 0,4 п.л.

4. Евсюткин A.C. Анализ систем управления контентом. // Материалы конференции «Третья ежегодная научно-практическая конференция «Информационные бизнес системы».- Москва: Академия IBS, Институт информационных бизнес систем НИТУ «МИСиС», Факультет информационных бизнес систем МФТИ - 2011.- С. 188-191. - 0,4 п.л.

Подписано в печать: 20.03.2012

Заказ № 6850 Тираж - 75 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Диссертация: текстпо экономике, кандидата экономических наук, Евсюткин, Александр Сергеевич, Москва

Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное

учреждение высшего профессионального образования «Государственный университет управления»

61 12-8/3030

На правах рукописи

Евсюткин Александр Сергеевич

Развитие методов и моделей формирования интеллектуального контента

08.00.13 - Математические и инструментальные методы экономики

ДИССЕРТАЦИЯ на соискание ученой степени кандидата экономических наук

Научный руководитель: к.э.н., доцент Лобанова Н. М.

Москва 2012

Содержание

Термины и определения..........................................................................................................................5

Введение.....................................................................................................................................................7

1. Сравнительная характеристика современных технологий поиска, методов организации поиска и поисковых систем для сети Интернет...............................................................................12

1.1. Задачи информационного поиска.......................................................................................12

1.1.1. Классификация документов..............................................................................................13

1.1.2. Кластеризация документов..............................................................................................14

1.1.3. Выделение информации из текста...................................................................................15

1.1.4. Разработка архитектуры поисковой системы и интерфейса пользователя.............16

1.1.5. Оценка качества информационного поиска....................................................................18

1.2. Устройство и принцип функционирования современных Интернет-поисковых систем....................................................................................................................................................22

1.2.1. Составные части поисковых систем...............................................................................22

1.2.2. Современные алгоритмы обработки поисковых запросов............................................27

1.2.3. Организация параллельного поиска..................................................................................30

1.2.4. Алгоритмы ссылочного ранжирования, применяемые в современных поисковых системах...........................................................................................................................................32

1.3. Концепция информационной экологии.............................................................................40

1.3.1. Понятие экологического Интернета...............................................................................40

1.3.2. Принципы, лежащие в основе экологического подхода..................................................41

1.4. Сравнительная характеристика существующих поисковых систем...........................42

1.4.1. История возникновения поисковых систем для сети Интернет..................................42

1.4.2. Сравнительный анализ возможностей современных поисковых систем....................43

1.4.3. Индивидуальные особенности современных поисковых систем...................................51

1.4.4. Недостатки современных поисковых систем.................................................................54

1.5. Выводы по Главе 1.................................................................................................................58

2. Теоретические и методические вопросы формирования интеллектуального контента. 61

2.1. Повторное автоматическое ранжирование поисковой выдачи....................................61

2.1.1. Комбинация признаков ранжирования поисковой выдачи.............................................62

2

2.1.2. Метод повторного автоматического ранжирования...................................................62

2.2. Метод автоматического реферирования...........................................................................63

2.2.1. Типы используемых рефератов.........................................................................................64

2.2.2. Принцип функционирования, архитектура системы автоматического реферирования..................................................................................................................................65

2.2.3. Применение модели автоматического реферирования к htrnl-документам................67

2.2.4. Применение нейронной сети для автоматического реферирования htrnl-документов .........................................................................................................................71

2.3. Применение латентно-семантического индексирования для поиска текстов одинаковой тематики........................................................................................................................72

2.3.1. Принципы, лежащие в основе латентно-семантического индексирования................73

2.3.2. Алгоритм латентно-семантического анализа...............................................................74

2.3.3. Возможное улучшение существующего алгоритма LSI.................................................78

2.4. Алгоритм «Стеммер Портера» для обработки текстовой информации перед латентно-семантическим анализом................................................................................................79

2.4.1. Задача выделения корня из слова...................................................................................... 79

2.4.2. Описание алгоритма стемминга...................................................................................... 79

2.5. Механизм формирования интеллектуального контента при поиске..........................84

2.5.1. Принципы построения модели формирования интеллектуального контента............84

2.5.2. Алгоритм формирования интеллектуального контента..............................................85

2.6. Выбор CMS для реализуемого модуля «Формирование интеллектуального контента».............................................................................................................................................87

2.6.1. Понятие системы управления контентом (CMS)..........................................................87

2.6.2. Классификация CMS...........................................................................................................87

2.6.3. Сравнение существующих CMS с открытым исходным кодом....................................92

2.6.4. Обзор отличительных особенностей системы управления контентом «Drupal».....95

2.7. Выводы по Главе 2.................................................................................................................97

3. Разработка системы формирования интеллектуального контента при поисковом запросе.................................................................................................................101

3.1. Модель формирования интеллектуального контента..................................................101

3.1.1. Метод извлечения значимого текста из htrnl-документа...........................................101

3.1.2. Математическая модель формирования интеллектуального контента..................104

3.1.3. Применение нейронной сети с целью улучшения метода извлечения значимого текста из Ыт1-документа..........................................................................................................................106

3.2. Разработка архитектуры системы формирования интеллектуального контента.. 109

3.2.1. Функциональные модули Интернет-портала...............................................................110

3.2.2. Компоненты системы формирования интеллектуального контента.......................113

3.2.3. Методические рекомендации по организации процесса поиска и формированию интеллектуального контента......................................................................................................114

3.3. Распределение ролей и прав доступа пользователей при эксплуатации системы формирования интеллектуального контента.............................................................................116

3.3.1. Выделение классов пользователей системы..................................................................117

3.3.2. Выделение процессов системы........................................................................................118

3.3.3. Распределение прав доступа в системе.........................................................................119

3.4. Оценка трудоемкости и эффективности создания системы формирования интеллектуального контента при поисковом запросе..............................................................124

3.4.1. Оценка трудоемкости создания системы для органов муниципального самоуправления...............................................................................................................................125

3.4.2. Оценка трудоемкости создания системы для субъектов малого и среднего бизнеса ..........................................................................................................128

3.4.3. Оценка экономической эффективности от создания системы..................................131

3.5. Выводы по Главе 3...............................................................................................................135

Заключение............................................................................................................................................139

Список литературы..............................................................................................................................143

Копипаст метод создания текста, заключающийся в механическом комбинировании цитат из одного или нескольких источников

Тайпсквоттер регистрация доменных имен близких по написанию с популярными сайтами

Доменное имя символьное имя, служащее для идентификации единиц административной автономии в сети Интернет

Рунет русскоязычная часть сети Интернет

стандарт интерфейса, используемый для связи внешней программы с веб-сервером

ИС информационная система

ИПС информационно-поисковая система

Дата-центр центр хранения и обработки данных, чаще всего, отдельное специализированное здание для размещения серверного и коммуникационного оборудования

Хостинг услуга по предоставлению вычислительных мощностей для физического размещения информации на сервере, постоянно находящимся в сети

8ЕО комплекс мер для повышения рейтинга сайта в поисковой выдаче по определенным пользовательским запросам

Парсер Программа, выполняющая синтаксический анализ

Бот Поисковый робот

Введение

В настоящее время существуют разнообразные поисковые системы по базам данных, по локальным ресурсам, по локальным и глобальным сетям, в которых применяются математические модели и инструментальные средства для получении релевантных данных, удовлетворяющих заданным критериям поиска. Данные системы могут как локально устанавливаться на компьютер пользователя, так и разворачиваться в сети Интернет. Подобных систем сегодня насчитывается несколько десятков, среди них присутствуют как зарубежные, так и отечественные разработки. Учитывая сегодняшние объемы электронного контента, получить требуемую релевантную и актуальную информацию за разумный промежуток времени становится сложно. Если рассмотреть бизнес и экономику на любом уровне от местного до глобального, в сутки обрабатывается десятки миллионов поисковых запросов при использовании наиболее популярных механизмов и инструментов поиска. Поисковые системы бывают как узкоспециализированными, направленными на решение конкретных задач, например, поиск изображений, поиск химических формул, так и широкого применения.

Задача поиска информации осложняется еще и тем, что по запросу пользователя, как правило, выводится огромное множество документов, а некоторые, представляющие интерес для пользователя, и вовсе не индексируются. Это связано не только с изобилием информации, которое постоянно растет, но и с широко распростаненными сегодня копипастерскими ресурсами, тайпсквоттерами и другими представителями черного и серого SEO. Однако даже если детально рассмотреть результаты поиска, то часто в них обнаруживается изобилие так называемого «мусора», т.е. той информации, которая не имеет ощутимой пользы для пользователя. Все это говорит о необходимости совершенствования поисковых систем,

самих алгоритмов поиска, а также о расширении существующего функционала.

Мировые лидеры по разработке поисковых систем, такие как Google и Yandex, постоянно совершенствуют алгоритмы, заложенные в их продукты, а также разрабатывают новые механизмы, нацеленные на повышение качества поиска. Технологии и алгоритмы, применяемые ими, держатся в строгом секрете, публикуется лишь частичное описание нововведений. Согласно данным рейтингового агентства Liveinternet об охвате русскоязычных поисковых запросов Яндекс занимает 48,1% всех переходов с поисковых систем, а Google - 37,2%, остальные поисковики в десятки и сотни раз меньше [111]. Данные поисковые системы предназначены для поиска на естественном языке информации разного типа (текст, изображения, видео) по любой тематике. Кроме двух названных систем поиска информации в сети Интернет существуют менее распространенные в рунете, но имеющие интересные особенности поисковики, такие как Bing от компании Microsoft и Нигма, созданная при МГУ им. Ломоносова, позиционирующие себя в качестве интеллектуальных поисковых систем, применяющих методы интеллектуальной обработки информации такие, как кластеризация документов на основе нейронных сетей.

Целью данной работы является развитие инструментария и математического аппарата для формирования интеллектуального контента при поисковом пользовательском запросе с целью повышения релевантности поиска и качества принимаемых управленческих решений на основе полученной в результате поиска информации.

Основными задачами исследования являются:

1. Проведение анализа и сравнительной характеристики современных поисковых систем и технологий поиска.

2. Разработка инновационных методов формирования и обработки контента.

3. Разработка метода обучения классификатора при автоматическом реферировании поисковой выдачи.

4. Разработка модели формирования интеллектуального контента.

5. Разработка механизма функционирования системы формирования интеллектуального контента.

Предметом исследования являются методы и модели формирования интеллектуального контента.

Объектом исследования является информационное обеспечение деятельности государственных, муниципальных органов самоуправления, а также субъектов бизнеса.

Методологические и теоретические основы диссертационного исследования.

Диссертационное исследование основывается на информационной, методологической и теоретической базе математического анализа, прикладной математики, маркетинговых исследований, разработок в области поиска и обработки информации и высокоуровневого программирования, а так же трудов ведущих отечественных и зарубежных специалистов в области искусственного интеллекта, поиска и обработки информации, таких как Журавлёв Ю.И., Рязанов В.В., Сенько О.В., Загоруйко Н. Г., Круглов В. В., Борисов В. В., Уоссермен Ф., Роберт К., Розенблатт Ф., Дж. Солтон., Федоровский А.Н, Костин М. Ю., Губин М. В., Колисниченко Д. Н.

Научная новизна. Научная новизна диссертационного исследования заключается:

в разработке инструментария для формирования интеллектуального контента с использованием экологического подхода на основе развития и комбинации методов повторного автоматического ранжирования, автоматического реферирования, латентно-семантического

индексирования и стемминга;

в разработке метода извлечения значимого текста из исходного html - документа с применением классификатора на основе нейронной сети и построении модели формирования интеллектуального контента при осуществлении релевантного поиска, как в глобальных, так и в локальных сетях.

Основными результатами диссертационного исследования, обладающими элементами научной новизны, являются следующие:

1. Проведен анализ и сравнительная характеристика современных поисковых систем и технологий поиска, в результате которого установлено, что на сегодняшний день не существует ни одной поисковой системы, формирующей выдачу действительно релевантных документов с помощью функции автоматического реферирования.

2. Предложена комбинация методов формирования и обработки контента с использованием экологического подхода к осуществлению поиска.

3. Разработана конфигурация нейронной сети для обучения классификатора при автоматическом реферировании, применение которой позволяет исключить участие пользователя для извлечения значимого текста из исходного html документа.

4. Предложена модель формирования интеллектуального контента, алгоритм функционирования которой основан на применении предлагаемых в диссертационном исследовании методов и реализован в виде надстройки для поискового модуля системы управления контентом Drupal.

5. Разработан механизм функционирования системы формирования интеллектуального контента на базе Интернет-портала, представляющий инструментальное средство, реализующее функции поиска и обработки информации, позволяющее обеспечить дружественный интерфейс пользователя и повысить эффективность и оперативность обработки запросов при принятии экономических и управленческих решений.

6. Проведена оценка эффективности от внедрения системы формирования интеллектуального контента в Администрации г. Реутов Московской области.

Практическая значимость полученных в исследовании выводов и рекомендаций определяется возможностью повышения эффективности поиска необходимой релевантной информации внутри локальных и глобальных сетей при хозяйственной деятельности за счет комплексного интегрированного применения современных информационных технологий.

Разработанные методические рекомендации по организации процесса поиска и формированию интеллектуального контента можно использовать в рамках осуществления хозяйственной деятельности и процесса управления как для органов государственного и муниципального управления, так и для коммерческих организаций малого, среднего и крупного бизнеса.

Достоверность научных результатов подтверждается опытом применения разработанных методов и моделей в повседневной деятельности экономического управления Администрации города Реутова Московской области. Основные результаты диссертации опубликованы в печатных работах и неоднократно обсуждались на международных и всероссийских конференциях и получили одобрение специалистов.

Апробация результатов исследования. Основные положения диссертации докладывались на научных конференциях:

15-я Вс�