Авторитетность издания
Добавить в закладки
Следующий номер на сайте
Инфраструктурная модель профессионального Интернета (Special Web)
Аннотация:Рассмотрена модель организации информационных ресурсов в сети Интернет, позволяющая автоматизированно ранжировать тематическую информацию. Вводится индекс качества информации и пользователей для эффективного поиска релевантной информации и пользователей системы. Даны исходные данные для построения алгоритмов самоорганизации такой сети. Одной из основных проблем коммуникации в Интернете является невозможность семантического поиска информации и людей на основе их профессиональных компетенций. Решение этой задачи может дать серьезный толчок развитию профессиональных сообществи коммуникации в сети. Сделать это предполагается за счет создания инфраструктуры профессионального Интернета, которая включает такие элементы, как дерево специализаций, импактфакторы, сопоставленные со специализацией, веб-страницей и пользователем, а также показатели активности пользователей, выраженные в графе движения по веб-страницам, положительные и отрицательные отклики на информацию. Важной научной составляющей при построении инфраструктуры является такое проектирование, при котором автоматически регулируется корректировка тематических показателей веб-ресурсов и пользователей. Для этого необходимо ввести алгоритм динамики системы, который выводится с использованием эвристических алгоритмов с исходными данными, полученными на основе экспертных оценок. Чтобы получить динамику в системе, необходимо сформировать в ней первичные импактфакторы. Эта задача решается путем сопоставленияс ветками дерева специализаций вопросов на проверку компетенций, которые являются открытыми для оценок и сопоставления между другими пользователями в системе. Данная работа ведется сотрудниками Сибирского федерального университета совместно с компанией «Кайрос».
Abstract:The paper presents the website organization model that automatically ranks related information. The authors introduce an information and user quality index, which allows to efficiently search for relevant information and system users. The paper gives source data to develop algorithms for such anetwork self-organizing. One of the current major problems of today's Internet communication is that there is no possibility to carry out the semantic information and people search on pro-fessional expertise basis. This problem solution can provide an impetus to develop professional communities and communi-cations on the Internet. This problem is expected to be solved by creating professional Internet infrastructure that includes such elements as specialization tree; impact factors according to the specialization, web page and the user; user activity index registered in information field that indicates movements on web pages; positive and negative reactions to the information. An important science component in infrastructure construction is design when context indicators of web resources and users are corrected automatically, without outside interference. This process requires a system dynamics algorithm that is formed by using heuristic algorithms with input data obtained based on expert assessments. To achieve dynamics in a system, it is nec-essary to form the primary impact factors of the system. Questions to test the competence open to evaluation and comparison between other users in the system can solve this problem, if you compare them with specialization tree. This work is current-ly performed by the staff of the Siberian Federal University together with the company LLC Kairos.
Авторы: Беда И.А. () - Сибирский федеральный университет (аспирант), г. Красноярск, Россия, Стюгин М.А. (styugin@rambler.ru) - Сибирский государственный аэрокосмический университет им. академика М.Ф. Решетнева, г. Красноярск, Россия, Носов И.А. (mail@infosafety.ru) - «Кайрос» (ведущий программист ), Красноярск, Россия | |
Ключевые слова: инфраструктура сети., семантический поиск, интернет-ресурсы, поиск информации |
|
Keywords: network infrastructure, semantic search, website, information search |
|
Количество просмотров: 8829 |
Версия для печати Выпуск в формате PDF (13.63Мб) Скачать обложку в формате PDF (1.39Мб) |
Соотношение развлекательного и полезного контентов в Интернете сегодня с огромным перевесом склоняется к преобладанию первого. И этот показатель продолжает расти. Данное явление обусловлено прежде всего экономическими причинами. Монетизировать полезный контент в Интернете значительно сложнее, чем развлекательный. Один зарегистрированный пользователь на развлекательных ресурсах дает в среднем в 12 раз больше прибыли, чем пользователь на образовательных, научных, специализированных и прочих ресурсах [1]. Современный Интернет пока еще не смог выработать эффективные механизмы монетизации полезного контента. Причиной недостатка профессионального контента в Интернете можно считать также отсутствие поиска информации и людей по семантическому признаку, а потому сегодня необходимо решить следующие задачи. 1. Поиск информации по смысловому зна- чению текста. То есть поисковые машины в Интернете в качестве основного критерия поиска и ранжирования сайтов используют вхождение определенных слов, ссылочное ранжирование, уникальность контента и пр. Нет механизма, который позволил бы определить соответствие страницы по смыслу текста, даже если бы искомое слово в нем отсутствовало [2]. 2. Поиск людей по их профессиональным компетенциям. Поисковый сервис может определить принадлежность человека к каким-либо компетенциям, только если он их сам явно обозначил. Нет возможности определить компетенции человека по его активности в Интернете. 3. Поиск людей по данным их семантического присутствия в Интернете. Иногда кому-то очень важно найти человека, который недавно занимался той же узкоспециализированной задачей. Для этого достаточно было бы найти человека по его семантическому присутствию в сети. Общий анализ данных проблем показывает, что технические возможности для их решения в сети Интернет есть, но сложность решения обусловливается совокупностью всех этих факторов с учетом самого важного из них – конкурентное преимущество подобных технологий. Постановка задачи Для разработки профессионального Интернета необходимо найти инфраструктурное решение для сети, удовлетворяющее следующим функциональным требованиям: – возможность тематического распределения интернет-страниц; – определение тематического импакт-фактора страниц и ресурсов; – возможность тематического распределения пользователей; – определение тематического импакт-фактора пользователя; – возможность фиксации времени нахождения пользователей на страницах; – возможность поиска пользователей по контексту или контекста по пользователю. Определим условия функционирования системы. 1. Импакт-факторы являются результатом деятельности пользователей в системе и не могут изменяться администратором. 2. Импакт-фактор не может быть изменен путем генерации бесполезных аккаунтов и контента. 3. Алгоритмы изменения импакт-факторов должны удовлетворять таким условиям, чтобы приблизить ранжирование страниц и пользователей по импакт-факторам к ранжированию на основе реальной экспертной оценки. Инфраструктуру веб-ресурсов, удовлетворяющих данным условиям и функциональным требованиям, будем называть профессиональным Интернетом (Special Web). Структурная схема профессионального Интернета Структуру профессионального Интернета определяет дерево специализаций, или областей знания. Соответственно каждый пользователь и страница профессионального Интернета содержат отношение к списку областей знаний. Это от- ношение представлено в виде списка кортежей идентификатора специализации и значения его импакт-фактора (рис. 1). Чем выше значение импакт-фактора по данной специализации, тем выше компетенция пользователя в системе или важность информации страницы в данной области знаний. Пользователи в системе могут проявлять активность, создавая новые тексты (комментирование тоже считается созданием нового текста, который имеет все аналогичные параметры в системе, но располагается в привязке к другому тексту), а также посещая определенные веб-страницы (учитывается время нахождения пользователя на странице). В результате данной активности (с учетом их импакт-фактора в определенной области знаний), выраженной в виде булева значения комментариев (положительный и отрицательный комментарий к информации), а также времени нахождения на ресурсах, изменяются импакт-факторы самих пользователей и импакт-факторы страниц профессионального Интернета. Динамика системы Динамика системы отражается в изменении тематических импакт-факторов пользователей и страниц в результате пользовательской активности (создание текстов, время присутствия на страницах). Принимая изначально невозможность программной семантической оценки содержания текста, необходимо переложить эту функцию на пользователя. Оценку текстов может выполнять либо автор, либо администратор, наделенный этой ролью. Второй вариант противоречит первому условию функционирования системы, поэтому семантическую оценку текста необходимо переложить на автора. Для минимальной загруженности пользователя такой оценкой можно ввести булево значение текста vbool (положительная/отрицательная оценка). Это означает, что при создании комментария к информации (создание нового текста, привязанного к определенной веб-странице) человек может высказать положительную или отрицательную оценку родительского текста (значение vbool). Это значение является булевым. А чтобы определить меру, с которой в результате будет изменен импакт-фактор базового текста, необходимо определить функцию, параметром которой также будет импакт-фактор пользователя в данной области знаний. Таким образом, все тексты в инфраструктуре профессионального Интернета имеют родителя, к которому привязано булево отношение переменной vbool. Помимо данного значения, каждый из текстов имеет собственное множество импакт-факторов – IF, множество времени присутствия пользователей – TP и автора a, который тоже обладает множеством импакт-факторов, прибавляющих вес тексту (рис. 2). На данном рисунке показано отношение родительских и вложенных текстов, каждый из которых имеет такие параметры, как собственное множество импакт-факторов (значения важности текста в определенной области знаний из множества S), автора, множество времени присутствия пользователей системы на данной странице и положительное или отрицательное отношение данного текста к родительскому (указывает автор). На множество значений импакт-факторов в системе влияет также множество значений импакт-факторов автора текста (IFauthor). У каждого пользователя и страницы есть множество специализаций Sn, являющихся подмножеством общего дерева S: SnÍS. На данном множестве определяется множество значений импакт-факторов страницы или пользователя: IFn={viif|"siÎSn$viifÎIFn}. Значение импакт-факторов страницы является динамической величиной, которая определяется импакт-фактором автора текста и изменяется с изменением импакт-факторов текстов-потомков исходного. В результате можно определить IFi=f(IFauthor i, {tpm|tpmÎTPi}, {(IFik, vikbool)}). То есть, чтобы определить значение импакт-факторов конкретной страницы, нужно найти функцию, параметрами которой являются множество значений импакт-факторов автора текста (IFauthor i), множество значений времени присутствия пользователей на странице (TPi) (важно знать, как долго пользователи задерживаются на странице и изучают материал), а также множество кортежей значений импакт-факторов текстов-потомков (IFik) и их булево отношение к родительскому тексту (vikbool). Значение IFik раскрывается аналогично по формуле IFik=f(IFauthor ik, {tpm|tpmÎTPik}, {(IFiks, viksbool)}), затем экспертное значение IFiks=f(IFauthor iks, {tpm|tpmÎTPiks}, {(IFiksg, viksgbool)}) и так далее. Таким образом, чтобы однозначно определить динамику системы, необходимо найти функциональную зависимость f с учетом третьего условия функционирования системы, описанного выше. Определив экспертные значения IF¢i, IF¢ik, IF¢iks и т.д. на различных множествах, можно определить исходную функцию f(.). Нахождение усредненного значения функции Из приведенного выше представления функции импакт-факторов можно предположить, что импакт-фактор изменяется с появлением положительных или отрицательных текстов-потомков и импакт-факторов их авторов с учетом неких коэффициентов. Частная формула нахождения импакт-фактора выглядит следующим образом: Очевидно, можно предположить, что вложенные тексты имеют равнозначное влияние на родительский текст, как и в случае со временем присутствия. Поэтому k11=k12=k13=k14= … =k111=k121= =k131=k141=…, t11=t12=t13=t14=… и т.д. Таким образом, для нахождения функции изменения исходного значения импакт-факторов необходимо найти обобщенные значения коэффициентов: kx, kxx, kxxx, kxxxx, …; tx, txx, txxx, txxxx, … Для эффективного решения этой задачи можно также сделать предположение, что размер коэффициентов экспоненциально уменьшается с ростом индексов. То есть тексты, имеющие большую вложенность, практически никак не должны влиять на значимость родительского текста. Поэтому можно упростить задачу, ограничившись только первыми тремя коэффициентами. Имея выборку исходных данных, задачу можно эффективно решить эвристическими алгоритмами поиска, например генетическими алгоритмами [3]. Формирование первичных импакт-факторов в системе Предложенная схема изменения импакт-факторов в системе не будет работать, если импакт-факторы всех участников равны нулю. То есть самоорганизация системы невозможна, если в нее изначально не ввести ненулевые импакт-факторы для некоторых элементов. Вводить такие значения необходимо для каждой новой ветки компетенций (specialization). Чтобы не нарушать первое условие функционирования системы, необходимо ограничить право администратора регулировать первичные значения импакт-факторов. Для проверки исходных компетенций можно определить список вопросов по каждому направлению из дерева специализаций. Тот, кто создает новый лепесток дерева, определяет список первичных вопросов для последующих пользователей, желающих сформировать свою компетенцию в системе. Создать новый лепесток можно только у ветки, по которой пользователь имеет импакт-фактор, превышающий некоторое заданное значение. По каждому из вопросов пользователям также может быть предложено дать оценку. По результатам этих оценок список вопросов должен изменяться с точки зрения их релевантности. Необходимыми условиями являются наличие большого числа вопросов в системе и выбор их случайным образом из списка, чтобы нельзя было обойти систему проверки компетенций. На основании изложенного можно сделать следующие выводы. Описанная функциональная инфраструктура профессионального Интернета позволит увеличить удобство и эффективность использования Всемирной сети с точки зрения саморазвития и профессиональной коммуникации. На основании теоретических результатов можно разработать программную систему, позволяющую реализовать описанные возможности и сформировать конкурентоспособный продукт. Литература 1. Web Analytics Association. URL: http://www.digitalanalyticsassociation.org (дата обращения: 01.03.2013). 2. Polleres A., d'Amato C., Reasoning Web. Semantic Technologies for the Web of Data, 2011, 354 p. 3. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. М., 2008. 2-е изд. 452 с. References 1. Web Analytics Association, available at: http://www.digitalanalyticsassociation.org (accessed 01 March 2013). 2. Polleres A., d'Amato C., Arenas M., Handschuh S., Kroner P., Ossowski S., Patel-Schneider P.F., Reasoning Web. Semantic Technologies for the Web of Data, Springer, 2011. 3. Rutkovskaya D., Pilinsky M., Rutkovsky L., Neyronnye seti, geneticheskie algoritmy i nechetkie sistemy [Neural network, genetic algorithms and fuzzy systems], 2nd ed., Мoscow, 2008. |
Постоянный адрес статьи: http://swsys.ru/index.php?page=article&id=3584&lang= |
Версия для печати Выпуск в формате PDF (13.63Мб) Скачать обложку в формате PDF (1.39Мб) |
Статья опубликована в выпуске журнала № 3 за 2013 год. [ на стр. 182-185 ] |
Возможно, Вас заинтересуют следующие статьи схожих тематик: