Journal influence
Bookmark
Next issue
Abstract:
Аннотация:
Authors: () - , () - , Menshutina N.V. (chemcom@muctr.ru) - D. Mendeleev University of Chemical Technology of Russian Federation, Moscow, Russia, Ph.D | |
Ключевое слово: |
|
Page views: 14677 |
Print version Full issue in PDF (1.31Mb) |
По оценкам зарубежных экспертов, пользователей Интернета свыше 300 млн. человек, а число только коммерческих сайтов составляет сотни тысяч. При этом ресурсы Интернета представляют собой гигантский массив неструктурированной информации. В этих условиях поиск необходимых сведений превращается в утомительное и зачастую в малоэффективное занятие. Единственно разумным выходом является формирование собственной локальной базы данных (БД) из документов, найденных в различных информационных системах, и их дальнейший анализ на локальном компьютере. При этом можно разработать единообразную форму хранения, поиска и анализа разнородной информации. Обеспечение пользователей постоянно обновляемыми информационными ресурсами – насущная задача компьютерных информационных технологий. Для реализации этой задачи в области химии и химической технологии в одном из российских научных центров была разработана корпоративная база, которая объединяет информацию по российским и зарубежным патентам, рефераты и статьи из российских и зарубежных журналов, материалы российских и зарубежных выставок и конференций, маркетинговую информацию, а также необходимые правовые документы. Целью создания корпоративной базы являлось также объединение и совместное пользование информационных БД различных организаций, использование возможностей этих организаций для пополнения базы и совместное приобретение информационных ресурсов. Корпоративная база предоставляет пользователям широкие возможности: · единообразное ведение поиска информации в БД различной структуры и направленности – патентной, научно-технической и правовой информации; · проведение тематического поиска как по классификаторам, так и по любым терминам непосредственно в текстах; · организация информационного обмена с разнообразными офисными приложениями, в том числе Word и Exсel; · подготовка найденных документов для печати в виде сборников, отчетов и т.п. Отбор документов производится по наличию терминов, выделенных как на этапе создания БД, так и непосредственно в процессе поиска. Другими словами, набор поисковых терминов меняется пользователем в зависимости от выполняемой задачи. При этом документы из большого информационного массива отбираются по формальному признаку (наличию поисковых терминов) без ручного анализа всех документов БД. Глобальной целью всех БД является создание единого информационного пространства, то есть сбор всей информации по конкретной тематике в одном месте с целью ее дальнейшего анализа. Однако сегодня ситуация такова, что большинство информации разбросано по бесчисленным электронным и печатным источникам. Условно все информационные ресурсы можно разделить на несколько видов: 1) глобальные универсальные информационные системы, объединяющие сотни и тысячи БД (STN, Dialog, Orbit) и содержащие практически всю мировую научно-техническую и деловую информацию; 2) специализированные поисковые системы (юридические, патентные, БД ВИНИТИ, Derwent, Chem. Abs.); 3) электронные выпуски журналов, энциклопедий, каталоги выставок и т.п., в том числе и Интернет-издания; 4) материалы на бумажных носителях. Преимущества электронного поиска информации в сравнении с бумажным очевидны, однако сторонники электронного поиска обычно умалчивают о его стоимости и о необходимости специальной подготовки для его проведения. Кроме того, разные системы имеют различные идеологии построения, интерфейс, поисковые языки. Фактически на освоение каждой новой системы приходится тратить ощутимое время. При этом многие электронные системы (особенно проспекты и энциклопедии) имеют «дыры» в программном обеспечении, из-за чего в них невозможно найти даже имеющуюся в наличии информацию. Как правило, такая ситуация возникает при некорректном использовании ключевых слов. Еще одна специфическая проблема – отсутствие в западных БД российской информации, например, статей из ряда журналов, докладов на многочисленных российских региональных конференциях, зачастую изданных мизерным тиражом и не имеющих электронной версии. Поскольку глобальные БД представляют собой закрытые системы, их пополнение собственными силами невозможно. Описание корпоративной базы Постоянно обновляемая корпоративная база по химии и химическим технологиям включает следующие разделы: патенты РФ, зарубежные патенты (рефераты на английском языке), российские и зарубежные журналы, выставки и конференции, рефераты статей из российских источников, рефераты статей из зарубежных источников, маркетинговая информация по России и зарубежью, БД различных предприятий и научно-исследовательских институтов, материалы по правовым вопросам. Множество однотипных документов обра- зует БД. Например, множество рефератов обра- зует БД рефератов, множество патентов – БД патентов, сведения о предприятиях – БД предприятий и т.п. На физическом уровне, на языке файлов, БД состоит из набора обязательных файлов, присутствующих в любой БД, имеющих расширения trb, txt, dic, doc, inv, int, inw, num, и необязательных файлов с расширениями ini, ctl и др. На практике зачастую необходим одновременный доступ к нескольким БД, поэтому в системе управления БД реализован многобазовый доступ. Множество БД, доступных в текущем сеансе, будем называть темой (этот термин ассоциируется с тематической подборкой, что ближе к обычной терминологии). Каждая тема может включать от одной до нескольких БД, как правило, связанных общей тематической направленностью. Причем одна и та же БД может входить в разные темы. Структура БД в корпоративной базе Размер БД может достигать сотен тысяч и миллионов документов, а объем – сотен гигабайт, поэтому особое значение при работе с БД имеет возможность нахождения документов. Иными словами, именно возможность быстрого поиска документов и определяет стремление организовать множество документов в виде БД. Когда вводится запрос на поиск предприятия по номеру телефона или по адресу, или по фамилии директора, подразумевается, что из печатного текста можно выделить телефон, адрес, фамилию и т.д. Для автоматизации поиска эти «осмысленные единицы» разумно выделить в отдельные части. Например, в реферате выделить собственно текст реферата, заголовок, источник, ключевые слова и т.д. патент может быть разбит на части, одна из которых содержит реферат и текст патента, а другие – библиографические реквизиты патента (номер, год публикации, класс МКИ, авторы и др.). Такая именованная часть документа, описывающая одно из его свойств, называется фрагментом, или сегментом. Выделение фрагментов производится на этапе проектирования БД и диктуется исключительно практическими потребностями: либо облегчается поиск документов, либо их представление, либо анализ результатов. Выделение фрагментов и фиксация порядка их следования определяет структуру документа. Все документы одной БД имеют одинаковую структуру. По существу, различие между БД определяется различием между их структурами. Выделение структуры позволяет представить БД в виде таблицы, столбцы которой соответствуют фрагментам, а строки – документам (наряду с терминологией «фрагмент–документ» употребляется также терминология «свойство–запись»). Рассмотрим работу корпоративной базы на примере журнала «Мембраны». При переносе информации из БД «Мембраны» в корпоративную базу была создана новая БД со структурой, представленной в таблице. Таблица Структура БД
Данный пример позволяет показать две важные возможности корпоративной базы: работу с внешними программами и применение каталогов, а также поиск по словарю, включая работу с формулами соединений. Поиск по словарю. Словарь содержит все слова, используемые во всех документах. Эти слова могут быть использованы пользователем для поиска. Более того, пользователь может проводить поиск информации по нескольким словам. Для «отключения» какого-либо слова необходимо «нажать» на него еще раз. Поиск по ключевым словам. Поиск по словарю удобен, когда ведется в процессе чтения, но малопригоден для анализа. Этой цели могли бы служить ключевые слова. Например, ключевое слово мембраны полимерные может быть разложено на две составляющие: мембраны и полимерные. После такого «разложения» поиск документов с этими ключевыми словами можно выполнить в два приема: во-первых, найти документы, содержащие слово мембраны, а затем отобрать документы, в которых имеется слово полимерные. Аналогично можно найти и другие подобные выражения, в которых вместе со словом мембраны стоит уточнитель, что можно записать в виде дерева, где число точек слева определяет уровень дерева: · мембраны · · асимметричные · · биологические · · жидкие · · ионообменные · · ионоселективные · · катионообменные · · керамические · · композиционные · · неорганические · · полимерные · · половолоконные · · полупроницаемые · · пористые. Система управления БД позволяет формировать и выполнять подобные иерархические каталоги запросов (далее просто каталог). Подобные каталоги можно хранить и многократно использовать в любой БД, где число уровней и вершин (ключевых слов первого уровня) может быть произвольным. Такой каталог позволяет одним взглядом оценить документы для каждой из вершин. Правда, в один каталог невозможно поместить все тысячи ключевых слов, но этого принципиально не следует делать, так как ключевые слова расставлены бессистемно. Гораздо продуктивнее рассортировать ключевые слова по нескольким каталогам. Но даже "кустарный" каталог позволяет провести разделение всех документов на небольшие группы, которые можно уже просмотреть и отобрать нужные. Работу каталога иллюстрирует следующий пример. На рисунке представлено окно БД «Журналы». Цифра в верхней строке окна отражает количество документов в БД на текущий момент. Пользователь, работая в поле «личный», имеет возможность создать собственный каталог поиска по ключевым словам. В данном примере клю- чевым словом первого уровня является слово мембраны (в базе найдено 114 документов с этим словом). Корпоративная база, используя встроенный каталог, находит ключевые слова второго уровня, связанные с ключевым словом мембраны. Цифра возле каждого ключевого слова второго уровня отражает количество документов с этим словом в БД. В левой части окна нажатием клавиши мыши выделяется нужное ключевое слово, при этом в правой части окна появляются найденные документы. Включение в каталог (или каталоги) других деревьев – это очевидное его расширение «вширь». Но можно расширить каталог и «вглубь», для чего на следующем шаге анализа можно «расслоить вершины», в которые попало «много» элементов, например, биологические и полимерные, для чего в каталог необходимо добавить подчиненные вершины третьего уровня. Однако для такого добавления надо понимать суть дела. Ключевые слова третьего уровня пользователем вводятся вручную. Следует отметить, что количество документов с ключевым словом второго уровня не всегда соответствует количеству документов с соответствующими ключевыми словами третьего уровня. Работа с таким трехуровневым каталогом принципиально ничем не отличается от двухуровневого: синхронно с движением по вершинам, отраженным в левом окне, пользователь просматривает документы в правом. При этом возможно в любой момент отключить-включить левое окно. Таким образом, разработанная корпоративная база в области химии и химических технологий позволяет: · объединить множество массивов БД с различными структурами от разных разработчиков в единое информационное пространство; · осуществить тематический поиск по словарю и ключевым словам как по всему документу, так и по отдельным его фрагментам, что значительно экономит время и затраты пользователя на поиск нужной информации. Представленная корпоративная база по разнообразию включенной информации, относящейся к одной тематической области, не имеет аналогов в России и за рубежом, поэтому представляет несомненный интерес для специалистов, работающих в сфере химии и химической технологии и интересующихся постоянно обновляемой информацией в данной области знаний. |
Permanent link: http://swsys.ru/index.php?page=article&id=569&lang=&lang=&like=1&lang=en |
Print version Full issue in PDF (1.31Mb) |
The article was published in issue no. № 4, 2004 |
Perhaps, you might be interested in the following articles of similar topics:
- Формулировка задачи планирования линейных и циклических участков кода
- Эволюционная модель формирования структур виртуальных предприятий
- К вопросу параметризации свойств программных средств обучения
- Комплекс автоматизированного проектирования геотехнических сооружений "КАППА"
- Информационные модели на основе CASE–средств промышленных объектов для информационной поддержки принятия решений
Back to the list of articles