На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
09 Сентября 2024

Интеллектуальный анализ данных в гуманитарных областях

Статья опубликована в выпуске журнала № 3 за 2008 год.
Аннотация:
Abstract:
Авторы: Фомин В.В. (v_v_fomin@mail.ru) - Российский государственный педагогический университет им. А.И. Герцена (профессор), Санкт-Петербург, Россия, доктор технических наук, Дюк В.А. () -
Ключевые слова: гуманитарные области, интеллектуальный анализ, статстика, факторы
Keywords: , intelligent analysis, , factors
Количество просмотров: 13088
Версия для печати
Выпуск в формате PDF (2.59Мб)

Размер шрифта:       Шрифт:

Многие приложения современных методов анализа данных относятся к гуманитарным областям, имеющим сложную системную организацию. Попытаемся обобщить представления о специфике данных в таких областях.

 

«Будущее анализа данных может привести к большому прогрессу, к преодолению реальных трудностей, к оказанию большой помощи всем областям науки и техники. Будет ли это так? Это зависит от нас, от нашего желания встать на каменистый путь реальных проблем вместо гладкой дороги нереальных предпосылок, произвольных критериев и абстрактных результатов, не имеющих реалистической направленности…» – эти слова Дж. Тьюки [1], сказанные еще в 1962 году, остаются актуальными и в наши дни.

Согласно классификации статистических методов анализа данных, принятой в [2], выделяют четыре области: статистика (числовых) случайных величин, многомерный статистический анализ, статистика временных рядов и случайных процессов, статистика объектов нечисловой природы.

Современные специалисты в области анализа данных концентрируют свое внимание на исследовании объектов нечисловой природы, которые можно отнести к одному из важных классов так называемых НЕ-факторов.

Вместе с тем, акцент в прикладном статистическом анализе только на объектах нечисловой природы является далеко не полным. Когда мы имеем дело с предметными областями со сложной системной организацией (например в медицине), перед исследователем в первую очередь встает вопрос о том, какие признаки (атрибуты, показатели, переменные) следует включить в план статистического эксперимента. Доступных для измерения (фиксации) признаков может быть довольно много. Нередко в современных исследованиях их количество измеряется десятками, сотнями и даже тысячами, и заранее невозможно предугадать их потенциальную полезность. Таким образом, здесь мы имеем дело с еще одним мощным НЕ-фактором – высокой размерностью и неопределенностью исходного описания объектов.

Более того, часто при подготовке экспериментальных данных исследователь испытывает серьезные затруднения в формулировке целевых критериев статистического анализа (здесь мы не касаемся достаточно тривиальных постановок задач дескриптивной статистики). Например, известно много фактов значительного расхождения диагностических оценок различных специалистов в медицине и психологии, принадлежащих даже только одной научной школе. Этот НЕ-фактор, по-видимому, целесообразно определить как «нечеткость внешних критериев».

Также имеет смысл выделить в самостоятельный «НЕ-фактор» наличие в описаниях сложных объектов большого количества «шумящих», не имеющих ценности переменных, способных затушевывать полезные закономерности в структурах экспериментальных данных. С другой стороны, имея в виду технологическую сторону многомерных математических статистических процедур, негативную роль может играть присутствие в описаниях объектов исследования большого числа дублирующих переменных.

Кроме отмеченной ранее разнотипности признаков, с которыми приходится иметь дело при описании объектов со сложной системной организацией, принципиальной особенностью является неоднородность классов объектов, которые формируются на основании тех или иных внешних критериев. Указанные объекты часто относятся к так называемым эквифинальным системам, для которых одинаковые внешние проявления обусловлены различными внутренними механизмами. Этот НЕ-фактор обозначим как неоднородность классов.

Получению данных, связанных с трудоемкими и растянутыми во времени экспериментами, часто сопутствуют осложнения в виде значительного количества пропущенных значений (пропусков). Примеры подобных экспериментов особенно часто встречаются в медицинских исследованиях, которые, бывает, занимают месяцы и даже годы. Естественно, что за столь длительный период возникает целый ряд объективных и субъективных причин возникновения описываемой ситуации (человеческий фактор, отказ приборов и др.). Кроме того, продолжительность во времени процесса получения исходной информации может приводить к другой, не менее негативной ситуации – появлению резко отклоняющихся значений (выбросов) у того или иного измеряемого показателя (практически независимо от его природы).

Еще один НЕ-фактор удобно проиллюстрировать на примере современных молекулярно-генетических исследований. Здесь мы затронем пока только один аспект, характерный для задач функциональной геномики (или протеомики). Новейшие биологические микрочипы позволяют одновременно оценивать в биопробе экспрессию десятков тысяч генов. В то же время число объектов в эксперименте редко достигает порядка нескольких сотен. Таким образом, число столбцов в выборках данных (число анализируемых переменных) способно в десятки и более раз превышать количество строк. Возникает необычная ситуация для традиционного многомерного анализа. С одной стороны, данных много, но, несмотря на это, указанную ситуацию следует интерпретировать как малую выборку. Рассмотренный НЕ-фактор целесообразно обозначить как «количество признаков превышает число объектов».

Относительно самостоятельный раздел прикладной статистики относится к анализу последовательностей чисел и символов. Здесь специалисты отмечают, что несколько основных моделей, используемых при таком анализе, оказались плохо совместимыми друг с другом по базовым посылкам. Например, для числовых рядов Фурье анализ требует отсутствия непериодических составляющих, методы Бокса чувствительны к виду одномерных распределений и т.д. Алгоритмы поиска закономерностей в последовательностях символов основываются на переборах, которые можно реализовать только в очень ограниченных вариантах, либо опираются на сильные эвристические допущения.

Вместе с тем существенные свойства процессов, происходящих в системах со сложной системной организацией, нередко выражаются в виде паттернов с изменяющимся периодом. Более того, такие паттерны могут представлять собой не непрерывную четкую последовательность чисел или символов, а иметь внутренние области-джокеры. Вид паттернов с джокерами и интервалы между ними в начале реального исследования неизвестны – это очередной НЕ-фактор.

Другой НЕ-фактор, относящийся к области распознавания последовательностей символов в ряде актуальных задач (например, распознавание генов в последовательности ДНК, поиск регуляторных сигналов, предсказание функций белков) с помощью статистических методов, связан с проблемой представления исходных данных в виде таблицы объект-признак. Частично эту проблему в настоящее время пытаются решать посредством специальных алгоритмов так называемого выравнивания последовательностей. Однако эти алгоритмы являются эвристическими и принципиально не способны учитывать то, что внутри образцов последовательностей могут быть вставки (причем неизвестной природы) в самых разных местах и самых различных размеров. Назовем отмеченный НЕ-фактор «Проблемы представления информации в виде таблиц объект-признак».

Еще одна важная особенность данных в предметных областях со сложной системной организацией – структурная асимметрия классов объектов исследований. Эта асимметрия выражается в том, что каждый распознаваемый класс имеет структурные особенности, которые могут сильно различаться. Например, один класс многомерных объектов может обладать сравнительно простой геометрической структурой в пространстве признаков, другой, наоборот, может быть полиморфен в сильной степени.

Таким образом, современная прикладная статистика имеет дело с данными, характеризующимися следующим набором НЕ-факторов:

·     высокая размерность данных;

·     разнотипность данных;

·     неопределенность исходного описания;

·     нечеткость внешних критериев;

·     большое количество «шумящих» и дублирующих признаков;

·     неоднородность классов объектов;

·     пропущенные значения;

·     резко отклоняющиеся значения (выбросы);

·     значительное превышение количества признаков над числом объектов;

·     существенность непериодических паттернов с джокерами при описании последовательностей чисел и символов;

·     проблемы представления данных в виде таблиц объект-признак;

·     структурная асимметрия классов объектов исследований.

Обобщение с точки зрения целевых, дескриптивных и структурных особенностей позволяет выделить основные характеристики предметных областей со сложной системной организацией: нечеткость целевых показателей и критериев; неопределенность, неточность, разнотипность и неизвестная размерность описаний; полиморфность эквифинальных состояний исследуемых систем; наличие русел и джокеров разного, заранее неизвестного формата с неизвестной локализацией. Очевидно, поиск, описание и структурирование закономерностей в предметных областях с подобными характеристиками требуют особых математических и алгоритмических подходов.

Список литературы

1. Tukey J.W. The Future of Data Analysis, Ann. Math. Stat. 33, 1, 1–67 (1962).

2. Орлов А.И. // Заводская лаборатория. – 1990. – Т. 56. – № 3. – С. 76–83; – 1995. – Т. 61. – № 3. – С. 43–52.


Постоянный адрес статьи:
http://swsys.ru/index.php?page=article&id=1583&lang=&lang=&like=1
Версия для печати
Выпуск в формате PDF (2.59Мб)
Статья опубликована в выпуске журнала № 3 за 2008 год.
Статья находится в категориях: Обработка данных

Возможно, Вас заинтересуют следующие статьи схожих тематик: