Journal influence
Bookmark
Next issue
Abstract:
Аннотация:
Authors: Fomin V.V. (v_v_fomin@mail.ru) - Herzen State Pedagogical University of Russia (Professor), St. Petersburg, Russia, Ph.D, () - | |
Keywords: , intelligent analysis, , factors |
|
Page views: 13260 |
Print version Full issue in PDF (2.59Mb) |
Многие приложения современных методов анализа данных относятся к гуманитарным областям, имеющим сложную системную организацию. Попытаемся обобщить представления о специфике данных в таких областях.
«Будущее анализа данных может привести к большому прогрессу, к преодолению реальных трудностей, к оказанию большой помощи всем областям науки и техники. Будет ли это так? Это зависит от нас, от нашего желания встать на каменистый путь реальных проблем вместо гладкой дороги нереальных предпосылок, произвольных критериев и абстрактных результатов, не имеющих реалистической направленности…» – эти слова Дж. Тьюки [1], сказанные еще в 1962 году, остаются актуальными и в наши дни. Согласно классификации статистических методов анализа данных, принятой в [2], выделяют четыре области: статистика (числовых) случайных величин, многомерный статистический анализ, статистика временных рядов и случайных процессов, статистика объектов нечисловой природы. Современные специалисты в области анализа данных концентрируют свое внимание на исследовании объектов нечисловой природы, которые можно отнести к одному из важных классов так называемых НЕ-факторов. Вместе с тем, акцент в прикладном статистическом анализе только на объектах нечисловой природы является далеко не полным. Когда мы имеем дело с предметными областями со сложной системной организацией (например в медицине), перед исследователем в первую очередь встает вопрос о том, какие признаки (атрибуты, показатели, переменные) следует включить в план статистического эксперимента. Доступных для измерения (фиксации) признаков может быть довольно много. Нередко в современных исследованиях их количество измеряется десятками, сотнями и даже тысячами, и заранее невозможно предугадать их потенциальную полезность. Таким образом, здесь мы имеем дело с еще одним мощным НЕ-фактором – высокой размерностью и неопределенностью исходного описания объектов. Более того, часто при подготовке экспериментальных данных исследователь испытывает серьезные затруднения в формулировке целевых критериев статистического анализа (здесь мы не касаемся достаточно тривиальных постановок задач дескриптивной статистики). Например, известно много фактов значительного расхождения диагностических оценок различных специалистов в медицине и психологии, принадлежащих даже только одной научной школе. Этот НЕ-фактор, по-видимому, целесообразно определить как «нечеткость внешних критериев». Также имеет смысл выделить в самостоятельный «НЕ-фактор» наличие в описаниях сложных объектов большого количества «шумящих», не имеющих ценности переменных, способных затушевывать полезные закономерности в структурах экспериментальных данных. С другой стороны, имея в виду технологическую сторону многомерных математических статистических процедур, негативную роль может играть присутствие в описаниях объектов исследования большого числа дублирующих переменных. Кроме отмеченной ранее разнотипности признаков, с которыми приходится иметь дело при описании объектов со сложной системной организацией, принципиальной особенностью является неоднородность классов объектов, которые формируются на основании тех или иных внешних критериев. Указанные объекты часто относятся к так называемым эквифинальным системам, для которых одинаковые внешние проявления обусловлены различными внутренними механизмами. Этот НЕ-фактор обозначим как неоднородность классов. Получению данных, связанных с трудоемкими и растянутыми во времени экспериментами, часто сопутствуют осложнения в виде значительного количества пропущенных значений (пропусков). Примеры подобных экспериментов особенно часто встречаются в медицинских исследованиях, которые, бывает, занимают месяцы и даже годы. Естественно, что за столь длительный период возникает целый ряд объективных и субъективных причин возникновения описываемой ситуации (человеческий фактор, отказ приборов и др.). Кроме того, продолжительность во времени процесса получения исходной информации может приводить к другой, не менее негативной ситуации – появлению резко отклоняющихся значений (выбросов) у того или иного измеряемого показателя (практически независимо от его природы). Еще один НЕ-фактор удобно проиллюстрировать на примере современных молекулярно-генетических исследований. Здесь мы затронем пока только один аспект, характерный для задач функциональной геномики (или протеомики). Новейшие биологические микрочипы позволяют одновременно оценивать в биопробе экспрессию десятков тысяч генов. В то же время число объектов в эксперименте редко достигает порядка нескольких сотен. Таким образом, число столбцов в выборках данных (число анализируемых переменных) способно в десятки и более раз превышать количество строк. Возникает необычная ситуация для традиционного многомерного анализа. С одной стороны, данных много, но, несмотря на это, указанную ситуацию следует интерпретировать как малую выборку. Рассмотренный НЕ-фактор целесообразно обозначить как «количество признаков превышает число объектов». Относительно самостоятельный раздел прикладной статистики относится к анализу последовательностей чисел и символов. Здесь специалисты отмечают, что несколько основных моделей, используемых при таком анализе, оказались плохо совместимыми друг с другом по базовым посылкам. Например, для числовых рядов Фурье анализ требует отсутствия непериодических составляющих, методы Бокса чувствительны к виду одномерных распределений и т.д. Алгоритмы поиска закономерностей в последовательностях символов основываются на переборах, которые можно реализовать только в очень ограниченных вариантах, либо опираются на сильные эвристические допущения. Вместе с тем существенные свойства процессов, происходящих в системах со сложной системной организацией, нередко выражаются в виде паттернов с изменяющимся периодом. Более того, такие паттерны могут представлять собой не непрерывную четкую последовательность чисел или символов, а иметь внутренние области-джокеры. Вид паттернов с джокерами и интервалы между ними в начале реального исследования неизвестны – это очередной НЕ-фактор. Другой НЕ-фактор, относящийся к области распознавания последовательностей символов в ряде актуальных задач (например, распознавание генов в последовательности ДНК, поиск регуляторных сигналов, предсказание функций белков) с помощью статистических методов, связан с проблемой представления исходных данных в виде таблицы объект-признак. Частично эту проблему в настоящее время пытаются решать посредством специальных алгоритмов так называемого выравнивания последовательностей. Однако эти алгоритмы являются эвристическими и принципиально не способны учитывать то, что внутри образцов последовательностей могут быть вставки (причем неизвестной природы) в самых разных местах и самых различных размеров. Назовем отмеченный НЕ-фактор «Проблемы представления информации в виде таблиц объект-признак». Еще одна важная особенность данных в предметных областях со сложной системной организацией – структурная асимметрия классов объектов исследований. Эта асимметрия выражается в том, что каждый распознаваемый класс имеет структурные особенности, которые могут сильно различаться. Например, один класс многомерных объектов может обладать сравнительно простой геометрической структурой в пространстве признаков, другой, наоборот, может быть полиморфен в сильной степени. Таким образом, современная прикладная статистика имеет дело с данными, характеризующимися следующим набором НЕ-факторов: · высокая размерность данных; · разнотипность данных; · неопределенность исходного описания; · нечеткость внешних критериев; · большое количество «шумящих» и дублирующих признаков; · неоднородность классов объектов; · пропущенные значения; · резко отклоняющиеся значения (выбросы); · значительное превышение количества признаков над числом объектов; · существенность непериодических паттернов с джокерами при описании последовательностей чисел и символов; · проблемы представления данных в виде таблиц объект-признак; · структурная асимметрия классов объектов исследований. Обобщение с точки зрения целевых, дескриптивных и структурных особенностей позволяет выделить основные характеристики предметных областей со сложной системной организацией: нечеткость целевых показателей и критериев; неопределенность, неточность, разнотипность и неизвестная размерность описаний; полиморфность эквифинальных состояний исследуемых систем; наличие русел и джокеров разного, заранее неизвестного формата с неизвестной локализацией. Очевидно, поиск, описание и структурирование закономерностей в предметных областях с подобными характеристиками требуют особых математических и алгоритмических подходов. Список литературы 1. Tukey J.W. The Future of Data Analysis, Ann. Math. Stat. 33, 1, 1–67 (1962). 2. Орлов А.И. // Заводская лаборатория. – 1990. – Т. 56. – № 3. – С. 76–83; – 1995. – Т. 61. – № 3. – С. 43–52. |
Permanent link: http://swsys.ru/index.php?id=1583&lang=en&page=article |
Print version Full issue in PDF (2.59Mb) |
The article was published in issue no. № 3, 2008 | |
Статья находится в категориях: Обработка данных |
Perhaps, you might be interested in the following articles of similar topics:
- Программа с элементами искусственного интеллекта для оценки реакционной способности радикальных реакций
- Алгоритм идентификации параметров устройства для нагрева жидкости
- Факторный анализ в задачах моделирования многомерных систем
- Оценка степени влияния природных и технологических факторов на различные типы аварий магистральных газопроводов
- Мягкие знания и нечеткая системология гуманитарных областей
Back to the list of articles