ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

2
Publication date:
16 June 2024

The article was published in issue no. № 4, 2007
Abstract:
Аннотация:
Author: () -
Ключевое слово:
Page views: 14925
Print version
Full issue in PDF (2.00Mb)

Font size:       Font:

Корпоративная база данных любого предприятия в современном мире содержит набор таблиц, хранящих записи об объектах либо фактах (например, о счетах, клиентах, продажах). Как правило, каждая запись в подобной таблице описывает какой-то конкретный факт или объект. Например, запись в таблице продаж отражает тот факт, что некий товар продан такому-то клиенту тогда-то, и, по большому счету, ничего, кроме этих сведений, не содержит. Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно, сведений о закономерностях, тенденциях или взаимозависимостях между данными.

 

Объемы данных настолько внушительны, что человеку просто не по силам проанализировать их самостоятельно, хотя необходимость проведения такого анализа вполне очевидна, ведь в этих "сырых данных" заключены знания, которые могут быть использованы при принятии решений. Для того чтобы провести автоматический анализ данных, используется Data Mining.

Существует множество определений Data mining, но в целом они совпадают в выделении четырех основных признаков. Вот определение, которое дал Григорий Пиатецкий-Шапиро, один из ведущих мировых экспертов в области Data Mining: "Data mining – это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности" (G. Piatetsky-Shapiro, GTE Labs).

Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, к примеру, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других и т.д. Найденные знания должны быть применимы и для новых данных с некоторой степенью достоверности. Полезность заключается в том, что эти знания могут приносить определенную выгоду при их применении. Знания должны быть в понятном для несведущего в математике пользователя виде. Например, проще всего воспринимаются человеком логические конструкции «если …, то». Более того, такие правила могут быть использованы в различных СУБД в качестве SQL-запросов. В случае когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду.

Примерами подобной информации являются сведения о том, как зависят обращения клиентов за необходимыми товарами от дня недели, времени суток или времени года, какие категории клиентов чаще всего приобретают тот или иной товар, какая часть покупателей одного конкретного товара приобретает другой конкретный товар, какая категория клиентов чаще всего вовремя не отдает предоставленный кредит или просрочивает выплаты.

Проблема заключается в том, как использовать, обработать должным образом эти данные? Как определить наиболее релевантные, имеющие наибольшее значение для данного вопроса данные? Какие факторы определяют удовлетворенность клиентов? Часто настоящая ценность данных скрыта в деталях, относящихся только к отдельным пользователям данной услуги.

Data Mining поможет проанализировать огромные массивы и найти скрытую, но ценную информацию, которая может помочь вам лучше понять своих клиентов и предвидеть их поведение. Вооружившись этой ценной информацией, можно выстроить более близкие отношения с клиентами, понять их, что позволит: лучше удерживать клиентов и избегать ненужных действий; составлять профили клиентов и понимать их поведение; поддерживать и повышать уровень прибыли; сокращать затраты клиентов при покупках; выходить на клиентов с интересными для них предложениями.

Подобного рода информация обычно используется при прогнозировании, стратегическом планировании, анализе рисков, и ценность ее для предприятия очень высока. Видимо, поэтому процесс ее поиска и получил название Data Mining (mining в переводе с английского – «добыча полезных ископаемых», а поиск закономерностей в огромном наборе фактических данных действительно сродни этому). Термин Data Mining обозначает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Цель этого поиска – представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги либо зависимость их приобретения от каких-то характеристик потребителя).

Можно отметить, что традиционная математическая статистика, долгое время остававшаяся основным инструментом анализа данных, равно как и средства оперативной аналитической обработки данных (online analytical processing, OLAP) не всегда могут успешно применяться для решения таких задач. Обычно статистические методы и OLAP используются для проверки заранее сформулированных гипотез. Однако нередко именно формулировка гипотезы оказывается самой сложной задачей при реализации бизнес-анализа для последующего принятия решений, поскольку далеко не все закономерности в данных очевидны с первого взгляда.

В основу современной технологии Data Mining положена концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных. Поиск шаблонов производится методами, не использующими никаких априорных предположений об этих подвыборках. Если при статистическом анализе или при применении OLAP обычно формулируются вопросы типа: «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение Data Mining, как правило, подразумевает ответы на вопросы: «Существует ли типичная категория клиентов, не оплачивающих счета?». При этом именно ответ на второй вопрос нередко обеспечивает более продуктивный подход к маркетинговой политике и к организации работы с клиентами.

Важной особенностью Data Mining является нестандартность и неочевидность разыскиваемых шаблонов. Иными словами, средства Data Mining отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.

Необходимо отметить, что применение средств Data Mining не исключает использования статистических инструментов и OLAP-средств, поскольку результаты обработки данных с помощью последних, как правило, способствуют лучшему пониманию характера закономерностей, которые следует искать.

Алгоритмы, используемые в Data Mining, требуют большого количества вычислений. Раньше это являлось сдерживающим фактором широкого практического применения Data Mining, однако сегодняшний рост производительности современных процессоров снял остроту этой проблемы. Теперь за приемлемое время можно провести качественный анализ сотен тысяч и миллионов записей.

Методами Data Mining решаются следующие задачи.

1.        Классификация – это отнесение объектов (наблюдений, событий) к одному из заранее известных классов.

2.        Кластеризация – это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность этих объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.

3.        Регрессия, в том числе задачи прогнозирования. Установление зависимости непрерывных выходных от входных переменных.

4.        Прогнозирование – аналогично задаче регрессии, но с учетом временной составляющей, например, прогноз трендов финансовых показателей.

5.        Ассоциация – выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).

6.        Последовательные шаблоны – установление закономерностей между связанными во времени событиями, то есть обнаружение зависимости, что если произойдет событие X, то спустя заданное время произойдет событие Y.

7.        Анализ отклонений – выявление наиболее нехарактерных шаблонов.

Из сказанного можно сделать следующие выводы.

Рынок систем на базе технологии Data Mining активно развивается. В этом развитии принимают участие практически все крупнейшие корпорации, в частности, Oracle руководит некоторым сегментом данного рынка (издает специальный журнал, проводит конференции, разрабатывает собственные продукты).

Другие проблемы связаны с тем, что известные методы поиска логических правил не поддерживают функцию обобщения найденных правил и функцию поиска оптимальной композиции таких правил. Вместе с тем указанные функции являются весьма существенными для построения баз знаний, требующих умения вводить понятия, метапонятия и семантические отношения на основе множества фрагментов знаний о предметной области.

Вышесказанное подтверждает актуальность разработки новых подходов и алгоритмов Data Mining в классе IF ... THEN правил. Основные требования к новым подходам:

1) способность находить логические правила неограниченной сложности в данных высокой размерности;

2) умение обобщать найденные логические правила и осуществлять поиск их оптимальной композиции.

Конкурентные преимущества, которые дает Data Mining, не позволяют игнорировать эту технологию. Но чтобы получить полезные результаты, требуются детальные знания данных и длительные проверки методом проб и ошибок.

Специалисты, чувствующие высокий коммерческий потенциал средств Data Mining, видят перспективы для расширения границ применения технологии и влияния на прибыльность бизнеса.


Permanent link:
http://swsys.ru/index.php?page=article&id=297&lang=en
Print version
Full issue in PDF (2.00Mb)
The article was published in issue no. № 4, 2007

Perhaps, you might be interested in the following articles of similar topics: