Видобуток даних (Data Mining)

Видобуток даних (Data Mining) використовується для покращення процесу прийняття рішень шляхом пошуку корисних закономірностей та інсайтів на основі даних.

Видобуток даних (Data Mining) це одна з методик BABOK v3 (розділ 10.14)

Опис Видобування даних (Data Mining) в BABOKv3 (10.14.2)

Видобуток даних (Data Mining) - це аналітичний процес, який досліджує великі обсяги даних з різних точок зору та узагальнює їх таким чином, щоб виявити корисні закономірності та взаємозв'язки.

Результатами методів інтелектуального аналізу даних зазвичай є математичні моделі або рівняння, які описують основні закономірності та взаємозв'язки. Ці моделі можна використовувати для прийняття рішень людиною за допомогою візуальних інформаційних панелей і звітів або для автоматизованих систем прийняття рішень за допомогою систем управління бізнес-правилами або розгортання в базі даних.

Видобуток даних (Data Mining) можна використовувати як у контрольованих, так і в неконтрольованих розслідуваннях. У контрольованому дослідженні користувачі можуть поставити запитання і очікувати на відповідь, яка може допомогти їм у прийнятті рішень.

Неконтрольоване дослідження - це чисте виявлення закономірностей, коли закономірностям дозволяється з'являтися, а потім розглядається їхня застосовність для прийняття бізнес-рішень.

Видобуток даних (Data Mining) - це загальний термін, який охоплює описові, діагностичні та прогностичні методи:

  • Описові ("Descriptive"): наприклад, кластеризація дозволяє легше побачити закономірності в наборі даних, наприклад, схожість між клієнтами.
  • Діагностичні ("Diagnostic"): наприклад, дерева рішень або сегментація можуть показати, чому існує певна закономірність, наприклад, характеристики найприбутковіших клієнтів організації.
  • Прогностичні ("Predictive"): наприклад, регресія або нейронні мережі можуть показати, наскільки ймовірно, що щось буде правдою в майбутньому, наприклад, передбачити ймовірність того, що певна заява є шахрайською.

У всіх випадках важливо враховувати мету інтелектуального аналізу даних і бути готовим до значних зусиль, спрямованих на забезпечення правильного типу, обсягу та якості даних, з якими доведеться працювати.

Елементи Видобування даних (Data Mining) в BABOKv3 (10.14.3)

Виявлення вимог (Requirements Elicitation)

Мета і сфера застосування інтелектуального аналізу даних визначаються або з точки зору вимог до прийняття важливого бізнес-рішення, або з точки зору функціональної області, в якій будуть видобуватися відповідні дані для виявлення закономірностей, характерних для конкретної області.

Ця стратегія висхідного та низхідного аналізу даних дозволяє аналітикам вибрати правильний набір методів інтелектуального аналізу даних.

Формальні методи моделювання рішень використовуються для визначення вимог до низхідних вправ з інтелектуального аналізу даних. Для висхідного аналізу корисно, щоб виявлені інсайти можна було помістити в існуючі моделі прийняття рішень, що дозволить швидко використовувати і впроваджувати інсайти.

Вправи видобування даних (Data Mining) є продуктивними, якщо ними керувати в гнучкому середовищі. Вони сприяють швидкій ітерації, підтвердженню та розгортанню, забезпечуючи при цьому контроль над проектом.

Підготовка даних: Аналітичний набір даних (Data Preparation: Analytical Dataset)

Інструменти видобування даних (Data Mining Tools) працюють з аналітичним набором даних. Зазвичай він формується шляхом об'єднання записів з декількох таблиць або джерел в один великий набір даних. Групи, що повторюються, зазвичай розбиваються на кілька наборів полів.

Дані можуть бути фізично витягнуті в реальний файл або це може бути віртуальний файл, який залишається в базі даних або сховищі даних, щоб його можна було проаналізувати.

Аналітичні набори даних поділяються на набір для аналізу, повністю незалежний набір для підтвердження того, що розроблена модель працює на даних, які не використовувалися для її розробки, і валідаційний набір для остаточного підтвердження.

Обсяги даних можуть бути дуже великими, що іноді призводить до необхідності працювати з вибірками або працювати в сховищі даних, щоб дані не потрібно було переміщати.

Аналіз даних (Data Analysis)

Після того, як дані отримані, їх аналізують. Зазвичай застосовують різноманітні статистичні показники та інструменти візуалізації, щоб побачити, як розподілені значення даних, яких даних бракує і як поводяться різні обчислені характеристики.

Цей етап часто є найдовшим і найскладнішим у процесі інтелектуального аналізу даних, і він дедалі частіше перебуває в центрі уваги автоматизації. Значна частина зусиль з інтелектуального аналізу даних, як правило, походить від виявлення корисних характеристик у даних.

Наприклад, такою характеристикою може бути кількість разів, коли клієнт відвідував магазин за останні 80 днів. Визначення того, що кількість відвідувань за останні 80 днів є більш корисною, ніж за останні 70 або 90, є ключовим моментом.

Методи моделювання (Modelling Techniques)

Існує широкий спектр методів видобування даних.

Деякі приклади методів інтелектуального аналізу даних

  • дерева класифікації та регресії (CART), C5 та інші методи аналізу дерев рішень
  • лінійна та логістична регресія,
  • нейронні мережі,
  • допоміжні машини та
  • прогностичні (адитивні) системи показників.

Аналітичний набір даних і розраховані характеристики подаються в ці алгоритми, які можуть бути або некерованими (користувач не знає, що він шукає), або керованими (користувач намагається знайти або передбачити щось конкретне).

Часто використовують кілька методів, щоб побачити, який з них є найбільш ефективним. Деякі дані залишаються поза моделюванням і використовуються для підтвердження того, що результат може бути відтворений за допомогою даних, які не були використані при первинному створенні.

Розгортання (Deployment)

Після того, як модель побудована, її потрібно розгорнути, щоб вона стала корисною. Моделі видобування даних можуть бути розгорнуті різними способами, як для підтримки людини, яка приймає рішення, так і для підтримки автоматизованих систем прийняття рішень.

Для користувачів результати інтелектуального аналізу даних можуть бути представлені за допомогою візуальних метафор або у вигляді простих полів даних. Багато методів видобування даних визначають потенційні бізнес-правила, які можуть бути розгорнуті за допомогою системи управління бізнес-правилами.

Такі виконувані бізнес-правила можна вбудувати в модель прийняття рішень разом з експертними правилами, якщо це необхідно. Деякі методи видобування даних - особливо ті, які описуються як методи прогнозного аналізу - призводять до математичних формул.

Вони також можуть бути розгорнуті як виконувані бізнес-правила, але також можуть бути використані для генерації SQL або коду для розгортання. Дедалі ширший спектр варіантів розгортання в базі даних дозволяє інтегрувати такі моделі в інфраструктуру даних організації.

Міркування щодо використання Видобування даних (Data Mining) в BABOKv3 (10.14.4)

Сильні сторони Видобування даних (Data Mining)

  • Виявляйте приховані закономірності та створюйте корисні ідеї під час аналізу, допомагаючи визначити, які дані можуть бути корисними для збору або на скількох людей можуть вплинути конкретні пропозиції.
  • Може бути інтегрований у дизайн системи для підвищення точності даних.
  • Можна використовувати для усунення або зменшення людської упередженості, використовуючи дані для встановлення фактів.

Обмеження Видобування даних (Data Mining)

  • Застосування деяких методів без розуміння того, як вони працюють, може призвести до помилкових кореляцій і неправильного розуміння.
  • Доступ до великих обсягів даних, а також до складних наборів інструментів і програмного забезпечення для інтелектуального аналізу даних може призвести до випадкових зловживань.
  • Для роботи з багатьма методами та інструментами потрібні спеціальні знання.
  • Деякі методи використовують складну математику у фоновому режимі, і деякі зацікавлені сторони можуть не мати безпосереднього уявлення про результати. Відчутний брак прозорості може викликати опір з боку деяких зацікавлених сторін.
  • Результати інтелектуального аналізу даних може бути важко застосувати, якщо процес прийняття рішень, на який вони мають вплинути, погано зрозумілий.

Якщо стаття була для вас корисна підпишіться на розсилку або на мій телеграм канал.