Методи інтелектуального аналізу даних

  1. Серія контенту: Цей контент є частиною # з серії # статей:
  2. Цей контент є частиною серії:
  3. Інтелектуальний аналіз даних як процес
  4. Малюнок 1. Схема процесу
  5. Основні методи
  6. Асоціація
  7. Малюнок 2. Інформаційний потік, який використовується при підході асоціації
  8. кластеризація
  9. Малюнок 3. Кластеризація
  10. прогнозування
  11. послідовні моделі
  12. дерева рішень
  13. Малюнок 4. Дерево рішень
  14. комбінації
  15. Обробка з запам'ятовуванням
  16. Отримання і підготовка даних
  17. Малюнок 5. Підготовка даних
  18. Опора на SQL
  19. Малюнок 6. Спеціальний формат аналізу даних
  20. Таблиця 1. Розширена таблиця товарів
  21. Документальні бази даних і MapReduce
  22. Малюнок 7. Структура MapReduce
  23. Малюнок 8. Послідовна ланцюжок виведення результатів обробки MapReduce
  24. Висновок
  25. Ресурси для скачування

Серія контенту:

Цей контент є частиною # з серії # статей:

https://www.ibm.com/developerworks/ru/library/?series_title_by=**auto**

Слідкуйте за виходом нових статей цієї серії.

Цей контент є частиною серії:

Слідкуйте за виходом нових статей цієї серії.

Інтелектуальний аналіз даних як процес

По суті, інтелектуальний аналіз даних - це обробка інформації та виявлення в ній моделей і тенденцій, які допомагають приймати рішення. Принципи інтелектуального аналізу даних відомі протягом багатьох років, але з появою великих даних вони отримали ще більш широке поширення.

Великі дані привели до вибухового зростання популярності більш широких методів інтелектуального аналізу даних, почасти тому, що інформації стало набагато більше, і вона за самою своєю природою і змістом стає більш різноманітною і великою. При роботі з великими наборами даних вже недостатньо відносно простий і прямолінійною статистики. Маючи 30 або 40 мільйонів докладних записів про покупки, недостатньо знати, що два мільйони з них зроблені в одному і тому ж місці. Щоб краще задовольнити потреби покупців, необхідно зрозуміти, чи належать ці два мільйони до певної вікової групи, і знати їх середній заробіток.

Ці бізнес-вимоги привели від простого пошуку і статистичного аналізу даних до складнішого інтелектуального аналізу даних. Для вирішення бізнес-завдань потрібно такий аналіз даних, який дозволяє побудувати модель для опису інформації та в кінцевому підсумку призводить до створення результуючого звіту. Цей процес ілюструє малюнок 1 .

Малюнок 1. Схема процесу

Процес аналізу даних, пошуку і побудови моделі часто є ітеративним, так як потрібно розшукати і виявити різні відомості, які можна витягти. Необхідно також розуміти, як зв'язати, перетворити і об'єднати їх з іншими даними для отримання результату. Після виявлення нових елементів і аспектів даних підхід до виявлення джерел і форматів даних з подальшим зіставленням цієї інформації з заданим результатом може змінитися.

Інтелектуальний аналіз даних - це не тільки використовуються інструменти або програмне забезпечення баз даних. Інтелектуальний аналіз даних можна виконати з відносно скромними системами баз даних і простими інструментами, включаючи створення своїх власних, або з використанням готових пакетів програмного забезпечення. Складний інтелектуальний аналіз даних спирається на минулий досвід і алгоритми, визначені за допомогою існуючого програмного забезпечення і пакетів, причому з різними методами асоціюються різні спеціалізовані інструменти.

Наприклад, IBM SPSS®, який йде корінням в статистичний аналіз і опитування, дозволяє будувати ефективні прогностичні моделі по минулим тенденціям і давати точні прогнози. IBM InfoSphere® Warehouse забезпечує в одному пакеті пошук джерел даних, попередню обробку і інтелектуальний аналіз, дозволяючи отримувати інформацію з вихідної бази прямо в підсумковий звіт.

Останнім часом стала можлива робота з дуже великими наборами даних і кластерна / великомасштабна обробка даних, що дозволяє робити ще більш складні узагальнення результатів інтелектуального аналізу даних по групам і зіставлень даних. Сьогодні доступний абсолютно новий спектр інструментів і систем, включаючи комбіновані системи зберігання і обробки даних.

Можна аналізувати найрізноманітніші набори даних, включаючи традиційні бази даних SQL, необроблені текстові дані, набори "ключ / значення" і документальні бази. Кластерні бази даних, такі як Hadoop, Cassandra, CouchDB і Couchbase Server, зберігають і надають доступ до даних такими способами, які не відповідають традиційній табличній структурі.

Зокрема, більш гнучкий формат зберігання бази документів надає обробці інформації нову спрямованість і ускладнює її. Бази даних SQL строго регламентують структуру і жорстко дотримуються схеми, що спрощує запити до них і аналіз даних з відомими форматом і структурою.

Документальні бази даних, які відповідають стандартній структурі типу JSON, або файли з деякою машиночитаемой структурою теж легко обробляти, хоча справа може ускладнюватися різноманітної і мінливої ​​структурою. Наприклад, в Hadoop, який обробляє зовсім "сирі" дані, може бути важко виявити і витягти інформацію до початку її обробки і зіставлення.

Основні методи

Кілька основних методів, які використовуються для інтелектуального аналізу даних, описують тип аналізу і операцію по відновленню даних. На жаль, різні компанії і рішення не завжди використовують одні і ті ж терміни, що може погіршити плутанину і уявну складність.

Розглянемо деякі ключові методи і приклади того, як використовувати ті чи інші інструменти для інтелектуального аналізу даних.

Асоціація

Асоціація (або відношення), ймовірно, найбільш відомий, знайомий і простий метод інтелектуального аналізу даних. Для виявлення моделей робиться просте зіставлення двох або більше елементів, часто одного і того ж типу. Наприклад, відстежуючи звички покупки, можна помітити, що разом з полуницею зазвичай купують вершки.

Створити інструменти інтелектуального аналізу даних на базі асоціацій або відносин неважко. Наприклад, в InfoSphere Warehouse є майстер, який видає конфігурації інформаційних потоків для створення асоціацій, досліджуючи джерело вхідної інформації, базис прийняття рішень і вихідну інформацію. На малюнку 2 наведено відповідний приклад для зразка бази даних.

Малюнок 2. Інформаційний потік, який використовується при підході асоціації

Класифікація

Класифікацію можна використовувати для отримання уявлення про тип покупців, товарів або об'єктів, описуючи кілька атрибутів для ідентифікації певного класу. Наприклад, автомобілі легко класифікувати за типом (седан, позашляховик, кабріолет), визначивши різні атрибути (кількість місць, форма кузова, провідні колеса). Вивчаючи новий автомобіль, можна віднести його до певного класу, порівнюючи атрибути з відомим визначенням. Ті ж принципи можна застосувати і до покупців, наприклад, класифікуючи їх за віком і соціальної групи.

Крім того, класифікацію можна використовувати в якості вхідних даних для інших методів. Наприклад, для визначення класифікації можна застосовувати дерева прийняття рішень. Кластеризація дозволяє використовувати загальні атрибути різних класифікацій з метою виявлення кластерів.

кластеризація

Досліджуючи один або більше атрибутів або класів, можна згрупувати окремі елементи даних разом, отримуючи структуроване висновок. На простому рівні при кластеризації використовується один або кілька атрибутів в якості основи для визначення кластера подібних результатів. Кластеризація корисна при визначенні різної інформації, тому що вона корелюється з іншими прикладами, так що можна побачити, де подібності та діапазони узгоджуються між собою.

Метод кластеризації працює в обидві сторони. Можна припустити, що в певній точці є кластер, а потім використовувати свої критерії ідентифікації, щоб перевірити це. Графік, зображений на малюнку 3 , Демонструє наочний приклад. Тут вік покупця порівнюється з вартістю покупки. Розумно очікувати, що люди у віці від двадцяти до тридцяти років (до вступу в шлюб і появи дітей), а також в 50-60 років (коли діти покинули будинок) мають більш високий наявний дохід.

Малюнок 3. Кластеризація

У цьому прикладі видно два кластери, один в районі $ 2000 / 20-30 років і інший в районі $ 7000-8000 / 50-65 років. В даному випадку ми висунули гіпотезу і перевірили її на простому графіку, який можна побудувати за допомогою будь-якого відповідного ПО для побудови графіків. Для більш складних комбінацій потрібен повний аналітичний пакет, особливо якщо потрібно автоматично засновувати рішення на інформації про найближчому сусідові.

Така побудова кластерів являє собою спрощений приклад так званого образу найближчого сусіда. Окремих покупців можна розрізняти по їх буквальною близькості один до одного на графіку. Досить імовірно, що покупці з одного і того ж кластера поділяють і інші загальні атрибути, і це припущення можна використовувати для пошуку, класифікації та інших видів аналізу членів набору даних.

Метод кластеризації можна застосувати і в зворотний бік: з огляду на певні вхідні атрибути, виявляти різні артефакти. Наприклад, недавнє дослідження чотиризначних PIN-кодів виявили кластери чисел в діапазонах 1-12 і 1-31 для першої і другої пар. Зобразивши ці пари на графіку, можна побачити кластери, пов'язані з датами (дні народження, ювілеї).

прогнозування

Прогнозування - це широка тема, яка простягається від передбачення відмов компонентів обладнання до виявлення шахрайства і навіть прогнозування прибутку компанії. У поєднанні з іншими методами інтелектуального аналізу даних прогнозування передбачає аналіз тенденцій, класифікацію, зіставлення з моделлю і відносини. Аналізуючи минулі події або екземпляри, можна передбачати майбутнє.

Наприклад, використовуючи дані по авторизації кредитних карт, можна об'єднати аналіз дерева рішень минулих транзакцій людини з класифікацією і зіставленням з історичними моделями з метою виявлення шахрайських транзакцій. Якщо покупка авіаквитків в США збігається з транзакціями в США, то цілком ймовірно, що ці транзакції справжні.

послідовні моделі

Послідовні моделі, які часто використовуються для аналізу довгострокових даних, - корисний метод виявлення тенденцій, або регулярних повторень подібних подій. Наприклад, за даними про покупців можна визначити, що в різні пори року вони купують певні набори продуктів. За цією інформацією додаток прогнозування купівельної корзини, грунтуючись на частоті і історії покупок, може автоматично припустити, що в корзину будуть додані ті чи інші продукти.

дерева рішень

Дерево рішень, пов'язане з більшістю інших методів (головним чином, класифікації та прогнозування), можна використовувати або в рамках критеріїв відбору, або для підтримки вибору певних даних в рамках загальної структури. Дерево рішень починають з простого питання, який має дві відповіді (іноді більше). Кожна відповідь призводить до наступного питання, допомагаючи класифікувати та ідентифікувати дані або робити прогнози.

на малюнку 4 наведено приклад класифікації несправних станів.

Малюнок 4. Дерево рішень

Дерева рішень часто використовуються з системами класифікації інформації про властивості і з системами прогнозування, де різні прогнози можуть грунтуватися на минулому історичному досвіді, який допомагає побудувати структуру дерева рішень і отримати результат.

комбінації

На практиці дуже рідко використовується тільки один з цих методів. Класифікація та кластеризація - подібні методи. Використовуючи кластеризацию для визначення найближчих сусідів, можна додатково уточнити класифікацію. Дерева рішень часто використовуються для побудови і виявлення класифікацій, які можна простежувати на історичних періодах для визначення послідовностей і моделей.

Обробка з запам'ятовуванням

При всіх основних методах часто має сенс записувати і згодом вивчати отриману інформацію. Для деяких методів це абсолютно очевидно. Наприклад, при побудові послідовних моделей і навчанні з метою прогнозування аналізуються історичні дані з різних джерел і примірників інформації.

В інших випадках цей процес може бути більш яскраво вираженим. Дерева рішень рідко будуються один раз і ніколи не забуваються. При виявленні нової інформації, подій і точок даних може знадобитися побудова додаткових гілок або навіть зовсім нових дерев.

Деякі з цих процесів можна автоматизувати. Наприклад, побудова прогностичної моделі для виявлення шахрайства з кредитними картами зводиться до визначення ймовірностей, які можна використовувати для поточної транзакції, з подальшим відновленням цієї моделі при додаванні нових (підтверджених) транзакцій. Потім ця інформація реєструється, так що наступного разу рішення можна буде прийняти швидше.

Отримання і підготовка даних

Сам інтелектуальний аналіз даних спирається на побудову відповідної моделі та структури, які можна використовувати для обробки, виявлення і створення необхідної інформації. Незалежно від форми і структури джерела даних, інформація структурується і організовується відповідно до формату, який дозволяє виконувати інтелектуальний аналіз даних з максимально ефективною моделлю.

Подумайте про комбінуванні бізнес-вимог з інтелектуального аналізу даних з виявленням існуючих змінних (покупець, вартість, країна) і створенням нових змінних, які можна використовувати для аналізу даних на підготовчому етапі.

Аналітичні змінні для даних, отриманих з безлічі різних джерел, можна скласти в єдину, певну структуру (наприклад, створити клас покупців певних рівнів і вікових груп або клас помилок певного типу).

Залежно від джерела даних важливо вибрати правильний спосіб побудови і перетворення цієї інформації, яким би не був метод остаточного аналізу даних. Цей крок також веде до більш складного процесу виявлення, збору, спрощення або розширення інформації відповідно до вхідними даними (див. малюнок 5 ).

Малюнок 5. Підготовка даних

Джерело даних, місце розташування і база даних впливають на те, як буде оброблятися і об'єднуватися інформація.

Опора на SQL

Найбільш простим з усіх підходів часто служить опора на бази даних SQL. SQL (і відповідна структура таблиці) добре зрозумілий, але структуру і формат інформації не можна ігнорувати повністю. Наприклад, при вивченні поведінки користувачів з даними про продажі в моделі даних SQL (і інтелектуального аналізу даних в цілому) існують два основні формати, які можна використовувати: транзакційний і поведінково-демографічний.

При роботі з InfoSphere Warehouse створення поведінково-демографічної моделі з метою аналізу даних про покупців для розуміння моделей їх поведінки передбачає використання вихідних даних SQL, заснованих на інформації про транзакції, і відомих параметрів покупців з організацією цієї інформації в заздалегідь визначену табличну структуру. Потім InfoSphere Warehouse може використовувати цю інформацію для інтелектуального аналізу даних методом кластеризації та класифікації з метою отримання потрібного результату. Демографічні дані про покупців і дані про транзакції можна скомбінувати, а потім перетворити в формат, який допускає аналіз певних даних, як показано на малюнку 6 .

Малюнок 6. Спеціальний формат аналізу даних

Наприклад, за даними про продажі можна виявити тенденції продажів конкретних товарів. Вихідні дані про продажі окремих товарів можна перетворити в інформацію про транзакції, в якій ідентифікатори покупців зіставляються з даними транзакцій і кодами товарів. Використовуючи цю інформацію, легко виявити послідовності і відносини для окремих товарів і окремих покупців з плином часу. Це дозволяє InfoSphere Warehouse обчислювати послідовну інформацію, визначаючи, наприклад, коли покупець, швидше за все, знову придбає той же товар.

З вихідних даних можна створювати нові точки аналізу даних. Наприклад, можна розгорнути (або доопрацювати) інформацію про товар шляхом зіставлення або класифікації окремих товарів в більш широких групах, а потім проаналізувати дані для цих груп, замість окремих покупців.

У таблиці 1 наведено приклад розширення інформації.

Таблиця 1. Розширена таблиця товарів

product_id product_name product_group product_type 101 Полуниця неупаковані Полуниця Фрукти 102 Полуниця в коробках Полуниця Фрукти 110 Банани неупаковані Банани Фрукти

Документальні бази даних і MapReduce

Обробка за допомогою функції MapReduce багатьох сучасних документальних і NoSQL баз даних, таких як Hadoop, націлена на дуже великі набори даних і інформацію, яка не завжди відповідає табличному формату. При роботі з програмним забезпеченням інтелектуального аналізу даних ця система може принести користь - і викликати проблеми.

Основна проблема даних на основі документів - це неструктурований формат, який може зажадати додаткової обробки. Багато різних записів можуть містити аналогічні дані. Збір і узгодження цієї інформації з метою спрощення її обробки залежить від етапів підготовки і застосування MapReduce.

В системі, заснованої на MapReduce, на етапі перетворення вихідні дані нормалізуються - наводяться до стандартної форми. Цей крок може бути відносно простим (визначення ключових полів або точок даних) або складним (аналіз і обробка інформації для створення вибірки даних). В процесі перетворення дані наводяться до стандартизованого формату, який можна використовувати в якості бази.

Скорочення - це підсумовування або кількісна оцінка інформації з подальшим виведенням цієї інформації в стандартизовану структуру, засновану на підсумки, сумах, статистиці або інших результатах аналізу, обраних для виведення даних.

Запити до цих даних часто бувають складними - навіть при використанні спеціалізованих інструментів. Ідеальний підхід до інтелектуального аналізу даних полягає в використанні етапу MapReduce в рамках підготовки даних.

Наприклад, при виконанні інтелектуального аналізу даних методом асоціації або кластеризації на першому етапі найкраще побудувати відповідну статистичну модель, яку згодом можна буде застосовувати для виявлення і вилучення необхідної інформації. Використовуйте етап MapReduce для вилучення і обчислення цієї статистичної інформації з її подальшим введенням в іншу частину процесу інтелектуального аналізу даних, що веде до створення структури, показаної на малюнку 7 .

Малюнок 7. Структура MapReduce

У попередньому прикладі ми виконали обробку (в даному випадку за допомогою MapReduce) вихідних даних в документальній базі даних і перетворили її в табличний формат в базі даних SQL для цілей інтелектуального аналізу даних.

Для роботи з цією складною і навіть неструктурованою інформацією може знадобитися більш ретельна підготовка і обробка. Існують складні типи і структури даних, які не можна обробити і підготувати в потрібному вам вигляді за один крок. В цьому випадку можна направити вихід MapReduce або для послідовного перетворення і отримання необхідної структури даних, як показано на малюнку 8 , Або для індивідуального виготовлення декількох таблиць вихідних даних.

Малюнок 8. Послідовна ланцюжок виведення результатів обробки MapReduce

Наприклад, за один прохід можна взяти вихідну інформацію з документальної бази даних і виконати операцію MapReduce для отримання короткого огляду цієї інформації по датах. Хорошим прикладом послідовного процесу є регенерірірованіе інформації та комбінування результатів з матрицею рішень (створюється на другому етапі обробки MapReduce) з подальшим додатковим спрощенням в послідовну структуру. На етапі обробки MapReduce потрібно, щоб весь набір даних підтримував окремі кроки обробки даних.

Незалежно від вихідних даних, багато інструментів можуть використовувати неструктуровані файли, CSV або інші джерела даних. Наприклад, InfoSphere Warehouse на додаток до прямого зв'язку зі сховищем даних DB2 може аналізувати неструктуровані файли.

Висновок

Інтелектуальний аналіз даних - це не тільки виконання деяких складних запитів до даних, що зберігаються в базі даних. Незалежно від того, чи використовуєте ви SQL, бази даних на основі документів, такі як Hadoop, або прості неструктуровані файли, необхідно працювати з даними, форматувати або реструктурувати їх. Потрібно визначити формат інформації, на якому буде грунтуватися ваш метод і аналіз. Потім, коли інформація знаходиться в потрібному форматі, можна застосовувати різні методи (окремо або в сукупності), які не залежать від необхідної базової структури даних або набору даних.

Ресурси для скачування

Схожі тими

  • Оригінал статті: Data mining techniques .
  • What is PMML? (Alex Guazzelli, developerWorks, вересень 2010 року): стаття про стандарт PMML, який аналітичні компанії використовують для подання прогностичних рішень і їх перенесення між системами.
  • Прогнозна аналітика Сторінка Вікіпедії по прогностическому аналізу з оглядом загальних додатків і методів, використовуваних для прогнозування.
  • PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics (Травень 2010 року): PMML з практичної точки зору. Фрагменти коду, що пояснюють концепції на конкретних прикладах.
  • The Data Mining Group (DMG) - незалежне об'єднання постачальників, розробляє стандарти інтелектуального аналізу даних, такі як Predictive Model Markup Language (PMML).
  • Сторінка ресурсів по PMML компанії Zementis : Приклади практичного застосування PMML.
  • Data mining Сторінка Вікіпедії про інтелектуальний аналізі даних.
  • Hadoop підтримує деякі структури NoSQL, такі як бессхемний формат, і можливість використання MapReduce для обробки даних, що зберігаються.
  • InfoSphere Warehouse : Повний набір інструментів для створення і аналізу даних, що підтримує багато методи інтелектуального аналізу даних.
  • WEKA: інструментарій на базі Java ™, який підтримує різні алгоритми інтелектуального аналізу даних і статистичні алгоритми.
  • SPSS : Статистичний пакет з потужними засобами прогностичного аналізу.
  • Hadoop : Забезпечує потужні функції MapReduce.
  • Couchbase Server : Документальна база даних NoSQL з підтримкою функції MapReduce на основі запитів та індексації.

Підпішіть мене на ПОВІДОМЛЕННЯ до коментарів

Com/developerworks/ru/library/?
What is PMML?