Статьи

Засоби бізнес-аналітики в Microsoft SQL Server 2005

  1. Інтегрована платформа керування даними
  2. Засоби бізнес-аналітики
  3. сервіси інтеграції
  4. аналітичні сервіси
  5. витяг даних
  6. Висновок

Матеріал надано журналом "BYTE / Росія"

Не будемо сперечатися про рейтинги постачальників рішень для бізнес-аналітики (нехай цим займаються Gartner & Co ), Але навряд чи можуть бути сумніви в тому, що Microsoft входить в число лідерів цього ринку. Більш того, хоча корпорація ввійшла в провідну групу пізніше інших учасників, можна впевнено констатувати, що роль її незмінно зростає. Це природним чином випливає із загального позиціонування Microsoft на світовому софтверному ринку і посилення її впливу у всіх його сегментах. Андрій Колесов До початку нинішнього сторіччя найбільшу популярність на ринку бізнес-аналітики (Business Intelligence, BI) мали клієнтські офісні додатки Microsoft. Визнаним лідером тут залишається Excel (багатофункціональні електронні таблиці). В кінці 90-х років корпорація вирішила створити спеціалізований OLAP-клієнт - Data Analyzer, але далі першої версії його розвиток, здається, не пішла, і акцент надалі був зроблений на тому ж Excel. В останні три-чотири роки число клієнтських BI-додатків від Microsoft поповнилося програмами MapPoint (геоінформаційна система) і Visio (візуалізація структурованих даних).

Однак з появою на зламі століть нової версії Microsoft SQL Server 2000 корпорація приступила до формування на базі цієї СУБД власних серверних BI-технологій корпоративного рівня. За чотири роки після випуску самої СУБД в її складі з'явилися служби Analysis Services (служби OLAP для створення попередньо побудованих кубів для швидкого інтерактивного аналізу), Data Transformation Services (інструменти для витягання, перетворення і завантаження даних між ОС і системами бізнес-аналітики), Accelerator for BI (система швидкої розробки для побудови і розгортання аналітичних додатків) і Reporting Services (управління звітами).

Тут потрібно відзначити, що до недавнього часу провідні гравці світового BI-ринку основну увагу приділяли рівню середніх і великих замовників. Microsoft же, відповідно до своєї традиційної бізнес-моделлю, будувала стратегію входження на новий для себе ринок, роблячи ставку на два основних моменти: по-перше, нарощуючи відповідну функціональність своїх існуючих продуктів, які вже мають досить сильні ринкові позиції; і по-друге, розширюючи потенційне коло замовників за рахунок залучення, з одного боку, малих організацій, а з іншого - не тільки керівників, які приймають рішення, але менеджерів нижчого рівня.

У листопаді минулого року корпорація випустила Microsoft SQL Server 2005, в якому саме комплекс BI-засобів названий одним з трьох ключових нововведень (поряд з розвитком власне ядра СУБД і засобів розробки). Саме в даному пакеті серверна платформа бізнес-аналітики від Microsoft прийняла закінчений вигляд комплексного вирішення масштабу підприємства.

Інтегрована платформа керування даними

Microsoft SQL Server 2005 являє собою високопродуктивну масштабовану багатофункціональну платформу для обробки інформації та створення додатків, що мають справу з інтелектуальними ресурсами підприємства. Платформа побудована навколо ядра, що забезпечує роботу реляційної бази даних, і включає велику кількість сервісів. В цілому система тісно інтегрована з усім комплексом ПО Microsoft ( Мал. 1 ), А сама СУБД і ряд її сервісів, в свою чергу, є ключові компоненти, що забезпечують роботу багатьох продуктів Microsoft.


Мал
Мал. 1. Платформа управління даними SQL Server 2005


У SQL Server 2005 входять наступні основні компоненти.

Реляційна база даних (Relation Database): безпечне, надійне, масштабоване, високодоступних ядро з поліпшеною продуктивністю. Дозволяє працювати як зі структурованими, так і з неструктурованими (XML) даними, забезпечує підтримку .NET CLR (створення збережених процедур, функцій і тригерів на керованому коді) і ADO.

Сервіси реплікації (Replication Services): реплікація даних для розподілених і мобільних додатків обробки даних, висока доступність систем, масштабований паралелізм з вторинними сховищами даних для звітних рішень підприємства та інтеграція з різнорідними системами, включаючи існуючі бази даних Oracle.

Сервіси нотифікацій (Notification Services): розвинені можливості повідомлень для розробки і впровадження масштабованих додатків, здатних доставляти персоналізовані, своєчасні оновлення інформації безлічі з'єднаних і мобільних пристроїв.

Сервіси інтеграції (Integration Services): витяг, перетворення і завантаження для сховищ даних і інтеграції даних в масштабі підприємства.

Аналітичні сервіси (Analysis Services): аналітична обробка в реальному часі (OLAP) для швидкого складного аналізу великих і змішаних наборів даних, що використовує багатовимірне зберігання, а також рішення задач Data Mining.

Сервіси звітів (Reporting Services): вичерпне рішення для створення, управління і доставки як традиційних паперових звітів, так і інтерактивних, заснованих на технології WWW.

Інструменти управління: кошти розвиненого управління і настройки баз даних, а також тісна інтеграція з такими інструментами, як Microsoft Operations Manager (MOM) і Microsoft Systems Management Server (SMS). Стандартні протоколи доступу до даних істотно зменшують час, необхідне для інтеграції даних SQL Server з існуючими системами. Крім того, вбудована підтримка Web-сервісів для взаємодії з іншими додатками і платформами.

Інструменти розробки: SQL Server пропонує інтегровані інструменти розробки для ядра бази даних, вилучення, трансформації й завантаження даних, OLAP і звітності, які тісно інтегровані з Microsoft Visual Studio, надаючи наскрізні можливості розробки додатків. Кожна головна підсистема SQL Server поставляється зі своєю власною об'єктною моделлю і набором API для розширення системи даних в будь-якому напрямку, яке потрібно конкретному бізнесу.

Засоби бізнес-аналітики

Комплекс засобів інтелектуальної обробки даних - Integration Services, Analysis Services OLAP, Analysis Services Data Mining і Reporting Services - в SQL Server 2005 значно покращено порівняно з версією 2000. Крім того, в SQL Server 2005 з'явилися два нових компонента: SQL Server Management Studio та SQL Server Business Intelligence Development Studio, які на ранніх етапах бета-тестування були відомі під назвами SQL Server Workbench і BI Workbench ( табл. 1 ).


Таблиця 1. Основні елементи системи інтелектуальної обробки даних і пов'язані з ними компоненти Microsoft SQL Server 2000 і SQL Server 2005 BI-компонент SQL Server 2000 SQL Server 2005

BI-компонент SQL Server 2000 SQL Server 2005 Витяг, перетворення і завантаження даних (ETL - Extract, Transformation, and Load) Data Transformation Services (DTS) SQL Server 2005 Integration Services Реляционное сховище даних Реляційна база даних SQL Server 2000 Реляційна база даних SQL Server 2005 Многомерная база даних SQL Server 2000 Analysis Services SQL Server 2005 Analysis Services Витяг даних (Data Mining) SQL Server 2000 Analysis Services SQL Server 2005 Analysis Services Керована система звітності SQL Server 2000 Reporting Services SQL Server 2005 Reporting Services система призначених для користувача звітів SQL Server 2005 Reporting Services Користувальницькі запити і аналіз Продукти Microsoft Office (Excel, Office We b Components, Data Analyzer, SharePoint Portal) Продукти Microsoft Office (Excel, Office Web Components, Data Analyzer, SharePoint Portal) Інструменти розробки баз даних SQL Server 2000 Enterprise Manager, Analysis Manager, Query Analyzer і т. д. SQL Server 2005 Business Intelligence Development Studio (новий інструмент) Інструменти управління базами даних Enterprise Manager, Analysis Manager SQL Server Management Studio (новий інструмент)
Для вирішення завдань BI в SQL Server 2000 служили кілька автономних інструментів, що мали несхожі інтерфейси і не повністю відповідали сучасним стандартам розробки ПЗ. Тому в версії 2005 їх замінили два нові інструменти на базі інтегрованого середовища Visual Studio 2005 IDE.

Пакету BI Development Studio ( Мал. 2 ) Відводиться основна роль в створенні BI-рішень, він повністю реалізує функціональність Analysis Manager 2000, додаючи до неї можливості завантаження і перетворення інформації, управління звітами і вилучення знань ( табл. 2 ). У його середовищі можна формувати й інші проекти Visual Studio (з використанням Visual C #, Visual Basic NET і т. Д.), Що дозволить розробникам створювати дійсно наскрізні програми.


Мал
Мал. 2. Управління аналітичними службами в середовищі SQL Server 2005 Business Intelligence Development Studio.


Візуальний інструмент управління базами даних SQL Server Management Studio з'єднав в собі функціональність Enterprise Manager, Query Analyzer, Analysis Manager і деяких засобів адміністрування, що були в версії 2000, додаючи до них нові можливості Reporting Services, Notification Services, XML і SQL Server 2005 Mobile Edition. Підвищення продуктивності, масштабованості та доступності досягнуто за допомогою нових технологій, таких, як Snapshot Isolation, Database Mirroring, Database Snapshots, Service Broker. Для зберігання конфіденційної інформації застосовуються засоби шифрування баз даних.

Потрібно сказати, що всі основні компоненти BI-платформи Microsoft з'явилися в тому чи іншому вигляді ще в складі SQL Server 2000. Хронологічно останнім з них став набір служб керування звітами - це сталося на початку 2004 р Фактично вже тоді він створювався з прицілом на версію SQL Server 2005 і тому в цілому зазнав в новому варіанті найменші зміни (опис версії 2000 - див. статтю "Кошти створення звітів Microsoft", " BYTE / Росія "N 3'2004): в основному це більш розвинена інтеграція з іншими BI-службами, розширення можливостей користувачів, підвищення інтерактивності. Крім того, потрібно підкреслити, що Reporting Services мають більш високий рівень автономності в порівнянні з іншими компонентами СУБД, ці служби можуть працювати з даними з різних джерел, включаючи інтерфейси ODBC і OLE DB; таким чином, вони виявляються сумісні з практично будь-який ІТ-архітектурою і можуть бесшовно вбудовуватися в додатки. Саме тому Microsoft SQL Server Reporting Services часто поширюється і застосува яется як окремий продукт.


Таблиця 2. Можливості SQL Server 2005 Business Intelligence Development Studio в порівнянні з Analysis Manager 2000

Характеристика Analysis Manager 2000 BI Development Studio Зберігання метаданих Бази даних Access або SQL Server XML-файли, що забезпечують більш високий рівень управління структурою метаданих Реалізація BI-додатки База даних, що включає визначення зв'язків, куби, моделі вилучення даних і ролі. Для розгортання використовуються CAB-файли Рішення (solution) в стилі додатків, створюваних Visual Studio. Включає один або кілька проектів, один з яких має тип Analysis Services - аналогічний database в AM 2000. Інші типи проектів представляють функції DTS і Reporting Services Автоматизація операцій Частка ручних операцій досить висока Використання технології IntelliCube автоматизує процедури створення кубів. Для ручного управління використовується Cube Editor Побудова кубів Куби будуються на базі окремої таблиці, яка знаходиться в центрі схеми "зірка" або "сніжинка" Можна використовувати кілька таблиць, що мають різні розмірності. Такий режим в AM 2000 можна було реалізувати за допомогою віртуальних кубів, але в новій версії він більше "безшовний

сервіси інтеграції

Компонент SQL Server 2005 Integration Services (SSIS), хоча і виступає наступником DTS (Data Transformation Services) в SQL Server 2000, все ж цілком може вважатися нововведенням. Integration Services був повністю перероблений в порівнянні з DTS, щоб стати реальною ETL-платформою (Extract, Transformation, and Loading - витяг, перетворення і завантаження даних) підприємства.

Архітектура Integration Services поєднує в собі орієнтований на операції механізм потоку завдань (task-flow) з масштабованим і продуктивним механізмом потоку даних (data-flow). Таке поєднання потоків завдань і потоків даних дозволяє ефективно застосовувати Integration Services і в проектах з традиційними системами ETL, і в проектах створення сховищ даних, а також в більш складних, наприклад, в проектах центрів даних.

Ядро Integration Services - конвеєр перетворення даних, що використовує буферну архітектуру, яка забезпечує більшу продуктивність при маніпуляції наборами даних за рахунок завантаження їх в пам'ять. Такий підхід дозволяє виконувати всі кроки перетворення даних в ETL-системах як одну операцію, т. Е. Без отримання проміжних результатів. У цьому полягає істотна відмінність Integration Services від традиційних засобів ETL, які часто створюють проміжні результати майже на кожному кроці процесу заповнення сховища або інтеграції даних.

Можливість обробляти дані без створення проміжних результатів виходить за рамки традиційних реляційних даних та даних з плоских файлів, а також традиційних методів перетворення в системах ETL. У Integration Services всі типи даних (структуровані, неструктуровані, XML і т. Д.) Безпосередньо перед завантаженням в буфери приводяться до табличного вигляду (т. Е. Що складається з стовпців і рядків). Всі види операцій, які застосовні до табличного представлення даних, можуть застосовуватися до даних на будь-якому етапі конвеєра обробки даних. Це означає, що один конвеєр обробки даних може об'єднувати в собі безліч різних джерел даних і виконувати над цими даними як завгодно складні операції без створення проміжних результатів. Якщо все ж з міркувань бізнесу чи оперативним причин потрібні проміжні результати, то Integration Services також дозволяє це реалізувати.

Архітектура конвеєрної обробки даних дозволяє службам інтеграції одночасно приймати дані з багатьох джерел, проводити над ними складні множинні перетворення, а потім одночасно вивантажувати дані в безліч приймачів. За рахунок цього SSIS можна використовувати для роботи не тільки з великими наборами даних, але і для складних потоків даних. На своєму шляху від джерел до приймачів один потік даних можна розділити, з'єднати, змішати з іншими потоками, виконати ще якісь маніпуляції.

Integration Services може витягувати (а також вивантажувати) дані з різних джерел, включаючи OLE DB, керовані джерела (ADO.NET), ODBC, плоскі файли, файли Excel і XML, за допомогою спеціального набору компонентів, які називаються адаптерами (adapters). Можна також використовувати для отримання даних індивідуальні адаптери (custom adapters), т. Е. Створені самостійно або іншими виробниками для своїх потреб.

До того ж до цих основних перетворень даних для сховищ даних SSIS включає підтримку розширених сховищ, таких, як SCD (Slowly Changing Dimensions - рідко оновлювані розмірності). Майстер SCD допоможе користувачам визначити, які виміри відносяться до рідко оновлюється, і на основі цієї інформації створить повністю готовий потік даних з декількома перетвореннями, що реалізують завантаження повільно змінюються вимірів. На додаток до двох стандартних типів SCD (SCD Type 1 і SCD Type 2) пропонуються два нових типи - Fixed Attributes і Inferred Members (ФіксірованниеПрізнакі і ВиведенниеЕлементи).

Одна з ключових особливостей Integration Services - здатність інтегрувати не тільки дані, але і методи обробки цих даних. Такий підхід дозволяє включити в нього кошти для очищення інформації, засновані на нечіткій логіці (fuzzy logic). Служби Integration Services глибоко інтегровані з технологіями видобутку даних з Analysis Services. Підтримка комплексних методів передачі даних дозволяє не тільки виявити аномальні дані, але і автоматично виправити їх і замінити на кращі значення.

Здатність конвеєра потоку даних обробляти практично будь-який вид даних, глибока інтеграція з Analysis Services, можливість розширення за рахунок різних технологій перетворення даних, наявність потужного механізму процесів - все це дозволяє застосовувати Integration Services у багатьох проектах, які традиційно не сприймаються як ETL-завдання, наприклад , для реалізації систем з сервіс-орієнтованою архітектурою (SOA).

аналітичні сервіси

SQL Server 2005 Analysis Services (AS 2005) складається з двох основних доповнюють один одного функціональних частин - On-Line Analytical Processing (OLAP) і Data Mining.

Серед компонентів BI 2005 найбільшому відновленню в порівнянні з версії 2000 піддалися OLAP-засоби, що цілком природно, тому що інші засоби були випущені пізніше. Нижче ми розглянемо основні архітектурні зміни OLAP-механізмів ( Мал. 3 ).


Мал
Мал. 3. Архітектура OLAP Analysis Services використовує комбінацію різних технологій.

В OLAP 2000 робота з кубами базувалася виключно на застосуванні реляційних зіркоподібних схем як джерело даних. AS 2005 з допомогою нового механізму Data Source View (DSV) може представляти структуру кубів у вигляді атрибутивних схем. Це підвищує гнучкість обробки даних, в тому числі дає можливість відслідковувати зворотні зв'язки між кубами і робочими базами даних. У той же час DSV дозволяє працювати зі структурами кубів без їх безпосереднього з'єднання з джерелами даних.

OLAP 2005 використовує нову технологію Unified Dimensional Model (UDM), яка представляє собою комбінований механізм доступу до реляційних БД і багатовимірним OLAP-кубів. Її застосування знімає традиційне розходження між організацією роботи з OLAP-даними і стандартними звітами. Серед нововведень UDM можна виділити наступні функції.

Управління размерностями на базі атрібутів. В OLAP 2000 можна було використовувати тільки одну ієрархічну структуру управління размерностями, що обмежувало, зокрема, можливості аналізу даних в різних розрізах. В OLAP 2005 модель розмірностей може бути простим набором атрибутів, не обов'язково пов'язаних ієрархічними зв'язками. Це дозволяє динамічно створювати потрібні комбінації даних. Наприклад, розмірність "Користувач" може включати десятки демографічних параметрів, які представляються у вигляді різних ієрархій: наприклад, Країна-Область-Місто або Місто-Вік-Пол.

Складні типи розмірностей. У той час як в OLAP 2000 все розмірності повинні були бути структуровані у вигляді зіркоподібних або батьківських схем, OLAP 2005 додатково підтримує як розмірності такі типи, як ролі, посилання і множинні зв'язку.

"Перспективи". Нові архітектурні можливості OLAP 2005 дозволяють створювати куби складної структури, навігація по ним стає важкою і не дуже зручною. Ця проблема вирішується за допомогою "перспектив" (Perspectives) - іменованих груп розмірностей і заходів, які дозволяють створювати різні варіанти представлення одного і того ж куба для різних категорій користувачів.

Групи заходів. В OLAP 2005 кілька різнорідних таблиць припустимо об'єднати в єдиний куб, з яким можна працювати за допомогою колекцій заходів, в тому числі спільно з перспективами.

OLAP 2000 підтримує обчислення і кешування як на сервері, так і на клієнті. Нова версія виконує ці операції тільки на серверній стороні. Microsoft вважає, що це спрощує завдання управління системою і її інтеграції з іншими рішеннями. Крім того, в AS 2005 включено кілька нових утиліт для автоматизації операцій конфігурування і розгортання (при розгортанні AS 2000 року на різних апаратних платформах було потрібно ручне управління настройками джерел даних і кубів).

Модель програмування AS 2005 також включає широкий набір нових і модернізованих функцій. Істотно спрощена обчислювальна модель, яка тепер дозволяє застосовувати MDX-скрипти (MultiDimentions eXpression). Крім спрощення власне програмування і поліпшення контролю доступу до даних, це дає можливість покрокової налагодження, чого в попередніх версіях не було. Результати розрахунків можна кешувати для підвищення швидкості обробки наступних запитів.

В AS 2000 збережені процедури повинні були бути оформлені у вигляді COM-класів, в новій версії вони можуть бути написані на будь-якому CLR-мові для виконання в середовищі .NET Framework. Для таких звичайних, але створюють чимало проблем операцій, як конвертація валют, перетворення одиниць вимірювання і т. П., Можна використовувати BI-майстер і шаблони обчислюваних заходів. Програмовані BI-об'єкти допускається створювати за допомогою технологій Analysis Management Objects.

При використанні AS 2000 розробники майже не мали можливостей отримувати низкоуровневую інформацію про події, що відбуваються на AS-сервері. AS 2005 проводить трасування подій, і ці дані можуть використовуватися для моніторингу та аналізу за допомогою SQL Server Profiler.

Програмування користувальницького інтерфейсу AS 2005 виконується за допомогою спеціалізованої мови розмітки XML for Analysis. AS 2005 включає механізм перекладу, який дозволяє представляти один і той же куб на різних національних мовах.

У Analysis Services 2005 існує також система ключових показників продуктивності (Key Performance Indicator, KPI), за допомогою якої можна визначити на сервері обчислення, необхідні для оцінки ефективності бізнесу. Ці KPI можуть виводитися в звітах, порталах і електронних дошках повідомлень, за допомогою API доступу до даних і інструментів Microsoft і сторонніх виробників.

витяг даних

Microsoft SQL Server 2005 Data Mining - це технологія інтелектуальної обробки даних, яка допомагає створювати складні аналітичні моделі і інтегрувати їх в бізнес-процеси ( табл. 3 ). SQL Server 2005 поставляється з найпопулярнішими алгоритмами витягу даних, склад яких може бути розширений за рахунок вбудовування алгоритмів незалежних розробників.

Алгоритм дерев прийняття рішень від Microsoft (Microsoft Decision Trees) часто виступає в якості початкової точки дослідження даних. В основі своїй це алгоритм класифікації, і він добре працює для прогнозування і дискретних, і безперервних атрибутів. Коли алгоритм будує модель, він дивиться на те, як кожен вхідний атрибут у наборі даних впливає на результат прогнозованого атрибута. Мета його - знайти комбінацію вхідних атрибутів і їх станів, яка дозволить прогнозувати значення прогнозованого атрибута.

Алгоритм Naive Bayes від Microsoft швидко будує моделі видобутку даних, які можна використовувати для класифікації та прогнозування. Алгоритм розраховує ймовірність, з якою кожне можливе стан вхідного атрибута приводить до кожного станом прогнозованого атрибута. Алгоритм підтримує тільки дискретні (не безупинні) атрибути і вважає, що всі вхідні атрибути впливають на прогнозований атрибут незалежно один від одного. Оскільки алгоритм Naive Bayes працює дуже швидко, він популярний в фазі початкового дослідження даних для вирішення проблем як класифікації, так і прогнозування.

Алгоритм кластеризації від Microsoft (Microsoft Clustering) використовує ітеративний процес для угруповання рядків з набору даних в кластери, що містять рядки з однаковими характеристиками. Використовуючи кластери, можна досліджувати дані для знаходження взаємозв'язків. Можна також робити прогнози на основі кластерної моделі.

Алгоритм пошуку асоціацій від Microsoft (Microsoft Association) заснований на алгоритмі a priori і забезпечує ефективний метод знаходження кореляцій у великих наборах даних. В основному він використовується для аналізу набору товарів (market basket analysis). Алгоритм пошуку асоціацій рухається в циклі по транзакціях в базі даних для знаходження товарів, які з найбільшою ймовірністю з'являться разом в транзакції одного покупця. Такі товари групуються в набори товарів, і генеруються правила, які потім можна використовувати для прогнозування. Будь-реляційний або OLAP-аналіз, який виконує безліч операцій distinct counting, буде хорошим кандидатом для аналізу асоціацій. Алгоритм пошуку асоціацій від Microsoft чутливий до вибору параметрів алгоритму, тому для невеликих завдань алгоритм дерев прийняття рішень може краще підійти для аналізу набору товарів.

Алгоритм послідовної кластеризації від Microsoft (Microsoft Sequence Clustering) поєднує в собі аналіз послідовності операцій з кластеризацией для дослідження даних і прогнозування. Модель послідовної кластеризації чутлива до послідовності виникнення подій. Крім того, алгоритм кластеризації враховує інші атрибути при угрупованні рядків по кластерах, що дає можливість створити модель, в якій є кореляція між послідовною і непослідовною інформацією. Алгоритм послідовної кластеризації використовується для аналізу маршруту переміщення користувача по сторінках при аналізі трафіку Web-сайту, для з'ясування того, які сторінки сайту найбільше пов'язані з продажем певного товару, і прогнозування, які наступні сторінки сайту відвідає користувач.

Алгоритм тимчасових рядів від Microsoft (Microsoft Time Series) створює моделі, які можна використовувати для прогнозування однієї або декількох постійно змінюються змінних, таких, як ціна акції. При прогнозуванні алгоритм ґрунтується винятково на трендах, отриманих з навчальних даних при створенні моделі. Алгоритм тимчасових рядів використовує методику AutoRegression Trees, дуже простий у використанні і генерує моделі з високою точністю прогнозування. Існує цілий напрям статистичного аналізу, присвячене часових рядах. Більшість інших продуктів для вилучення даних надають безліч методик, таких, як ARMA, ARIMA і Box-Jenkins, і статистик повинен вибрати з них той, який найкраще відповідає моделі. Компанія Microsoft вибрала підхід, який робить аналіз часових рядів доступним широкій аудиторії, з точними результатами.

Алгоритм нейронної мережі від Microsoft (Microsoft Neural Net), як і алгоритми дерев прийняття рішень і Naive Bayes, в основному використовується для дослідження даних, класифікації і прогнозування. Алгоритм нейронної мережі - це методика штучного інтелекту, яка досліджує всі можливі взаємозв'язки між даними. Через те, що цей алгоритм досліджує дані ретельніше інших, він виявляється самим повільним з трьох алгоритмів класифікації.


Таблиця 3. Основні завдання бізнесу, які вирішуються методами отримання інформації

Аналітична задача Приклади Алгоритми Microsoft Класифікація: призначення подій заздалегідь певним класам, таким, як "Хороший" або "Поганий" Аналіз кредитного ризику
Аналіз "плинності клієнтів (churn analysis)
Утримання клієнтів (customer retention) Дерева прийняття рішень
Naive Bayes
Нейронні мережі Сегментування: розробка системи для групування однакових подій Аналіз профілю покупців
Кампанія поштової розсилки Кластеризация
Послідовна кластеризация Асоціювання: глибокий пошук кореляцій Аналіз набору товарів (market basket analysis)
Глибоке дослідження даних Дерева прийняття рішень
Асоціативні правила Прогнозування часових рядів: прогнозування майбутнього Прогнозування продажів
Прогнозування цін акцій Тимчасові ряди Прогнозування: прогнозування значення для нового події (наприклад, для нового покупця) на основі значень для подібних подій (таких, як існуючі покупці) Котирування страхових ставок
Прогнозування прибутку від покупців
Прогнозування температури Всі алгоритми Аналіз відхилень: визначення того, як подія або сегмент відрізняється від інших Виявлення шахрайства по кредитних картах
Аналіз несанкціонованого підключення до мережі Все алгоритми

Висновок

Microsoft SQL Server 2005 - це повноцінна платформа інтелектуальної обробки даних, яка надає інфраструктурні та серверні компоненти для створення:

  • великих, складних сховищ даних, до яких легко виконувати запити, і недорогих з точки зору підтримки;
  • невеликих систем звітності та аналізу, простих в створенні, якими легко керувати на невеликих підприємствах або в відділах великих підприємств;
  • систем з невеликою затримкою поновлення даних, які доставляють аналітичні дані оперативним користувачам;
  • систем аналітики замкнутого циклу і систем видобутку даних;
  • вбудованих систем, які розширюють використання інтелектуальної обробки даних.

Все що входять до складу SQL Server інструменти - реляційна СУБД, Integration Services, Analysis Services, OLAP, Data Mining і Reporting Services - значно покращені. Такі нові інструменти, як Business Intelligence Development Studio і SQL Server Management Studio, розширюють платформу інтелектуальної обробки даних Microsoft.

Новости