Інформаційне забезпечення аналізу даних (реферат)

Реферат на тему:

Інформаційне забезпечення аналізу даних

Аналіз даних є невід’ємною частиною процесу дослідження систем
будь-якого типу. Всі названі вище інформаційні системи активно
використовують дані різного типу. Існує багато класичних методів
аналізу, які базуються на математичному апараті (математична статистика,
математичне програмування, лінійна алгебра тощо) та чудово себе
зарекомендували протягом свого існування. Розглянемо сучасні програмні
засоби, які уможливлюють проведення повноцінного математичного та
статистичного аналізу даних.

На ринку програмних засобів існує надзвичайно велика кількість додатків,
які пропонують допомогу у розв’язанні задач аналізу даних як у пакетному
режимі, так і у вигляді бібліотек функцій, які можна використовувати в
інших програмних продуктах. Коротко охарактеризуємо найпопулярніші та
функціонально повні з них:

— Matlab від MathWorks — комп’ютерна оболонка для інтерактивних та
командних обчислень і візуалізації. Вона об’єднує в собі чисельний
аналіз, операції з матрицями, сигнальні процеси та графіки в зручному
для використання середовищі, де задачі та розв’язки подаються у
математичному запису без використання традиційного програмування.

— Mathematica від Wolfram — вичерпна комп’ютерна система для чисельних,
символьних та графічних обчислень і візуалізації. Інтерактивний
обчислювальний та графічний інструмент із вбудованою мовою програмування
для швидких та точних розв’язків. Інформацію можна подавати як у
звичайному математичному поданні, так і у вигляді функцій з
використанням вбудованої мови програмування. Електронний документ цієї
комп’ютерної системи, який називається notebooks (записна книжка),
допомагає користувачеві створювати тексти, здійснювати обчислення,
будувати графіки та анімацію для технічного звіту чи презентації роботи.
Існує також можливість підключення додаткових пакетів за допомогою
технології Add-ons.

— S-PLUS від S-PLUS — інтерактивне програмне середовище для аналізу
даних. S-PLUS містить об’єктно орієнтовану мову програмування,
уніфіковану парадигму для дослідження статистичних моделей та тисячі
вбудованих статистичних і графічних функцій.

— SAS від SAS Institute — інтерактивне та командне програмне середовище,
що утворене з модулів для головного аналізу даних, статистики та
написання звітів. SAS також забезпечує підключення до баз даних ORACLE
та INGRES, аналіз часових рядів та прогнозування, кольорові графіки,
матричне програмування та розвинену статистику, забезпечує експертну
підтримку.

— SPSS від SPSS Inc. — Один із найпотужніших, але й дорогих статистичних
пакетів. Має зручний інтерфейс. Містить досить повний набір статистичних
(усього понад 60) та графічних процедур, а також процедур для створення
звітів. Має вбудований засіб, що виконує інтелектуальну функцію,
наприклад пояснює користувачеві, яку статистику краще застосувати в
кожному конкретному випадку.

— Statistica від StatSoft Inc. — найзбалансованіший за співвідношенням
«потужність/зручність» пакет. Має широкий спектр функціональних
алгоритмів і потужну графіку, а також відповідні засоби для редагування
графічних матеріалів. Користувач має знати статистичну термінологію,
хоча дуже об’ємна довідкова система дає змогу досить повно
ознайомлюватися з алгоритмами, що використовуються.

Інтелектуальний аналіз даних (Data Mining)

Останнім часом все більшої популярності набуває термін «інтелектуальний
аналіз даних» (Data Mining) або «виявлення знань у базах даних»
(knowledge discovery in databases). Це зумовлено, передовсім,
нездатністю класичних статистичних методів досить повно задовольняти
вимоги, що ставляться сьогодні до аналізу даних. Зокрема, специфіка
даних та сучасних вимог до їх обробки така:

— дані мають практично необмежений об’єм;

— дані є різнорідними (кількісними, якісними, текстовими);

— результати мають бути конкретними та зрозумілими;

— інструменти для обробки первинних даних мають бути зручними у
використанні.

Загалом технологію DataMining досить точно визначає Григорій
Піаецький-Шапіро — один із засновників цього напряму. DataMining — це
процес виявлення в первинних даних:

— раніше невідомих;

— нетривіальних;

— практично корисних;

— доступних для інтерпретації знань, необхідних для прийняття рішень у
різних сферах людської діяльності.

Виділяють п’ять стандартних типів закономірностей та методів, які є
найхарактернішими для DataMining:

— асоціація;

— послідовність;

— класифікація;

— кластеризація;

— прогнозування.

Асоціація має місце у тому разі, коли кілька подій пов’язані одна з
одною.

Послідовність — ланцюг пов’язаних у часі подій.

Класифікація виявляє ознаки, що характеризують групу, до якої належать
певні об’єкти.

Кластеризація відрізняється від класифікації тим, що самі групи спочатку
не задано.

Прогнозування ґрунтується на історичній інформації, що зберігається в БД
у вигляді часових рядів. Якщо вдається знайти шаблони, що адекватно
відображують динаміку поведінки цільових показників, то є імовірність,
що за їх допомогою можна передбачити поведінку системи в майбутньому.

DataMining є мультидисциплінарною галуззю, що виникла на підґрунті
досягнень різних наук. Звідси і велика чисельність методів та
алгоритмів, що реалізовані в різних діючих системах DataMining. Багато
із таких систем інтегрують у собі кілька підходів. Тим не менш, як
правило, в кожній системі існує такий ключовий момент, на який ставиться
головний акцент. Зазначені ключові компоненти можна класифікувати так:

— предметно орієнтовані аналітичні системи.

Існує дуже багато програм такого типу;

— статистичні пакети;

— нейронні мережі;

— системи міркувань на основі аналогічних випадків;

— дерева рішень;

— еволюційне програмування;

— генетичні алгоритми;

— алгоритми обмеженого перебору;

— системи для візуалізації багатовимірних даних.

Загалом, стосовно DataMining можна зазначити, що:

ринок систем DataMining розвивається експоненційно. В ньому беруть
участь практично всі крупні корпорації;

системи DataMining застосовують, головно, за такими напрямками, як:

— масовий продукт для бізнес-додатків,

— інструмент для проведення унікальних досліджень;

незважаючи на чисельність методів DataMining, пріоритет поступово
зміщується в бік логічних алгоритмів аналізу даних if-then-правил
(правил типу: «якщо…, то…»);

разом з тим головною проблемою логічних методів виявлення
закономірностей є перебір варіантів за прийнятний термін. У відомих
методах або штучно обмежується такий перебір (у алгоритмах КОРА,
WizWhy), або будуються дерева рішень, що мають принципові обмеження
ефективності пошуку if-then-правил. Інші проблеми пов’язані з тим, що
відомі методи пошуку логічних правил не підтримують функцію узагальнення
знайдених правил та функцій пошуку оптимальної композиції таких правил.
Вдале розв’язання поставлених проблем може стати предметом нових
конкурентоспроможних розробок.

Список літератури

Акофф Р. Л. Планирование в больших экономических системах / Пер. с англ.
— М.: Сов. радио, 1972. — 223 с.

Андрейчиков А. В., Андрейчикова О. Н. Анализ, синтез, планирование
решений в экономике. — М.: Финансы и статистика, 2000. — 368 с.

Анфилатов В. С., Емельянов А. А., Кукушкин А. А. Системный анализ в
управлении. — М.: Финансы и статистика, 2002. — 368 с.

Беляев А. А., Коротков Э. М. Системология организации. — М.: ИНФРА-М,
2000. — 182 с.

Беренс В., Хавранек П. М. Руководство по оценке эффективности
инвестиций. — М.: ИНФРА-М, 1995.

Браверман Э. М. Математические модели планирования и управления в
экономических системах. — М.: Наука, 1976. — 368 с.

Нашли опечатку? Выделите и нажмите CTRL+Enter