- •Екзаменаційний білет №1
- •3. Інтервальна шкала – це шкала,
- •Екзаменаційний білет № 2
- •Екзаменаційний білет № 3
- •Екзаменаційний білет № 4
- •Екзаменаційний білет № 5
- •Екзаменаційний білет № 6
- •Екзаменаційний білет № 7
- •Екзаменаційний білет № 8
- •1. Яка вам відома Классификация технологических методов Data Mining?
- •Екзаменаційний білет № 9
- •Екзаменаційний білет № 10
- •Екзаменаційний білет № 11
- •Екзаменаційний білет № 12
- •Екзаменаційний білет № 13
- •Екзаменаційний білет № 14
- •Екзаменаційний білет № 15
ДВНЗ «Університет банківської справи»
Харківський навчально-науковий інститут
Факультет управління та фінансових технологій
Кафедра інформаційних технологій
Освітня програма – освітньо-професійна
Спеціальність –125 «Комп’ютерні науки» Семестр 2
Освітній ступінь – магістр
Навчальна дисципліна: «OLAP-технології та Data mining»
Екзаменаційний білет №1
І. Теоретична частина
1. Поясніть сутність алгоритму кластеризації k-means..
2. Для чого вирішується задача прогнозування?
ІІ. Тестова частина
1. Більшість даних в світі в 2011 році були:
-
У цифровому вигляді
-
В аналоговому вигляді
2. Яка з переліченних дисциплін найбільш орієнтована на перевірку гіпотез?
(Отметьте один правильный вариант ответа.
а. Візуалізація
b. Data Mining
c. статистика
3. Інтервальна шкала – це шкала,
(Отметьте один правильный вариант ответа.)
a. содержащая категории, которые могут упорядочиваться, однако разности не имеют смысла
b. содержащая только категории, которые не могут упорядочиваться
c. разности между значениями которой могут быть вычислены, однако их отношения не имеет смысла
4. Яка з перерахованих нижче стадій може вважатися додатковою або частиною однієї з основних стадій Data mining:
(Відзначте один правильний варіант відповіді.)
a. виявлення закономірностей (вільний пошук)
b. використання виявлених закономірностей для передбачення невідомих значень (прогностичне моделювання)
c. валідація
5. Обсяг накопичених людством цифрових даних на 2017 рік міряється:
a. петабайт
b. зеттабайт
c. екзабайтами
d. йоттабайт
6. Інформація, дані і знання є:
a. частиною одного потоку
b. частинами різних потоків
c. обидві відповіді невірні
ІІІ. Практична частина. За даними наведеними в таблиці виконати кластеризацію даних. Для цього необхідно:
A. Нормалізувати дані.
B. Обчислити відстань між об'єктами, що кластерізуємо і побудувати матрицю відстаней (використовувати формулу для обчислення евклідової відстані).
С. Провести розбиття даних на 3 кластера
Прізвище |
Зріст (см) |
Вага (кг) |
Вік (років) |
Рівень інтелекту |
Освіта |
Ільин |
185 |
95 |
23 |
87 |
Среднее |
Погорелов |
177 |
78 |
78 |
115 |
Уч. степень |
Сидоров |
183 |
67 |
15 |
90 |
Высшее |
Степанов |
167 |
102 |
20 |
135 |
Высшее |
Фѐдоров |
165 |
52 |
43 |
82 |
Среднее |
Екзаменаційний білет № 2
І. Теоретична частина
1. Які задачі вирішуються методами Data Mining?
2. Якої мети служить завдання визначення відхилень та вибросів (Deviation Detection)?
ІІ. Тестова частина
1. Нечітка логіка і дерева рішень ...
(Відзначте один правильний варіант відповіді.)
a. відносяться до кібернетичним методам Data mining
b. відносяться до статистичних методів Data mining
c. не є методами Data mining
2. Data Mining - це процес виявлення в сирих даних знань, необхідних для:
(Відзначте один правильний варіант відповіді.)
a. прийняття рішень в різних сферах людської діяльності
b. заміни аналітика в процесі прийняття рішень
c. збільшення вартості аналізу даних
3. Відзначте ті з варіантів, в яких дані структуровані:
a. Дані про продажі компанії, представлені у вигляді щомісячних звітів в форматі MS Word.
b. Таблиця з щоденними показаннями температури приміщення за рік в файлі формату csv.
c. Текст педагогічної поеми А.С. Макаренко, представлений в форматі PDF.
d. Бібліотека фільмів, представлених у форматі mpeg4 на одному жорсткому диску.
4. Согласно классификации по стратегиям, задачи Data Mining подразделяются на:
a. обучение с учителем
b. обучение без учителя
c. дескриптивные
d. прогнозирующие
5. Data Mining - це процес виявлення в сирих даних
a. раніше сформульованих гіпотез
b. неочевидних закономірностей
c. практичних закономірностей
d. об'єктивних закономірностей
e. великої кількості закономірностей
6. Відзначте неправильне розуміння Variety в контексті характеристик Big Data:
a. Висока швидкість генерування даних.
b. Різні типи даних в колонках таблиць реляційних СУБД.
c. Різноманітність галузей, які є джерелами даних.
d. Різноманітність типів даних, що включають в себе структуровані, напівструктуровані і неструктуровані.
ІІІ. Практична частина. За даними наведеними в таблиці виконати кластеризацію даних. Для цього необхідно:
A. Нормалізувати дані.
B. Обчислити відстань між об'єктами, що кластерізуємо і побудувати матрицю відстаней (використовувати формулу для обчислення евклідової відстані).
С. Провести розбиття даних на 3 кластера
Прізвище |
Зріст (см) |
Вага (кг) |
Вік (років) |
Рівень інтелекту |
Освіта |
Самойлов |
189 |
115 |
39 |
111 |
Вища |
Линев |
180 |
100 |
56 |
131 |
Середня |
Еременко |
192 |
89 |
25 |
97 |
Вища |
Степанов |
145 |
51 |
27 |
112 |
Вища |
Бакулін |
177 |
98 |
37 |
76 |
Середня |