Ответы тест
.DOCX1. Ошибки, указывающие на непоследовательность в данных:
Отклонения от свода правил
Разные уровни агрегирования
Разные единицы измерения
2. Данные на естественном языке … .
составляют особую разновидность неструктурированных данных; обработка таких данных достаточно сложна, потому что она требует знания как лингвистики, так и специальных методов data science
3. На проверку и очистку данных как правило тратится до ...% времени проекта.
80
4. Синонимы понятия "наука о данных":
data science.
datalogy.
5. В Hadoop центральное место занимают:
Система управления ресурсами кластеров (YARN).
Метод крупномасштабного выполнения программ (MapReduce).
Распределённая файловая система (HDFS).
6. Связь между ... такая же, как между сырой нефтью и нефтеперерабатывающим заводом.
big data и data science
7. Наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных
искусственный интеллект.
artificial intelligence.
8. Apache Hadoop - инфраструктура, упрощающая работу с компьютерными кластерами. Hadoop пытается достичь следующих целей (отметье правильные утверждения)
Масштабируемость данные и их обработка распределяются в компьютерных кластерах (горизонтальное масштабирование).
Портируемость - возможность установки на всех видах устройств и операционных систем.
9. Преобразование данных … .
гарантирует, что данные находятся в подходящем формате для использования в ваших моделях
10. Фаза моделирования состоит из шагов, расположенных в следующей последовательности:
1)Планирование показателей и выбор модели. 2)Обучение модели. 3)Проверка адекватности модели и выбор. 4)Применение обученной модели к новым данным.
11. Очистка данных, интеграция данных, преобразование данных – это подфазы фазы … .
Подготовки данных
12.Фаза подготовки данных состоит из … подфаз.
3
13. Примеры машинных данных:
записи детализации звонков
журналы веб-серверов
журналы сетевых событий и телеметрии
14. удаляет некорректные значения из источника данных и устраняет расхождения между источниками.
Очистка данных
15. Информация, автоматически генерируемая компьютером, процессом, приложением или устройством без вмешательства человека - … данные.
Машинные
16. Отсутствующие значения можно исправить, использовав … .
удаление выборки или значения
17. Искусственный интеллект - ...
свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека.
18. Этот важный принцип обеспечивает целостность данных. Запись, вставленная в базу данных, ни при каких условиях не должна конфликтовать с заранее установленными правилами (например, в ней не может отсутствовать обязательное поле или поле не может содержать числовую информацию вместо текстовой) - … .
Согласованность
19. Ошибки, указывающие на ложные значения в одном наборе данных:
Лишние пропуски
Отсутствующие значения
Ошибки при вводе данных
Выбросы
Невозможные значения
20. Первая проверка данных в процессе data science происходит на стадии:
сбора данных
21. Раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме - ...
data science.
datalogy.
наука о данных.
22. Изолированность (Isolation) - …
когда в базе данных что-то изменяется, ничего не может происходить точно с одними и теми же данными точно в один момент. Вместо этого действия выполняются последовательно с другими изменениями.
23. Интеграция данных … .
расширяет информацию посредством объединения информации из нескольких источников
24. NoSQL – это
«не только» SQL
25. Преобразование данных – это:
Экстраполяция данных
Агрегирование данных
Создание вспомогательных переменных
Сокращение количества переменных
Производные метрики
26. Машинные данные … .
есть информация, автоматически генерируемая компьютером, процессом, приложением или устройством без вмешательства человека
27. Вклад специалиста по данным в составление проектного задания:
Предназначение и контекст проекта.
Предварительное описание методики анализа.
Чётко сформулированная цель исследований.
Предъявляемые результаты и критерий успеха.
Необходимые ресурсы.
Календарный план.
Доказательство практической реализуемости проекта.
28. Укажите правильное сочетание для очистки данных (обработка отсутствующих значений):
Присваивание статического значения (например, 0 или среднего арифметического) - простота и предотвращение потери информации от других переменных, но возможно формирование ложных оценок на основе модели.
Моделирование значения (независимое) - незначительно влияет на модель, но может потребовать слишком большой уверенности в модели и может создать искусственные зависимости между переменными.
29. Машинное обучение - ...
класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач.
30. Выбросы можно исправить, использовав … .
проверку значения, и в случае ошибочности - интерпретировать как отсутствующее значение (удаление или вставка)
31. Структурированные; неструктурированные; на естественном языке; машинные; графовые; аудио, видео и графика; потоковые. Это всё категории … .
Данных
32. Процесс построения большинства моделей состоит из следующих шагов:
1)Выбор метода моделирования и переменных для включения в модель. 2)Выполнение модели. 3)Диагностика и сравнение моделей.
33. расширяет информацию посредством объединения информации из нескольких источников.
Интеграция данных
34. Под обобщающим термином «...» принято понимать любые наборы данных, достаточно большие и сложные для того, чтобы их можно было обработать традиционными средствами работы с данными.
большие данные
35. Наука о данных - ...
раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме.
36. Отличие распределённой файловой системы от «обычной»:
распределённая работает на нескольких серверах сразу
37. Характеристики больших данных часто называются «тремя ...».
V
38. Статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин - ...
Корреляция
39. Униграмма содержит … слово(а)
1
40. Атомарность (Atomicity) - …
принцип «всё или ничего». Если блок данных включается в базу, то он либо включается полностью, либо не включается вообще. Например, если в середине операции записи произойдет сбой питания, в базу данных не будет занесена половина данных; они не будут записаны.
41. Наука о данных объединяет методы:
по обработке данных в условиях больших объёмов и высокого уровня параллелизма
интеллектуального анализа данных
статистические
42. Разбиение системы на более мелкие структурные компоненты и разнесение их по отдельным физическим машинам (или их группам), и (или) увеличение количества серверов, параллельно выполняющих одну и ту же функцию - ...
горизонтальное масштабирование.
43. Математическая структура для моделирования попарных отношений между объектами –
Граф
44. Лишние пропуски можно исправить, использовав … .
строковые функции
45. SPARQL – язык запросов, применяемый для работы с …
графовыми базами данных
46. Экосистему машинного обучения Python можно условно разделить на пакеты следующих типов:
Оптимизация кода
Большие данные
Данные помещаются в памяти
47. Очистка данных – это:
Отсутствующие значения
Ошибки при вводе данных
Выбросы
Пробелы, опечатки
Физически невозможные данные
Отклонения от свода правил
48. Класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач - ... .
машинное обучение
machine learning
49. Долгосрочность (Durability) - …
если данные внесены в базу данных, то они должны находиться в базе данных постоянно. Данные могут уничтожаться при физическом повреждении жёстких дисков, но не при отключении электропитания и программных сбоях.
50. Характеристики ... часто называются «тремя V»: объем (volume), разнообразие (variety) и скорость (velocity). Часто эти характеристики дополняются «четвертым V» - достоверностью (veracity):
больших данных
51. расширяет информацию посредством объединения информации из нескольких источников.
Интеграция данных
52. SQL - …
основное средство управления и обращения с запросами к данным, хранящимся в реляционных базах данных
53. Процесс data science обычно состоит из шести шагов:
1)Назначение цели исследования. 2)Сбор данных. 3)Подготовка данных. 4)Исследование данных. 5)Моделирование данных. 6)Отображение и автоматизация
54. Разные уровни агрегирования можно исправить, использовав … .
Переход на единый уровень измерений посредством агрегирования или экстраполяции
55. Ошибки при вводе данных можно исправить, использовав … .
ручное переопределение
56. Большие данные
обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами.
57. Графовые структуры данных используют …, … и … для представления и хранения графических данных.
Узлы
Свойства
Ребра
58. ... развивались на базе статистики и традиционного управления данными, но сейчас считаются разными дисциплинами.
Big data и data science
59. Big data- ...
обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами.
60. Эффективность практического использования технологий больших данных ... .
определяется предметной областью и людьми, реализующими проект
61. … данные зависят от модели данных и хранятся в фиксированном поле внутри записи. Соответственно, такие данные часто бывает удобно хранить в таблицах, в базах данных или файлах Excel.
Структурированные
62. Невозможные значения можно исправить, использовав … .
ручное переопределение
63. … направлено(а) на достижение более глубокого понимания данных.
Исследование данных
64. Отклонения от свода правил можно исправить, использовав … .
Сопоставление по ключу или ручное переопределение
65. Неструктурированные данные … .
трудно подогнать под конкретную модель данных, потому что их содержимое зависит от контекста или имеет переменный характер
66. Комбинированные данные – это:
Слияние / объединение наборов данных
Создание представлений
Операторы множеств
67. Разные единицы измерения можно исправить, использовав … .
Пересчет
68. … данные естественным образом подходят для представления социальных сетей, а их структура позволяет вычислять такие специфические метрики, как влияние участников и кратчайший путь между двумя людьми.
Графовые
69. Характеристики больших данных часто называются «тремя V»: ... . Часто эти характеристики дополняются «четвертым V» - ...:
скорость (velocity)
объем (volume)
разнообразие (variety)
70. ... - это расширение статистики, способное справляться с огромными объёмами данных.
Data science
71. Назначение цели исследования; сбор данных; подготовка данных; исследование данных; моделирование данных; отображение и автоматизация – это шаги … .
процесса data science
72. Отметьте верное утверждение:
С L1-регуляризацией строится модель с минимально возможным количеством свободных переменных; L2-регуляризация направлена на минимизацию расхождений между коэффициентами свободных переменных.
73. … данные поступают в систему при возникновении некоторых событий, а не загружаются в хранилище данных большими массивами.
Потоковые