Добавил:

easy_ana Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Поволжский государственный университет телекоммуникаций и информатики

Предмет:

Основы сбора и обработки больших данных

Файл:

Ответы тест

.DOCX

Скачиваний:

107

Добавлен:

17.12.2023

Размер:

33.95 Кб

Скачать

☆

1. Ошибки, указывающие на непоследовательность в данных:

Отклонения от свода правил

Разные уровни агрегирования

Разные единицы измерения

2. Данные на естественном языке … .

составляют особую разновидность неструктурированных данных; обработка таких данных достаточно сложна, потому что она требует знания как лингвистики, так и специальных методов data science

3. На проверку и очистку данных как правило тратится до ...% времени проекта.

4. Синонимы понятия "наука о данных":

data science.

datalogy.

5. В Hadoop центральное место занимают:

Система управления ресурсами кластеров (YARN).

Метод крупномасштабного выполнения программ (MapReduce).

Распределённая файловая система (HDFS).

6. Связь между ... такая же, как между сырой нефтью и нефтеперерабатывающим заводом.

big data и data science

7. Наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных

искусственный интеллект.

artificial intelligence.

8. Apache Hadoop - инфраструктура, упрощающая работу с компьютерными кластерами. Hadoop пытается достичь следующих целей (отметье правильные утверждения)

Масштабируемость данные и их обработка распределяются в компьютерных кластерах (горизонтальное масштабирование).

Портируемость - возможность установки на всех видах устройств и операционных систем.

9. Преобразование данных … .

гарантирует, что данные находятся в подходящем формате для использования в ваших моделях

10. Фаза моделирования состоит из шагов, расположенных в следующей последовательности:

1)Планирование показателей и выбор модели. 2)Обучение модели. 3)Проверка адекватности модели и выбор. 4)Применение обученной модели к новым данным.

11. Очистка данных, интеграция данных, преобразование данных – это подфазы фазы … .

Подготовки данных

12.Фаза подготовки данных состоит из … подфаз.

13. Примеры машинных данных:

записи детализации звонков

журналы веб-серверов

журналы сетевых событий и телеметрии

14. удаляет некорректные значения из источника данных и устраняет расхождения между источниками.

Очистка данных

15. Информация, автоматически генерируемая компьютером, процессом, приложением или устройством без вмешательства человека - … данные.

Машинные

16. Отсутствующие значения можно исправить, использовав … .

удаление выборки или значения

17. Искусственный интеллект - ...

свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека.

18. Этот важный принцип обеспечивает целостность данных. Запись, вставленная в базу данных, ни при каких условиях не должна конфликтовать с заранее установленными правилами (например, в ней не может отсутствовать обязательное поле или поле не может содержать числовую информацию вместо текстовой) - … .

Согласованность

19. Ошибки, указывающие на ложные значения в одном наборе данных:

Лишние пропуски

Отсутствующие значения

Ошибки при вводе данных

Выбросы

Невозможные значения

20. Первая проверка данных в процессе data science происходит на стадии:

сбора данных

21. Раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме - ...

data science.

datalogy.

наука о данных.

22. Изолированность (Isolation) - …

когда в базе данных что-то изменяется, ничего не может происходить точно с одними и теми же данными точно в один момент. Вместо этого действия выполняются последовательно с другими изменениями.

23. Интеграция данных … .

расширяет информацию посредством объединения информации из нескольких источников

24. NoSQL – это

«не только» SQL

25. Преобразование данных – это:

Экстраполяция данных

Агрегирование данных

Создание вспомогательных переменных

Сокращение количества переменных

Производные метрики

26. Машинные данные … .

есть информация, автоматически генерируемая компьютером, процессом, приложением или устройством без вмешательства человека

27. Вклад специалиста по данным в составление проектного задания:

Предназначение и контекст проекта.

Предварительное описание методики анализа.

Чётко сформулированная цель исследований.

Предъявляемые результаты и критерий успеха.

Необходимые ресурсы.

Календарный план.

Доказательство практической реализуемости проекта.

28. Укажите правильное сочетание для очистки данных (обработка отсутствующих значений):

Присваивание статического значения (например, 0 или среднего арифметического) - простота и предотвращение потери информации от других переменных, но возможно формирование ложных оценок на основе модели.

Моделирование значения (независимое) - незначительно влияет на модель, но может потребовать слишком большой уверенности в модели и может создать искусственные зависимости между переменными.

29. Машинное обучение - ...

класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач.

30. Выбросы можно исправить, использовав … .

проверку значения, и в случае ошибочности - интерпретировать как отсутствующее значение (удаление или вставка)

31. Структурированные; неструктурированные; на естественном языке; машинные; графовые; аудио, видео и графика; потоковые. Это всё категории … .

Данных

32. Процесс построения большинства моделей состоит из следующих шагов:

1)Выбор метода моделирования и переменных для включения в модель. 2)Выполнение модели. 3)Диагностика и сравнение моделей.

33. расширяет информацию посредством объединения информации из нескольких источников.

Интеграция данных

34. Под обобщающим термином «...» принято понимать любые наборы данных, достаточно большие и сложные для того, чтобы их можно было обработать традиционными средствами работы с данными.

большие данные

35. Наука о данных - ...

раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме.

36. Отличие распределённой файловой системы от «обычной»:

распределённая работает на нескольких серверах сразу

37. Характеристики больших данных часто называются «тремя ...».

38. Статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин - ...

Корреляция

39. Униграмма содержит … слово(а)

40. Атомарность (Atomicity) - …

принцип «всё или ничего». Если блок данных включается в базу, то он либо включается полностью, либо не включается вообще. Например, если в середине операции записи произойдет сбой питания, в базу данных не будет занесена половина данных; они не будут записаны.

41. Наука о данных объединяет методы:

по обработке данных в условиях больших объёмов и высокого уровня параллелизма

интеллектуального анализа данных

статистические

42. Разбиение системы на более мелкие структурные компоненты и разнесение их по отдельным физическим машинам (или их группам), и (или) увеличение количества серверов, параллельно выполняющих одну и ту же функцию - ...

горизонтальное масштабирование.

43. Математическая структура для моделирования попарных отношений между объектами –

Граф

44. Лишние пропуски можно исправить, использовав … .

строковые функции

45. SPARQL – язык запросов, применяемый для работы с …

графовыми базами данных

46. Экосистему машинного обучения Python можно условно разделить на пакеты следующих типов:

Оптимизация кода

Большие данные

Данные помещаются в памяти

47. Очистка данных – это:

Отсутствующие значения

Ошибки при вводе данных

Выбросы

Пробелы, опечатки

Физически невозможные данные

Отклонения от свода правил

48. Класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач - ... .

машинное обучение

machine learning

49. Долгосрочность (Durability) - …

если данные внесены в базу данных, то они должны находиться в базе данных постоянно. Данные могут уничтожаться при физическом повреждении жёстких дисков, но не при отключении электропитания и программных сбоях.

50. Характеристики ... часто называются «тремя V»: объем (volume), разнообразие (variety) и скорость (velocity). Часто эти характеристики дополняются «четвертым V» - достоверностью (veracity):

больших данных

51. расширяет информацию посредством объединения информации из нескольких источников.

Интеграция данных

52. SQL - …

основное средство управления и обращения с запросами к данным, хранящимся в реляционных базах данных

53. Процесс data science обычно состоит из шести шагов:

1)Назначение цели исследования. 2)Сбор данных. 3)Подготовка данных. 4)Исследование данных. 5)Моделирование данных. 6)Отображение и автоматизация

54. Разные уровни агрегирования можно исправить, использовав … .

Переход на единый уровень измерений посредством агрегирования или экстраполяции

55. Ошибки при вводе данных можно исправить, использовав … .

ручное переопределение

56. Большие данные

обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами.

57. Графовые структуры данных используют …, … и … для представления и хранения графических данных.

Узлы

Свойства

Ребра

58. ... развивались на базе статистики и традиционного управления данными, но сейчас считаются разными дисциплинами.

Big data и data science

59. Big data- ...

60. Эффективность практического использования технологий больших данных ... .

определяется предметной областью и людьми, реализующими проект

61. … данные зависят от модели данных и хранятся в фиксированном поле внутри записи. Соответственно, такие данные часто бывает удобно хранить в таблицах, в базах данных или файлах Excel.

Структурированные

62. Невозможные значения можно исправить, использовав … .

ручное переопределение

63. … направлено(а) на достижение более глубокого понимания данных.

Исследование данных

64. Отклонения от свода правил можно исправить, использовав … .

Сопоставление по ключу или ручное переопределение

65. Неструктурированные данные … .

трудно подогнать под конкретную модель данных, потому что их содержимое зависит от контекста или имеет переменный характер

66. Комбинированные данные – это:

Слияние / объединение наборов данных

Создание представлений

Операторы множеств

67. Разные единицы измерения можно исправить, использовав … .

Пересчет

68. … данные естественным образом подходят для представления социальных сетей, а их структура позволяет вычислять такие специфические метрики, как влияние участников и кратчайший путь между двумя людьми.

Графовые

69. Характеристики больших данных часто называются «тремя V»: ... . Часто эти характеристики дополняются «четвертым V» - ...:

скорость (velocity)

объем (volume)

разнообразие (variety)

70. ... - это расширение статистики, способное справляться с огромными объёмами данных.

Data science

71. Назначение цели исследования; сбор данных; подготовка данных; исследование данных; моделирование данных; отображение и автоматизация – это шаги … .

процесса data science

72. Отметьте верное утверждение:

С L1-регуляризацией строится модель с минимально возможным количеством свободных переменных; L2-регуляризация направлена на минимизацию расхождений между коэффициентами свободных переменных.

73. … данные поступают в систему при возникновении некоторых событий, а не загружаются в хранилище данных большими массивами.

Потоковые