Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шолле Ф. - Глубокое обучение на Python (Библиотека программиста) - 2023.pdf
Скачиваний:
5
Добавлен:
07.04.2024
Размер:
11.34 Mб
Скачать

6.1. Определение задачи    211

следует.применять.к.новым.обзорам.в.IMDB,.а.не.к.обзорам.ресторанов.Yelp.или. статусам.в.Twitter..Если.вам.нужно.оценивать.эмоциональную.окраску.твитов,. начните.со.сбора.и.маркировки.реальных.твитов.в.той.же.группе.пользователей,. которые,.как.предполагается,.будут.использовать.модель..Если.нет.возможности. обучить.модель.на.реальных.данных,.постарайтесь.как.можно.полнее.определить,. чем.ваши.обучающие.данные.отличаются.от.реальных,.и.устраните.эти.различия.

Вы.должны.знать.еще.об.одном.явлении.—.дрейфе понятий..Оно.встретится. вам.практически.во.всех.задачах,.и.особенно.в.тех,.которые.основаны.на.данных,.генерируемых.пользователями..Дрейф.понятий.возникает,.когда.свойства. реальных .данных .меняются .с .течением .времени, .приводя .к .постепенному. снижению.точности.модели..Система.музыкальных.рекомендаций,.обученная. в.2013.году,.в.настоящее.время.может.оказаться.неэффективной..Набор.данных. IMDB,.с.которым.мы.работали,.собран.в.2011.году,.и.обученная.на.нем.модель,. вероятно,.будет.распознавать.эмоциональную.окраску.обзоров.2020.года.не.так. хорошо,.как.отзывов.2012.года,.потому.что.словарный.запас,.способ.выражения. эмоций.и.жанры.фильмов.со.временем.меняются..Проблема.дрейфа.понятий. особенно.остро.проявляется.в.контексте.противоборств,.таких.как.определение. мошенничества.с.кредитными.картами,.где.модели.мошенничества.меняются. практически.каждый.день..В.сферах.с.быстрым.дрейфом.понятий.требуется. постоянно.собирать.данные,.маркировать.их.и.повторно.обучать.модели.

Имейте.в.виду,.что.машинное.обучение.можно.использовать.только.для.запоминания.шаблонов,.имеющихся.в.обучающих.данных..Распознать.можно.только. увиденное.раньше..Использование.машинного.обучения.для.предсказания. будущего.предполагает,.что.будущее.будет.вести.себя.как.прошлое..Но.часто. это.не.так.

6.1.3. Первичный анализ данных

Представлять.набор.данных.как.черный.ящик.—.не.лучшее.решение..Прежде. чем.приступить.к.обучению.моделей,.обязательно.проанализируйте.свои.данные,.чтобы.понять,.какие.особенности.дают.им.прогнозирующую.способность,. что.поможет.обоснованно.спроектировать.признаки.и.выявить.потенциальные. проблемы:

.если.данные.включают.изображения.или.текст.на.естественном.языке,.изучите.сразу.несколько.образцов.(и.их.метки);

.если.данные.содержат.числовые.признаки,.постройте.гистограмму.распределения.значений.признаков,.чтобы.получить.представление.о.диапазоне. и.частоте.различных.значений;

.если.данные.включают.информацию.о.местоположении,.нанесите.ее.на.карту..

Возможно,.вы.заметите.какие-то.явные.закономерности;