Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шолле Ф. - Глубокое обучение на Python (Библиотека программиста) - 2023.pdf
Скачиваний:
3
Добавлен:
07.04.2024
Размер:
11.34 Mб
Скачать

11.4. Архитектура Transformer    431

Модель.достигла.точности.88,3.%.на.контрольных.данных.—.серьезное.улучше- ние,.ясно.демонстрирующее.ценность.информации.о.порядке.слов.для.классификации.текста..На.данный.момент.это.наша.лучшая.модель.последовательностей!. И.все.же.она.на.ступень.ниже.модели.мешка.слов.

11.4.4. Когда использовать модели последовательностей вместо моделей мешка слов

Иногда.можно.услышать,.что.методы.мешка.слов.устарели.и.вместо.них.следует. брать.модели.последовательностей.на.основе.архитектуры.Transformer,.независимо. от.решаемой.задачи.или.используемого.набора.данных..Это.определенно.неверно:. небольшой.стек.слоев.Dense.и.мешок.биграмм.все.еще.актуальны.при.решении. многих.задач..На.самом.деле.среди.разных.методов,.опробованных.нами.на.наборе.данных.IMDB.в.этой.главе,.самым.лучшим.пока.что.был.мешок.биграмм!

Так.когда.лучше.использовать.тот.или.иной.подход?

В.2017.году.мы.с.коллегами.проанализировали.эффективность.различных.методов.классификации.текста.на.множестве.наборов.текстовых.данных.разных. типов.и.вывели.удивительное.правило,.помогающее.решить,.когда.использовать. модель.мешка.слов,.а.когда.модель.последовательности.(http://mng.bz/AOzK),.—. своего.рода.золотую.константу.классификации.

Приступая.к.решению.новой.задачи.классификации.текста,.следует.обратить. пристальное.внимание.на.соотношение.между.количеством.образцов.в.обучающих.данных.и.средним.количеством.слов.в.образце.(рис..11.11)..Если. это.соотношение.невелико.—.менее.1500,.лучше.взять.модель.мешка.биграмм. (к.тому.же.она.будет.намного.быстрее.обучаться.и.выполнять.итерации)..Если. соотношение.больше.1500,.следует.использовать.модель.последовательности.. Иначе.говоря,.модели.последовательностей.работают.лучше,.когда.доступно. много.обучающих.данных,.а.образцы.относительно.короткие.

Рис. 11.11. Простая эвристика для выбора модели классификации текста: отношение количества обучающих образцов к среднему количеству слов в образце

Поэтому .для .задачи .классификации, .когда .обучающая .выборка .включает. 100.000.документов.со.средней.длиной.1000.слов.(отношение.100),.лучше.использовать.модель.биграмм..Она.также.будет.полезна.в.задаче.классификации. твитов,.в.среднем.состоящих.из.40.слов,.при.обучающей.выборке.в.50.000.твитов.(отношение.1250)..Но.если.размер.выборки.увеличится.до.500.000.твитов.