Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пример диплома ПиИТ v0.1.doc
Скачиваний:
2
Добавлен:
20.08.2019
Размер:
1.39 Mб
Скачать

4.3. Пример использования

На данный момент модуль по автоматическому определению рубрики у введенного объявления доступен только из локальной сети компании, так как проходит этап тестирования.

На рисунке 4.3 представлен результат работы модуля по автоматической классификации текстов объявлений по рубрикам.

Рис.4.3. Вывод максимальных вероятностей для рубрик

Демонстрация результатов работы модуля по тестовому объявлению «Требуется на работу бухгалтер» приведена в приложении 6.

5. Оценка качества рубрицирования

Глава типа «эксперимент» (как эта) бывает не во всех работах. В данной работе она нужна, чтобы экспериментально проверить результаты. В вашей работе, возможно, результаты можно показать иначе – к примеру, главой «Интерфейс», которая покажет скриншоты и опишет систему с т.з. пользователя.

В данной главе описанная в главе 4 платформа используется для проведения экспериментов, результаты которых позволят оценить качество рубрикатора. Эксперименты были проведены на текстах двух типов, описание которых было дано в главе 2.

Выбор первого типа текстов объявлений обусловлен большим количеством подобных текстов в базе данных объявлений. Выбор же второго типа текстов обусловлен тем, что данные тексты похожи на те, которые будут вводиться пользователем (например, в системе контекстной рекламы).

Кроме того, для каждого типа текстов будут проверены несколько алгоритмов:

  • прибавление единицы в случае отсутствия слова в обучающей выборке (с учетом и без учета априорной вероятности выбора рубрики);

  • замена вероятности вхождения слова в рубрике на малую величину в случае отсутствия этого слова в обучающей выборке (с учетом и без учета априорной вероятности выбора рубрики).

Эксперимент №1. Шаблонные тексты объявлений, классифицируемые по алгоритму с прибавлением единицы без учета априорной вероятности выбора рубрики.

Входные данные:

  • количество объявлений в обучающей выборке: 151 546;

  • количество объявлений в тестовой выборке: 10 044;

  • количество рубрик: 103.

В результате проведения эксперимента были получены следующие данные:

  • время классификации текстов объявлений: 31 мин. 54 сек.;

  • время на классификацию одного объявления: 0,19 сек;

  • количество правильно отрубрицированных текстов объявлений: 6199;

  • процент правильно отрубрицированных текстов объявлений (полнота): 61,72%.

В табл. 5.1 представлен результат для рубрик с наибольшим количеством объявлений в обучающей выборке.

Табл. 5.1. Результаты эксперимента №1 для популярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Легковые автомобили (21 499)

27

23,89

25,35

Требуются на работу (17 603)

48

46,6

47,29

Гаражи, автостоянки. Продажа

(5 093)

59

53,15

55,92

Запчасти для легковых автомобилей (4 841)

89

89

89

Поиск работы (4 568)

95

95

95

Детские товары (4 127)

71

48,68

57,76

Участки под застройку (3 925)

100

100

100

Квартиры в Воронеже. 1-комнатные (3 400)

91

91

91

Квартиры в Воронеже. 2-комнатные (3 382)

97

97

97

Мебель для дома (3 294)

30

30

30

Шины, диски (3 101)

77

70,64

73,68

В табл. 5.2 представлен результат для рубрик с наименьшим количеством объявлений в обучающей выборке.

Табл. 5.2. Результаты эксперимента №1 для непопулярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Консультации, репетиторство (43)

100

51,37

67,87

Дачи внаем (60)

80

42,86

55,82

Семена, саженцы (64)

98

40,65

57,46

Бытовые услуги (66)

100

78,18

87,75

Мужская обувь (76)

100

100

100

Транспорт в аренду (80)

100

100

100

Хозяйственные, прочие товары (81)

62

39,37

48,16

Деловые предложения (85)

100

92

95,83

Банковские, финансовые услуги (92)

100

54,86

70,85

Гаражи, автостоянки. Обмен (97)

100

99

99,5

Из результатов видно, что данный алгоритм не подходит, так как качество классификатора не удовлетворяет поставленной задаче.

Эксперимент №2. Шаблонные тексты объявлений, классифицируемые по алгоритму с прибавлением единицы с учетом априорной вероятности выбора рубрики.

Входные данные:

  • количество объявлений в обучающей выборке: 151 546;

  • количество объявлений в тестовой выборке: 10 044;

  • количество рубрик: 103.

В результате проведения эксперимента были получены следующие данные:

  • время классификации текстов объявлений: 30 мин. 50 сек.;

  • время на классификацию одного объявления: 0,18 сек;

  • количество правильно отрубрицированных текстов объявлений: 986;

  • процент правильно отрубрицированных текстов объявлений (полнота): 9,82%.

В табл. 5.3 представлен результат для рубрик с наибольшим количеством объявлений в обучающей выборке.

Табл. 5.3. Результаты эксперимента №2 для популярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Легковые автомобили (21 499)

100

100

100

Требуются на работу (17 603)

100

100

100

Гаражи, автостоянки. Продажа

(5 093)

68

61,26

64,45

Запчасти для легковых автомобилей (4 841)

31

31

31

Поиск работы (4 568)

86

86

86

Детские товары (4 127)

3

2,19

2,53

Участки под застройку (3 925)

95

95

95

Квартиры в Воронеже. 1-комнатные (3 400)

89

89

89

Квартиры в Воронеже. 2-комнатные (3 382)

99

99

99

Мебель для дома (3 294)

0

0

Не определена

Шины, диски (3 101)

0

0

Не определена

Для остальных рубрик результаты являются неудовлетворительными. Из этого можно сделать вывод о том, что учет априорной вероятности, при использовании алгоритма с прибавлением единицы, улучшает показатели классификатора только при условии примерно одинакового количества объявлений в обучающей выборке для каждой рубрики.

Эксперимент №3. Шаблонные тексты объявлений, классифицируемые по алгоритму с заменой нулевой вероятности появления слова в рубрике на малую величину без учета априорной вероятности выбора рубрики.

Входные данные:

  • количество объявлений в обучающей выборке: 151 546;

  • количество объявлений в тестовой выборке: 10 044;

  • количество рубрик: 103.

В результате проведения эксперимента были получены следующие данные:

  • время классификации текстов объявлений: 30 мин. 11 сек.;

  • время на классификацию одного объявления: 0,18 сек;

  • количество правильно отрубрицированных текстов объявлений: 8430;

  • процент правильно отрубрицированных текстов объявлений (полнота): 83,93%.

В табл. 5.4 представлен результат для рубрик с наибольшим количеством объявлений в обучающей выборке.

Табл. 5.4. Результаты эксперимента №3 для популярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Легковые автомобили (21 499)

56

56

56

Требуются на работу (17 603)

98

98

98

продолжение таблицы 5.4

Гаражи, автостоянки. Продажа

(5 093)

95

85,59

90,05

Запчасти для легковых автомобилей (4 841)

94

94

94

Поиск работы (4 568)

98

98

98

Детские товары (4 127)

95

69,34

80,17

Участки под застройку (3 925)

91

91

91

Квартиры в Воронеже. 1-комнатные (3 400)

93

93

93

Квартиры в Воронеже. 2-комнатные (3 382)

92

92

92

Мебель для дома (3 294)

83

83

83

Шины, диски (3 101)

93

93

93

В табл. 5.5 представлен результат для рубрик с наименьшим количеством объявлений в обучающей выборке.

Табл. 5.5. Результаты эксперимента №3 для непопулярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Консультации, репетиторство (43)

100

74

85,06

Дачи внаем (60)

88,3

47,32

61,62

Семена, саженцы (64)

100

65

78,79

Бытовые услуги (66)

71,2

47

56,62

Мужская обувь (76)

75

57

64,77

Транспорт в аренду (80)

92,5

74

82,22

Хозяйственные, прочие товары (81)

100

82

90,11

Деловые предложения (85)

100

92

95,83

продолжение таблицы 5.5

Банковские, финансовые услуги (92)

100

73,88

84,98

Гаражи, автостоянки. Обмен (97)

46

45

45,49

Результаты по всем рубрикам приведены в приложении 7.

Из результатов эксперимента видно, что использование алгоритма с заменой нулевой вероятности на малую величину положительно отражается на качестве рубрикатора. По сравнению с алгоритмом, который применялся в первом эксперименте, использование алгоритма с заменой нулевой вероятности на малую величину повысило полноту (количество верно отрубрицированных объявлений) и точность (отношение количества верно отрубрицированных объявлений к количеству всех отнесенных к рубрике объявлений).

Эксперимент №4. Шаблонные тексты объявлений, классифицируемые по алгоритму с заменой нулевой вероятности появления слова в рубрике на малую величину с учетом априорной вероятности выбора рубрики.

Входные данные:

  • количество объявлений в обучающей выборке: 151 546;

  • количество объявлений в тестовой выборке: 10 044;

  • количество рубрик: 103.

В результате проведения эксперимента были получены следующие данные:

  • время классификации текстов объявлений: 29 мин. 57 сек.;

  • время на классификацию одного объявления: 0,18 сек;

  • количество правильно отрубрицированных текстов объявлений: 8340;

  • процент правильно отрубрицированных текстов объявлений (полнота): 83,03%.

В табл. 5.6 представлен результат для рубрик с наибольшим количеством объявлений в обучающей выборке.

Табл. 5.6. Результаты эксперимента №4 для популярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Легковые автомобили (21 499)

66

66

66

Требуются на работу (17 603)

99

99

99

Гаражи, автостоянки. Продажа

(5 093)

95

85,59

90,05

Запчасти для легковых автомобилей (4 841)

96

96

96

Поиск работы (4 568)

98

98

98

Детские товары (4 127)

95

69,34

80,17

Участки под застройку (3 925)

91

91

91

Квартиры в Воронеже. 1-комнатные (3 400)

94

94

94

Квартиры в Воронеже. 2-комнатные (3 382)

95

95

95

Мебель для дома (3 294)

89

89

89

Шины, диски (3 101)

94

94

94

В табл. 5.7 представлен результат для рубрик с наименьшим количеством объявлений в обучающей выборке.

Табл. 5.7. Результаты эксперимента №4 для непопулярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Консультации, репетиторство (43)

100

73

84,39

продолжение таблицы 5.7

Дачи внаем (60)

86,7

46,43

60,47

Семена, саженцы (64)

93,8

60

73,19

Бытовые услуги (66)

72,7

48

57,82

Мужская обувь (76)

73,7

56

63,64

Транспорт в аренду (80)

88,8

71

75,91

Хозяйственные, прочие товары (81)

96,3

78

86,19

Деловые предложения (85)

100

92

95,83

Банковские, финансовые услуги (92)

100

73,13

84,48

Гаражи, автостоянки. Обмен (97)

44,3

43

43,64

Результаты по всем рубрикам приведены в приложении 8.

Из результатов эксперимента видно, что учет априорной вероятности выбора рубрики при использовании алгоритма с заменой нулевой вероятности появления слова в рубрике на малую величину немного ухудшают показатели классификатора при работе с рубриками, для которых количество объявлений в обучающей выборке мало. Но, с другой стороны, этот алгоритм улучшает показатели классификатора для больших рубрик.

Следующая серия экспериментов была проведена для неструктурированных текстов.

Эксперимент №5. Неструктурированные тексты объявлений, классифицируемые по алгоритму с прибавлением единицы без учета априорной вероятности выбора рубрики.

Входные данные:

  • количество объявлений в обучающей выборке: 28 761;

  • количество объявлений в тестовой выборке: 3 324;

  • количество рубрик: 37.

В результате проведения эксперимента были получены следующие данные:

  • время классификации текстов объявлений: 14 мин. 23 сек.;

  • время на классификацию одного объявления: 0,26 сек;

  • количество правильно отрубрицированных текстов объявлений: 2000;

  • процент правильно отрубрицированных текстов объявлений (полнота): 60,16%.

В табл. 5.8 представлен результат для рубрик с наибольшим количеством объявлений в обучающей выборке.

Табл. 5.8. Результаты эксперимента №5 для популярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Требуются на работу (6 690)

95

96,36

95,68

Строительные материалы (1 972)

33

32,67

32,83

Строительные услуги (1 228)

0

0

Не определена

Квартиры от застройщиков (973)

84

44,4

58,09

Туризм. Путешествия. Отдых (819)

82

78,85

80,39

В таблице 5.9 представлен результат для рубрик с наименьшим количеством объявлений в обучающей выборке.

Таблица 5.9. Результаты эксперимента №5 для непопулярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Легковые автомобили на запчасти (6)

100

7

13,08

продолжение таблицы 5.9

Шины, диски (12)

100

11,76

21,05

Ритуальные услуги (47)

89

31,58

46,62

Дома. Продажа (49)

59

25,66

35,77

Запчасти для грузовых автомобилей (49)

55

24,77

34,16

Наихудший результат показан у одной рубрики – «Квартиры в Воронеже. 2-комнатные». Точность и полнота у этой рубрики равны по 1%. Кроме того, качество рубрикатора, работающего по данному алгоритму, не удовлетворяет поставленной задаче.

Эксперимент №6. Неструктурированные тексты объявлений, классифицируемые по алгоритму с прибавлением единицы с учетом априорной вероятности выбора рубрики.

Входные данные:

  • количество объявлений в обучающей выборке: 28 761;

  • количество объявлений в тестовой выборке: 3 324;

  • количество рубрик: 37.

В результате проведения эксперимента были получены следующие данные:

  • время классификации текстов объявлений: 12 мин. 27 сек.;

  • время на классификацию одного объявления: 0,22 сек;

  • количество правильно отрубрицированных текстов объявлений: 806;

  • процент правильно отрубрицированных текстов объявлений (полнота): 24,26%.

В табл. 5.10 представлен результат для рубрик с наибольшим количеством объявлений в обучающей выборке.

Табл. 5.10. Результаты эксперимента №6 для популярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Требуются на работу (6 690)

100

100

100

Строительные материалы (1 972)

28

28

28

Строительные услуги (1 228)

0

0

Не определена

Квартиры от застройщиков (973)

86

45,5

59,51

Туризм. Путешествия. Отдых (819)

38

36,54

37,26

В табл. 5.11 представлен результат для рубрик с наименьшим количеством объявлений в обучающей выборке.

Табл. 5.11. Результаты эксперимента №6 для непопулярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Легковые автомобили на запчасти (6)

83

5

9,43

Шины, диски (12)

100

11,76

21,05

Ритуальные услуги (47)

17

6

8,87

Дома. Продажа (49)

12

5,3

7,35

Запчасти для грузовых автомобилей (49)

6

2,8

3,82

Неудовлетворительные результаты классификатор показал практически для всех рубрик. Поэтому данный алгоритм при подборе рубрик для введенных объявлений использоваться не будет.

Эксперимент №7. Неструктурированные тексты объявлений, классифицируемые по алгоритму с заменой нулевой вероятности появления слова в рубрике на малую величину без учета априорной вероятности выбора рубрики.

Входные данные:

  • количество объявлений в обучающей выборке: 28 761;

  • количество объявлений в тестовой выборке: 3 324;

  • количество рубрик: 37.

В результате проведения эксперимента были получены следующие данные:

  • время классификации текстов объявлений: 12 мин. 19 сек.;

  • время на классификацию одного объявления: 0,22 сек;

  • количество правильно отрубрицированных текстов объявлений: 3107;

  • процент правильно отрубрицированных текстов объявлений (полнота): 93,51%.

В табл. 5.12 представлен результат для рубрик с наибольшим количеством объявлений в обучающей выборке.

Табл. 5.12. Результаты эксперимента №7 для популярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Требуются на работу (6 690)

100

90,9

95,23

Строительные материалы (1 972)

99

99

99

Строительные услуги (1 228)

85

59,03

69,67

Квартиры от застройщиков (973)

89

47,09

61,59

Туризм. Путешествия. Отдых (819)

100

96,15

98,04

В табл. 5.13 представлен результат для рубрик с наименьшим количеством объявлений в обучающей выборке.

Табл. 5.13. Результаты эксперимента №7 для непопулярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Легковые автомобили на запчасти (6)

100

6

11,32

Шины, диски (12)

100

11,76

21,05

Ритуальные услуги (47)

96

33,83

50,03

Дома. Продажа (49)

100

43,36

60,49

Запчасти для грузовых автомобилей (49)

98

44,03

60,76

Результаты по всем рубрикам приведены в приложении 9.

Из результатов эксперимента видно, что использование алгоритма с заменой нулевой вероятности появления слова в рубрике на малую величину без учета априорной вероятности выбора рубрики для неструктурированных текстов намного улучшает качество рубрикатора по сравнению с алгоритмами, которые применялись в экспериментах 5 и 6.

Эксперимент №8. Неструктурированные тексты объявлений, классифицируемые по алгоритму с заменой нулевой вероятности появления слова в рубрике на малую величину с учетом априорной вероятности выбора рубрики.

Входные данные:

  • количество объявлений в обучающей выборке: 28 761;

  • количество объявлений в тестовой выборке: 3 324;

  • количество рубрик: 37.

В результате проведения эксперимента были получены следующие данные:

  • время классификации текстов объявлений: 12 мин. 22 сек.;

  • время на классификацию одного объявления: 0,22 сек;

  • количество правильно отрубрицированных текстов объявлений: 3118;

  • процент правильно отрубрицированных текстов объявлений (полнота): 93,81%.

В табл. 5.14 представлен результат для рубрик с наибольшим количеством объявлений в обучающей выборке.

Табл. 5.14. Результаты эксперимента №8 для популярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Требуются на работу (6 690)

100

90,9

95,23

Строительные материалы (1 972)

100

100

100

Строительные услуги (1 228)

86

59,72

70,49

Квартиры от застройщиков (973)

91

48,15

62,98

Туризм. Путешествия. Отдых (819)

100

96,15

98,04

В табл. 5.15 представлен результат для рубрик с наименьшим количеством объявлений в обучающей выборке.

Табл. 5.15. Результаты эксперимента №8 для непопулярных рубрик

Название рубрики (количество объявлений в обучающей выборке)

Полнота, %

Точность, %

F-мера, %

Легковые автомобили на запчасти (6)

100

6

11,32

Шины, диски (12)

100

11,76

21,05

Ритуальные услуги (47)

96

33,83

50,03

Дома. Продажа (49)

100

43,36

60,49

Запчасти для грузовых автомобилей (49)

98

44,04

60,77

Результаты по всем рубрикам приведены в приложении 10.

Из результатов эксперимента видно, что учет априорной вероятности в алгоритме классификации улучшает качество рубрикатора для рубрик с большим числом объявлений в обучающей выборке и никак не отражается на рубриках с малым количеством объявлений.

Эксперимент №9. Сравнение показателей работы реализованного модуля с OracleText.

OracleText – это дополнение для СУБД Oracle. Одно из возможных использований данного дополнения – это классификация текстов, основанная на алгоритме выделения правил для рубрик. В табл. 5.16 приведен сравнительный анализ показателей разработанного модуля и OracleText.

Табл. 5.16. Результаты эксперимент№9

Разработанный модуль

OracleText

Полнота, %

84,03

85

Среднее время классификации одного объявления (сек)

0,18

8

Таким образом, полнота реализованного модуля и OracleText практически совпадают. Но велика разница в среднем времени классификации одного объявления. Результат, показанный OracleText, является неприемлемым для того, чтобы использовать это дополнение для рубрикации объявлений, введенных на сайте.

В табл. 5.17 приведены сводные данные по рассмотренным в данной главе экспериментам по оценке качества рубрикатора (эксперименты 1–8).

Табл. 5.17. Сводная таблица по результатам оценки качества рубрикатора

Использованный алгоритм

Полнота, %

Точность, %

F-мера, %

Шаблонные тексты

С прибавлением единицы без учета априорной вероятности

61,72

54,62

57,95

С прибавлением единицы с учетом априорной вероятности

9,82

9,97

9,89

С заменой нулевой вероятности на малую величину без учета априорной вероятности

84,03

77,76

80,77

С заменой нулевой вероятности на малую величину с учетом априорной вероятности

83,03

77,54

80,19

Неструктурированные тексты

С прибавлением единицы без учета априорной вероятности

60,16

42,99

50,15

С прибавлением единицы с учетом априорной вероятности

24,26

16,38

19,56

С заменой нулевой вероятности на малую величину без учета априорной вероятности

93,51

70,25

80,23

С заменой нулевой вероятности на малую величину с учетом априорной вероятности

93,81

70,43

80,46

Более низкий процент качества при классификации шаблонных текстов можно объяснить тем, что разработанный рубрикатор обучается и работает не по шаблонам, лежащим в основе построения текстов объявлений, а по входящим в объявление словам.

Таким образом, для классификации шаблонных текстов объявлений лучше всего использовать алгоритм с заменой нулевой вероятности появления слова в рубрике на малую величину (как с учетом априорной вероятности выбора рубрики, так и без ее учета). Для классификации неструктурированных текстов объявлений лучше всего использовать алгоритм с заменой нулевой вероятности появления слова в рубрике на малую величину с учетом априорной вероятности выбора рубрики.