Оглавление
Введение....................................................................3
Постановка задачи............................................................5
Обзор литературы............................................................6
Глава 1. Используемые методы.................................................7
1.1 Модель векторного пространства и взвешивание терминов.....................7
1.2 Латентно-семантическое индексирование...................................8
1.3 Метод k ближайших соседей..............................................10
1.4 Оценка качества классификации..........................................12
Глава 2. Реализация.........................................................14
2.1 Создание обучающего множества документов...............................14
2.2 Стемминг и построение матрицы термин-документ...........................15
2.3 Обработка матрицы.....................................................16
2.4 Латентно-семантическое индексирование..................................17
2.5 Получение обратных ссылок..............................................19
2.6 Векторное представление страниц........................................20
2.7 Перевод в k-мерное пространство.........................................21
2.8 Классификация.........................................................21
2.9 Интерпретация результатов..............................................22
Выводы....................................................................24
Заключение.................................................................25
Список литературы..........................................................27
Приложение 1...............................................................29