Определение популярности тем сайта посредством анализа его обратных ссылок
21

После обработки всех страниц, содержащих обратные ссылки, строятся две матрицы термин-документ для страниц на русском и английском языках. Подробно этот процесс был описан в параграфе 2.2.

Единственное отличие состоит в том, что количество строк матрицы известно изначально и равняется количеству слов в словаре. Соответственно, при заполнении матрицы учитываются только уже имеющиеся в словаре слова.

Размер матрицы для страниц на русском языке составил 20833×149, для страниц на английском языке – 32309×44.


2.7 Перевод в k-мерное пространство

 

Для перевода нового документа в k-мерное пространство используются матрицы Σ и , полученные после сингулярного разложения обучающей коллекции:
 

Размеры полученных матриц составляют 200×149 и 350×44 для русского и английского языков соответственно.

 

2.8 Классификация

 

С помощью метода k ближайших соседей находятся категории для каждой из страниц, при этом векторы, представляющие страницы, сравниваются со столбцами матрицы , полученной в результате сингулярного разложения. В качестве меры близости используется косинусная мера. Число соседей для классификации русскоязычных страниц было выбрано равным 65, для классификации англоязычных - равным 89, поскольку для данных и близких к ним значений был получен наилучший результат (см. рис. 2.4.1 и 2.4.2 параграфа 2.4) . Кроме того, выбранные значения приблизительно равны квадратным корням из числа обучающих документов обоих коллекций