Определение популярности тем сайта посредством анализа его обратных ссылок
19

Как было указано в главе 1, параметр k, представляющий собой размерность нового пространства, зависит от конкретного приложения и выбирается эмпирически. В данной задаче было использовано значение 200 для русского языка и 350 – для английского, полученные экспериментальным путём. Подобную разницу можно объяснить тем, что коллекция англоязычных статей превышает коллекцию русскоязычных более чем в два раза, а размерность пространства должна быть определена индивидуально для каждой коллекции [4]. Выше приведены графики с результатами для различных размерностей (от 50 до 1000) и различного количества соседей в методе k-ближайших соседей (от 5 до 101).

Результатом SVD являются три матрицы: (m×k), (k×k) и (k×n), каждая из которых хранится отдельно и может быть использована для сравнения между собой терминов или документов, а так же для перевода новых документов в k-мерное пространство.

 

2.5 Получение обратных ссылок

 

Процесс нахождения и классификации страниц с обратными ссылками будем рассматривать на примере сайта apmath.spbu.ru.

Для нахождения обратных ссылок на страницы проверяемого сайта используется Mozscape API [16], бесплатная версия которого позволяет получить до 1000 ссылок. Данный API возвращает информацию, представленную в следующем виде:

 

[{"lrid":1453515601063,"lsrc":299624838372,"ltgt":315337794412,"luuu":"www.apmath.spbu.ru/ru/misc/markov.html","us":200,"uu":"en.wikipedia.org/wiki/Andrey_Markov"},{"lrid":1453515497001,"lsrc":299630087770,"ltgt":315337792325,"luuu":"www.apmath.spbu.ru/ru/","us":200,"uu":"en.wikipedia.org/wiki/Saint_Petersburg_State_University"}]