Определение популярности тем сайта посредством анализа его обратных ссылок
25

В ходе работы по указанному по списку категорий были составлены две коллекции статей из русскоязычной и англоязычной Wikipedia, насчитывающие 3972 и 8275 документов соответственно и посвящённые математике, физике и информационным технологиям. Далее с помощью латентно-семантического индексирования векторные представления данных коллекций были переведены в k-мерное пространство, где для коллекции русскоязычных статей значение k было выбрано равным 200, а для коллекции англоязычных статей – 350.

С использованием Mozscape API было получено и обработано содержимое каждой из страниц, содержащих обратные ссылки на проверяемый сайт, после чего для каждой страницы была определена тематика с помощью метода k ближайших соседей. Точность классификации составила 57.7% для страниц на русском языке и 65.9% – для страниц на английском.

Среднее время обработки обратных ссылок, количество которых не превышает нескольких сотен, начиная от нахождения ссылок и заканчивая выводом результатов, составляет 8 минут. В случае большого количества обратных ссылок имело бы смысл распараллелить процесс классификации, что может стать одним из направлений дальнейшей деятельности.

 

 

 

 

 

 

 

 

 

 

Заключение