В ходе работы по указанному по списку категорий были составлены две коллекции статей из русскоязычной и англоязычной Wikipedia, насчитывающие 3972 и 8275 документов соответственно и посвящённые математике, физике и информационным технологиям. Далее с помощью латентно-семантического индексирования векторные представления данных коллекций были переведены в k-мерное пространство, где для коллекции русскоязычных статей значение k было выбрано равным 200, а для коллекции англоязычных статей – 350.
С использованием Mozscape API было получено и обработано содержимое каждой из страниц, содержащих обратные ссылки на проверяемый сайт, после чего для каждой страницы была определена тематика с помощью метода k ближайших соседей. Точность классификации составила 57.7% для страниц на русском языке и 65.9% – для страниц на английском.
Среднее время обработки обратных ссылок, количество которых не превышает нескольких сотен, начиная от нахождения ссылок и заканчивая выводом результатов, составляет 8 минут. В случае большого количества обратных ссылок имело бы смысл распараллелить процесс классификации, что может стать одним из направлений дальнейшей деятельности.
Заключение