Определение популярности тем сайта посредством анализа его обратных ссылок
5
Постановка задачи
Процесс создания программного средства для автоматической классификации ссылающихся на заданный сайт страниц можно представить в виде следующего набора задач:
-
Создание обучающего множества документов:
- выбор списка категорий из Wikipedia для заданной предметной области и получение содержащихся в них статей на русском и английском языках;
- создание векторного представления полученных коллекций;
- применение латентно-семантического индексирования для перевода документов коллекций в k-мерное пространство.
-
Получение и обработка содержимого web-страниц по заданному списку их адресов:
- извлечение текста страниц;
- определение языка, на котором написан текст каждой страницы;
- создание векторного представления страниц;
- перевод векторов страниц в k-мерное пространство;
- построение классификатора для определения тематики каждой страницы;
- анализ и интерпретация результата.