Определение популярности тем сайта посредством анализа его обратных ссылок
5

Постановка задачи

 

Процесс создания программного средства для автоматической классификации ссылающихся на заданный сайт страниц можно представить в виде следующего набора задач:

  • Создание обучающего множества документов:
    • выбор списка категорий из Wikipedia для заданной предметной области и получение содержащихся в них статей на русском и английском языках;
    • создание векторного представления полученных коллекций;
    • применение латентно-семантического индексирования для перевода документов коллекций в k-мерное пространство.
  • Получение и обработка содержимого web-страниц по заданному списку их адресов:
    • извлечение текста страниц;
    • определение языка, на котором написан текст каждой страницы;
    • создание векторного представления страниц;
    • перевод векторов страниц в k-мерное пространство;
    • построение классификатора для определения тематики каждой страницы;
    • анализ и интерпретация результата.