Определение популярности тем сайта посредством анализа его обратных ссылок
15

xml требует слишком больших объёмов памяти (около 50 гигабайт для коллекции статей на английском языке и около 15 гигабайт – на русском), в то время как база данных, содержащая только статьи из выбранных категорий, занимает менее 90 мегабайт. Кроме того, во многие категории (к примеру, связанные с информационными технологиями) часто добавляются новые статьи, и при необходимости обновить коллекцию статей требуется загрузка новой версии дампа.

Для каждой категории с помощью средств библиотеки wikitools [10] находится список принадлежащих ей статей, после чего загружается и записывается в базу данных название статьи, её содержимое и категория, к которой она принадлежит.

В результате коллекция статей на русском языке составила 3972 документов, на английском – 8275 документов.

Как можно заметить, одной из проблем использования коллекции статей из Wikipedia в качестве обучающих документов является неравное количество статей на русском и английском языках. К примеру, на русском языке существует 23 статьи, посвящённые информационному поиску, в то время как количество статей этой тематики на английском языке достигает 150. Потенциально это может являться серьёзной проблемой при работе с более редкими языками, так как выбранная категория может содержать слишком малое количество статей или не существовать вообще.

 

2.2 Стемминг и построение матрицы термин-документ

 

Построение матрицы термин-документ из коллекции статей происходит в несколько шагов:

  1. Из текста статьи удаляются знаки препинания, цифры и прочие символы, не являющиеся буквами, затем все буквы переводятся в нижний регистр. Для документов на русском языке буква «ё» заменяется на «е».