Определение популярности тем сайта посредством анализа его обратных ссылок
7

Глава 1. Используемые методы

 

1.1 Модель векторного пространства и взвешивание терминов

 

Терминами (term) называются элементы, из которых состоит текст, являющиеся, как правило, обычными словами, числами, или выражениями вида «ABC-123». Словарь (dictionary) – это список терминов, встречающихся в коллекции документов.

Документ можно интерпретировать как вектор, состоящий из элементов, соответствующих каждому термину в словаре. Значением каждого элемента является вес термина, например, в простом случае, частота его встречаемости в документе. Представление множества документов в виде векторов в векторном пространстве, где каждому термину соответствует отдельная ось, называется моделью векторного пространства (vector space model).

Коллекцию документов можно представить в виде матрицы m×n, где m – количество слов в словаре, а n – количество документов в коллекции. Такая матрица называется матрицей термин-документ (term-document matrix).

 

Использование в матрице термин-документ частоты встречаемости слова в качестве его веса имеет серьёзный недостаток: такой подход подразумевает, что все слова в документе являются одинаково важными [1]. В то время как некоторые термины встречаются в коллекции документов слишком часто, чтобы их имело смысл учитывать при классификации или определении релевантности. Распространённым способом оценки значимости термина является метод tf-idf, использующий две величины:

tf (term frequency) – частота термина, в самом простом случае является количеством вхождений термина t в документ d.

idf (inverse document frequency) – обратная документная частота, которая вычисляется по формуле: