Определение популярности тем сайта посредством анализа его обратных ссылок
9

document matrix), и они могут быть использованы для определения отношений между двумя терминами и двумя документами соответственно [3].

При записи сингулярного разложения удобно выразить матрицу Σ в виду матрицы размера r×r, где r – ранг матрицы C, поскольку все остальные элементы, кроме расположенных на диагонали сингулярных значений, равны нулю, а так же равны нулю все диагональные элементы при . Соответственно, можно проигнорировать столбцов матрицы , расположенных справа, так как они соответствуют нулевым строкам матрицы Σ. Аналогично можно поступить с правыми столбцами матрицы , поскольку в матрице они соответствуют строкам, которые умножаются на нулевые столбцы матрицы Σ. Подобную форму записи называют усечённым сингулярным разложением (truncated SVD).

Для перевода матрицы в k-мерное пространство строится её сингулярное разложение, после чего в матрице Σ заменяются нулями наименьших значений на диагонали.

Вектор запроса или документа в k-мерное представление отображается с помощью преобразования

.

Таким образом, существует возможность постепенного добавления новых документов в полеченное с помощью LSI представление коллекции. Однако подобное преобразование не позволяет учитывать совместную встречаемость терминов в новых документах, а так же игнорирует новые термины, которые они содержат. Следовательно, при значительном количестве новых документов возникает необходимость повторного проведения LSI.

 

Значение числа k зависит от размера и природы коллекции документов и подбирается эмпирически, однако является, как правило, намного меньшим, чем ранг матрицы