Глава 1. Используемые методы
1.1 Модель векторного пространства и взвешивание терминов
Терминами (term) называются элементы, из которых состоит текст, являющиеся, как правило, обычными словами, числами, или выражениями вида «ABC-123». Словарь (dictionary) – это список терминов, встречающихся в коллекции документов.
Документ можно интерпретировать как вектор, состоящий из элементов, соответствующих каждому термину в словаре. Значением каждого элемента является вес термина, например, в простом случае, частота его встречаемости в документе. Представление множества документов в виде векторов в векторном пространстве, где каждому термину соответствует отдельная ось, называется моделью векторного пространства (vector space model).
Коллекцию документов можно представить в виде матрицы m×n, где m – количество слов в словаре, а n – количество документов в коллекции. Такая матрица называется матрицей термин-документ (term-document matrix).
Использование в матрице термин-документ частоты встречаемости слова в качестве его веса имеет серьёзный недостаток: такой подход подразумевает, что все слова в документе являются одинаково важными [1]. В то время как некоторые термины встречаются в коллекции документов слишком часто, чтобы их имело смысл учитывать при классификации или определении релевантности. Распространённым способом оценки значимости термина является метод tf-idf, использующий две величины:
tf (term frequency) – частота термина, в самом простом случае является количеством вхождений термина t в документ d.
idf (inverse document frequency) – обратная документная частота, которая вычисляется по формуле: