Определение популярности тем сайта посредством анализа его обратных ссылок
11

При использовании данного метода необходимо иметь обучающее множество (training set) документов, т.е. множество документов, для которых класс заранее определён экспертом. Для нахождения класса нового документа последовательно выполняются следующие действия:

  1. Вычисляется расстояние до каждого из документов с уже определённым классом. В данной работе в качестве меры расстояния используется косинусная мера сходства (cosine similarity):

  1. Отбираются первые k документов, ранжированных по возрастанию расстояния.
  2. Определяется класс, наиболее часто встречающийся среди k ближайших соседей.

 

В случае, когда , документу присваивается тот же класс, к которому принадлежит его ближайший сосед, однако, при этом значении метод неустойчив, так как ближайший обучающих документ может содержать много «шумов» или быть нетипичным для своего класса. При k, равному количеству обучающих документов, каждому классифицируемому документу присваивает класс, содержащий больше всего членов, поэтому крайние значения k нежелательны.
Параметр k часто определяется экспериментально или на основании знаний о решаемой задаче классификации, при этом желательно, чтобы он был нечётным, так как это уменьшает вероятность «ничьей». Одним из возможных подходов является выбор в качестве k квадратного корня из числа документов обучающего множества [7].

Важной особенностью метода является отсутствие стадии обучения, и предварительная подготовка сводится к выбору числа k. Временная сложность метода линейно зависит от размеров обучающего множества и не зависит от количества классов, следовательно, при большом количестве классов метод имеет потенциальные преимущества