Оценка структуры классов

(1.4)

Использование первых двух методов обычно производится в качестве предварительного анализа. Так, использование селекции признаков по относительному дисперсионному разбросу позволяет выявить представительность отдельных признаков как внутри класса, так и вне его, построение векторов парной корреляции – оценить величины линейных зависимостей между исходными признаками. Однако первый метод не позволяет оценить величины линейной зависимости между сходными классификационными переменными, а также оставляет в генерируемой совокупности признаки, положительно не влияющие на вероятность правильной классификации в конечном итоге. Использование второго метода позволяет выявить существующие линейные зависимости между исходными классификационными переменными, однако данный метод не обладает возможностью оценки информативности отдельного признака. Раздельное применение данных методик в качестве критерия отбора иногда приводит к получению противоречивых результатов, а в то время как и совместно взятые, в рамках одного метода, не лишены определенных недостатков.

3. По информационному показателю силы влияния (ИПВ). Данный критерий отсева основывается на свойствах информационной энтропии и заключается в следующем: для каждого признака хi (i=1..n, где n – общее количество признаков) строится гистограмма его значений, по которой оценивается общая энтропия Эi:

(1.5)

где P(i) - вероятность нахождения значения признака в заданном интервале.

Поступая аналогичным образом в каждом классе, получаем внутриклассовые энтропии Эк (к=1..m, где m - общее количество классов). Тогда показатель неэнтропии будет найден из следующего выражения:

(1.6)

где N – общее количество объектов во всех классах, k – количество классов, ni – количество объектов в i-ом класса (i=l..k), Эki – внутриклассовая энтропия.

Отсюда имеем показатель информативной силы влияния (ИПВi):

(1.7)

на основании которого выбирается оптимальный набор признаков, с максимальными значениями показателя ИПBi.

Скачать Содержание