Оценка структуры классов
5

1.  Теоретическая часть

1.1 Понятие класса

Одним из основных понятий теории распознавания образов, относящимся к множеству объектов, явлений или ситуаций, которым присущи некоторые общие свойства, позволяющие объединить их как сходные, но в то же время отличать их от различных объектов. Для обозначения этого понятия используют термин "образ", а более употребительным является термин "класс".

Пусть Qj - класс. Он принадлежит множеству классов Q, т.е. Q = {Qj}. Индекс j позволяет отличить один класс от другого.

Распознаванием называется процедура отнесения конкретного объекта, явления или ситуации к одному из классов Oj из общей совокупности Q.

1.2 Таблицы экспериментальных данных и их предварительная обработка

Типичная форма при сборе экспериментальных данных - таблица "объект-признак", в которую заносятся значения признаков (свойств), характеризующие каждый исследуемый объект. Примерами признаков могут быть наличие или отсутствие симптома, "вес", "температура", "давление", "частота сердечных сокращений" и т.д. Под объектами могут рассматриваться любые проявления реального мира люди, нозологические формы, животные, изделия и пр. Таблицу такого вида принято называть таблицей экспериментальных данных (ТЭД).

При проведении реальных вычислительных экспериментов нельзя исключить возможность получения "артефактных" данных в ТЭД, например, в случае возникновения ошибок при регистрации соответствующих показателей. Для поиска в ТЭД искаженных данных можно использовать построение и визуальный анализ гистограмм распределений признаков. При этом ошибочным может считаться тот показатель, который не вписывается в общую картину закона распределения соответствующих признаков. Например, если признаки получены по нормальному (Гауссовскому) распределению, то за истинные данные можно принять интервал ±2 (где - стандартное отклонение). В этом случае все результаты за пределом данного интервала могут быть исключены из ТЭД. В то же время при исключении ошибочных данных, а также в ряде других случаев (данные невозможно было собрать или они утеряны) в ТЭД возникают пропуски, которые необходимо заполнить. Для заполнения пропусков можно использовать метод "максимального подобия". Суть метода состоит в том, что для восстановления утраченных данных в строках таблицы производится последовательный просмотр всех строк ТЭД с поиском той строки, которая не имеет пропусков и максимально похожа на восстанавливаемую строку с пропусками. При нахождении строки ТЭД удовлетворяющей указанным требованиям в строку с пропущенными данными копируются ячейки из найденной строки. Для нахождения строки с максимальным подобием можно использовать метод наименьших квадратов, в этом случае каждой строке ТЭД ставится в соответствие сумма квадратов отклонений (СКО) элементов заполняемой строки с соответствующими элементами всех строк ТЭД.