© Сергей Яковлев, 2004

Использование этой информации в коммерческих целях запрещенно. Но Вы можете копировать и перерабатывать данную статью в научных и образовательных целях, с последующим предоставлением результата на тех же правах. Для подробной информации см. Авторское право.

СИСТЕМА РАСПОЗНАВАНИЯ ДВИЖУЩИХСЯ ОБЪЕКТОВ НА БАЗЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ[]

С. Яковлев, Mg.sc.comp. e-mail: : sergeyk@fis.lv, tac@inbox.lv

Аннотация. Разработаны методы с более высокой скоростью работы по сравнению с методами «перцептрон» и «угловая классификация». Реализованы основы системы распознавания образов в динамической последовательности изображений (РОДПИ). Для этого проведены серии экспериментов, выдвинут и экспериментально подтвержден ряд гипотез, следствия которых применимы в архитектуре реализованной системы

Введение[]

В данной статье с одной стороны рассматривается модель зрения – перцептрон Розенблата [1] с некоторыми усовершенствованиями [2]. С другой стороны, модель памяти – угловая классификация СС4 (Cornel Classification) [3] - дополняет этот подход, показывая особенности интеллекта, не заметные в модели перцептрона.

Метод СС4 положил начало методу под названием CCM (Cornel Classification In Model) [4], в котором основной упор был сделан на увеличение скорости работы. В статье приведены сравнительные характеристики упомянутых методов и их вариаций. Но наибольшего внимания заслуживает возможность совмещения метода ССМ и перцептрона, а также формирование единицы восприятия «нейрон». С помощью модели восприятия под условным названием «нейрон» решается задача восстановления и анализа изображения. Эти задачи решаются в условиях, когда распознаваемый объект находится в движении.

Работа алгоритма ССМ, и последующее совмещение алгоритмов СС4 с перцептроном, основывается на следующих принципах:

Расчет активности среднего слоя нейронной сети математическим способом, без полного перебора элементов сети;
Применение αγ – системы подкрепления, которая не позволяет бесконечно увеличиваться весам AR связей, что ускоряет сходимость при обучении в несколько раз;
Разделение нейронной сети на блоки, каждый из которых ответственнен за свою ограниченную область. Такое разделение существенно уменьшает время распознования по сравнению с неразделенной нейронной сетью;
Уменьшение А – элементов в нейронной сети почти вдвое по сравнению с минимально необходимым числом (на каждый стимул по одному А - элементу).

Данные принципы позволяют существенно увеличить скорость работы нейронной сети без существенной потери качества и отказа распознавать.

Сравнение различных версий методов, основанных на методе ССМ[]

Характерной чертой классических методов является низкая скорость работы. Поэтому первой задачей стала разработка таких методов, которые работали бы с высокой скоростью и при этом, по возможности, не теряли бы качества по сравнению с классическими методами. Было разработано несколько различных методов, но основой их стал метод ССМ, который, в свою очередь, основывался на принципах угловой классификации. В таблице 1 отражены характеристики работы предложенных методов по сравнению с методами перцептрон и угловая классификация.

RecognitionDynamic t1 — **Таблица 1**.Характеристики разработанных методов

Данные результаты получены на основании экспериментов по решению задачи восстановления изображений. Следует отметить, что метод ССМ3 дает наилучшее качество, но низкую скорость, а совмещение методов «перцептрон+ССМ», дает высокую скорость без падения качества. Поэтому он и был положен в основу модели восприятия «нейрон».

Основы системы, которая восстанавливает и анализирует несколько движущихся объектов[]

Постановка задачи[]

Модельная ситуация: Человек видит передвижение объекта (как минимум три статических изображения). Данный объект человек отличает из общего фона местности за счет того, что он движется. Этот объект сохраняется в памяти человека, но не целиком, а частично, так как память человека ограничена по объему. Таким образом, человек видит и запоминает несколько объектов, причем объекты могут повторяться, но на разном фоне. Затем человеку показывают изображение одного из двух запомненных объектов, и он должен воссоздать в зрительной памяти как можно точнее соответствующий объект и сказать, что это за объект.

Чтобы решить данную задачу, ее следует разбить на следующие шесть технических задач:

Отбор изображения объекта из общего фона на основании трех статических изображений, где объект движется.
Выбор случайной последовательности и запоминание случайных точек (определенных выбранной случайной последовательностью) в нейронной сети, моделирующей память. Количество точек определяется доступным размером памяти, но желательно не менее 10% от общего количества точек.
Выбор конкретных точек (например, точки расположены линиями, образующими сетку на изображении) и запоминание цвета данных точек в нейронной сети, с целью на такую стимуляцию получить реакцию в виде случайной последовательности, выбранной в п. 2.
На основании показанных изображений, а точнее, цвета точек на изображении (например, точки расположены линиями, образующими сетку на изображении), определить какой это объект – первый или второй.
На основании определенной в п. 4. случайной последовательности воссоздать изображение, запомненное в нейронной сети.

Рассмотрим подробнее данные задачи. Первая задача решается с помощью детерминированного алгоритма – детектора движения (см. раздел 3.3.). Задачи 2 и 5, а также задачи 3 и 4, представляют собой задачу восстановления и анализа объектов, и их описание вынесено в дальнейшие соответствующие разделы.

Модель восприятия – «Нейрон»[]

«Нейрон» представляет собой абстрактную единицу некоторой системы («Внешнего мира»), которая имеет некоторые способности, основанные на самообучении, и выполняет определенную часть предметной задачи. Структурно «нейрон» является целой искусственной нейронной сетью, но так как он является обобщенной единицей предметной задачи, то для простоты он назван просто «нейрон».

Сложность задачи, которую может решать отдельный «нейрон», определяется в основном количеством элементов для запоминания (А-элементов среднего слоя нейронной сети). Экспериментально было определено, что при количестве 2000 элементов «нейрон» показывает хорошие результаты в плане производительности. При большем количестве элементов, хоть и решается более сложная задача, но скорость экспоненциально падает.

Основные принципы работы «нейрона» такие же, как в методе ССМ, но кроме него применяется перцептроное обучение - системы подкрепления для AR связей. Это позволяет использовать «нейрон» в трех режимах:

Точное сравнение новых объектов с запомненными объектами;
Нечеткое сравнение (определенное матрицей М) новых объектов с запомненными объектами;
Нечеткое сравнение, сжатием информации, посредством обобщения данных.

Первые два режима обеспечиваются методом ССМ, а третий с помощью перцептроного обучения. Регулируются они коэффициентом обобщения . Уровень активности А-элементов при к=1 такой, что возбуждаются только те А-элементы, которые точно совпадают со сравниваемым объектом. При к=2 возбуждаются те А-элементы, которые близки по значению со сравниваемым объектом. При к=3 уровень активности А-элементов практически случайный, что позволяет для перцептрона создать определенную непротиворечивую G-матрицу. Это, в свою очередь, позволяет применить перцептроное обучение. Обучение позволяет сократить количество А-элементов. Теоретически, чтобы процесс обучения сходился, нужно иметь как минимум столько же А-элементов, сколько имеется объектов для запоминания, т.е. на каждый элемент запоминания по одному А-элементу. Иначе процесс сходимости не гарантируется. Но практически получается сократить число А-элементов на 80%, при этом в 95% случаев процесс обучения сходится без проблем.

Таким образом, «нейрон» обладает 1000 А-элементов, может запомнить 1800 объектов, и имеет три низкоуровневые функции сравнения.

Алгоритм детектора движения (ДД)[]

Задача решается с помощью детерминированного алгоритма. На вход подаются три статических изображения размером 640х480 и 256 цветовой гаммой (рис.1), полученные с помощью видеокамеры. Детектор движения находит движущийся объект и подает его на вход системы. Как видно, объект может быть частично поврежден из-за помех в статических изображениях (например, тенями, отбрасываемыми объектом во время передвижения). Более хорошего изображения можно добиться, если увеличить число анализируемых статических изображений, т.е. увеличить время наблюдения за объектом.

Задача восстановления[]

RecognitionDynamic 1 — Рис. 1. Архитектура системы «Распознавания образов в динамической последовательности».

Задачи 2 и 5 являются, соответственно, обучением нейронной сети и ее экзаменацией, где на вход подается случайная последовательность координат точек , а на выходе имеем воссозданный образ объекта. Область видимости человека в нашей модельной ситуации составляет 256х256 точек. Каждая модель восприятия «нейрон» контролирует область 64х64 точек. Таким образом, необходимо 16 «нейронов», чтобы полностью контролировать область видимости. Для этой задачи «нейроны» работают в режиме нечеткого сравнения сжатием информации. Основной характеристикой проведенного обучения является сходимость. На рис.2. представлены 16 кривых, соответствующих сходимости 16 «нейронов». Следует отметить, что αγ – система подкрепления, предложенная автором, позволяет сократить процесс обучения как минимум в 2 раза, а как максимум в 5 раз, по сравнению с α – системой подкрепления. Кроме того, сходимость преимущественно имеет вид экспоненциальной кривой. Данная закономерность сохраняется до того момента, пока в «нейроне» есть свободная память (А-элементы). Когда вся память заполнена «нейрон» выдает ошибку, меньше одной тысячи (число А-элементов). После этого процесс запоминания усложняется и основывается на такой настройке весовых коэффициентов, при котором нет противоречий между запоминаемыми объектами.

Различия в сходимости 16-ти «нейронов» возникают из-за разной насыщенности и сложности соответствующего участка изображения. Это видно на рис.1 блок – 16 «Neuron», где сходимости «нейронов» изображены соответственно области изображения, которую они контролируют. Таким образом, характеристика сходимости позволяет судить о сложности соответствующих областей объекта и его контурах. Это может быть использовано в задаче анализа, когда нужно найти одинаковые объекты.

В процессе экзаменационной проверки были получены результаты, представленные на рис. 3–6. Таким образом, задача восстановления решена, причем следует отметить, что скорость восстановления ≈30 сек., а качество восстановления – удовлетворительное, то есть не хуже, чем дают другие классические методы.

Рис.2.Экспоненциальный вид сходимости при обучении для всех «нейронов». E – количество ошибок, i – номер итерации

Рис. 3. Результат эксперимента № 1	Рис. 4. Результат эксперимента № 2
Рис. 5. Результат эксперимента № 3	Рис. 6. Результат эксперимента № 4

Задача анализа[]

Задачи 3 и 4 являются также соответственно обучением нейронной сети и ее экзаменацией, но здесь на вход подается цветовая сетка изображения, а на выходе получаем номер объекта (что это за объект) и соответствующую случайную последовательность точек, а точнее, коэффициент (размером в 32 бита), подавая который в функцию генерации случайных чисел, получаем случайную последовательность точек. Объединяя задачи 2, 3, 4, 5 графически, получим систему - рис.7.

RecognitionDynamic 7 — Рис.7. Графическое представление задач восстановления и анализа

Кроме значения цвета, на вход подается еще расположение данной точки (x,y). Без этого нейронная сеть обладала бы только информацией об общей цветовой гамме изображения, а для различения объектов такой информации хватило бы только при небольшом количестве объектов в памяти. Качество распознавания объектов также зависит от количества точек, поданных с показываемого изображения. Максимальным является размер сетки 16х16 – для области 64х64 (контролируемой одним нейроном), т.е. каждая четвертая точка.

RecognitionDynamic 8 — Рис.8. Отнесение "нейроном" показываемого изображения к запомненным (Цветовая сетка 4х4)

Вероятность отнесения какого-либо объекта к одному из запомненных рассчитывается, исходя из того, сколько из 16 нейронов высказались в пользу того или иного объекта. Каждый нейрон исходит из того числа совпадений, которое получает при сравнении в своей области. На рис.8 видно, что при сетке 4х4 линий при показе первого изображения система из 16 нейронов приходит к выводу, что это изображение равноценно первому с ≈50% вероятностью по сравнению с другими, и третьему ≈30% вероятности, а 2-ому и 4-ому менее 5%. Это означает, что 1-е и 3-е изображения сходны, что и было в эксперименте – на 1-ом и 3-ем изображении был один и тот же объект “заяц”, но на разном фоне. Аналогичные результаты и для 2-ого и 4-ого изображения, в которых был объект “обезьяна”, но тоже на разных фонах.

Заключение[]

Подводя итоги, можно сказать, что получена высокая скорость распознавания без заметного ухудшения качества изображения при восстановлении. Предложенный подход позволяет находить и выделять из фона движущиеся объекты. Заложены основы системы, которая выполняет низкоуровневые операции при идентификации движущихся объектов. Это позволяет в дальнейшем проектировать более сложные системы, в которых система РОДПИ является базовой системой, при решении элементарных операций по воcстановлению и анализу объектов, находящихся под видео наблюдением.

Список литературы[]

Розенблатт Ф. (1965). Принципы нейродинамики (Перцептроны и теория механизмов мозга), Мир, Москва.
Jakovlev S. (2000). Efficiency analysis of a perceptron model in multiparameter classification tasks. Scientific proceedings of Riga Technical University, Issue 5, Vol.2, RTU, Riga, P. 93-99.
Subhash C. Kak. (1998). On generalization by neural networks, Information Sciences, 111, P.293-302.
Яковлев С. (2002). Способ математического расчета уровня активации нейронной сети – ССМ. Proceedings of the International Conference “Traditions and Innovations in Sustainable Development of Society. Information Technologies”, Rezekne, February 28 – March 2, P. 187-194.

Сергей Яковлев:Статья:RecognitionDynamic

Содержание