Суббота, 18.01.2025, 05:11
| RSS
[SEARCH_TITLE]
[SEARCH_FORM]
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 1 из 1
  • 1
Архив - только для чтения
Реализация простейшего алгоритма распознавания графических о
SpaceДата: Воскресенье, 24.02.2008, 20:42 | Сообщение # 1








Зарегистрирован 25.12.2007
Группа: Администраторы
Сообщений: 1103
Статус: Offline
Реализация простейшего алгоритма распознавания графических образов

На написание данного материала меня подвигла одна, нередко встречающаяся в ответах на вопросы круглого стола портала "Королевство Delphi", фраза: "Если задумал написать свой ... - даже не берись. Дело безнадежное. Это не для одиночек, и тем более не для начинающих (нужна команда серьезных математиков и программистов). Что касается различных "know how", то вряд ли владеющий ими поделится с кем-либо. Такая информация стоит больших денег..."

На реализацию предлагаемого алгоритма у меня ушло примерно 15 часов. Вашему вниманию предлагается программа распознавания рукописных прописных русских букв и цифр на основе метода сравнения с эталонными изображениями соответствующих символов. Данный подход может быть использован для написания собственных модулей распознавания символов (в том числе рукописных) в разрабатываемом прикладном программном обеспечении. Ниже приведены основные моменты реализации предлагаемого алгоритма.

Создание полотна для рисования и формирование его образа в памяти

В качестве полотна используем класс TBitmap (для простоты работы с растровым изображением используем режим 1 байт на пиксель, то есть TBitmap.PixelFormat := pf8bit), визуализируем его на TPaintBox, отображаем в памяти при помощи структуры:

Code
type
MasX = PByteArray;
var
MasY: array of MasX // массив пикселей,
{
где MasY[y-коорд][x-коорд] = номер цвета в палитре
цветов (при 8 бит/пиксель). Отображение осуществляем
с использованием TBitmap.ScanLine (быстро и просто):
SetLength(MasY, TBitmap.Height);
for j := 0 to TBitmap.Height-1 do
MasY[j] := TBitmap.ScanLine[j];
}

Теперь с картинкой в виде матрицы X·Y можно делать все что угодно...

Формирование массива эталонных образцов символов

Эталонные образцы будем формировать на основе матрицы размером 16·16 пикселей. Для этого разработаем процедуру генерации такой матрицы по произвольному изображению эталона. Функция Create_16x16(Img: TBitmap): TMas16x16 получает в качестве параметра ссылку на картинку, на которой нарисован эталон символа (в нашем случае - программно), возвращает сгенерированную матрицу размером 16·16 пикселей.

Кратко поясним работу функции (более полно смотрите комментарии в исходных кодах программы). Получаем ссылку на растровое изображение и осуществляем формирование его образа в памяти (смотрите выше). Вычисляем координаты границ прямоугольника сформированного образа (эталонного или распознаваемого) путем сканирования строк/столбцов. При этом здесь, а также в дальнейшем анализе изображения, предполагается, что символ нарисован черным цветом (цвет с кодом 0 в палитре цветов) и соответственно все значащие пиксели имеют значение 0.

Code
for j := 0 to Img.Height-1 do // Top
begin
for i := 0 to Img.Width-1 do
if MasY[j][i] = 0 then
begin
yTop := j;
break;
end;
if yTop = j then break;
end;

for j := Img.Height-1 downto 0 do // Bottom
begin
for i := 0 to Img.Width-1 do
if MasY[j][i] = 0 then
begin
yBottom := j + 1;
break;
end;
if yBottom = j + 1 then break;
end;

for i := 0 to Img.Width-1 do // Left
begin
for j := 0 to Img.Height-1 do
if MasY[j][i] = 0 then
begin
xLeft := i;
break;
end;
if xLeft = i then break;
end;

for i := Img.Width-1 downto 0 do // Right
begin
for j := 0 to Img.Height-1 do
if MasY[j][i] = 0 then
begin
xRight := i + 1;
break;
end;
if xRight = i + 1 then break;
end;

Для дальнейшего анализа потребуется некий критерий, по которому будет производиться свертка исходного изображения символа в матрицу 16·16 пикселей. Таким критерием был выбран общий процент заполнения обслуживаемой области изображения, то есть отношение количества значимых пикселей (из которых состоит символ) к общему количеству пикселей в описанном вокруг исходного изображения прямоугольнике. Данный параметр может влиять на качество распознавания, причем если он равен 1 (или принудительно делается более нее), распознаваемому символу будет соответствовать меньшее количество возможных альтернатив, при значении меньшем 1 - наоборот. В нашем случае коэффициент поправки, призванный намеренно занизить упомянутый параметр менее единицы при любом варианте заполнения обслуживаемой области изображения, принят равным 0,99.

Code
nSymbol := 0;
for j := yTop to yBottom do
for i := xLeft to xRight do
if MasY[j][i] = 0 then inc(nSymbol);
Percent := nSymbol/((yBottom-yTop)*(xRight-xLeft));
Percent := 0.99 * Percent;

Далее разбиваем прямоугольник с изображением символа на 16·16 ячеек путем деления сторон новой ячейки на 2. Запоминаем относительные координаты каждой ячейки и приступаем к заполнению матрицы 16·16. Принимаем в качестве критерия общий процент заполнения. Если в анализируемой ячейке процент заполнения больше, чем общий процент - соответствующий элемент матрицы 16·16 устанавливается в 1, в противном случае - в 0.

Остальная часть алгоритма касается вопросов рисования на TBitmap букв или цифр (в цикле), запоминания в массиве матриц 16·16 пикселей, соответствующих каждому эталонному символу (смотрите приведенный код).

Распознавание рисованных (от руки) символов

Распознавание осуществляем путем сравнения матрицы 16·16 пикселей распознаваемого символа с матрицей эталона (путем перебора имеющихся в наличии). Сравнение производим поэлементно при помощи операции xor. Результат - матрица 16·16, содержащая единицы в местах несовпадений тестируемого символа и эталона. Путем подсчета количества несовпадений формируем вектор, содержащий эту информацию для каждого эталонного символа, и производим сортировку его элементов по возрастанию количества несовпадений.

Параметр (1-Result[i]/256)*100%, где Result[i] - количество несовпадений для i-го символа, показывает "вероятность" соответствия образа конкретному символу.

Демонстрационная программа

На рисунке изображен пример работы демонстрационной программы. 1) Сгенерируйте массив шаблонов для букв или цифр, используя конкретный шрифт. 2) Нарисуйте от руки произвольную букву (русскую, прописную) или цифру. 3) Нажмите на кнопку "Анализ". 4) Исследуйте результат. 5) Очистите окно и повторите шаги 2-4.

Что дальше?

Данный алгоритм как простейший обладает рядом существенных ограничений. Для повышения точности распознавания отдельных символов (не слов, это другая задача, в каком-то смысле более простая), необходимо проводить дополнительный анализ значимых признаков, например симметричность образа (горизонтальная, вертикальная), наличие замкнутых областей в символах (например О, В, Д, Р и другие), количество отрезков и дуг, их взаимное расположение и ориентация (здесь потребуется векторизация изображения).

Буду рад, если этот материал кому-то пригодится. К материалу прилагаются файлы: Исходные коды проекта (5,8kb).
Источник: http://www.aimatrix.nm.ru/aimatrix/SimpleOCRAlgorithm.htm

Прикрепления: 5016003.gif (9.9 Kb)
 
LesДата: Вторник, 25.03.2008, 16:00 | Сообщение # 2








Группа: Удаленные
Считается, что задача зрения может быть решена только с помощью РС с платой видеоввода, установленного на роботе, но с помощью высокоскоростных контроллеров Scenix сейчас появилась возможность установить камеру даже на робот на микроконтроллере PIC16F84 или AVR.

Разработка университета Карнеги-Меллона CMUCAM и CMUCAM 2 основана на связке из цветной видеокамеры на ПЗС матрице и контроллера Scenix SX28. Контроллер камеры соединяется с контроллером робота по протоколу RS-232. Контроллер позволяет например отслеживать линию или объект заданного цвета, распознавать объекты, использовать камеру для навигации. Есть возможность напрямую подключать к камере стандартный сервопривод, напрмер для режима слежения и наведения на объект

Прикрепления: 9914697.jpg (21.9 Kb)
 
SpaceДата: Четверг, 27.03.2008, 12:20 | Сообщение # 3








Зарегистрирован 25.12.2007
Группа: Администраторы
Сообщений: 1103
Статус: Offline
Очень интересный материал. Имеется даже программа. Чему я был удивлён http://www.gonka.ru/nick/glaz/
 
  • Страница 1 из 1
  • 1
Поиск: