Using Tomography method in handwritten text recognition task icon

Using Tomography method in handwritten text recognition task


Смотрите также:
Составьте план текста, по которому будете пересказывать текст. Make the plan of the text...
1 contains ordinal number of the text in the table. In Column 2...
Сборник задач по аналитической геометрии и линейной алгебре [Text] : учебное пособие / ред. Ю. М...
Note: The translated text is provided only as a guide to the customer...
< type="text/css"> a: link { font-family: arial cyr,arial, tahoma, verdana...
< type="text/css"> a: link { font-family: arial cyr,arial, tahoma, verdana...
The main task of the engineer is to outline the constraints on a design. (c)...
National Information Center on Academic Recognition and Mobility...
Http://www eparhia-saratov ru/index php?option=com content&task=view&id=5838&Itemid=323...
Recursive system linearization on basis of iterative operator method...
Опасный метод /a dangerous method...
Арнольд Эрет



Загрузка...
скачать

Обработка и передача изображений




Using Tomography method in handwritten text recognition task

Zharkikh A., Kolpakchi S.

Murmansk State Technical University,

Dept. higher mathematics and computer software.

The term tomography is applied in cases when internal structure of object is restored by results of its scanning. Scanning results fixed by physical devices. The internal structure of object is represented in the form of the image got after processing of measurements by hardware and software.

In this paper we propose the idea to use tomography for the analysis of digital images with the purpose of recognition of symbols of the hand-written text. It is proposed to replace physical rays with their digital models. Thus the results of indications of physical devices are replaced with calculations. The data got after scanning by model rays is used by two stages of recognition. The space of attributes of research objects standards (e.g. text symbols) is formed at the first stage. Standard attributes and research objects are compared at the second stage. The advantage of the proposed approach is that the number of model rays significantly smaller (up to several orders) than number of pixels of the analyzed image. Therefore, the number of the performed operations in the proposed method is smaller than the number of pixel by pixel comparing operations, while comparing digital images by l2 metric.

The traditional method of a tomography proposes that the internal structure of object is unknown in advance and we restore it by measurements results. The tomography method based on method of pattern recognition assumes that the structure of the research images is known to us in advance. We form the set of the attributes, which are the numbers of the research object intersections with the model rays. Thus on the one hand the number of rays we choose to form the attributes should be not very large to accelerate the algorithm and otherwise not very small to raise the quality of recognition. The possibility of restoring the internal structure of object in the given method allows to estimate visually how adequately the space of attributes of the standard is selected at the stage of the bank of standards forming. The possibility of restoring the internal structure of object is not used at the stage of recognition.

This paper presents the results of experiments, which show the efficiency of Russian alphabet letters comparing by the proposed method and pixel by pixel comparing. The results of method with different number of model rays sources are given.

The algorithm can be improved by a direct tomography method in addition. It will be necessary when the part of the image recognition parameters is random or parts of the digital image are lost. The proposed method can be used not only for the purpose of handwritten text recognition, but also for recognition of other objects.




^ СЕГМЕНТАЦИЯ ЛАНДШАФТНЫХ ИЗОБРАЖЕНИЙ НА ОСНОВЕ ФРАКТАЛЬНОГО ПОДХОДА

Фаворская М.Н.

ГОУ ВПО «Сибирский государственный аэрокосмический университет

имени академика М.Ф. Решетнева (СибГАУ)»

Процесс сегментации можно считать связующим звеном между предварительной обработкой изображений (устранение шумов, глобальное и локальное восстановление изображения или видеопоследовательности) и распознаванием объектов, основанном на параметрическом, стохастическом, структурном и прочих подходах. Несмотря на то, что понятие сегментации существует достаточно давно и известно множество работ, посвященных данному вопросу, нельзя сказать, что задача решена и найдены приемлемые решения хотя бы для некоторых видов изображений (реалистичных, текстурных, моделируемых). Это обусловлено, прежде всего, сложностью проблемы и желанием определить классифицирующие признаки уже на этапе сегментации.

Ландшафтные изображения можно интерпретировать как совокупность текстурных фрагментов естественного происхождения и искусственных объектов. В зависимости от задачи, решаемой системой распознавания, большее внимание уделяется той или иной составляющей. В данном случае рассмотрим процесс анализа текстурных фрагментов, которые занимают на таких изображениях значительное место. Известны следующие подходы к анализу текстур:

– структурный подход представляет текстуру как совокупность хорошо разделяемых примитивов (микротекстура), которые иерархически объединяются в пространственные упорядоченные структуры (макротекстура) [3]. Для описания текстуры необходимо определить примитивы и правила их объединения. Структурный подход предоставляет хорошее символическое описание изображения, но не приемлем для анализа естественных изображений;

– статистический подход основан на вычислении порядковых статистических признаков изображения. Яркостные матрицы смежности позволяют учесть местоположение пикселей с равными или близкими значениями яркостей. Выяснено, что статистики выше второго порядка являются более важными;

– подход, основанный на моделях (фрактальных и стохастических). К наиболее популярным стохастическим моделям сегментации текстурных изображений можно отнести модель случайных марковских полей и модель случайных полей на основе гауссиана. Основной трудностью применения стохастических моделей является вычислительная сложность оценки параметров. Фрактальная модель применяется для описания изотропных естественных текстур. В работе [5] показано, что фрактальная размерность не чувствительна к изменениям масштаба, а естественные текстуры имеют линейную логарифмическую зависимость пространственного спектра мощности. Фрактальные модели описывают текстуры, имеющие высокую степень нерегулярности. Широко известна обобщенная фрактальная модель броуновского движения;

– подход, использующий преобразования. Сюда можно отнести преобразования Фурье, фильтры Габора, вейвлет-анализ и др. Методы, основанные на Фурье-преобразовании, не учитывают пространственную локализацию. Фильтры Габора обеспечивают лучшие значения пространственной локализации, но не пригодны для анализа естественных текстур. По сравнению с фильтрами Габора, вейвлет-преобразования имеют некоторые преимущества, заключающиеся в возможности представления текстуры в удобном масштабе и наличии широкого выбора вейвлет-функций.

В последние годы для анализа природных объектов все чаще используют методы фрактальной геометрии. Многие авторы отмечают, что большинство естественных поверхностей являются пространственно изотропными фракталами и что двумерные поля интенсивностей от таких поверхностей также являются фракталами. На сегодняшний день проведены достаточно полные исследования методов описания и кластеризации текстур, однако процесс сегментации изображений, включающих как текстурные фрагменты, так и изображения объектов искусственного происхождения, рассмотрен недостаточно полно. Сложность обработки таких изображений связана с тем, что, как правило, нельзя построить глобальную фрактальную модель всего изображения. Общая стратегия состоит в том, чтобы для найденных опорных точек оценить параметры локальных фрактальных моделей, произвести выращивание регионов с близкими параметрами, классифицировать их и провести сегментацию изображения. Причем, в случае ландшафтных изображений часто не требуется устанавливать точные границы между сегментами.

Для сегментации ландшафтных изображений целесообразен трехуровневый подход, включающий следующие этапы [2]:

– предсегментация, состоящая в поиске опорных точек и выращивании регионов;

– сегментация, заключающаяся в получении локальных признаков регионов и слиянии регионов;

– постсегментация, предназначенная для окончательного уточнения контуров на изображении и формировании значимых для последующего распознавания сегментов.

Целями предсегментации являются получение априорной информации о характеристиках регионов на изображении (их размерах, положении, наборах текстурных признаков), определение количества значимых регионов, определение координат опорных точек. Предлагается проводить этап предсегментации на основе гауссовой пирамиды. В работе [4] вводится понятие масштабно-инвариантной функции L(x,y,), которая определяется как свертка гауссиана G(x,y,) с интенсивностью входного изображения I(x,y), где  – среднеквадратичное отклонение. Далее находится масштабно-пространственный экстремум функции D(x,y,), вычисляемой как функция разности гауссианов при постоянном мультипликативном факторе k:

D(x,y,)=(G(x,y,k)–G(x,y,))I(x,y)= L(x,y,k)– L(x,y,).

Показано, что разность гауссианов является близким приближением к масштабно нормализованному по фактору 2 лапласиану гауссиана 22G. При этом и, следовательно,

Значения максимума и минимума функции 22G являются более стабильными признаками изображения, чем значения градиента или функции определения углов.

Этап сегментации предназначен для получения локальных фрактальных признаков текстурных фрагментов (хотя не следует исключать из рассмотрения и другие признаки). Статистическая модель броуновского фрактального процесса описывается случайной функцией и имеет два дополнительных свойства относительно физической модели броуновского движения: каждый элемент статистически подобен другим элементам и они статистически инварианты к преобразованиям масштаба. Тем не менее, следует учитывать, что изображения естественных ландшафтов являются фрактальными в ограниченной шкале масштабов. Известны усложненные мультифрактальные статистические оценки фрактальных параметров, к основным из которых относятся H – показатель Херста, D – фрактальная размерность, D0 – топологическая размерность [1]. Для измерения фрактальной размерности обычно применяются три алгоритма: метод покрытия поверхности эталонами; дисперсионное масштабирование, основанное на оценке закона функции распределения средних квадратов и оценка фрактальной размерности D по степени аппроксимирующего полинома для спектра мощности процесса. В настоящее время первый способ наиболее распространен. Однако сама по себе фрактальная размерность недостаточна для классификации текстуры. Разные фрактальные образования могут иметь одинаковую размерность D, но при этом резко различающуюся текстуру. Необходимо ввести новые признаки, основанные на концепции заполнения (лакунарности, lacunarity), которые используют статистику второго порядка для фрактальных поверхностей. Интересным исследованием является работа [6], авторы которой ввели понятие локальных инвариантных фрактальных признаков для описания текстуры и используют двумерную статистику, вычисляющую вероятность того, что m точек внутри диска с радиусом r сосредоточены вокруг опорной точки поверхности изображения. Отметим, что изображения искусственных объектов не являются фракталами.

После сегментации на изображении могут оставаться малые по размеру регионы, которые затрудняют последующее распознавание объектов. Основная задача постсегментации состоит в окончательном принятии гипотезы о количестве значимых для распознавания текстурных сегментов и объектов искусственного происхождения.

Отметим, что представленные подходы используют в качестве априорной информации интенсивность полутоновых изображений. Поэтому при наличии цветных изображений требуется переход от модели цветовых составляющих (RGB-модель) к моделям, учитывающим интенсивность (HSI- или YUV-модели). Преимуществом таких моделей является то, что в них яркостная информация (интенсивность) отделена от цветовой информации (цветовой тон, насыщенность), что дополнительно позволяет скомпенсировать эффекты освещенности. Был разработан комплекс программ, реализующий методы обработки ландшафтных изображений на основе теории фрактальной геометрии. Проведенные экспериментальные исследования показали целесообразность изложенного подхода к сегментации реалистичных ландшафтных изображений.

Литература

  1. Потапов А.А. Фракталы в радиофизике и радиолокации: Топология выборки. Изд. 2-е, перераб. и доп. – М.: Университетская книга, 2005. – 848 с.

  2. Фаворская М.Н. Стратегии сегментации двумерных изображений // Материалы Всероссийской научной конференции «Модели и методы обработки изображений ММОИ-2007». Красноярск, 2007. – с. 136–140.

  3. Haralick R.M. Statistical and Structural Approaches to Texture // Proc. IEEE, Vol. 67, № 5, 1979. – p. 786–804.

  4. Lowe D.G. Distinctive Image Features from Scale-Invariant Keypoints // International Journal of Computer Vision, Vol. 60 (2), 2004. – p. 91–110.

  5. Pentland A.P. Fractal-Based Description of Natural Scenes // IEEE Trans. Pattern Analysis and Machine Intelligence, V. PAMI-6, № 6, 1984. – p. 661–674.

  6. Varma M., Zisserman A. A statistical approach to texture classification from single images // International Journal of Computer Vision, Vol. 62 (1–2), 2005. – p. 61–81.




^ SEGMENTATION OF LANDSCAPE IMAGES BASED ON FRACTAL APPROACH

Favorskaya M.

Siberian State Airspace University after academician M.F. Reshetnev (SibSAU)

Segmentation might be considered as the middle stage between image preprocessing (noise filtration, global and local reconstruction of image or video) and objects recognition based on parametric, stochastic, structural and others approaches. A number of papers have used multivariate methods of segmentation, but acceptable decisions are not founded for realistic, texture and modeling images. It’s determined by complexity of problem and wish to define classifying features during segmentation stage.

Landscape images contain images of nature texture and projections of manned objects. Well known approaches for texture analysis are structural approach which represents texture by small-defined primitives (microtexture) and a hierarchy of spatial arrangements (macrotexture) of those primitives, statistical approach based on ordinal statistical features (prefer on second-order statistics), model based texture analysis using fractal (unifying Fractional Brownian motion) and stochastic (Markov Random Fields, model random fields based on Gaussian) models and transform methods of texture analysis, such as Fourier, Gabor and wavelet transforms.

The most of nature surfaces are spatial isotropic fractals and their two-dimensional fields of intensity are also fractals. Extended research of methods for texture description and classification was completed, but segmentation of complex images requires future investigations. The proposed three-level approach for segmentation of landscape images has following stages:

1. Pre-segmentation. The points of interest are found and regions are grown. Pre-segmentation based on Gaussian pyramid is defined the scale-space function L(x,y,) from the convolution of variable-scale Gaussian G(x,y,), with an input image I(x,y). The difference-of-Gaussian function provides a close approximation to the scale-normalized Laplacian of Gaussian, 22G. It has been shown that the maxima and minima of 22G produce the most stable image features compared to another functions, such as the gradient or corner function.

2. Segmentation. Local fractal features of regions are calculated and received regions are joined. The statistical model of Fractional Brownian motion is described by undetermined function and has two additional properties relative to physical model of Brownian motion. Each element is statistically similar to others elements, and they are statistically invariant to scale transforms. Nevertheless, take into account that nature landscape images are fractals in restricted scale range. Multi-scale statistical estimations of fractal features are H – Hurst index, D – fractal dimension, D0 – topological dimension. Three algorithms are usually used for measure fractal dimension; there are the methods of cover surface by patterns, of dispersion scaling and of approximate polynomial for capacity spectrum. But fractal dimension is insufficient for texture classification; it’s necessary to introduce features based on conception of lacunarity. M.Varma and R.Gung proposed the approach based on the assumption that, the given a suitable measure, the “size” of local point sets in textural images follows a local power law used the local fractal dimension. It is significant that images of manned objects are not fractals.

3. Post-segmentation. Small regions which make difficult the following pattern recognition may stay on images. The main aim of post-segmentation is consist of setting up the finished hypotheses about number of essential for recognition nature texture segments and manned objects.

All proposed approaches use the magnitude of intensity of gray-level images as a priori information. That’s why the processing of color images is required transformation from RBG-model to HIS- or YUV-models. The advantage of these models is that luminance (intensity) is separate from color information (hue, saturation) and permit to compensate illumination effects. The experiments with developed software realizing methods of landscape image processing based on fractal geometry demonstrate good results of suggested approach for segmentation of realistic landscape images.




^ ИССЛЕДОВАНИЕ ПОМЕХОУСТОЙЧИВОСТИ РАНГОВЫХ ОПЕРАТОРОВ

Кузьмин С.А.

Санкт-Петербургский Государственный Университет Аэрокосмического Приборостроения

К числу наиболее часто используемых операций при анализе изображений относятся алгоритмы ранговой обработки, в частности операции математической морфологии. Ранговые операторы используются для подавления шумов, повышения средней связности объектов (заполнение дыр в объектах, заполнение разрывов между частями объектов), выделения контуров, выявления определенных конфигураций пикселей в изображений (морфологическая операция hit-and-miss) и т.д.

При решении практических задач сразу становится очевидной низкая помехоустойчивость базовых операций математической морфологии – наращивания и эрозии. Рассмотрим эти операции подробнее. Операция наращивание представляет собой запись в выходное изображение максимальной яркости в окрестности текущего пикселя. Операция эрозия представляет собой запись в выходное изображение минимальной яркости в окрестности текущего пикселя. Запишем эти операции с помощью понятия вариационного ряда совокупности из отсчетов яркости (см. [1 с. 238-239]), т.е. последовательности упорядоченных по неубыванию чисел . Для обозначения ранговых операторов будем использовать запись , где - индекс (ранг) отсчета ряда, который будет являться выходным значением рангового фильтра (порядковой статистикой). Тогда операция наращивание записывается формулой , а операция эрозия формулой .

Рассмотрим случай зашумления исходного изображения шумом «соль»:

, где - яркость пикселя выходного изображения, - яркость входного изображения, - значение датчика случайных чисел для текущего пикселя, - численное значение вероятности повреждения изображения.

При применении операции «наращивание» будут усиливаться все шумы, при применении операции «эрозия» будут устраняться все шумы.

Рассмотрим случай зашумления исходного изображения шумом «перец»:

При применении операции «эрозия» будут усиливаться все шумы, при применении операции «наращивание» будут устраняться все шумы.

Проблемой является наиболее частый вариант, когда отклонения результата анализа изображения от изображения эталонного (ручного) анализа могут быть описаны смесью шумов соль и перец. Например, производится обнаружение объектов в видеопоследовательности (рис.1). Классификатор является неидеальным, то есть обнаруживает не все пиксели, находящиеся к объекту (ложные пропуски), а также ошибочно считает некоторые пиксели фона за части объекта (ложные тревоги). Примеры применения операций «эрозия» и «наращивание» показаны на том же рисунке, а также для сравнения приведены разработанные операции псевдонаращивание и псевдоэрозия, описанию которых и посвящен доклад.

Таким образом, возникает необходимость исследования ранговых операций с целью выбора более помехоустойчивых вариантов реализации эффектов, аналогичных результатам морфологических операций наращивания и эрозии.

Для проведения исследования было создано бинарное (черно-белое) изображение шириной 400 пикселей и высотой 250 пикселей, в котором количество белых пикселей было равно количеству черных пикселей. К созданному бинарному изображению была применена операция эрозия (маска 3х3 в форме квадрата). Результат этой операции был назван эталоном . К созданному бинарному изображению была применена операция наращивание (маска 3х3 в форме квадрата). Результат этой операции был назван эталоном .




Рис. 1. Левая колонка: кадр видеопоследовательности, выход простейшего (неидеального) алгоритма обнаружения. Средняя колонка: применение операции эрозия, применение операции псевдоэрозия (выбор 8-го ранга из 25). Правая колонка: применение операции наращивание, применение операции псевдонаращивание (выбор 18-го ранга из 25)

Затем бинарное изображение искажалось шумом типа «инверсия» с вероятностями 5, 10, 15, 20, 25, 30, 35 процентов. Шум типа «инверсия» представляет собой способ реализации идеальной смеси шумов «соль» и «перец» для бинарного изображения. Идеальным этот способ является потому, что при обычной смеси шумов «соль» и «перец» соль может попасть на белый пиксель и таким образом не исказить исходное изображение (аналогично перец может попасть на черный пиксель). Назовем событие неискажения яркости пикселя исходного изображения при применении генератора шума к текущему пикселю событием типа «холостой выстрел». Например, если в исходном изображении пикселей черного цвета гораздо больше, чем пикселей белого цвета, то шум типа «перец» окажет намного меньший эффект на изображение, чем шум типа «соль». Именно поэтому было создано изображение с одинаковым количеством белых и черных пикселей. В случае инверсии яркостей пикселей бинарного изображения с некоторой заданной вероятностью не будет событий типа «холостой выстрел». Итак, генератор шума типа «инверсия» записывается следующим образом: .

К каждому из полученных зашумленных изображений применялись ранговые фильтры , в которых выходное значение определялось выбранным рангом . Размеры масок ранговых фильтров в форме квадрата менялись: 9 (3х3), 25 (5х5), 49 (7х7).

В результате были получены наборы изображений . Например, для случая зашумления изображения с вероятностью =5% и размером маски =25 были получены 25 изображений для каждого из рангов. Полученные для этого случая изображения представлены на рис. 2. Эти изображения (результаты фильтрации зашумленного изображения ) сравнивались с двумя эталонами и , а также с исходным изображением . При сравнении рассчитывалась вероятность несовпадения эталона с профильтрованным зашумленным изображением , т.е. сумма вероятностей ложной тревоги и ложного пропуска. Таким образом, для каждой пары были построены три зависимости (от номера ранга): зависимость №1 вероятности несовпадения эталона c результатом обработки изображения ранговым фильтром , зависимость №2 вероятности несовпадения эталона c результатом обработки изображения ранговым фильтром , зависимость №3 вероятности несовпадения изображения c результатом обработки изображения ранговым фильтром . Примеры полученных зависимостей представлены на рис. 3.



Рис. 2. Набор изображений

Как видно из рис. 3, графики зависимостей №1 и №2 имеет минимумы: для зависимости №1 выбор ранга, соответствующего минимуму, реализует оператор псевдоэрозия; для зависимости №2 выбор ранга, соответствующего максимуму, реализует оператор псевдонаращивание. При увеличении уровня шума ранги, соответствующие минимумам зависимостей №1 и №2, приближаются к медиане вариационного ряда.



Рис. 3. Графики зависимостей для случаев и

Также стоит обратить внимание на медиану вариационного ряда, для которой наблюдается пересечение зависимостей №1 и №2, а также минимум зависимости №3. Известно, что медианный фильтр производит минимаксные оценки исходного сигнала по наблюдаемому зашумленному сигналу [2 с. 78], т.е. минимизирует максимальное отклонение профильтрованного зашумленного сигнала от исходного сигнала. Проведенное исследование подтвердило это свойство медианного фильтра.

Таким образом, в ходе исследования:

  1. обнаружены ранговые операции псевдонаращивание и псевдоэрозия, способные обеспечить эффект наращивания и эрозии в условиях импульсных шумов. Помехоустойчивые аналоги эрозии и наращивания приведены в таблице 1;

  2. подтверждена оптимальность медианного фильтра для фильтрации изображений, поврежденных смесью импульсных шумов «соль» и «перец».

Таблица 1. Помехоустойчивые операторы псевдонаращивание и псевдоэрозия




Размеры маски рангового фильтра

T, %

3х3

5х5

7х7

5

Псевдоэрозия n=3

Псевдонаращивание n=7

Псевдоэрозия n=8

Псевдонаращивание n=18

Псевдоэрозия n=18

Псевдонаращивание n=32

10

Псевдоэрозия n=4

Псевдонаращивание n=6

Псевдоэрозия n=9

Псевдонаращивание n=17

Псевдоэрозия n=19

Псевдонаращивание n=31

15

-

Псевдоэрозия n=10

Псевдонаращивание n=16

Псевдоэрозия n=20

Псевдонаращивание n=30

20

-

Псевдоэрозия n=11

Псевдонаращивание n=15

Псевдоэрозия n=21

Псевдонаращивание n=29

25

-

Псевдоэрозия n=12

Псевдонаращивание n=14

Псевдоэрозия n=22

Псевдонаращивание n=28

30

-

-

Псевдоэрозия n=23

Псевдонаращивание n=27

35

-

-

Псевдоэрозия n=24

Псевдонаращивание n=26

Литература

  1. Методы компьютерной обработки изображений/Под ред. В.А. Сойфера. – 2-е изд., испр. – М.: ФИЗМАТЛИТ, 2003. - 784с.

  2. Жданюк Б.Ф. Основы статистической обработки траекторных измерений. - М.: Советское радио, 1978. – 384 с., ил.




^ THE INVESTIGATION OF ROBUSTNESS TO NOISE OF RANKING OPERATORS

Kuzmin S.

Saint-Petersburg State University of Aerospace Instrumentation

Ranking operators are widely used for image analysis. The basis operations of mathematical morphology dilatation and erosion are very vulnerable to noise in binary image. The vulnerability is mostly significant than image is degraded by the mixture of “salt” and “pepper” noises. For this class of images any of basic morphological operation would increase level of one type of noise and at the same time it would decrease level of opposite type of noise.

The investigation of ranking operators should be done with the aim to find operators with high robustness to mixture of of “salt” and “pepper” noises. These operators should provide effects very close to ones of dilatation and erosion.

Binary image was created for this investigation. The characteristics of test image: width is 400 pixels, height is 250 pixels, the quantity of white pixels is equal to quantity of black pixels. Operation erosion was applied to image and the result of operation was denoted as test image. Operation dilatation was applied to image and the result of operation was denoted as test image .

Binary image was degraded by noise “invert” with probabilities 5, 10, 15, 20, 25, 30, 35 %. Noise “invert” is ideal mixture of “salt” and “pepper” noises for binary image. To every of noisy images were applied ranking operators. The result of ranking operator depends on chosen rank . The area of masks of ranking filters was varied: 9 (3х3), 25 (5х5), 49 (7х7). Results of processing were denoted as collections of images .

Images from each collection (the results of processing of noisy image ) were compared with images , , . The result of comparison is probability of difference between test image and image from collection . For each pair were calculated three plots (от номера ранга): plot №1 “probability of difference between test image and image from collection as function of rank”, plot №2 “probability of difference between test image and image from collection as function of rank”, plot №3 “probability of difference between test image and image from collection as function of rank”. Plots №1 и №2 have minimums: for then plot №1 the choice of rank, corresponding to minimum, produced the operator pseudo-erosion; for then plot №2 the choice of rank, corresponding to minimum, produced the operator pseudo-dilatation. The rise of noise level changes the form of plots – ranks, corresponding to minimums of plots №1 and №2, shifts toward the median of variational row. For the median of variational row we detect a crossing of plots №1 and №2, and minimum of plot №3.

The results of investigation:

  1. new ranking operations pseudo-dilatation and pseudo-erosion were developed. These operators can provide effects very close to ones of dilatation and erosion in presence of mixture of “salt” and “pepper” noises;

  2. our tests corroborated the optimality of median filter for filtration of images, degraded by mixture of “salt” and “pepper” noises.




^

Модификация индекса структурного подобия (MSSIM) на основе методов непараметрической статистики


Радченко Ю.С., Булыгин А.В., Радченко Т.А.

Воронежский государственный университет, 394693, Воронеж, пл. Университетская, 1.

1. Введение

При разработке автоматизированных систем оценки качества цифровых изображений, тестировании кодеков для сжатия видео, оценки качества систем передачи видеоинформации весьма актуальной является проблема построения объективного критерия качества изображений [1]. Сложность решения названной проблемы в том, что объективный критерий должен быть достаточно простым и одновременно хорошо соответствовать восприятию зрительной системы человека.

В последнее время среди специалистов по обработке изображений нашел признание критерии структурного подобия MSSIM, основанный на том, что зрительная система человека хорошо развита для определения структурной информации, хранящейся в изображении [2,3]. Как показали исследования, этот критерий вполне адекватно оценивают качество изображений при наличии искажений в виде гауссова шума. Однако при наличии импульсного шума, характерного при передаче изображений по радиоканалу и обусловленного пропаданием информации в отдельных пикселях, он дает заниженные значение качества.

В данной работе предложены модификации критерия MSSIM, основанные на непараметрических методах статистики.

^ 2 . Модификации MSSIM

Критерий структурного подобия MSSIM определяется путем усреднения индекса структурного подобия SSIM по всем блокам сравниваемых изображений X и Y:: . (1)

Значение SSIMj( x, y) для j- го блока вычисляется по формуле: SSIMj( x, y) = l( x, y)  c( x,y) s( x,y). (2)

Здесь l(x,y) функционал сравнения яркости, c(x,y) – функционал сравнение контрастности и s(x,y) – функционал сравнение структуры, j - номер блока.

В соответствии с [3] функционалы сравнения в блоках вычисляются следующим образом:

(3), где x, y , 2x , 2y – выборочные среднее и дисперсия значений яркостной компоненты для блоков изображений X и Y соответственно; xy - корреляционный момент между векторами значений в блоках; С1, С2, С3 –малые константы. С точностью до констант С3 функционал s(x,y) совпадает с выборочным коэффициентом корреляции Пирсона.

Выбор функционалов в виде (3) в качестве меры структурного различия наиболее обоснован при сравнении векторов значений, имеющих гауссово распределение. При неизвестных законах распределения целесообразно воспользоваться оценками соответствующих структурных характеристик на основе непараметрической статистики [5]. В частности, при наличии отдельных, резко отличающихся значений для оценки яркости целесообразно использовать выборочную медиану, а для оценки структурного подобия вместо коэффициента корреляции Пирсона – какой - либо из ранговых коэффициентов корреляции.

Нами предлагаются две модификации критерия структурного подобия MSSIM1 и MSSIM2.

Для MSSIM1 вместо (3) предлагается использовать функционалы:

, , , (4), где и - медианы векторов значений яркости в блоках изображений X и Y соответственно; , - медианы квадрата разности векторов значений яркости и медианы, – ранговый коэффициент корреляции Спирмена [5].

Для MSSIM1 предлагается использовать функционалы:

, , (5), т.е. функционал сравнение контрастности c(x,y) оставить тем же, что в MSSIM

Константы C1 и C2 в (4), (5) идентичны, используемым при подсчете MSSIM [3].

^ 3. Исследование критериев при наличии импульсных помех

При исследовании влияния импульсных помех на качество восстановленного изображения использовались критерии качества MSSIM, MSSIM1 и MSSIM2. Импульсный шум задавался двумя характеристиками: интенсивностью, определяемой вероятностью появления шума в пикселе p, и типом шума, имеющим три вариации: “соль”, “перец” и “соль/перец”. В качестве тестового изображения использовалось изображение «Лена». На рис. 1 представлены изображения, искаженные импульсным шумом.



a) b)

Рис. 1. Изображение «Лена»: a) шум - “перец”, p= 0,05, MSSIM = 0,371, MSSIM1 = 0,899, MSSIM2 = 0,902, b) шум - “соль/перец”, p=0,05. MSSIM = 0,315, MSSIM1 = 0,899, MSSIM2 = 0,898.

Как следует из рис.1, критерий MSSIM заметно занижает значение качества изображения, а MSSIM1 и MSSIM2 дают значения более адекватные зрительному восприятию и близкие между собой.

На рис. 2 представлены зависимости критериев MSSIM, MSSIM1, MSSIM2 от параметра интенсивности импульсного шума р. Практически во всем исследованном диапазоне изменений р значения MSSIM1 и MSSIM2 близки между собой ( для шума соль/перец сливаются в одну кривую)и значительно выше значений MSSIM.



а) b)

Рис.2. Зависимость значений критериев MSSIM, NSSIM1, MSSIM2 от интенсивности импульсного шума:
a) шум - “перец”, b)шум - “соль/перец”.

Что касается близости к зрительному восприятию человека, то при малых интенсивности шума (р0.1) она у MSSIM1 и MSSIM2 лучше, но при большой интенсивности следует отдать предпочтение MSSIM.


^ 4. Исследование критериев при наличии гауссовых помех

При исследовании влияния гауссовых помех на качество изображения использовались критерии качества MSSIM, MSSIM1 и MSSIM2. Гауссов шум задавался стандартным отклонением . Гауссов шум добавлялся в каждую компоненту цвета RGB. В качестве тестовых использовались изображения из базы изображений, предоставленных Laboratory for Image and Video Engineering (LIVE) университета в Остине, Техас. Из указанной базы данных были использованы и значения субъективной оценки качества изображений DMOS [4]. Для зашумленных гауссовым шумом изображений были рассчитаны значения критериев MSSIM, MSSIM1 и MSSIM2 и ранговые коэффициенты корреляции Спирмена между ними и значениями DMOS. Результаты исследований для изображения «Parrots» представлены в таблице.

Таблица

 

DMOS

MSSIM

MSSIM1

MSSIM2

1,000

68,727

0,027

0,012

0,017

0,129

47,039

0,252

0,152

0,208

0,063

38,931

0,518

0,314

0,359

0,031

28,506

0,788

0,520

0,541

^ Коэффициент корреляции Спирмена

-0,955


-0,929


-0,921


Как видно из таблицы, при гауссовом шуме значения критерия MSSIM выше значений критериев MSSIM1 и MSSIM2. Все критерии сильно коррелируют с DMOS, причем MSSIM несколько лучше.

5. Возможность использования модифицированных критериев MSSIM1 и MSSIM2 для определения смены кадров видео

В ходе проведения исследований неожиданно выявился еще один недостаток критерия MSSIM, При сравнении различных изображений, имеющих одинаковые размеры, критерий MSSIM дает достаточно большое значение, при этом критерии MSSIM1 и MSSIM2 имеют значения, практически равные нулю. На рис. 3 в качестве примера представлены сравниваемые изображения и значения критериев MSSIM, MSSIM1 и MSSIM2.



Рис. 3. Сравнение двух изображений. MSSIM = 0,339, MSSIM1 = -0,004, MSSIM2 = -0,006.

Полученные данные свидетельствуют о том, что предлагаемые модификации критерия структурного подобия можно было бы использовать для определения полной смены кадра в видеопоследовательности

  1. Заключение

Проведенные исследования свидетельствуют о том, что предложенные модификации структурного подобия успешно могут быть использованы для оценки качества изображений при импульсном шуме малой интенсивности, возникающем при передаче цифровых изображений по радиоканалам

Авторы выражают благодарность доктору Х. Шейху за предоставленную базу данных, позволившую провести экспериментальные исследования предложенных критериев.

Литература


  1. Радченко Ю.С. Сравнительный алгоритм сжатия изображений на основе дискретного косинусного (DCT) и чебышевского (GDCT) преобразований / Ю.С. Радченко, Т.А. Радченко, А.В. Булыгин // Цифровая обработка сигналов, 2006.- №4.-С. 15-19.

  2. Z. Wang and A.C. Bovik, "A universal image quality index," Signal Processing Letters, IEEE , vol.9, no.3pp.81-84, Mar 2002.

  3. Zhou Wang, Alan Bovik, Hamid Sheikh, Eero Simoncelli, "ImageQuality Assessment: Form Error Visibility to Structural Similarity", IEEE Transaction on Image Processing, vol. 13, №4, 2004, 600-612.

  4. H.R. Sheikh, M.F. Sabir and A.C. Bovik, "A statistical evaluation of recent full reference image quality assessment algorithms", Image Processing, IEEE Transactions on, vol. 15, no. 11, pp. 3440-3451, Nov. 2006.






Цифровая обработка сигналов и ее применение

Digital signal processing and its applications




Скачать 225,28 Kb.
оставить комментарий
Дата30.11.2011
Размер225,28 Kb.
ТипДокументы, Образовательные материалы
Добавить документ в свой блог или на сайт

Ваша оценка этого документа будет первой.
Ваша оценка:
Разместите кнопку на своём сайте или блоге:
rudocs.exdat.com

Загрузка...
База данных защищена авторским правом ©exdat 2000-2017
При копировании материала укажите ссылку
обратиться к администрации
Анализ
Справочники
Сценарии
Рефераты
Курсовые работы
Авторефераты
Программы
Методички
Документы
Понятия

опубликовать
Загрузка...
Документы

наверх