场景文本提取方法的应用(1)
2015-04-17 01:01
导读:计算机应用论文论文,场景文本提取方法的应用(1)论文样本,在线游览或下载,科教论文网海量论文供你参考:
摘 要 场景图像中的文本提供了重要的语义信息,它是图像内容
摘 要 场景图像中的文本提供了重要的语义信息,它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点,本文提出了一种有效的文本提取方法。首先对原始图片进行模糊化处理,然后进行Laplacian边缘提取和二值化,再形态学变化,最后进行连通域分析,实现了场景文本的提取。 关键词 文本提取;边缘检测;二值化;连通域分析0 引言 随着计算机、多媒体以及通讯技术的飞速发展, 相当数量的文字信息正越来越多地以图像形式出现[1]。图像中的文字是图像内容的一个重要来源,如果这些文字能自动地被检测、分割、识别出来, 则对图像语义的自动理解、索引和检索是非常有价值的[4]。图像文本可以分为人工文本和场景文本。人工文本是指人工加在图像上的文本,场景文本是图像上本身存在的文本,如广告牌或运动员球衣上的号码等。由于场景文本图像具有较为复杂的背景,同时受光线和文本的字体、颜色、位置等因素影响较大,往往很难被检测、提取和识别,因此自动从场景中提取文本是一项极具挑战性的工作。目前已有的文本区域提取方法大致可以分为三类:基于连通域的方法,基于纹理的方法和基于边缘的方法[2]。基于连通域的方法速度快, 但是当背景复杂或文本与背景颜色相近时分割困难, 而基于纹理的方法非常费时而且处理复杂背景时误报比较多。 本文根据场景中的文本区域与背景对比度强, 存在丰富的边缘信息,因此选择基于边缘检测的文本提取方法对场景文本的提取进行研究。首先对原始图像进行模糊化处理,然后用Laplacian边缘提取降噪,再进行形态学变化,最后连通域分析,从而实现场景文本的提取。实验表明, 本文的文本提取方法具有较高的正确率, 边界定位较准确。1 场景图像文本的提取过程1.1 图像预处理 由于光照等环境因素的影响在图像上会产生许多噪声,又考虑到Laplacian算子去噪能力较差,因此本文在预处理时先对原始图像进行模糊化,滤除图像中的部分噪点。本文用的是3*3的卷积来进行连续模糊。1.2 边缘检测与二值化 边缘检测是所有基于边界分割方法的第一步。两个具有不同灰度值的相邻区域之间总存在着边缘。由于场景中文本和背景视觉反差较大,且文本区域具有相当大的一个宽度,与此同时场景文本笔画边缘明显,所以利用边缘检测方法可以较好地提取出场景中的文本边缘。 本文采用的是基于二阶微分算子的Laplacian边缘检测算子。该方法对图像中的阶跃型边缘点定位准确且具有旋转不变性的特点,即各向同性的性质。而场景文本正好具有阶跃型边缘的特性,所以说Laplacian算子较适合场景文本的提取。 其表达式为:

(1-1) 使用的Laplacian算子模板如图所示:

图1 拉普拉斯算子 从边缘检测结果来看,在引入经过模糊处理后的Laplacian算子能够在不影响文本边缘提取的前提下能取得很好的去噪效果。缺点是对光线影响较强和质量较差的图片处理过程中损失较大。边缘图像的二值化是很重要的问题,如果阈值过大可能会漏掉一些文字边缘, 而阈值过小则可能会使较多的非文字边缘被当作文字边缘处理, 导致误检较多。 本文针对不同图像采用整体阈值二值化,用最小误差方法求分割阈值。这主要是由于整体阈值算法简单,时间开销小,选择合适的阈值可以取得较好的效果。而且用最小误差方法求整体阈值的算法可以较好地分离背景和文字。1.3 形态学运算 形态学将图像信号与几何形状联系起来,利用结构元素的探针收集图像的信息。形态学运算能够对图像上的物体做形状等方面的限制,常用于目标检测等。本文用形态学中的开闭运算和腐蚀膨胀的方法来检测二值边缘密度图像上的文本矩形区域。形态学运算包括以下两步:
(1) 对二值化的边缘密度图像做7个象素宽度的水平闭运算,连接字符笔画形成矩形区域;再做15个象素宽度的水平开运算,去除孤立的背景; (2) 形态学后处理(即在连通域分析后进行的二次形态学运算):对每个连通域做δ度的膨胀运算和 度的腐蚀运算。ε其定义如下:δ=min(h,w/8) (1-2)ε=w/4 (1-3) 其中h,w分别对应连通域的高度和宽度。 通过第一步形态学运算去除部分背景区域,将相连的背景和文本分开;第二步形态学运算后图像上只剩下部分规则的矩形区域。实验表明,通过以上两步形态学运算能比较准确的得到文本矩形区域。1.4 连通域分析共2页: 1 [2] 下一页 论文出处(作者):