手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

中文印刷体文档中的数学公式识别

高天孚

  近年来随着Internet的普及以及互联网用户的不断增多,人们更趋向于利用这个传播渠道去发布和交换信息。数字图书馆和远程学习随着互联网的发展而成为研究的热点,实现上述思想需要一种新的有效方法把已存的书面文档转换成相应的电子文档以便于用计算机处理并在网上传播。广大科技工作者所阅读的科技文献中含有大量的数学公式,由于数学公式的复杂性,现有的OCR系统不能完全正确识别科技文献中的数学公式。为了方便读者和提高文献的利用率开发能够识别数学公式字符的OCR系统具有很大现实意义。本课题研究的是印刷体中文文档中的数学公式识别问题。数学公式识别可分为数学公式字符的分割定位与识别两部分。由于字符识别技术已经很成熟了,我们只要把文档中数学公式字符的位置确定下来,结合现有的技术就能解决数学公式识别问题。数学公式字符的定位采用的是一种统计学方法。首先把扫描进计算机的图片文档保存为二值化bmp文件,接着对文档进行行提取,然后计算这一行文本字符宽度的2阶中心矩。利用纯文本行和含有数学公式文本行之间矩值的差异就可以判断这行文本含有数学公式。当文本内容相同时,由于采用字体的大小不同会对矩值产生影响,本文引入参数对矩值进行修正,并建立一个统一标准以消除这个影响。当判断出一行文本内含有数学公式时,利用印刷体汉字字体的大小、长宽比、高度和宽度等这些基本特征与数学公式字符相应特……   
[关键词]:数学公式识别;数学公式字符定位;字符识别
[文献类型]:硕士论文
[文献出处]:哈尔滨工程大学2005年
App内打开