手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

面向特定领域的文本识别和分类

褚金正

  随着互联网的快速发展,越来越多的信息可以从网络上获得。但如何从大量的信息中抽取有用的信息仍然是一个问题。互联网上的信息大部分都是以文本方式存在的,文本的内容识别就构成了高效信息获取的基础。本文设计了一个面向特定领域的文本内容识别系统。该系统可以有效地将我们所需要的文本从大量的文本中分离出来。我们还可以把自动识别得到的文本进行更进一步细分,并对每一个文本生成一个摘要,这样就大大提高了信息获取的效率。文本识别不但要考虑属于该领域的文本的内容特征,而且还要对不属于该领域的文本的内容特征进行研究。考虑不属于该领域的文本特征,可以有效地增加不同类文本特征模式之间的距离并优化其概率分布。文本表示方面采用近年来应用较多且效果较好的向量空间模型(VSM),给出了基于几何距离的可分性判据和基于后验概率的可分性判据。根据这些可分性判据,阐述了基于熵概念的特征提取方法和直接特征挑选法。中文分词技术是文本识别的技术基础,也是近年来的研究热点。本文比较详细地介绍了分词的算法和步骤,并对多个分词算法的优劣进行了比较。阐述了分词中的难点。最后,在基于词典的分词算法的基础上,改进并给出了全词索引词典结构,大大提高了分词算法的速度。根据可分性判据,作者采用了直接次优搜索算法对初步特征进行提取和选择,还采用中文信息处理常用的标准TF-IDF公式进行特征提取和选择。特征项权重的确定没有太多的理论基础,大多是根据训练样本库的统计知识和中文信息本身的语言特点来确定的。本文除了介绍了中文信息处理中的常用权重确定算法,还提出一种基于特征词语长度的权重确定方法。该方法主要基于较长的词语是由较短的词语或词根所组成这一特点而提出的。本文以通信领域的文本识别为例,给出了文本识别的方法和整个过程。通过对文本的识别实验,验证了算法的有效性。本文还给出了文本的分类算法,并简要介绍了文本摘要的自动生成。……   
[关键词]:文本识别;通信;文本分类;中文分词;向量空间模型
[文献类型]:硕士论文
[文献出处]:湖南大学2005年