手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于大规模语料的中文词聚类研究与实现

蒋宏飞;曹海龙;杨沐昀

  词聚类算法对自然语言处理具有重要意义。Brown 1990年提出了一个经典的词聚类算法,但是由于算法本身的复杂度较高,故难于对大规模语科进行处理(Brown文中提到词数超过5000便是不可行的)。本研究中我们尝试着对上万词数的中文词语料进行了实现。并且,针对算法时间复杂度高,不能应用于更大规模语料库的问题,提出了一个加速改进思想。在近似的情况下,它可以降低原算法一阶复杂度。本实验所用的语料来自人民日报1998年1月份的部分内容。……   
[关键词]:中文词聚类;聚类算法;大规模语料
[文献类型]:会议论文
[文献出处]: 《第二届全国学生计算语言学研讨会论文集2004年
App内打开