手机知网 App
24小时专家级知识服务
打 开
手机知网|搜索

基于动态流通语料库(DCC)的汉语熟语单位研究

杨建国

  本文基于汉语词典学界和中文信息处理界重“词”轻“语”的现象,对词组研究、熟语研究进行了反思,提出“熟语单位”(Idiom Unit,IU)的概念。所谓“熟语单位”,就是“结合紧密,使用稳定”,功能相当于熟语的结构单位,是符合人的认知规律并被人们经常当作一个词来使用的定型化了的固定短语或凝固表达式。我们判别IU的三条原则为:是否“结合紧密,使用稳定”;是否符合人们的认知规律(IU的长度一般为7±2);流通度要达到一定的阈值。IU理论上包括一切具有熟语性的词语组合单位。本文讨论的IU范围包括三字格中的惯用语和“差不多、靠不住、来不及”这样介于词和短语之间的结构串;四字格中的成语和新固定短语;简称略语、插入语和字母词语等。本研究选用的是《人民日报》2001—2003三年的文本,约8000万字。文章以动态语言知识更新理论为指导,以流通度理论为基础,以年平均流通度阈值(0.5)作为主要筛选依据,运用规则和统计相结合的方法对“熟语单位”(IU)进行了初步的提取研究;并对部分提取结果的噪声环境做了定量与定性分析。对于IU的提取,我们采取的策略和基本步骤是:1、利用点号和“的、是、在、和、了、有”等高频词(字)将文本化短;自动提取时牺牲包含切分点的字符串,该部分字符串另行补救。2、数据格式转换。将切分得到的形式上“完整”的2—8字串转为数据库格式。3、统计3—5字串的频度、散布度和流通度。4、用字符串全年的平均流通度阈值进行筛选。5、对5音节(含)以上字串进行分词并词性标注,对其中的3字串、4字串和符合“N+N”、“N+V”、“V+N”、“V+V”等语法组合规则的相邻字符串(二元组)进行抽取;再对抽取的字符串重复上面的第3和第4步。6、对筛选得到的字符串进行噪声剔除,全部进行重新切分并词性标注,然后运用静态规则模板(共30条规则)再次过滤。7、借助辅助手段对熟语单位进行直接抽取。8、得到3—5字格熟语单位表(约13,500条)。本文还对提取出来的2001年的5,500个三字格、2002年的6,500个四字格做了简单的分类和例示性的分析说明。重点考察了具有熟语性的短语。三字格中我们重点探讨了音节为“1+2”式、结构为“V+N/NP”式和音节为“2+1”式、结构为“V/VP+N”式两类,验证了冯胜利有关三音节组合的论断:音节为“1+2”式的是短语,音节为“2+1”式的是韵律词。四字格中我们重点探讨了“N+V”式和“V+N”式。N和V之间存在复杂的语法、语义以及音节制约关系。关于“N+V”式,通过考察,我们发现:定中关系的“N+V”式四字格熟语性最强,数量也最多:状中关系次之,主谓关系的四字格熟语性最弱,且N与V之间存在离散性。关于“V+N”式,我们发现:第一,“V+N”式四字格如果表示通名,它往往是或者容易成为一个NP习惯性搭配。第二,“V+N”式四字格中的N如果是比较抽象的双音节名词,则这类四字格构成的NP其熟语性相对较强。第三,“V+N”式四字格中的V如果是双音节述宾式动词,那么这种“双音节述宾式动词+宾语”形成的NP熟语性很强。本文还从应用的角度对流行语、字母词语和插入语进行了考察研究。对流行语的科学评定和字母词语的规范发表了意见。……   
[关键词]:熟语单位;动态流通语料库;熟语;流通度;固定短语
[文献类型]:博士论文
[文献出处]:北京语言大学2005年
App内打开