当前位置:首页 > 文章导读 > 自然科学版

融合形态特征的最大熵维吾尔语词性标注
帕力旦.吐尔逊房鼎益
西北大学信息学院
 全文: PDF  
摘要:

根据维吾尔语黏着型的特点,以及形态化单词和频率进行统计分析之后的结果,为 解决因单词形态而导致的数据稀疏问题和兼类词标注的问题,提出了维吾尔文的融合词 干、词缀等形态特征的基于最大熵的词性标注模型。在通用的词性标注模型的基础上,构 造了相应的词性标注特征模版,并设计了它的特征函数。实验结果分析表明,最大熵模型 可以较好地处理维吾尔文词性标注的问题,其中词缀特征对提高兼类词和未登录词的词 性标注有着十分显著的效果,与其他只用词形的词性标注系统相比准确率比以前提高了 2.64%,达到了%.85%。

关键词: 维吾尔语;词性标注;词缀;最大熵;特征提取
发表年限: 2015年
发表期号: 第5期