文本是自然语言描述信息的最基本形式之一。 文本的有关处理技术是自然语言信息处理研究领域 的一个重要研究方向。在一篇文档中,命名实体作 为重要的信息元素,通常包含了该文档的主要信 息。因此,准确地识别命名实体是正确理解文档内 容的关键。同时,利用命名实体识别可以从文档中 提取出实体字符串,有利于在没有浏览全文的情况 下快速理解文章的主要内容。命名实体识别是文本 信息处理的基础性工作,研究命名实体识别的方法, 提高命名实体识别的准确性,对于文本信息处理研 究领域意义重大。 1 命名实体识别概述 命名实体(Named Entity, NE)【1】是指一些具体或 抽象的客观实体,例如人、组织、地点、时间等。文本 中的命名实体大多是以特定的专有名称出现的,例 如人名、组织名、机构名、地名等,也可以是时间、数 收稿日期:2011-11-14 基金项目:国家自然科学基金资助项目(60975034);安徽省自然科学青年基金项目(10040606Q64);安徽省高校省级自然科 学基金(KJ2012Z401);宿州学院科研开放平台项目(2011YKF10) 作者简介:潘正高(1978- ),男,安徽六安人,硕士,讲师,主要从事Web文本挖掘、自然语言处理研究. 基于规则和统计相结合的中文命名实体识别研究 潘正高 (宿州学院 信息工程学院,安徽 宿州 234000) 摘 要:介绍命名实体识别在文本信息处理领域的重要地位,分析了中文命名实体识别存在的困 难,介绍中文命名实体识别的一般过程、评价标准及方法。提出了一种在构造内部规则和外部规则 的同时采用概率统计的中文命名实体的识别方法,并利用这种基于规则和统计相结合的方法。实 验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性。 关键字:命名实体;文本特征;中文命名实体;识别 中图分类号:G350 文献标识码:A 文章编号:1007-7634(2012)05-708-05 Research on the Recognition of Chinese Named Entity Based on Rules and Statistics PAN Zheng-gao (School of Information Engineering, Suzhou U