基于规则和统计相结合的中文命名实体识别研究_潘正高.pdf

立即下载 作者: ⑩Ⅵ嵗Ｄ夨憶
上传时间: 2025-11-17
关键词: 实体命名识别自然研究文本方法中文基金项目
大小 452.1 KB
描述

   文本是自然语言描述信息的最基本形式之一。
文本的有关处理技术是自然语言信息处理研究领域
的一个重要研究方向。在一篇文档中，命名实体作
为重要的信息元素，通常包含了该文档的主要信
息。因此，准确地识别命名实体是正确理解文档内
容的关键。同时，利用命名实体识别可以从文档中
提取出实体字符串，有利于在没有浏览全文的情况
下快速理解文章的主要内容。命名实体识别是文本
信息处理的基础性工作，研究命名实体识别的方法，
提高命名实体识别的准确性，对于文本信息处理研
究领域意义重大。
1 命名实体识别概述
命名实体(Named Entity, NE)【1】是指一些具体或
抽象的客观实体，例如人、组织、地点、时间等。文本
中的命名实体大多是以特定的专有名称出现的，例
如人名、组织名、机构名、地名等，也可以是时间、数
收稿日期：2011-11-14
基金项目：国家自然科学基金资助项目(60975034)；安徽省自然科学青年基金项目(10040606Q64)；安徽省高校省级自然科
学基金(KJ2012Z401)；宿州学院科研开放平台项目(2011YKF10)
作者简介：潘正高(1978- )，男，安徽六安人，硕士，讲师，主要从事Web文本挖掘、自然语言处理研究.
基于规则和统计相结合的中文命名实体识别研究
潘正高
(宿州学院 信息工程学院，安徽 宿州 234000)
摘 要：介绍命名实体识别在文本信息处理领域的重要地位，分析了中文命名实体识别存在的困
难，介绍中文命名实体识别的一般过程、评价标准及方法。提出了一种在构造内部规则和外部规则
的同时采用概率统计的中文命名实体的识别方法，并利用这种基于规则和统计相结合的方法。实
验证明该方法获得了较高的准确率和召回率，具有可行性和合理性，同时也指出了它的局限性。
关键字：命名实体；文本特征；中文命名实体；识别
中图分类号：G350 文献标识码：A 文章编号：1007-7634（2012）05-708-05
Research on the Recognition of Chinese Named Entity Based on Rules
and Statistics
PAN Zheng-gao
(School of Information Engineering, Suzhou U

目录
实体/命名/识别/自然/研究/文本/方法/中文/基金/项目/ 实体/命名/识别/自然/研究/文本/方法/中文/基金/项目/

-1 条回复

登录后才能参与评论