摘要:命名实体识别在自然语言处理占据着非常重要的地位,也是不可逾越的学术问题。关于命名实体识别的学术理论和研究方法众多,本章侧重整体介绍。首先阐述了命名实体识别的背景知识和研究概况;其次主要介绍中文命名实体识别的特点与难点,加以案例加深理解;然后对命名实体识别当前研究方法和核心技术进行详细介绍;最后,展望其在未来人工智能方面的发展前景。(本文原创,转载必须注明出处.)
命名实体识别概述
背景介绍
命名实体识别(Named Entity Recognizer,NER)在第六届信息理解会议(MUC-6)被提出后,人们的视野便聚焦在信息抽取 (Information Extraction)问题上(即如何从半结构化、非结构化文本中抽取出结构化信息)。此外,命名实体识别也是信息抽取、本体构建、问答系统等自然语言处理任务的基础工作。
命名实体识别旨在识别文本中的角色实体,可以分解成两个子任务即实体边界确定和实体类别划分。当前命名实体识别研究方法主要有:(1)规则和词典相结合的方法,一般适用于精确度较高的情况。但是其存在系统建设周期长,移植性差等问题。(2)统计机器学习的方法,诸如隐马尔可夫模型、条件随机场、最大熵等。本文采用命名实体识别技术主要解决三个问题:一是如何准确分词,因为中文不同于英文由空格和单词构成,解决中文字词的划分尤为重要;二是分词后如何进行序列标注,标注集合的规约;三是如何准备识别实体边界以及实体名。诸如语料“拖雷与郭靖想起在襄阳城下险些拼个你死我活,都是暗叫惭愧”。这句话可以看成一个由词构成的序列,那么分词效果尤为重要。下面看看部分分词工具的处理结果:
(1) StanfordNLP中文分词结果:
(2) 结巴分词结果:
(3) 中科院分词结果:
上述分词结果表明,(1)与(2)中“暗叫惭愧”的分词结果不一致;(3)与(1)(2)最大区别就是“托雷和郭靖”的分词结果不一致。显然(3)出现的问题更为严重,出现错误的人名识别,由此看出分词的好坏直接影响命名实体的识别结果。此外,歧义词、未登录词都是命名实体识别中亟待解决的问题。本文采用基于角色标注的方法对分词结果进行序列标注。角色标注结果如下:
其中nr为人名,ns为地名。完成实体识别后,采用BMES标注方式进行处理。其中B表示Begin即识别出边界,M表示Middle即识别出实体中间名,E表示End即实体名识别介绍,S表示Single表示独立成词,最后过滤掉独立词即可。其中人名可以细化为译名,日本名等;地名可以细化为国家、省、市县等。综上所述,采用自然语言处理技术手段对文本语料的命名实体识别具有深层次的意义。
国内外研究现状
本文采用自然语言处理技术对中文命名实体识别方法进行研究。命名实体识别在自然语言处理中占据很重要的位置,命名实体识别的评测系统也备受国内外会议重视。主要包括如下会议:
- (1) 信息理解研讨[9]。
- (2) 文本检索会议[10]。
- (3) 多语种实体评价任务会议[11]。
- (4) 国际中文处理评测[12]。
- (5) 自动内容抽取评测会议[13]。
- (6) ACL会议[14]。
- (7) 自然语言学习会议[15]。
- (8) 863评测会议[16]。
国内外关于命名实体识别的主要研究机构和相关工作如下:(1) 国外研究机构主要是对英语等语言的实体识别,代表机构包括斯坦福研究所人工智能中心、因特尔研究中心、微软研究院、雅虎研究中心、日本东京大学等。(2) 国内主要解决中文命名实体识别,代表机构包括中科院计算所、微软中国研究院、哈尔滨工业大学自然语言处理实验室、北京语言大学语言信息处理研究所、北京理工大学自然语言处理研究室和复旦大学自然语言处理研究室等。
随着第六届信息理解会议提出的信息抽取相关研究,命名实体识别作为其下的一个子任务而备受关注。名称的自动抽取又称做“命名实体识别”,其任务就是识别出待处理文本中的三大类和七小类命名实体。三大类命名实体包括:实体类(人名、地名机构名)、时间类(日期、时间和持续时间)和数字类(货币、度量衡、百分比和基数);七小类命名实体包括:人名、地名、机构名、时间、日期、货币和百分比。其中时间、百分比、日期、货币的构成较为规律,识别起来难度不大;而人名、地名、机构名用字较为灵活,识别难度较大。所以,命名实体识别通常指人名、地名、机构名的识别。在命名实体识别中,中文命名实体存在形式不一、语言环境复杂等现象,其研究方法也呈现出多样性的特点。总体分为三类,分别是基于规则模型命名实体识别、基于统计模型的命名实体识别和基于规则结合统计的命名实体识别。其中基于统计模型的学习方式又划分如下四类:
- (1) 有监督的学习方法:利用人工标注大部分数据集进行模型训练学习。
- (2) 半监督的学习方法:利用人工标注很少的数据集(种子数据)自举学习。
- (3) 无监督的学习方法:不再进行人工标注,而是通过上下文聚类学习。
- (4) 混合方法:几种模型相互结合或利用统计方法和人工总结的知识库。
目前采用自然语言处理工具对命名实体识别具有良好的效果,特别是在结合专业知识领域的情况下。自然语言处理工具主要包括:
- (1) 精准自然语言解析器(SyntaxNet)
- (2) 中文自然语言处理工具包(FudanNLP)
- (3) Java自然语言处理(LingPipe)
- (4) 自然语言处理工具(OpenNLP)
- (5) 自然语言工具包(NLTK)
- (6) 自然语言工具包(CRF++)
- (7) 单词转换成向量形式(word2vec)
- (8) 自然语言文本处理库(spaCy)
命名实体识别特点与难点
命名实体识别可以分解为两大任务。(1)如何去识别命名实体的边界?(2)如何去判定实体的类别(诸如:人名、地名、机构名)?中文命名实体识别要比英文命名实体识别更为复杂,这一是受中文自身语言特性限制,不同于英语文本中词间有空格界定;二是英文中的实体一般首字母大写容易区分,诸如:‘Jobs was adopted at birth in San Francisco,and raised in a hotbed of counterculture’。人名乔布斯Jobs的首字母大写,地名旧金山San Francisco首字母也是大写。而中文不具备这样的特征,例如:“周总理忙了一日,早已神困眼倦。”人名“周总理”就很难在一串汉字中识别出来。
命名实体语言环境较为复杂。对于同一个汉字某些情况下可以看作实体处理,某些情况又不能看作实体。例如:人名,比如《天龙八部》中“婢子四姊妹一胎孪生,童姥姥给婢子取名为梅剑,这三位妹子是兰剑、竹剑、菊剑。”人物“竹剑”,某些情况下就是指的一种竹子做的剑。地名,比如《射雕英雄传》中“陆庄主知道此人是湖南铁掌帮的帮主”中地点“湖南”,在某种情况下就指代地理方位“湖的那边”。机构名,比如《鹿鼎记》中“这位是莲花堂香主蔡德忠蔡伯伯。”组织机构名(帮派名)“莲花堂”,在某种情况就指代种植莲花的一个地方,变成地点名了。
命名实体内部结构形式多样。例如:人名,人名由姓和名构成。其中姓氏包括单姓和复姓(如:赵、钱、孙、李、慕容、东方、西门等),名由若干个汉字组成。姓氏的用字范围相对有限,比较容易识别。然而名就比较灵活,既可以用名、字、号表示,也可以使用职务名和用典。比如:“李白、李十二、李翰林 、李供奉、李拾遗、李太白、青莲居士,谪仙人”都是同一个人。地名,一般由若干个字组成地名,可以为作为后缀关键字或者别名都是指代一个地方。比如:“成都、蓉城、锦城、芙蓉城、锦官城、天府之国”,其中“蓉城、锦城、芙蓉城、锦官城、天府之国”为别名。除了全称的名称之外,还有地理位置代表地名的。比如:“河南、河南省、豫”都是指的一个省份,其中“豫”是简称。组织机构名,组织机构命名方式比较复杂,有些是修饰性的命名,有些表示历史典故,有些表示地理方位,有些表示地名,有些表示风俗习惯和关键字等等。例如:组织名“广州恒大淘宝足球俱乐部”中,“广州”表示地名的成分,“恒大”“淘宝”表示公司名称成分,“足球”是一项体育赛事成分,“俱乐部”是关键字的成分。比如:“四川大学附属中学”(四川省成都市第十二中学)中包括另一个机构名“四川大学”。机构名还可以以简称形式表示,比如:“四川大学附属中学”简称“川大附中”,“成都信息工程大学”简称“成信大”。
除开上述问题,由于中文命名实体数量较大,我们还很难构建大而全的名字库、地址库等。还有较长的少数民族人名和译名(比如:扎克伯格、麦当劳、肯德基),没有统一的构词规范。并且人名、地名和组织机构名之间有着交叉和包含现象,组织名称中也常常包含大量的人名、地名、数字。想要正确标注这些实体类型,需要基于上下文内容。
对命名实体的边界识别和类型确定尚没有统一标准。命名实体识别过程常与中文识别等结合,通常分词、语法分析系统的结果也影响命名实体识别的有效性。根据领域和知识本体的需要实体还可以细分,诸如体育名、汽车名、商标名等。随着电商的发展,品牌名、产品名等商品类实体识别也有需求。针对这些新的实体类型,最大的瓶颈就是缺少标准的训练数据。歧义现象和不同实体内部特征都是亟需解决的问题。
命名实体识别方法
基于统计的命名实体识别方法
进入21世纪之后,基于海量数据的统计方法逐渐成为自然语言处理的主流,同时自然语言处理的各个方面也得到机器学习方法的支持。基于统计的命名实体识别方法具有可移植性好、语言依赖性小、处理速度快等优点。该方法是利用序列标注实现的,本质上就是命名实体识别问题向序列标注问题的转换,其主要处理步骤如下:
- (1) 统计学习策略:基于统计方法的命名实体识别,合适的机器学习方法是很重要的。常用的机器学习方法包括:隐马尔可夫模型(HMM)、条件随机场模型(CRF)、最大熵模型(MEM)等 。
- (2) 特征选择:特征的选择直接影响命名实体识别的好坏,一般特征包括一些先验知识(如:词性、词典、词后缀等)。序列标注:通过基于机器学习策略的文本序列标注来处理训练集和测试集。
- (3) 模型训练:通过对训练集的训练优化算法模型。
- (4) 模型评测:训练出来的算法模型,通过测试集进行测试,反复实验以得到理想的模型结果,并将算法模型应用到命名实体识别中。
以上介绍的机器学习模型中,隐马尔可夫模型是非常重要的一种统计模型,其本质上是一种马尔可夫随机过程的概率函数。研究者们将隐马尔可夫模型应用到命名实体识别、语音识别、序列标注等领域中都取得了不错的成绩。最大熵模型的原理就是在学习概率模型时,认为概率分布模型中最大熵的模型是最好的,并常以此作为约束条件来确定概率模型集合。最大熵模型也可表示为在满足约束条件的模型集合中选择最大熵的模型。由于马尔可夫模型具备生成式模型的缺点,而最大熵模型受约束条件限制。结合两种模型的最大熵马尔可夫模型是其一种延伸,这种模型具备以上两种模型的优点,成功克服各自模型的缺陷,但是其存在标记偏置的缺陷。
最大熵模型最大的问题就是标记偏置。针对这一问题,Lafferty 等学者提出了条件随机场(CRF)模型。CRF对给出观测序列的条件下,针对全序列进行联合概率的指数模型,这种方法很好地解决了偏置缺陷的问题。条件随机场不仅适用于命名实体识别,而且在英文POS标注、英文词短语识别等方面都取得了不错效果。
综上所述,可以将基于机器学习的命名实体识别方法划分为:有监督的学习方法、半监督学习的方法、无监督的学习方法和多种模型混合的方法,具体方法归纳如表2-1所示:
基于规则和统计的命名实体识别方法
在实际应用中,仅仅基于规则或者统计的方法并不能取得期望的结果。规则和统计结合的方法具备两者的优点,也是实际应用最多的方法。通常我们会选择基于统计的方法对训练语料进行模型构建,从而拟合出一个最佳模型。在这个模型的基础上,再加以人工知识库即基于规则的方法辅助命名实体识别,以防止出现过拟合的现象。这样做的好处一方面降低了命名实体识别模型的语料库规模,提高识别准确率和召回率;另一个方面,可以保证识别模型的算法效率。事实证明这种方法确切可行且取得了不错的效果。
Seon等人提出的基于最大熵模型和神经网络模型以及规则的方法进行命名实体识别取得很好的效果,系统可以对中文人名、地名、机构名进行识别,其效果如下表2-2所示:
张华平等人首先应用隐马尔可夫模型结合词汇表方法进行汉语人名识别,其方法原理是首先对人名进行分类,然后标注语料集进行模型训练,接着采用维特比算法进行人名标注,最后用最大模式匹配进行人名识别。
中文命名实体识别的核心技术
命名实体角色标注
由于中文实体构成的特点和难点造成实体识别比较困难,针对这些困难本文采用基于角色标注的中文实体识别方法进行处理。分好的词细化为人名内部组成关系、上下文关系、无关词,总结为中国人名构成角色表、地名构成角色表、机构名角色表。中文命名实体的识别是将熟语料中的序列标注转换成实体角色标注的过程。其数学描述为:
给定一个文本序列串( ,其中 表示文本特征项),其目的是构造一个序列标注机器p,使其为文本串x标注合适的标签串 。其中 ,其中y属于人名构成角色表中的标记,然后从所有可能标注的序列中选择最大概率即:
(4-1)
根据贝叶斯公式,可知
(4-2)
由于p(x)是一个常数,由(4-1)(4-2)可知:
(4-3)
根据第二章第三节HMM相关知识计算P(Y)P(X|Y)可知:
(4-4)
式子(4-4)可化简为对数形式,则有:
(4-5)
本文训练数据来源于2014年《人民日报》,其采用北京大学计算语言学所的词类标注集得到结果如表4-1所示:
结果表明:分词模型根据训练将姓氏和名字进行分割标注采用nr。针对这种人名的标注不利于姓名的识别,如果姓氏和名字采用不同的标注,利用上下文识别效果会更好。因此,文本采用中科院的词类标注集进行实验,其标注形式如表4-2所示:
分析发现中科院词类标注中对姓和名标注采用nf、nl单独标注,nr标注为人名。这样做的好处是可以通过词位上下文分析,避免出现上文与姓成词或者下文与名成词的现象。
本文针对以上两种情况进行改进,首先对语料采用中科院词类标注集进行处理,再对熟语料进行逐句的读入,判断该句中的词是否为人名相关词即nf、nl、nr词。若非人名相关的词性均标注为独立词即A,若与人名相关则继续判断其上文p与姓nf是否成词,不成词标注为K即上文,成词标注为U;继续判断名与下文是否成词,若不成词标注为L即下文,成词则标注为V。再将姓氏标注为B,姓与单名标注为Y,姓与双名标注为X,双名中间成词标注为Z。诸如此类讨论人名的各种情况,最后过滤掉独立词,将人名项目的标注进行词频统计,以及不同标注直接转化进行概率统计。再用Viterbi算法进行改进后的标注如表4-3所示:
关于中文实体标注的问题实际上就是式子(4-5)的求解问题了,即转化为隐马尔可夫模型的解码问题,采用Viterbi算法便可解决,Viterbi算法具体介绍见第二章第二节内容。以人名实体识别为例,人名识别还存在以下问题,标记为U的词,即“公司现任法人为何三立”,这里的人名上文和姓成词了。标记为V的词,即“白宁超级别过低,不能申请教授”,这里的人名末尾词与下文成词现象。
针对这种情况,解决方式是再次进行细粒度分割,处理成KB(人名上文+姓氏),DL(双名末尾词+人名下文)或者EL(单名+人名下文);然后再根据模式集合{BBCD,BBE,BBZ,BCD,BE,BG,BXD,BZ,CD,FB,Y,XD}进行最大模式串的匹配。例如:“白宁超在博客园开了一个博客。”,分词结果是“白/宁/超/在/博客/园/开/了/一个/博客/。”采用本文基于角色标注结果是:“BCDLAAAAAA”可以识别出人名“白宁超”,这对下一步地名、机构名识别减少了很多干扰作用。人名识别算法如表4-4所示:
上述改进算法的人名识别结果如图4-2所示:
标注实体词图生成
通过4.4.1节实体角色标注,再利用Viterbi算法求得类别实体名。诸如人名实体识别为“孙中山”,针对南京市的“中山路”该如何识别呢?这就属于包含简单实体的复合实体识别问题。假设包含简单实体“孙中山”为 ,相应的角色标注为 ,由于 不在词典中,所以 就无法求解了。此时,我们引入基于角色是实体的生成模型,该模型与隐马尔可夫模型映射,其目的就是求解复合命名实体的生成概率。采用HMM过程可以得到如4-6(其中w是待识别的命名实体,c是类别):
经过语料的角色生成模型之后,问题就简化为对统计角色词频和角色转移概率的求解了。其原理是利用中文切分的熟语料,再结合少量代码对熟语料进行标注。诸如:2014年人民日报句子如表4-5所示:
通过少量自动角色标注代码,逐步处理得到如图4-3所示的角色标注结果:
完成如上操作之后的工作就是统计角色词频和转移矩阵了,这个很容易处理。利用HMM-viterbi算法即可得到复合实体的最大生成概率,然后采用模式匹配方法进行实体识别。将识别出来的实体作为词典数据传输到下一层HMM实体中,这不仅可以很好地解决复合实体识别问题,还可以提高层叠隐马尔可夫模型参数的优化和改进。本节值得强调的是,本文基于地名角色标注改进了原有的方法,提出C(中国地名首部)、D(中国地名中间)、E(中国地名未部),在地名模式识别中(CDE地名+三字后缀)可以将地名识别改进到六个汉字的长度。其后便是对命名实体的自动抽取工作。
命名实体自动抽取
层叠隐马尔可夫模型解决的是将中文分词、切分歧义、人名、地名、结构名和词性标注融合在一起的算法模型。由于中文粘稠性的特点,困扰分词结果最大的问题就是未登录词,本质上就是中文命名实体的识别。这主要有人名、地名、机构名、时间、数量、单位等。其中人名、地名、机构名最难识别,也是对中文分词影响最大的因素。因此命名实体一体化抽取整个过程如下:
- (1) 首先对2014年《人民日报》语料库进行词频统计,构建出核心分词词典,此时核心词典仅仅含有极其少量的高频人名、地名、机构名等实体。
- (2) 利用第一步的核心词典,对原始字符串进行粗粒度切分,并利用N元最短路径进行歧义切分。利用角色语料进行训练得到人名角色词典和角色标记间的转移概率,详细参见第四章第二节。
- (3) 利用第二步识别出来的人名粗分结果,基于角色的地名进行识别,得到地名词典。为了识别含有人名的复合地名,人名识别的HMM将人名类作为输入参数,进而识别出地名和相应的转移概率。
- (4) 跟人名、地名类似,将人名识别HMM和地名识别的HMM作为参数,通过与语料库中标注好的机构名进行训练得到机构名的角色表。
- (5) 将识别出的人名、地名、机构名、歧义切分、登录分词融合一体,进行全局最优概率计算。
- (6) 对实验结果进行测试和模型性能指标评估。
层叠隐马尔可夫模型框架设计过程如下:(1)构建核心词典本质上就是对词频统计和词之间概率转移的统计;(2)进行N元最短路径歧义切分,本文采用的是N元最短路径的策略,即在初始阶段保全切分概率P(X)最大的N个结果,并以此当做候选集合,再综合运用最少切分和全切分的方法。具体实验过程如下:
(1) 对原始语料进行切分标注后如表4-6所示:
(2) 词性标注向基于角色标注的转换结果如表4-7所示:
(3) 统计词频,在对所有熟语料句子执行自动标注后,即可统计每一个非Z词语的各角色词频。然后统计文本序列的发射矩阵和转移矩阵,并最终带入公式求最大概率即可。其中发射矩阵如图4-4所示:
转移矩阵指的是从一个角色标签转移到另一个角色的频次,利用它和角色词频可以计算出HMM中的初始概率、转移概率、发射概率,进而完成求解。这里对人民日报2014切分语料训练出如下转移矩阵如图4-5所示:
经过角色标注和生成模型后,对于实体发射概率 和转移概率 这两个重要参数进行求解。在大规模语料前提下采用大数定律可知:
其中 是实体角色到下一个角色的次数; 在训练模型中已经得到,由此得到上层实体词典,然后采用N-Best策略将词典传输到下一层HMM实体中,进而优化层叠隐马尔可夫的参数因子。 以“成都张晓明餐饮管理有限公司是由张先生创办的餐饮企业”为例,如表4-8所示:
上例中该公司的各个成分被拆散,无法组成完整的机构名角色标注。将其转化为自定义的角色标注后如表4-9所示:
经过模式串匹配得到如下机构名:[成都张晓明餐饮管理有限公司 GFCC]。
展望
中文命名实体识别是文本信息处理中一个重要的研究分支,也是信息抽取、问答系统、中文文摘、机器翻译等自然语言处理技术的基础工作[68]。目前中文单一命名实体识别研究较多,但是对多种中文命名实体一体化识别研究较少。本文经过大量研究工作提出了基于层叠隐马尔可夫模型的中文命名实体一体化识别,主要工作包括:
- 对命名实体识别工作进行深入研究。主要针对当前命名实体识别研究现状、特点难点、主要研究方法、评测标准和相关模型进行分析讨论。
- 中文分词未登录词和歧义词切分。本文提出了基于统计和规则结合的改进中文分词方法,将统计方法在未登录词处理优势和词表规则速度优势相结合,很好地解决歧义和未登录词切分问题。
- 提高了模型的召回率。本文提出了一种细粒度的特征提取方法,首先利用CRF++工具进行特征模板选择。再基于字词不同粒度的特征模型实验对比,从而进行特征模板的优化和改进,形成自定义的特征模板,提高了系统识别的召回率。
- 多种中文命名实体一体化识别模型设计。本文提出了层叠结构,将系统分为低层的隐马尔可夫模型和高层隐马尔可夫模型。首先采用低层的隐马尔可夫模型对简单的人名、简单地名、简单机构名进行识别。然后将识别的结果提供给更高层的隐马尔可夫模型,再进行对复合地名、机构名的识别。其次,低层识别结果可以作为高层识别决策提供支持;最后,通过对模型参数的改进与优化完成对多种命名实体的一体化识别。
参考文献
完整代码下载
作者声明
本文版权归作者所有,旨在技术交流使用。未经作者同意禁止转载,转载后需在文章页面明显位置给出原文连接,否则相关责任自行承担。