知识图谱-基于规则-知识抽取简介
摘自徐阿衡,加入一些理解和注释
介绍
实体抽取 也就是命名实体识别,包括实体的检测(find)和分类(classify) 关系抽取 通常我们说的三元组(triple) 抽取,一个谓词(predicate)带 2 个形参(argument),如 Founding-location(IBM,New York) 事件抽取 相当于一种多元关系的抽取(不做介绍)
一、实体抽取 / 命名实体识别(NER)
实体抽取或者说命名实体识别(NER)在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find & classify,找到命名实体,并进行分类。
ex: 主要应用:
命名实体作为索引和超链接 情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类 关系抽取(Relation Extraction)的准备步骤 QA 系统,大多数答案都是命名实体
传统机器学习方法
标准流程: Training:
1.收集代表性的训练文档 2.为每个 token(分词后的短语,个人理解) 标记命名实体(不属于任何实体就标 Others O) 3.设计适合该文本和类别的特征提取方法 4.训练一个 序列分类器( sequence classifier) 来预测数据的 label(类别,人物,地点等)
Testing:
1.收集测试文档 2.运行 序列分类器 给每个 token 做标记 3.输出命名实体(NE)
特征选择(Features for sequence labeling) 来看一个比较重要的 特征(feature) Word substrings(子串) Word substrings (包括前后缀)的作用是很大的,以下面的例子为例,NE(命名实体) 中间有 ‘oxa’ 的十有八九是 drug,NE 中间有 ‘:’ 的则大多都是 movie,而以 field 结尾的 NE 往往是 place。
实体链接,消歧 实体识别完成之后还需要进行归一化,比如万达集团、大连万达集团、万达集团有限公司这些实体其实是可以融合的。 主要步骤如下:
1.实体识别 命名实体识别,词典匹配
2.候选实体生成 表层名字扩展,搜索引擎,查询实体引用表
3.候选实体消歧 图方法,概率生成模型,主题模型,深度学习
关系抽取
关系抽取 需要从文本中抽取两个或多个实体之间的语义关系,主要方法有下面几类:
基于模板的方法(hand-written patterns) (也称作基于规则)
-
基于触发词/字符串(模式) 基于依存句法(以动词为起点构建规则,对节点上的词性和边上的依存关系进行限定) 小结 手写规则的 优点 是: 人工规则有高准确率(high-precision) 可以为特定领域定制(tailor) 在小规模数据集上容易实现,构建简单
缺点:
-
低召回率(low-recall) 特定领域的模板需要专家构建,要考虑周全所有可能的 pattern 很难,也很费时间精力 需要为每条关系来定义 pattern 难以维护 可移植性差
机器学习方法在本文不作详述
监督学习(supervised machine learning)
-
机器学习 深度学习(Pipeline vs Joint Model)
监督学习-小结 如果测试集和训练集很相似,那么监督学习的准确率会很高,然而,它对不同 genre 的泛化能力有限,模型比较脆弱,也很难扩展新的关系;另一方面,获取这么大的训练集代价也是昂贵的。
半监督/无监督学习(semi-supervised and unsupervised)
-
Bootstrapping Distant supervision Unsupervised learning from the web