NLP从入门到实战——命名实体识别

1. 命名实体识别

1.1 概念

  • 中文命名实体识别(Named Entity Recognition,NER是指识别中文文本中实体的边界和类别。
  • 命名实体识别是文本处理中的基础技术,广泛应用在自然语言处理、推荐系统、知识图谱等领域,比如推荐系统中的基于实体的用户画像、基于实体召回等。

1.2 分类

划分: 3大类7小类

  1. 3大类
  • 实体类
  • 时间类
  • 数字类
  1. 7小类
  • 人名
  • 地名
  • 组织机构名
  • 时间
  • 日期
  • 货币量
  • 百分数

1.3 识别思想

命名实体识别通常是先进行实体标注,然后识别单个实体,最后再识别复合实体。
从以下几个方面来理解:

  • 1.实体边界识别:确定文本中实体的起始和结束位置。例如,在句子“苹果公司是由史蒂夫·乔布斯创立的。”中,"苹果"和"史蒂夫·乔布斯"是需要别的实体。

  • 2.实体类别分类:在识别出实体的基础上,一步确定实体属于哪一个预定义的类。在上述例子中,“苹果公司”可以被分类为“组织名”,而“史蒂夫·乔布斯”可以被分类为“人名”。

  • 3.上下文理解:实体的识别往往依赖于上下文信息。同一个词在不同的上下文中可能表示不同的实体,或者不表示实体。例如,“苹果”在不同的上下文中可能指代一个公司或者一种水果。

  • 4. 模式和规则学习:传统的NER系统可能依赖于手工编写的规则或模来识别实体,如正则表达式、词性标注模式等。

  • 5.统计和机器学习方法:现代的NER系统通常采用统计学习方法,通过大量的标注数据来训练模,使其能够学习到实体的特征和上下文模式。这些方法包括条件随机场(CRF)、支持向量机(SVM隐马尔可夫模型(HMM)以及深度学习模型,如循环神经网络(RNN)、长短期记忆网络(LSTM)和转换器模型(Transformer)。

  • 6.特征工程:在机器学习方法中,特征工程是提高NER性能的关键。这包括选择合适的词汇特征(如词形、词性)、上下文特征(如相邻词汇的信息)、语法特征(如依存关系)等。

  • 7. 深度学习和端到端模型:随深度学习的发展,NER任务越来越多地采用端到端的训练方法,这意味着整个识别过程不再需要复杂的特征工程,而是通过神经网络自动学习特征表示。

1.4 实体标注方法

不同的数据集可能采用不同的实体标注方法,最常见的标注方法有BIO,BIOES,Markup。
命名实体识别(NER)的标注方法主要包括以下几种:

  1. BIO标注法(Begin, Inside, Outside

    • B:表示实体的开始(Begin)
    • I:表示实体的内部(Inside)
    • O:表示非实体部分(Outside)

    例如,句子“Barack Obama was born in Hawaii.”中的实体标注如下:

    • Barack (B-PER)
    • Obama (I-P)
    • was (O)
    • born (O)
    • in (O)
    • Hawaii (B-LOC)
  • . (O)

    其中PER代表人名,LOC代表地名。

  1. BIOES标注法(Begin, Outside, End, Single)

    • B:实体的开始
    • I:实体的内部
    • O:非实体部分
    • E:实体的结束(End)
    • S:单独成实体(Single)

    例如,句子“Barack Obama was born in Hawaii.”中的实体标注如下:

    • Barack (B-PER)
    • Obama (E-PER)
    • was (O)
    • born (O)
    • in (O)
    • Hawaii (S-LOC)
    • . (O)

    BIOES标注法比BIO更精细,可以明确地标出实体的结束,有助于模型更好地识别实体边界。

  2. BMES标注法(Begin, Middle, End, Single)

    • B:实体的开始
    • M:实体的中间部分(Middle)
    • E:实体的结束
    • S:单独成实体

    这种方法在中文NER中使用较多,因为中文实体没有空格分隔。例如,中文句子“奥巴马出生在夏威夷。”中的实体标注如下:

    • 奥 (B-PER)
    • 巴 (M-PER)
    • 马 (E-PER)
    • 出生 (O)
    • 在 (O)
    • 夏 (B-LOC)
    • 威 (M-LOC)
    • 夷 (E-LOC)
    • 。 (O)
  3. 基于词汇的标注
    在某些情况下,尤其是处理中文文本时,可能会采用基于词汇的标注,直接将整个词汇标注为一个实体,而不是使用BIO或BIOES等模式。例如:

    • 奥巴马 (PER)
    • 出生 (O)
    • 在 (O)
    • 夏威夷 (LOC)
    • 。 (O)
  4. 基于短语的标注
    在这种方法中,整个短语或实体被标注为一个单元,而不是标注单个词。例如,英文中的“New York City”作为一个地名实体整体标注:

    • [New York City] (LOC)
  5. Markup方法
    Markup方法通常指的是使用XML或类似的标记语言来注释文本中的实体这种方法可以直接在文本中标记实体的边界和类型。
    例如,句子“Steve Jobs founded Apple Inc.”可以使用XML标记如下:

<PER>Steve Jobs</PER> founded <ORG>Apple Inc.</ORG>.

每种标注方法都有其优缺点,选择哪一种方法取决于具体的应用场景、所使用的模型以及标注资源的可用性。在实际应用中,BIO和BIOES是最常用的标注方案,因为它们能够提供足够的信息来帮助模型识别实体的边界和类别。

参考文献

1.中文命名实体识别NER的原理、方法与工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/594319.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于AT89C51单片机的温度上下限自动控制检报警设计

点击链接获取Keil源码与Project Backups仿真图: https://download.csdn.net/download/qq_64505944/89247694?spm=1001.2014.3001.5501 C 源码+仿真图+毕业设计+实物制作步骤+06 题 目 基于单片机的温度检测调节系统设计 姓 名 学 号 专业班级 指导教师 年 月 日 任务书 …

Nginx 从入门到实践(2)——Rewrite重写

Nginx Rewrite Rewrite重写 Nginx Rewriteurl组成说明Rewrite基本概述Rewrite使⽤场景rewrite优点 Rewrite配置语法location匹配概述 if指令if 判断指令语法nginx以及if 判断可使用的全局变量 set命令return指令 url组成说明 https://cn.bing.com/search?qNginxRewrite&P…

udp/tcp回显网络编程

udp DatagramSocket 用于接收和发送udp数据报 构造方法&#xff1a; DatagramSocket():创建一个UDP数据报套接字的Socket&#xff0c;绑定到本地上 一个随机可用端口上&#xff0c;一般用于客户端DatagramSocket(int port):创建一个UDP数据报套接字的Socket&#xff0c;绑定到…

Proxmox VE 8 用SDN隔离用户网络

作者&#xff1a;田逸&#xff08;formyz&#xff09; 最新发布的Proxmox VE&#xff08;以下简称PVE&#xff09; 8在Web管理后台集成了易于操作的SDN&#xff08;软件定义网络&#xff09;功能插件&#xff0c;其实质是对不同的PVE用户指定不同的网络&#xff0c;进行逻辑隔离…

将要上市的自动驾驶新书《自动驾驶系统开发》中摘录各章片段 4

第十三章 车联网 数字化设备正变得越来越普遍并且相互联系。这些设备向数字生态系统智能部分的演进创造了迄今为止尚未解决安全问题的新颖应用。一个特定的例子是车辆&#xff0c;随着车辆从简单的交通方式发展到具有新的感知和通讯功能的智能实体&#xff0c;就成为智能城市的…

屏蔽罩材质和厚度对屏蔽效能的影响

​ 一&#xff0e;屏蔽效能的影响因素 屏蔽效能的影响因素主要有两个方面&#xff1a;屏蔽材料的特性和厚度&#xff1b;如下图所示&#xff0c;电磁波经过不同媒介时&#xff0c;会在分界面形成反射&#xff0c;穿过界面的电磁波一部分被反射回去&#xff0c;这部分能量损失…

偶然发现了Python的一个BUG。。。

一般情况下&#xff0c;dict(id1, **{id: 1})这句代码应该报TypeError。但如果在捕获了其他异常的情况下&#xff0c;再来执行这句代码&#xff0c;却是会报KeyError&#xff0c;如下图&#xff1a; Python3.10和Python3.9也能复现该情况&#xff0c;正当我摩拳踩掌&#xff0c…

百度下拉框负面信息如何删除?

百度头条360等搜索引擎&#xff0c;作为人们获取信息的主要途径之一。然而&#xff0c;一些知名的企业或个人可能会面临在搜索的下拉框中出现负面信息的问题&#xff0c;这可能对其声誉和形象造成不良影响。小马识途营销顾问根据自身从业经验&#xff0c;针对这类情况提出以下建…

【精品毕设推荐】基于JSP物流信息网的设计与实现

点击免费下载原文及代码、PPT 摘要 本文讲述了基于JSP物流信息网的设计与实现。该系统使用java语言开发&#xff0c;使系统具有更好的平台性和可扩展性。 该系统实现了用户登录、注册、查询快递信息、快递公司注册成为合作伙伴以及系统管理员对信息进行管理等功能。系统的主…

LeetCode 234.回文链表

题目描述 给你一个单链表的头节点 head &#xff0c;请你判断该链表是否为 回文链表 。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 示例 1&#xff1a; 输入&#xff1a;head [1,2,2,1] 输出&#xff1a;true示例 2&#xff1a; 输入&#xff…

解决windows中的WSL Ubuntu子系统忘记root密码和用户密码问题

1、以管理员身份运行PowerShell 2、在powershell中执行wsl.exe --user root wsl.exe --user root如果出现了上面的报错&#xff0c;则需要运行步骤3、4&#xff0c;然后在执行步骤5改密码&#xff0c;如果没有出错&#xff0c;请直接跳到第5步改密码操作&#xff01;&#xff…

一分钱不花从HTTP升级到HTTPS

HTTP升级到HTTPS是一个涉及安全性和技术实施的过程&#xff0c;主要目的是为了提升网站数据传输的安全性&#xff0c;防止数据被窃取或篡改。以下是一些关于从HTTP升级到HTTPS的技术性要点和步骤概述&#xff0c;结合上述信息资源&#xff1a; 一、理解HTTPS的重要性 HTTPS (…

微信IDE vscode插件:获取插件位置,并打开文件

背景 有没有觉得在微信开发工具里面添加一些插件可以很方便。因为微信IDE的编辑本身是依赖vscode开发&#xff0c;所以编写vscode插件自然可以在微信IDE使用。这样做好处就是可以满足到自己一些开发使用习惯。 1.获取插件的目录位置 那么如何获取插件里面的目录&#xff0c;…

【精】hadoop、HIVE大数据从0到1部署及应用实战

目录 基本概念 Hadoop生态 HIVE hdfs(hadoop成员) yarn(hadoop成员) MapReduce(hadoop成员) spark flink storm HBase kafka ES 实战 安装并配置hadoop 环境准备 准备虚拟机 安装ssh并设置免密登录 安装jdk 安装、配置并启动hadoop 添加hadoop环境变量&…

STM32F1之FLASH闪存

目录 1. 简介 2. 闪存模块组织 3. FLASH基本结构 4. FLASH解锁 5. 使用指针访问存储器 6. 程序存储器全擦除 7. 程序存储器页擦除 8. 程序存储器编程 9. 选项字节 1. 简介 STM32F1系列的FLASH包含程序存储器、系统存储器和选项字节三个部分&#xff0c;通过…

MapReduce笔记

实现分布式的作用&#xff1a; 通过并行处理提高能力通过复制机制进行容错处理与传感器等物理设备的分布相匹配通过隔离实现安全 难点&#xff1a; 许多并行的部件&#xff0c;他们之间有复杂的相互作用必须应对处理部分故障难以实现性能潜力 容错 1000多台服务器、庞大的网络…

【busybox记录】【shell指令】b2sum

目录 内容来源&#xff1a; 【GUN】【b2sum】指令介绍 【busybox】【b2sum】指令介绍 【linux】【b2sum】指令介绍 使用示例&#xff1a; BLAKE2摘要&#xff08;512bit&#xff09; - 默认输出 BLAKE2摘要&#xff08;512bit&#xff09; - 指定校验和长度 BLAKE2摘要…

Python量化炒股的数据信息获取—获取沪深股市每日成交概况信息

Python量化炒股的数据信息获取—获取沪深股市每日成交概况信息 沪深股市每日成交概况信息&#xff0c;都存放在STK_EXCHANGE_TRADE_INFO表中&#xff0c;该表保存在finance包中。要查看表中的数据信息&#xff0c;需要使用query()函数。 单击聚宽JoinQuant量化炒股平台中的“…

还有谁……想知道“线下与线上布局之间的本质区别”

还有谁……想知道 线下与线上布局之间的本质区别 hello,亲爱的你们好.… 我是你们的好朋友,正博,今天是非常特殊的一天,给每一位读者准备了一份特殊的神秘礼物…… 在分享【特殊礼物】之前,请允许我分享一下《线下营销与线上销售的9大核心差异》…… 1、注意力; 2、销…

nginx--反向代理

反向代理 指的是代理外网用户的请求到内部的指定web服务器器&#xff0c;并将数据返回给用户的一种方式&#xff0c;这是用的比较多的一种方式 模块和功能 ngx_http_proxy_module&#xff1a; 将客户端的请求以http协议转发至指定服务器进行处理。ngx_stream_proxy_module&…
最新文章