NER解决方案——词典匹配
创始人
2024-06-02 07:36:25
0

文章目录

    • 概述
    • 词典匹配
      • 词典匹配——实体离线挖掘
      • 词典匹配—字符匹配算法

概述

NER全称是命名实体识别(Named Entity Recognition, NER),旨在识别文本中专有名词,如位置、组织和时间。

举例:

输入:小明在北京大学的燕园看了中国男篮的一场比赛

输出:B-PER,E-PER,O, B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O

其中,“小明 ”以PER,“北京大学”以ORG,“燕园”以LOC,“中国男篮”以ORG为实体类别分别挑了出来。

标注方法

序列标注:

1.BIO:标识实体的开始、中间和非实体部分

2.BMES:增加S单个实体情况的标注

3.BIOES:增加E实体的结束标识

指针标注:

1.单指针(二维)

2.双指针(一维)

应用场景

知识图谱、文本理解、对话系统、信息检索、槽位抽取

词典匹配

概述

​ 词典匹配是工业界最常用的NER技术,尤其是垂直领域的NER任务。经过离线实体库不断的丰富完善累积后,在线使用词典匹配进行实体识别目前美团基于实体库在线ner识别率可以达到92%(2020)。

重点工作:实体离线挖掘、字符匹配算法

优点:速度快,可解释性强,且精度高

缺点:长期维护、未登录实体

词典匹配——实体离线挖掘

实体来源:

1.领域UGC、会话文本等非结构化数据;2.用户搜索日志;3.百科词条、领域信息库

业界方案:
美团基于用户UGC垂直领域的实体挖掘方案:

Step1:候选序列挖掘。频繁连续出现的词序列,是潜在新型词汇的有效候选。

Step2:基于远程监督的大规模有标记语料生成。利用领域已累积实体词典作为远程监督词库,将Step1中候选序列与实体词典的交集作为训练正例样本。将基于n-gram的候选短语中不匹配任何知识库的高质量短语的短语放在负向池中。

Step3: 基于深度语义网络的短语质量评估。我们利用搜索日志数据对Step2中生成的大规模正负例池数据进行远程指导,将有大量搜索记录的词条作为有意义的关键词。我们将正例池与搜索日志重合的部分作为模型正样本,而将负例池减去搜索日志集合的部分作为模型负样本,进而提升训练数据的可靠性和多样性。

详细内容见 https://tech.meituan.com/2020/07/23/ner-in-meituan-nlp.html

词典匹配—字符匹配算法

1.构建字典树

2.双向匹配算法

正向最大匹配:从前往后依次匹配子句是否是词语,以最长的优先。

后向最大匹配:从后往前依次匹配子句是否是词语,以最长的优先。

3.双向最大匹配原则:

覆盖 token 最多的匹配。

句子包含实体和切分后的片段,这种片段+实体个数最少的。

相关内容

热门资讯

什么是迷失 什么是迷失迷失可以分为很多种,有你在人生的路口不知道你应该去哪,或者是你遇到你什么事的时候不知道怎样...
健康观是指人们对什么的认识? 健康观是指人们对什么的认识?健康观就是指人们对建康理解的一种观念,包括疾病预防控制,养生之道的一些认...
洗菜的时候加盐水、碱水、小苏打... 洗菜的时候加盐水、碱水、小苏打哪个效果更好,更卫生?我个人认为盐是最有效而且更健康的。因为盐也是有消...
饶雪漫的那些书拍了电影? 饶雪漫的那些书拍了电影?除了沙漏的爱、左耳听见、马卓、小妖的金色城堡。还有什么??糖衣和甜酸电影版什...
蜜雪冰城食品安全问题受关注 蜜... 【#蜜雪冰城食品安全问题受关注# 蜜雪冰城被曝员工用脚关直饮水桶】#加盟模式或给蜜雪冰城带来食安风险...
重点事项常态化推进!“高效办成... 来源:新华社 国务院办公厅印发的《关于健全“高效办成一件事”重点事项常态化推进机制的意见》7月8日对...
全球首艘自航封闭式 三文鱼养殖... 转自:千龙网记者7月3日获悉,全球首艘自航封闭式三文鱼养殖工船“苏海1号”近日在广东省广州市南沙区正...
享界品牌车标发布,第二款车预计...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! “我们一直在思考,如...
紫牛热点∣分5次盗走公司191... 转自:扬子晚报扬子晚报网7月8日讯(记者 郭一鹏) 因打赏女主播、结婚急需用钱,陶某产生盗窃其所在单...