余晖落尽暮晚霞,黄昏迟暮远山寻
本站
当前位置:网站首页 > 编程知识 > 正文

基于Tensorflow使用CRF(条件随机场)解决词性标注问题

xiyangw 2023-05-14 11:34 16 浏览 0 评论

前几天看到了概率图模型这一块,讲到了贝叶斯网络和马尔可夫网络等;其中后者主要讲到了马尔可夫随机场和条件随机场,于是今天就动手敲了一遍书中给的代码,讲真,代码有点乱,对于小白来说看着可能会生无可恋,咱们出发吧~~

关于词性标注稍微说明一下,比如给你一个句子:You are beautiful。标准的“主系表”结构,大家都知道系动词不能单独作谓语,其后必须跟表语,其实这就是一种规则,可以称之为一个特征函数,当然这其中还有很多规则,比如动词后边不能跟动词,这也是一个特征函数,我们就可以定义一个特征函数的集合,用来评判一个标注的序列是否正确,这一块的基础知识大家可以自行查阅一下,我们就不一一介绍了,咱们今天主要还是用代码实现它~~

基于Tensorflow使用CRF(条件随机场)解决词性标注问题

进入正题吧:

设置参数

num_exam=10
num_words=20
num_feat=100
num_tags=5

咱们设置了10个样本,每个样本20个单词(不是20的后边统一为20),100个特征函数和5组标注序列,当然这个值可以随意设置,只要合理就ok

构建随机特征和随机标注

#构建随机特征
x=np.random.rand(num_exam,num_words,num_feat).astype(np.float32)
#构建随机tag
y=np.random.randint(num_tags,size=[num_exam,num_words]).astype(np.int32)

然后获取样本句长,因为每个句子的长度不一,我们统一为20,即num_words,进行填充:

length_se=np.full(num_exam,num_words,dtype=np.int32)

然后获取样本句长,因为每个句子的长度不一,我们统一为20,即num_words,进行填充:

length_se=np.full(num_exam,num_words,dtype=np.int32)

构建模型

将x、y和length_se转换为常量:

x_t=tf.constant(x)
y_t=tf.constant(y)
length_se_t=tf.constant(length_se)

增加一个无偏置线性层:

weights=tf.get_variable("weights",[num_feat,num_tags])
x_t_matr=tf.reshape(x_t,[-1,num_feat])
unary_scores_matr=tf.matmul(x_t_matr,weights)
unary_scores=tf.reshape(unary_scores_matr,[num_exam,num_words,num_tags])

创建一个新的变量weights,并指定其形状为特征函数量×标注序列量;reshape函数中的-1表示新的形状不确定有多少行,列数为特征函数量,也就是行自适应;这四行代码其实就是最基本的矩阵点乘和转换的应用,我们可以带入具体的数值,这样更便于理解,空间想象一下~~~

然后就可以计算序列的的log-likelihood并获得转移概率:

log_likelihood,tran_params=tf.contrib.crf.crf_log_likelihood(unary_scores,y_t,length_se)

上述tf.contrib.crf.crf_log_likelihood函数用于在一个条件随机场中计算标签序列的log-likelihood,其格式为:

crf_log_likelihood(inputs,tag_indices,sequence_lengths,transition_params=None)

解码

viterbi_sequence,viterbi_score=tf.contrib.crf.crf_decode(unary_scores,tran_params,length_se_t)
loss=tf.reduce_mean(-log_likelihood)
train_op=tf.train.GradientDescentOptimizer(0.01).minimize(loss)
session.run(tf.global_variables_initializer())
mask=(np.expand_dims(np.arange(num_words),axis=0)<np.expand_dims(length_se,axis=1))

第一行出现的函数用于在tensorflow内部解码,后边的代码就是标准的损失函数系列操作,使用随机梯度下降来求最优,学习率为0.01,当然这个值也可以更改,大家可以尝试一下不同的学习率

训练模型

#获取总标签数
total_labels=np.sum(length_se)
#开始训练
for i in range(500):
    tf_viterbi_sequence,_=session.run([viterbi_sequence,train_op])
    if i%100==0:
         correct_lables=np.sum((y==tf_viterbi_sequence)*mask)
         accuracy=100.0*correct_lables/float(total_labels)
         print("Accuracy-NO.%d:%.2f%%" % (i,accuracy))

我们最后输出一下精确度,训练5000次,每100次输出一下,看下结果:

完整代码你可以在这里看到

让我们一起分享,共同成长,分享使我们在编程路上并不孤独。快来扫描二维码,与博主一起快乐学习吧!

相关推荐

辞旧迎新,新手使用Containerd时的几点须知

相信大家在2020年岁末都被Kubernetes即将抛弃Docker的消息刷屏了。事实上作为接替Docker运行时的Containerd在早在Kubernetes1.7时就能直接与Kubelet集成使...

分布式日志系统ELK+skywalking分布式链路完整搭建流程

开头在分布式系统中,日志跟踪是一件很令程序员头疼的问题,在遇到生产问题时,如果是多节点需要打开多节点服务器去跟踪问题,如果下游也是多节点且调用多个服务,那就更麻烦,再者,如果没有分布式链路,在生产日志...

Linux用户和用户组管理

1、用户账户概述-AAA介绍AAA指的是Authentication、Authorization、Accounting,即认证、授权和审计。?认证:验证用户是否可以获得权限,是3A的第一步,即验证身份...

linux查看最后N条日志

其实很简单,只需要用到tail这个命令tail-100catalina.out输入以上命令,就能列出catalina.out的最后100行。...

解决linux系统日志时间错误的问题

今天发现一台虚拟机下的系统日志:/var/log/messages,文件时间戳不对,跟正常时间差了12个小时。按网上说的执行了servicersyslogrestart重启syslog服务,还是不...

全程软件测试(六十二):软件测试工作如何运用Linux—读书笔记

从事过软件测试的小伙们就会明白会使用Linux是多么重要的一件事,工作时需要用到,面试时会被问到,简历中需要写到。对于软件测试人员来说,不需要你多么熟练使用Linux所有命令,也不需要你对Linux...

Linux运维之为Nginx添加错误日志(error_log)配置

Nginx错误日志信息介绍配置记录Nginx的错误信息是调试Nginx服务的重要手段,属于核心功能模块(nginx_core_module)的参数,该参数名字为error_log,可以放在不同的虚机主...

Linux使用swatchdog实时监控日志文件的变化

1.前言本教程主要讲解在Linux系统中如何使用swatchdog实时监控日志文件的变化。swatchdog(SimpleWATCHDOG)是一个简单的Perl脚本,用于监视类Unix系统(比如...

syslog服务详解

背景:需求来自于一个客户想将服务器的日志转发到自己的日志服务器上,所以希望我们能提供这个转发的功能,同时还要满足syslog协议。1什么是syslog服务1.1syslog标准协议如下图这里的fa...

linux日志文件的管理、备份及日志服务器的搭建

日志文件存放目录:/var/log[root@xinglog]#cd/var/log[root@xinglog]#lsmessages:系统日志secure:登录日志———————————...

运维之日志管理简介

日志简介在运维过程中,日志是必不可少的东西,通过日志可以快速发现问题所在。日志分类日志分类,对不同的日志进行不同维度的分析。操作系统日志操作系统是基础,应用都是在其之上;操作系统日志的分析,可以反馈出...

Apache Log4j 爆核弹级漏洞,Spring Boot 默认日志框架就能完美躲过

这两天沸沸扬扬的Log4j2漏洞门事件炒得热火朝天:突发!ApacheLog4j2报核弹级漏洞。。赶紧修复!!|Java技术栈|Java|SpringBoot|Spring...

Linux服务器存在大量log日志,如何快速定位错误?

来源:blog.csdn.net/nan1996jiang/articlep/details/109550303针对大量log日志快速定位错误地方tail/head简单命令使用:附加针对大量log日志...

Linux中查看日志文件的正确姿势,求你别tail走天下了!

作为一个后端开发工程师,在Linux中查看查看文件内容是基本操作了。尤其是通常要分析日志文件排查问题,那么我们应该如何正确打开日志文件呢?对于我这种小菜鸡来说,第一反应就是cat,tail,vi(或...

分享几款常用的付费日志系统,献给迷茫的你!

概述在前一篇文章中,我们分享了几款免费的日志服务器。他们各有各的特点,但是大家有不同的需求,有时免费的服务器不能满足大家的需要,下面推荐几款付费的日志服务器。1.Nagios日志服务器Nagio...

取消回复欢迎 发表评论: