网易的英文译语怎么说-神探夏洛克第二季第三集


2023年4月6日发(作者:霍格沃茨学院)

百度开源漏网之鱼成语故事 情感分析Senta,让你更懂⽤户

引⾔

好友们在聊你不认识的明星⼋卦,想参与讨论⼜不知所措?

产品刚投⼊市场,想了解⽤户最真实的反馈⽽不只是抽样调查?

平台上运营着数万家电商,想从中挑出⼝碑好、潜⼒⼤的客户针对性重点扶持?

……

互联⽹时代,⽤户产⽣了海量的评论信息。电商、美⾷、酒店、旅游、购物……⾯对这些海量的评论数据,如果没有优

质的⾃然语⾔处理(NLP)技术,它们就只能静静地躺在数据库⾥,⽆法创造价值。那么如何从这些海量的⽂本数据中提

取有价值的信息?

情感分类技术:区分好评差评的利器

以分析明星⼝碑为例,开发⼈员可以通过爬⾍获取⼤量关于这个明星的⽹友评论和媒体报道,然后运⽤情感分类模型,

就能直接得到⽤户对明星的情感倾向。

更进⼀步,如果对这些数据按照时间排序,分别统计每天的⼝碑数值,就能得到该明星的舆情⾛势图,甚⾄预送灵澈上人赏析 测其未来

趋势。

同样,对于刚投⼊市场的新品、拥有⼤量⽤户评论的电商,可以分析它们的舆情及其趋势。

百度在2018年7⽉开源了其基于语义和⼤数据的情感分类系统——Senta,将模型和源码通过Github进⾏免费技术开

放。如果觉得⽤模型跑太⿇烦,百度AI开放平台上也免费开放了评论观点抽取服务,直接调⽤其API就能够实现情感分

类,能够实现最快速的原型开发。

评论观点抽取:精细刻画⽤户⼝碑

那如果想更进⼀步,得到⽤户对产品或商家的具体观点呢?就涉及到了情感分析的⾼阶技术:评论观点抽取。

该技术可以⼤致理解成两个过程:⾸先是抽取出评论中的⼀些涉及观点的名词形容词短语,然后通过情感分类技术确定

其观点的情感倾向。如观点是“味道不错”还是“味道不好”,是“上菜速度快”还是“上菜速度慢”。百度AI开放平台上免费开

放的评论观点抽取API,就可以⽀持电商、美⾷、酒店、旅游、购物等13个场景的评论观点抽取。

以此为基础,就可以基于海量的评论数据,建⽴精细的⽤户画像和商户画像,进⽽改善营销和服务策略,丰富个性化推荐

场景,最终创造更⼤的商业价值。

情感分类技术为什么难

⽬前的⼈⼯智能技术都是基于⼤量的数据训练复杂的模型,以此来⽀持不同场景的应⽤。因此其核⼼困难包括模型和数

据两个⽅⾯。

⾸先,情感是⼈类的⼀种⾼级智能⾏为,需要模型能够在语义层⾯理解⽂本的情感倾向。这不是靠写⼏个正则表达式就

能完成的。

另⼀⽅⾯,不同领域(如餐饮、体育)的情感表达⽅式各不相同,即便是同⼀场景的表达也极其复杂。所以需要有⼤规模

覆人贵有自知之明 盖各个领域的优质数据⽀撑模型训练。⽽这些数据⼜不是⼀般的开发者所能具备的。

覆盖各个领域的优质数据⽀撑模型训练。⽽这些数据⼜不是⼀般的开发者所能具备的。

那百度Senta是怎么解决这些问题并形成核⼼技术的?

核⼼技术⼀:强⼤的DNN语义模型和深度学习框架

百度Senta系统采⽤的是近年取得重⼤突破的深度学习技术。深度学习的特点是可以不依赖繁复的⼈⼯特征⼯程,⽽直

接从最原始的⽂本数据中获取语义层⾯的信息,进⽽进⾏情感倾向的判断。

图3基于bi-LSTM的情感分类模型

图3展⽰了基于bi-LSTM的情感分类模型。它是在⼤规模语料上有显著效果的经典深度学习模型。它的特点是能够提取

语句中词语顺序相关的信息,考虑词与词之间较长上下⽂的依赖。

但是光有好的模型设计还不够,还需要好的深度学习框架来实现。百度Senta情感分析系统基于同样由百度开源的深度

学习框架PaddlePaddleFluid所实现。PaddlePaddleFluid具有⼀些特别适合于⾃然语⾔处理的特性,⽐如在深度学习

模型的训练过程中,为了充分利⽤硬件的计算资源,⼀般需要进⾏批量(batch)计算,即⼀次同时输⼊多个句⼦进⾏计

算。但是情感分类这类场景所处理的⼤量⽂本的长度都是不固定的,⼀般的深度学习框架需要将⼀个batch内的句⼦补

长(padding)成同样的长度再输⼊到神经⽹络中进⾏处理。映衬的拼音 这种padding⽅式带来了额外的存储和计算开销。⽽

PaddlePaddleFluid框架⽤独有的LoDTensor原⽣⽀持多层级的不等长序列,使得变长⽂本不需要经过padding即可馈

⼊深度学习模型进⾏训练或预测,从⽽可以显著地节省储存空间和计算时间。⽽对常见的padding数据的⽀

持,PaddlePaddleFluid也在不断地完善中。

另外PaddlePaddleFluid对单机多设备及多机分布式训练的⽀持也⾮常友好。对于单机训练,框架提供的并⾏执⾏器

ParallelExecutor会⾃动处理参数的分发与聚合,相对于单设备训练,⽤户⼏乎不⽤对模型进⾏任何修改,使得⽤户可

以低成本地实现单机多CPU/GPU训练;⽽对于多机分布式训练,也只需要简单的配置即可实现,这使得⽤户能够⽅便地

从模型构建快速过渡到多种环境下的模型运⾏。

另⼀⽅⾯,现实的NLP应⽤场景往往⼗分复杂。可能单独⼀个情感倾向分析模型很难解决所有问题,需要多种NLP技术

综合运⽤。⽽很多现成的NLP应⽤,⽐如⽂本分类、神经机器翻译、阅读理解、⾃动问答等,在PaddlePaddleFluid中

都很容易找到相关的⽹络接守岁的寓意 ⼝和⽂档。预训练词向量也集成在其中,⽅便模型热启动。百度Senta系统甚⾄直接把情感

倾向分析模型的⽹络结构及其参数都开源,⽅便对其调⽤与再开发;并且集成了百度词法分析系统(LAC),⽅便⽤户直接

处理未分词的语料。这使得开发者的精⼒能够放在构建深度学习模型的⾼层部分⽽不必过多关注底层细节上,因此很适

合于⼯业应⽤,尤其是需要快速开发的场景重阳节的内容 。

当然,百度还实验了各种其他的情感分类模型,包括CNN、hierarchical-LSTM、self-attention等。它们都在百度Senta

系统的开源代码中情的拼音 ,以满⾜⽤户不同的选择。并且百度开源了训练数据,⽤户可以直接在此萎的组词 基础上训练⾃⼰的模型,以

适应⾃⼰的场景。

核⼼技术⼆:海量优质标注数据

核⼼技术⼆:海量优质标注数据

在AI界有⼀句话,“数据决定了你的模型上限,⽽模型只是在逼近这个上限”。可见⼤数据的重要性。然⽽数据标注是⼀

件⼗分耗费⼈⼒的事。为了提⾼标注效率,百度基于强⼤的NLP技术积累,能够基于有限的种⼦数据⼤量扩充标注数

据。

简单地说,就是先获得⼀部分标注好的数据,再找到与这些数据相似评论,进⽽扩充优质的标注数据。

那么第⼀批种⼦数据从哪⾥来?其实,互联⽹上天然有⼤量的弱标记评论数据,⽐如⽤户会对某个商品给予评论,同时

给予评分。根据评分的⾼低就能确定评论的正负倾向。

接下来就是计算那些没有被标注情感倾向的评论数据与这些种⼦数据的相似度。这涉及到另⼀个模型——语义相似度模

型。这个模型也是百度的核⼼技术(百度AI开放平台也开放了相关api)。它是通过百度积累的庞⼤的搜索引擎标注数据训

练得到的。因此模型准确度⾮常⾼。

更进⼀步,可青玉案贺铸原文及翻译 以将这些评论数据根据相似度连接成图结构,最后通过标记传播算法,将原来未标记数据转化为标注数

据。经实验发现,这种⽅法获取的数据质量很⾼。

图4基于标记传播的情感标记数据挖掘

因此,百度Senta系统在各种垂类准确率⾮常⾼,整体效果业界领先。⽽开源项⽬Senta中,既包含了简单⾼效的情感分

类语义模型,也包含了百度基于独有⼤数据语料训练好的⾼精准模型,可以适应不同场景的需求。另外,⽤户甚⾄可以

将⾃⼰场景的数据加⼊到训练集中,使得模型更符合⾃⾝的应⽤场景。即便⾃⼰没有训练机器,也可以上传⾃⾝的数据

到百度AI开放平台进⾏定制化,然后调⽤定制化好的api即可。

关于PaddlePaddleFluid的实战,可以参考⽂章《PaddlePaddleFluid实战:使⽤百度Senta情感分析系统》,使⽤

百度Senta系统的开源代码进⾏情感分析任务。

展望

百度在情感分析领域开展了漫长⽽深⼊的技术研发。⽽在未来,百度将继续深⼊研发更加⼴泛通⽤的NLP技术和深度学

习框架,以适应丰富多样的业务场景,创造更多价值。同时,百度将及时开源基于PaddlePaddle的最前沿的NLP技

术,共同推进AI产业的发展。

附:

更多推荐

Senta是什么意思ta在线翻译读音例句