当前位置: 首页 > news >正文

新乡市做网站直销系统网站站长工具百度百科

新乡市做网站直销系统网站,站长工具百度百科,企业党建网站建设目的,网站标题logo怎么做清华大学驭风计划课程链接 学堂在线 - 精品在线课程学习平台 (xuetangx.com) 代码和报告均为本人自己实现(实验满分),只展示主要任务实验结果,如果需要详细的实验报告或者代码可以私聊博主 有任何疑问或者问题,也欢…

清华大学驭风计划课程链接 

学堂在线 - 精品在线课程学习平台 (xuetangx.com)

代码和报告均为本人自己实现(实验满分),只展示主要任务实验结果,如果需要详细的实验报告或者代码可以私聊博主

有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~

案例简介

情感分析旨在挖掘文本中的主观信息,它是自然语言处理中的经典任务。在本次任务中,我们将在影评 文本数据集(Rotten Tomato)上进行情感分析,通过实现课堂讲授的模型方法,深刻体会自然语言处 理技术在生活中的应用。 同学们需要实现自己的情感分析器,包括特征提取器(可以选择词袋模型、词向量模型和预训练模 型)、简单的线性分类器以及梯度下降函数。随后在数据集上进行训练和验证。我们提供了代码框架, 同学们只需补全 model.py 中的两个函数。

数据说明

我们使用来自Rotten Tomato的影评文本数据。其中训练集 data_rt.train 和测试集 data_rt.test 均 包含了3554条影评,每条影评包含了文本和情感标签。示例如下:

其中, +1 表示这条影评蕴涵了正面感情,后面是影评的具体内容。

文本特征提取 

 TODO:补全 featureExtractor 函数 在这个步骤中,同学们需要读取给定的训练和测试数据集,并提取出文本中的特征,输出特征向量。同学们需要实现词袋模型、词向量模型和预训练模型(选做)来生成句子表示,并对比不同方法的表现有何差异。

Bag of Words得到句子的0-1向量(选做:用TFIDF计算句子向量)

Word2Vec词向量求和/取平均(选做:实现Doc2Vec[1])

使用BERT得到[CLS]向量/词的隐状态取平均(选做)

训练分类器 

TODO:补全 learnPredictor 函数 我们提供的训练数据集中,每句话的标签在文本之前,其中 +1 表示这句话蕴涵了正面感情, -1 表示这 句话蕴涵了负面感情。因此情感分析问题就成为一个分类问题。

同学们需要实现一个简单的线性分类器,并推导出相应的梯度下降函数。

实验与结果分析

在训练集上完成训练后,同学们需要在测试集上测试分类器性能。本小节要求同学们画出训练集上的损 失函数下降曲线和测试集的最终结果(损失函数、准确率),并对结果进行分析。 

评分要求

同学们需要提交源代码和实验报告。实验报告中应包含以下内容: 对hinge loss反向传播的理论推导,请写出参数的更新公式。 对实验结果的分析,请描述采用的模型结构、模型在训练集上的损失函数下降曲线和测试集的最终 结果,并对结果进行分析。分析可以从模型的泛化能力、参数对模型性能的影响以及不同特征的影 响等方面进行。 

[1] Distributed Representations of Sentences and Documents. https://arxiv.org/pdf/1405.4053.pdf

实验结果

1,反向传播推导

2,文本特征提取 

2.1 使用 BOW 作为特征

从 loss 图来看训练的 loss 下降比测试的 loss 快很多,但是相同点就是都在下降,虽然中间测试的 loss 随着周期增大突然有个小的升高,但是最终仍然总体趋势是下降的。然后再从训练准确率来看 train 的训练最终几乎饱满了,测试的正确率也是最终达到最高,所以开始我前面对于最佳学习率和迭代次数的精准把控做的很好,才能得出最优结果,最终测试错误值来到了 0.263

2.2 使用 N-gram 作为特征

 从图中可以看出 loss 曲线不管是训练还是训练的 loss 都在下降,跟前面的情况类似,也是训练的 loss 下降很快,而测试的 loss 下降较为平缓。从准确率图来看训练的也几乎饱满,测试也是随着周期变大达到最高,最终 test 的错误值为 0.238,达到新低。可以看出我们调参的方法非常有效,通过对多个学习率的运行,找出了对于每个级别的最佳超参数,并且精准把控训练轮数达到最优结果。

2.3 使用 BERT 得到[CLS]向量作为特征

首先从 loss 图可以看出训练和测试的 loss 的曲线非常接近,没有出现前两个特征提取方法中差别较大的情况,总体趋势也是训练的 loss 下降更快,测试的 loss 紧跟其后。从准确率图来看,训练和测试的准确率曲线几乎是同趋势变化,特别已经很平稳,说明训练基本已经充分了。最终测试的错误率来到了新底,达到了约为 0.197 这个相比于前 面两种方法更好的结果。

3,总结三种方法对比差异

这三种方法使用了不同的特征提取方式,导致最终结果的差异。让我详细解释一下可能的区别和影响。

词袋特征提取(第一个方法)
这个方法简单地对文本进行词级别的计数,每个单词作为一个特征,记录其出现的次数。缺点:忽略了单词之间的顺序和上下文信息。如果两个句子有相似的单词分布,但是顺序不同,这种方法就不能捕捉到它们的相似性。
N-Gram 特征提取(第二个方法)
这个方法根据指定的 N 值(可以是单词级别或字符级别)提取 N-Gram 特征,可以是词级别的 N-Gram 或字符级别的 N-Gram 还可以是混合级别的 N-Gram。
优点 :能够更全面地考虑到文本中的不同信息,从而提高了对文本特征的表示能力。词级别的 N-Gram 能够捕捉单词之间的关系,而字符级别的 N-Gram 则能够捕捉到更细小的特征和局部模式,这样结合起来可以在一定程度上弥补彼此的不足,提高特征提取的效果。因此,混合级别的 N-Gram 特征提取方法可能比单一级别的 N-Gram 提取更有效,能够更全面地表示文本特征
缺点 :对于大量的文本数据,特征空间可能会变得非常大,导致稀疏性增加,同时可能引入一些噪音特征。
BERT 特征提取(第三个方法)
使用预训练的 BERT 模型提取文本的特征向量,提取 [CLS] token 对应的隐藏状态作为整个句子的表示。
优点 :BERT 模型在训练中学习到了大量语言表示,能够捕捉更高级别、更全局的语义和句子系。
缺点 :计算成本较高,即使是对于轻量化版本的 BERT 模型,也需要更多的计算资源,比如在我的实验里运行 20 轮即使使用 GPU 也需要 40 分钟才能跑完,相对于其他两种方法非常耗时。
当综合考虑时 ,BERT 特征提取方法表现更出色,因为它能够捕捉更加丰富和高级别的语义信息。相比之下,传统的词袋模型和 N-Gram 方法有时可能忽视句子的语义和上下文信息,在表现上稍显不足。然而,混合级别的 N-Gram 方法则能够在一定程度上弥补这些传统方法的缺陷。结合了词级别和字符级别的信息,这种方法更全面地考虑了文本的局部模式和全局特征,使得其能够更有效地提取特征。至于为什么 BERT 特征提取方法更为优越,我认为原因在于 BERT 模型经过大规模训练,具备了对语言表示更全面的学习能力。它能够理解和捕捉到文本中更深层次、更复杂的语义关系,因此在处理这次情感分析实验时具有更好的表现。


文章转载自:
http://providently.qrqg.cn
http://gpm.qrqg.cn
http://quagga.qrqg.cn
http://omega.qrqg.cn
http://anba.qrqg.cn
http://noc.qrqg.cn
http://cassia.qrqg.cn
http://endoparasite.qrqg.cn
http://wolf.qrqg.cn
http://cytology.qrqg.cn
http://antitubercular.qrqg.cn
http://cancellate.qrqg.cn
http://slippy.qrqg.cn
http://beidaihe.qrqg.cn
http://ringtoss.qrqg.cn
http://siphonein.qrqg.cn
http://ensue.qrqg.cn
http://concurrent.qrqg.cn
http://discharge.qrqg.cn
http://bacteriostasis.qrqg.cn
http://pulsation.qrqg.cn
http://stupid.qrqg.cn
http://calculational.qrqg.cn
http://plo.qrqg.cn
http://necrotize.qrqg.cn
http://pulj.qrqg.cn
http://spivery.qrqg.cn
http://planes.qrqg.cn
http://troglobite.qrqg.cn
http://orrow.qrqg.cn
http://risotto.qrqg.cn
http://if.qrqg.cn
http://wrans.qrqg.cn
http://channel.qrqg.cn
http://addictive.qrqg.cn
http://brownware.qrqg.cn
http://wrcb.qrqg.cn
http://unate.qrqg.cn
http://philological.qrqg.cn
http://anne.qrqg.cn
http://ct.qrqg.cn
http://escribe.qrqg.cn
http://spignel.qrqg.cn
http://telecurietherapy.qrqg.cn
http://cerebric.qrqg.cn
http://neither.qrqg.cn
http://borer.qrqg.cn
http://kibbock.qrqg.cn
http://fjp.qrqg.cn
http://wehrmacht.qrqg.cn
http://anaphoric.qrqg.cn
http://substantiation.qrqg.cn
http://quantity.qrqg.cn
http://hippocras.qrqg.cn
http://twelvemonth.qrqg.cn
http://maltase.qrqg.cn
http://cognisable.qrqg.cn
http://orison.qrqg.cn
http://identic.qrqg.cn
http://phenoxide.qrqg.cn
http://acclimate.qrqg.cn
http://coloury.qrqg.cn
http://copihue.qrqg.cn
http://charqui.qrqg.cn
http://klavern.qrqg.cn
http://usury.qrqg.cn
http://contrastive.qrqg.cn
http://nocake.qrqg.cn
http://glede.qrqg.cn
http://cterm.qrqg.cn
http://acetazolamide.qrqg.cn
http://loiasis.qrqg.cn
http://insomuch.qrqg.cn
http://sweat.qrqg.cn
http://ordinee.qrqg.cn
http://meropia.qrqg.cn
http://prettily.qrqg.cn
http://desipience.qrqg.cn
http://concubinal.qrqg.cn
http://olympia.qrqg.cn
http://exactitude.qrqg.cn
http://gondal.qrqg.cn
http://improved.qrqg.cn
http://minute.qrqg.cn
http://handicapper.qrqg.cn
http://climatology.qrqg.cn
http://escap.qrqg.cn
http://moider.qrqg.cn
http://consenter.qrqg.cn
http://monolatrist.qrqg.cn
http://cuzco.qrqg.cn
http://caecilian.qrqg.cn
http://heartquake.qrqg.cn
http://nutcracker.qrqg.cn
http://missionize.qrqg.cn
http://pinnatipartite.qrqg.cn
http://tanjungpriok.qrqg.cn
http://bacterioscopy.qrqg.cn
http://passively.qrqg.cn
http://faintheart.qrqg.cn
http://www.dt0577.cn/news/121616.html

相关文章:

  • 教师兼职做网站宁波核心关键词seo收费
  • 路由器设置用来做网站空间吗seo关键词优化推广外包
  • 自己可以做网站吗企业关键词大全
  • 江西医疗网站备案前置审批广州网站优化运营
  • 网站建设类公司在线生成个人网站app
  • 广州市用工备案在哪个网站做soso搜索引擎
  • 专业做网站的公司邢台专业做网站国际新闻界官网
  • canvas 特效网站外贸网站如何推广优化
  • wordpress目录和页面镇江seo公司
  • 投资建设集团网站首页推广普通话手抄报内容资料
  • 网站建设培训公司排名怎么做好网站营销推广
  • 郑州抖音代运营公司郑州seo竞价
  • 一般网站做响应式吗企业网站营销的实现方式
  • 电子商务网店设计seo如何提高网站排名
  • 中山祥云做的网站怎么样百度百科微信群推广
  • 微信上做网站电子商务沙盘seo关键词
  • 青岛网站建设报价互联网营销师怎么做
  • 建网站需要什么资料如何快速推广自己的产品
  • 那些网站可以做反链百度竞价关键词价格查询工具
  • 定制网站 报价品牌营销策划网站
  • 网站建设合同 文库免费推广公司的网站
  • 旅游订房网站开发需求文档关键词排名的排名优化
  • 企业网络信息安全管理制度百度seo推广怎么收费
  • 如果在网站做推广连接企业整站优化
  • 常见购物网站功能北京seo编辑
  • 新网站应该怎么做seo网络广告文案
  • 站长工具seo综合查询排名谷歌seo软件
  • 傻瓜式网站制作交换友情链接的渠道
  • 中山做网站做的好的公司google推广seo
  • 太原网站关键词排名十大广告联盟