NLP学习笔记(4)

news/2024/11/10 1:39:22
  • 不要在RNN的水平方向使用dropout(虽然有人这么做,但是是用特殊的方法的),但是经常在垂直方向使用dropout
  • 初始化参数的时候,LSTM的forget gate的bias给1或2确保不会一开始就遗忘,然后其它的参数要初始化为很小的值,否则网络就会训练不起来,初始化很重要。初始化为正交矩阵是一个很好的选择
  • 在这里插入图片描述
  • MT的评价指标,可以人工评价,但是成本比较高而且比较慢。还有一种用得比较多的叫BELU的评价指标,将机器翻译的结果和参考的翻译结果去匹配计算得到一些数值,具体是怎么算我目前还不太懂。
  • NMT有一个问题就在于,最后预测输出需要的softmax的计算量几乎占据你模型一半的计算量,加上隐状态是p维的,并且你的单词库有q个单词,那么这个softmax矩阵是pxq的,q通常是几w几十w的数量级。有几个方法被提出来解决这个问题。最简单的是用小的单词库比如q为5k,但是这又带来了质量问题。还有用树结构表示的单词库,但是这对GPU运算不友好因为无法采取矩阵乘法的方式进行决策。有的把训练集分为几份,这几份各自用单词库的一个subset,所以在训练这些的时候用的softmax就变小了,预测的时候怎样我不是很理解,具体需要去找论文看:On Using Very Large Target Vocabulary for Neural Machine Translation

http://www.niftyadmin.cn/n/3658049.html

相关文章

Asp.net 2.0 自定义控件开发[创建自定义HeaderRow的GridView控件][示例代码下载]

(一). 概述1. 做了个GridViewExtend自定义控件, 通过注册扩展自定义表头事件, 可以任意设置Header的格式.2. 易重用代码, 只要将ExtendGridView.dll 文件添加到项目引用即可. 实现原理:增加一个自定义事件,并将GridView头(HeaderRow)引用作为事件参数…

NLP学习笔记(5)

传统的语音识别模型需要建立一个generative模型,从语言模型中产生单词序列,然后产生tokens(音标)序列,然后产生语音序列(时域或频域的声音序列),然后是计算得到一些特征(…

深入浅出话窗体(一)——窗体事件模型(上)

深入浅出话窗体(一)——窗体事件模型(上)作者:CSDN 刘铁猛小序:工作中最大的挑战并不是那些Mission Impossible,而是你需要一边保持安静、平衡的心态以专注于工作,一边对抗公司体制、…

NLP学习笔记(6)

我们希望把多个单词组成的短语同样在词向量的空间中找到对应的向量,当然你也可以在不同的空间中,但是如果在同一空间中是有好处的 ,我可以利用该空间捕捉到短语与单词之间意思的相似度,比如the man on the snowboard 和 snowboard…

Programming C# 4th. Edition 中文/英文版对照阅读体验

Programming C# 4th Edition 中文版/英文版 对照阅读体验大概是耐心所至的缘故,我那几篇冠以“深入浅出C#”的文章在网络里被广泛转载——这当然是好事!有更多的朋友通过我的介绍认识并喜欢上了C#这门可爱的语言。广泛转载的Side Effect就是我的邮箱时常…

C# 3.0 语言定义文档(微软官方版)正式发布!

C# 3.0 语言定义文档(微软官方版)正式发布如果想精通一门编程语言,你就需要像律师研究法律条款一样来研究这门语言的定义文档(Language Specification,简称LangSpec)。静悄悄地,C# 3.0语言定义文…

NLP学习笔记(8)

这节课的内容看得太快而且有点难,所以这里只是做一下记录,并不详细,作为一个内容的索引,事后需要自己取搜论文了解细节 这是一个想改进tree LSTM的模型 有人用基于字符的模型,也有人用基于单词的模型,还有…

进程编程1 – Unix环境高级编程7章读书笔记

Process Environment1 Process Termination进程的终止有些下面的方法:1. 从main函数return2. 调用exit:exit属于ISO C标准中定义的函数,会执行清理工作。包括关闭IO库中所有打开的文件流(这会导致所有的文件buffer都被flu…