LONG SHORT-TERM MEMORY BASED RECURRENT NEURAL NETWORK:ARCHITECTURES FOR LARGE VOCABULARY SPEECH RECOGNITION
论文创新点和意义
RNN用于nlp可以取得良好效果,基本原理是利用一个简单的递归过程储存前文的信息。但是由于vanishing gradient和exploding gradient两大问题,常规的RNN训练起来存在困难(这两个问题具体是什么暂时不清楚,看完这篇论文再去了解)。LSTM通过在隐层添加了一个名为memory blocks的单元,能又快又好且模型规模较小地完成大词汇量的语音识别任务。这篇文章的关键就在于memory blocks的工作机制了。
memory blocks工作机制
…看到一篇讲的很清晰透彻的博客,之后再补自己的解释http://colah.github.io/posts/2015-08-Understanding-LSTMs/