lstm | 机器学习及自然语言处理

LONG SHORT-TERM MEMORY BASED RECURRENT NEURAL NETWORK：ARCHITECTURES FOR LARGE VOCABULARY SPEECH RECOGNITION

论文创新点和意义

RNN用于nlp可以取得良好效果，基本原理是利用一个简单的递归过程储存前文的信息。但是由于vanishing gradient和exploding gradient两大问题，常规的RNN训练起来存在困难（这两个问题具体是什么暂时不清楚，看完这篇论文再去了解）。LSTM通过在隐层添加了一个名为memory blocks的单元，能又快又好且模型规模较小地完成大词汇量的语音识别任务。这篇文章的关键就在于memory blocks的工作机制了。

memory blocks工作机制

…看到一篇讲的很清晰透彻的博客，之后再补自己的解释http://colah.github.io/posts/2015-08-Understanding-LSTMs/