请问对于中文长文本分类,是CNN效果好,还是RNN效果好?
关注者
66被浏览
26,3495 个回答
两种方法各有所长,如其他答案说的情感分析(虽然对于gru好于cnn不敢苟同,可能对于某个数据集吧,但是分析是认同的。)
对于题主说的新闻分类,可以参考知乎之前的文本分类比赛,是做知乎问题的分类,有参考价值,这种情况局部信息可能更有代表性,比如说到c罗梅西,那么大概率体育足球基本没跑了,所以相对来讲cnn会有优势。另外,犹豫cnn的速度优势,基本比较大的数据上cnn能加大参数,拟合更多种类的local phrase frequency,获得更好的效果。
如果你是想做系统,两个算法又各有所长,就是ensemble登场的时候了。
贴一篇论文吧,作者在论文中详细的介绍了CNN和RNN在NLP各个细分领域的比较结果。
Comparative Study of CNN and RNN for Natural Language Processing
其中,在文本情感分类领域,GRU是要好于CNN的,并且随着句子长度的增长,GRU的这一优势会进一步放大。
结论是:当句子的情感分类是由整个句子决定的时候,GRU会更容易分类正确, 当句子的情感分类是由几个局部的key-phrases决定的时候,CNN会更容易分类正确。
这里文中举了几个例子:
1) Its a movie - and an album - you won't want to miss
这个句子表达的是一个正面的情感,但是CNN会因为 not , miss 这些局部的key-phrases 把它分类成负面的, GRU就不会分类错误。


当然这是是情感分类,只有positive和negative两种, 题注说的 文本分类是多分类吗?

