长文本Summarization任务模型选型
一开始以为BERT模型就够用了, 结果发现BERT预训练模型的最长文本token长度为512, 而我试图用来做归纳的文本长度远超512个单词。
目前网络上主流的解决方案都是进行文本切割, 测试了多种模型, 最后发现Long-T5真是一个好同志, 除了速度慢一点, 真心好用。 如果有需要做长文本Summarization任务的朋友, 可以试下。
https://huggingface.co/pszemraj/long-t5-tglobal-base-16384-book-summary
而同样是推荐的BigBirdPegasus模型, 在实际使用的时候会产生不可名状的异常结果。 产生的归纳内容词不达意, 而且需要按照窗口长度拆分文本, 使用起来颇为不顺手。
https://huggingface.co/google/bigbird-pegasus-large-bigpatent
强烈推荐Long-T5, 从底层机制上实现了全局关注方案, 效率也相当不错。 有需要的朋友可以试试。
评论区