最新想爬一个论坛的最新回复板块的帖子,然后生成 RSS 。但是最新回复的顺序是乱序的,经常爬过的帖子又回到顶部导致重复。
我目前的想法是用一个固定大小的 Set (因为可以认为超过这个大小数量的帖子都比较久远不会再重复)保存已经爬过的帖子的标题,然后判断爬过了就跳过。不知道大家有没有比较好的办法保证输出的 RSS 没有重复的。