怎么在处理百度百科数据的同时,保留文本内容的章节关系。百科的数据好像都是平铺并列的,没有层级结构,怎么处理才能输出包含层级关系的数据。
1
jeeyong 2022-03-10 02:59:03 +08:00
我粗看了一下...不能保证可以应用到所有百度百科内容上...
div[@data-pid=n] 遍历到没有元素为止, 遍历的时候检测是否有 data-index 属性. data-index 是段落标题 其他就是文本内容... 可以满足你的需求吗? |