有一个文章模板,基本就是目录,内容,树状格式,章节之间的关系用 json 定义
章节 1
内容
章节 1.1
内容
章节 1.1.1
。。。
章节 1.2
内容
章节 2
。。。
基于这个模板的文章,某些章节和内容都可能缺失
想把这个文章按照章节模板转化成这样的 json
章节 1 内容
章节 1/章节 1.1 内容
章节 1/章节 1.1/章节 1.1.1 内容
章节 1/章节 1.2 内容
怎么设置匹配方案
注意到,章节和内容在形式上没有区别,章节是字符串表示,而内容可能是字符串也可能 是字符串数组。
1
coderluan 2023-09-25 14:02:42 +08:00
得先找到一个办法去区分章节和内容吧,然后遍历内容,向前获取章节就行了。
如果没办法区分章节和内容,而章节和内容又都可能缺失,你这个就相当于,内容内容内容,没办法知道是内容/内容内容,还是内容内容/内容。 |
2
opengps 2023-09-25 14:04:13 +08:00
如果可以确认所有末节点的内容是单行的,那么 tab 就是你的识别符了
|
3
NoOneNoBody 2023-09-26 14:14:13 +08:00
json -> nested dict -> xpath ,后面这步网上有,搜一下能找到,基本上就是 key 递归
|