V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
guoguobaba
V2EX  ›  Python

一个文本解析的问题请教

  •  
  •   guoguobaba · 2023-09-25 13:53:45 +08:00 · 934 次点击
    这是一个创建于 411 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有一个文章模板,基本就是目录,内容,树状格式,章节之间的关系用 json 定义

    章节 1
        内容
        章节 1.1
            内容
            章节 1.1.1
               。。。
        章节 1.2
            内容
    章节 2
        。。。
    

    基于这个模板的文章,某些章节和内容都可能缺失

    想把这个文章按照章节模板转化成这样的 json

    章节 1                      内容
    章节 1/章节 1.1              内容
    章节 1/章节 1.1/章节 1.1.1    内容
    章节 1/章节 1.2              内容
    

    怎么设置匹配方案

    注意到,章节和内容在形式上没有区别,章节是字符串表示,而内容可能是字符串也可能 是字符串数组。

    3 条回复    2023-09-26 14:14:13 +08:00
    coderluan
        1
    coderluan  
       2023-09-25 14:02:42 +08:00
    得先找到一个办法去区分章节和内容吧,然后遍历内容,向前获取章节就行了。


    如果没办法区分章节和内容,而章节和内容又都可能缺失,你这个就相当于,内容内容内容,没办法知道是内容/内容内容,还是内容内容/内容。
    opengps
        2
    opengps  
       2023-09-25 14:04:13 +08:00
    如果可以确认所有末节点的内容是单行的,那么 tab 就是你的识别符了
    NoOneNoBody
        3
    NoOneNoBody  
       2023-09-26 14:14:13 +08:00
    json -> nested dict -> xpath ,后面这步网上有,搜一下能找到,基本上就是 key 递归
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1765 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 16:38 · PVG 00:38 · LAX 08:38 · JFK 11:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.