V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
icedx
V2EX  ›  分享发现

深夜来吐个槽 Readability 已经两年没更新了

  •  
  •   icedx · 2015-09-25 00:30:44 +08:00 · 2431 次点击
    这是一个创建于 3349 天前的主题,其中的信息可能已经有所发展或是发生改变。
    至今 Readability 的文本抓取能力依然是第一
    然而安卓客户端已经两年没更新了 还有 Bug
    Pocket 不思进取 经常丢图 很多网页不能脱水 差评
    20 条回复    2015-09-25 17:09:31 +08:00
    pandachow
        1
    pandachow  
       2015-09-25 01:02:12 +08:00 via iPhone   ❤️ 2
    我仿照它做了一个,加了不少规则,现在对中文网页优化好很多。已经给产品用上了,反馈也不错,过段时间打算开源。
    pandachow
        2
    pandachow  
       2015-09-25 01:22:10 +08:00 via iPhone
    有一点比较大的区别是加了规则之后用梯度提升决策树训练的,不再是 readability 的硬规则,所以需要一些网页做训练。
    adrianzhang
        3
    adrianzhang  
       2015-09-25 01:40:21 +08:00
    IFTTT ,粘!
    missdeer
        4
    missdeer  
       2015-09-25 06:45:34 +08:00 via Android
    用 evernoteclipper
    KoleHank
        5
    KoleHank  
       2015-09-25 10:37:22 +08:00
    @pandachow 期待开源,支持
    icedx
        6
    icedx  
    OP
       2015-09-25 14:46:01 +08:00 via Android
    @pandachow 硬规则还好 我用的就是硬规则现在
    icedx
        7
    icedx  
    OP
       2015-09-25 14:46:13 +08:00 via Android
    @adrianzhang 求分享管道
    icedx
        8
    icedx  
    OP
       2015-09-25 14:46:33 +08:00 via Android
    @missdeer 那个只能网页端吧
    iugo
        9
    iugo  
       2015-09-25 14:49:23 +08:00
    红+沙发.
    一直在用.
    icedx
        10
    icedx  
    OP
       2015-09-25 15:03:09 +08:00 via Android
    @iugo 安卓端丢条目 网页端都能看到 但是就是在安卓端显示不出来 浑身难受
    missdeer
        11
    missdeer  
       2015-09-25 15:09:02 +08:00
    @icedx 抓了网页就进 Evernote 了呀
    iugo
        12
    iugo  
       2015-09-25 15:51:27 +08:00
    @icedx 我没有直接使用. 是通过 Reeder 或 gReader 使用的. 当时觉得这家伙 API 一定很棒.
    pandachow
        13
    pandachow  
       2015-09-25 15:54:41 +08:00
    @icedx general 来说,正文准确率还可以。但是硬规则过滤的结果其实非常依赖前端的规范与否,此时如果发现某几个网页结果不好的时候,多数情况只能单独为它加规则或者改让前端改网页,维护和修改成本不低。

    机器学习的好处在于如果不好,就拿这个网站的几个页面专门训练,直到算出来结果正确为止,最多会维护几个模型而已,。。。
    icedx
        14
    icedx  
    OP
       2015-09-25 16:42:13 +08:00 via Android
    @missdeer yep 但是只能在浏览器里抓吧… 我想丢一个链接进去 我记得是做不到
    icedx
        15
    icedx  
    OP
       2015-09-25 16:42:51 +08:00 via Android
    @iugo 求方法 我试过 gReader 但是条目还是丢 然而苹果客户端不丢
    icedx
        16
    icedx  
    OP
       2015-09-25 16:46:05 +08:00 via Android
    @pandachow 训练模式赞一个
    我一般都是从人的角度考虑的 为什么人能认出正文这样
    然后辅以数学的方法 缺点就是精度细节不够
    比如吧 切胡萝卜 我的方法可以把头尾直接切掉 每次离最好的情况差一点点
    adrianzhang
        17
    adrianzhang  
       2015-09-25 16:48:15 +08:00
    @icedx 不需要分享的吧?有很多公共的 readability 2 pocket 一类的 receipts.
    icedx
        18
    icedx  
    OP
       2015-09-25 16:50:30 +08:00 via Android
    @adrianzhang 去搜下😂
    adrianzhang
        19
    adrianzhang  
       2015-09-25 16:52:49 +08:00
    pandachow
        20
    pandachow  
       2015-09-25 17:09:31 +08:00   ❤️ 1
    @icedx 对的,从人的角度去出发是无比正确的逻辑。之前还有一个实验性的项目很有趣,是根据人眼停留时间来学习,但是好像没有下文……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1245 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 17:35 · PVG 01:35 · LAX 09:35 · JFK 12:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.