V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
1989922yan
V2EX  ›  Python

如何获得一个域名下的所有地址?比如二级域名,比如 www.a.com/a1 之类的

  •  
  •   1989922yan · 2015-08-11 11:50:24 +08:00 · 10080 次点击
    这是一个创建于 3379 天前的主题,其中的信息可能已经有所发展或是发生改变。
    24 条回复    2015-08-31 09:50:14 +08:00
    codeface
        1
    codeface  
       2015-08-11 11:53:15 +08:00
    codeface
        2
    codeface  
       2015-08-11 11:56:10 +08:00
    看错了,题主想说的不是二级域名而是子目录吧。。找找爬虫的代码看看就行了。
    1989922yan
        3
    1989922yan  
    OP
       2015-08-11 11:57:59 +08:00
    @codeface

    谢谢,基本概念都有了。

    没关系,我都不清楚
    我去看看。
    linescape
        4
    linescape  
       2015-08-11 11:58:43 +08:00
    我藏 我藏 我藏藏
    www.abc.com/you/will/never/know/this/url
    不能被抓取的地址 怎么可能知道
    Slienc7
        5
    Slienc7  
       2015-08-11 12:14:16 +08:00 via Android
    没有可能,除非他所有目录都开了index,否则只能用爬虫抓取部分链接指向的内容。
    当然也可以一个一个用字典试404
    realpg
        6
    realpg  
       2015-08-11 12:19:17 +08:00
    首先,你需要攻破他们服务器,前提是他们最前端的服务器还不能只是个带通配符的负载均衡器……
    lightforce
        7
    lightforce  
       2015-08-11 12:19:53 +08:00
    你想干嘛?
    ipconfiger
        8
    ipconfiger  
       2015-08-11 12:24:20 +08:00
    做了范域名解析的你怎么破
    imlonghao
        9
    imlonghao  
       2015-08-11 12:26:36 +08:00 via Android
    无解!
    1989922yan
        10
    1989922yan  
    OP
       2015-08-11 12:55:08 +08:00
    @xgowex
    @realpg
    @lightforce
    @ipconfiger
    @imlonghao

    哥们,我只是随便问问方案。。。
    说得好像我知道了百度所有的链接,能把百度黑掉一样。。。
    Slienc7
        11
    Slienc7  
       2015-08-11 13:03:20 +08:00
    @1989922yan 你要能索引出來百度所有的目錄,百度確實要跪了
    iamcho
        12
    iamcho  
       2015-08-11 13:37:42 +08:00
    有个在线子域名爆破
    https://phpinfo.me/domain/
    1989922yan
        13
    1989922yan  
    OP
       2015-08-11 13:42:31 +08:00
    @xgowex
    = =!哥,你赢了。
    其实也都是yy了
    1989922yan
        14
    1989922yan  
    OP
       2015-08-11 13:44:06 +08:00
    @iamcho
    貌似只是拼了常见的二级域名,然后ping一下
    jugelizi
        15
    jugelizi  
       2015-08-11 13:53:09 +08:00
    蛋疼的想法
    要实现你只能去黑掉服务器
    无他解
    爬虫也只能获取放出来的链接
    tdifg
        16
    tdifg  
       2015-08-11 14:17:21 +08:00
    找子域名:
    1. 看看有没有dns域传送
    2. 组织下常用的域名,送dns做猜解
    3. bing做搜索……
    找目录:
    1. google
    2. 爬虫
    3. 猜解
    4. 看看这站开不开源……
    这里猜解的字典是可以结合下域名之类的信息来做的

    大致就这些吧
    1989922yan
        17
    1989922yan  
    OP
       2015-08-11 18:00:58 +08:00
    @jugelizi

    放出来的链接?
    主站上面全部拔出来?
    learnshare
        18
    learnshare  
       2015-08-11 18:12:05 +08:00
    爬网页中的所有连接,但无法爬到没给过链接的路径。

    除非去黑服务器
    zjqzxc
        19
    zjqzxc  
       2015-08-12 01:18:43 +08:00
    没得破。。保障网站后台安全很重要的一点就是后台程序所在文件夹一定要另类。例如http://ip/iamnotthefuckingadminpage,类似的情况如果服务器不允许列出文件的话,大概也只有暴力破解一个个试了。。万一名字再长点呢
    估计直接ssh暴力破解它的root密码都比这靠谱。
    invite
        20
    invite  
       2015-08-12 12:50:18 +08:00
    发现,某些人就是喜欢用类似 0x557.org 这类域名。
    leavic
        21
    leavic  
       2015-08-12 17:15:12 +08:00
    无解,我以前就想过研究这个,目的是找出dropbox所有子域名然后找出对应的IP翻墙用,因为dropbox很多域名内嵌在客户端里面不公开(那个时候我还不会抓包),后来试了很多方法实在无解。
    leavic
        22
    leavic  
       2015-08-12 17:17:10 +08:00
    好吧,我也眼瞎了,是爬目录啊。
    只要目录的地址是有链接可见的,用爬虫一定可以搞定
    RadishWind
        23
    RadishWind  
       2015-08-13 16:08:52 +08:00
    1.在各个搜索引擎以 site:域名 为关键词查找 将结果正则匹配
    2.用爬虫爬取以上链接
    1989922yan
        24
    1989922yan  
    OP
       2015-08-31 09:50:14 +08:00
    @invite
    域名屌爆
    还可以注册点股票代码
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2619 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 05:22 · PVG 13:22 · LAX 21:22 · JFK 00:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.