V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lcdtyph
V2EX  ›  宽带症候群

到底混淆(伪装)是特征,还是“没有特征”就是特征呢?

  •  
  •   lcdtyph · 2018-11-30 16:56:55 +08:00 · 5795 次点击
    这是一个创建于 2184 天前的主题,其中的信息可能已经有所发展或是发生改变。
    下午看到一个帖子 https://www.v2ex.com/t/512951 ,里面有楼层说混淆本身就是特征。
    但是我个人觉得没有特征才是最大的特征呀,想听听更多人的意见。
    42 条回复    2018-12-02 12:36:09 +08:00
    geekvcn
        1
    geekvcn  
       2018-11-30 17:28:15 +08:00
    不是說了嗎 , 不管你怎麼搞 , 混淆還是不混淆 , 都能 100%識別 , 混淆更容易識別 , 特徵更明顯 , 不混淆也能識別 , 但是要在茫茫的合法和不合法流量裏挑出來很麻煩 , 也就是時間成本和性能開銷 , 非特殊時期部署後會不會影響正常合法流量和現有服務 , 一般特殊時期都是直接一刀切不管合法流量還是不合法 , 不止混淆是特徵 , 日流量 , 月流量 , 服務提供商等等都是特徵 , 真有必要物理斷網都行
    kljsandjb
        2
    kljsandjb  
       2018-11-30 17:30:59 +08:00 via iPhone
    混淆就是特征 没毛病
    lcdtyph
        3
    lcdtyph  
    OP
       2018-11-30 17:33:55 +08:00
    @geekvcn #1
    先不考虑 100%识别的极端情况,因为不现实。
    我觉得混淆之后的流量要识别是很麻烦的,因为要区分伪装的和真实的并不容易,从这个角度来说它的特征和已知合法协议一样,反而不那么明显了。
    而没有特征的协议就不一样了,在特殊时期可以考虑随机阻断位置协议的流量,这个成本不要太低,所以没有特征本身就是一种特征呀。
    hundan
        4
    hundan  
       2018-11-30 17:36:53 +08:00 via Android
    我的观点:100%识别?没有特征是特征?混淆本身是特征?口嗨而已,讲讲细节讲的出来吗
    lcdtyph
        5
    lcdtyph  
    OP
       2018-11-30 17:37:03 +08:00
    @kljsandjb #2 能详细说说么
    yexm0
        6
    yexm0  
       2018-11-30 17:37:41 +08:00
    阿里云香港跟新加坡,无论你是正常做站的,还是拿来开飞机的,一律炸.
    所以特征不特征的就只是看人家心情而已.
    lcdtyph
        7
    lcdtyph  
    OP
       2018-11-30 17:39:20 +08:00
    @yexm0 #6 阿里云可以直接在你的服务器上作行为监视,这个炸了不是很正常么。
    geekvcn
        8
    geekvcn  
       2018-11-30 17:42:34 +08:00
    @lcdtyph HTTPS , HTTP 的本身特徵都很明顯 , 但是偽裝後的流量和正常 HTTP , HTTPS 區別很大 , 比方說單 IP 訪問頻率 , 流量 , 沒有特徵意味著混在海量流量里 , 海量流量都是沒特徵的 , 而不是像伪装成微信视频通话的数据包 , HTTP , HTTPS 這些協議本身正常流量有很大特徵 , 不符合正常的特徵全部 ban 了
    yexm0
        9
    yexm0  
       2018-11-30 17:47:57 +08:00
    @lcdtyph 与监视无关,是连正常的做站也被干扰的.
    @hundan 上一年带 R 的写了个检测不带 R 的流量的程序,然后不带 R 的那位反击写了个识别带 R 的流量的程序,这俩的程序识别出来的精确度还行.
    lcdtyph
        10
    lcdtyph  
    OP
       2018-11-30 17:51:23 +08:00
    @geekvcn #8
    这个问题感觉是因为目前常用的混淆效果得不够好导致的…
    你说的“海量流量”具体指什么呢,我理解的是这些在经过骨干节点的流量绝大多数都是 HTTP/HTTPS 吧。
    aa6563679
        11
    aa6563679  
       2018-11-30 17:51:43 +08:00 via iPhone
    反正我的机场只要是 tls 一律炸,不管是真 https 还是其他的东西
    geekvcn
        12
    geekvcn  
       2018-11-30 17:52:07 +08:00
    @lcdtyph 還有你一直說特殊時期 , 特殊時期一般是白名單制 , 混淆不混淆都沒用 , 就是我所說的一刀切 , 所以平時情況下混淆一定是更容易被識別
    geekvcn
        13
    geekvcn  
       2018-11-30 17:56:52 +08:00
    @lcdtyph TCP , UDP 流量那麼多 , http/https 只是 TCP 數據包中的一部分什麼時候占絕大多數了
    lcdtyph
        14
    lcdtyph  
    OP
       2018-11-30 18:01:22 +08:00
    @geekvcn #13 因为普通用户是绝大多数呀,能扩散出去的一般也就 HTTP(s)+DNS 了,顶多再有一些视频语音流量和 BT 什么的。
    wy315700
        15
    wy315700  
       2018-11-30 18:04:06 +08:00
    和正常的流量有任何一点不一样就是特征
    geekvcn
        16
    geekvcn  
       2018-11-30 18:06:56 +08:00   ❤️ 1
    @lcdtyph 就這麼和你說吧 , 全看當局臉色 , 嚴的時候白名單 , 或者物理斷網 , 不嚴的時候混在海量 TCP/UDP 流量里而不是 HTTP 這類只是 TCP 的一種更好 , 我就打個比方 , 一個國內的 IP 每天都對國外一個 IP 大流量 , 按照你說的一般人也就上上網而且是不同的網 , 那這個 IP 不是跳板是什麼? 而且這個 IP 還是搬瓦工這類大型企業不會用 , 一般人很多用來做跳板的 , 所以沒有混淆和不混淆 , 只有嚴不嚴
    hundan
        17
    hundan  
       2018-11-30 18:12:44 +08:00 via Android   ❤️ 1
    @yexm0 是这样的,如果说 100%识别能做到只是资源问题的话,反过来说也是一样的。这里并不是谈论现有的协议和检测手法,能被检测只能说明协议伪装不够完美。
    流量的传递和识别,本质上一个是客户端和服务端的解析,然后中间人进行特征提取。
    但理论上可以创造一种协议,比如伪装成 http,使得流量的内容在中间人看来可以完美的解析为 http,或者说流量可被浏览器解析为正常页面,而在两端被使用自有协议解析。
    也就是说,理想情况下的流量和正常流量完全一致。
    上面某人说的 100%识别只是资源问题,那我也可以说 100%伪装也是资源问题。
    但是唯一的问题是开发难度极大。
    当然如果你们加个前提条件:现有协议,那当我没说过。
    hundan
        18
    hundan  
       2018-11-30 18:14:20 +08:00 via Android
    虽然感觉你们在扯现有协议的问题,我可能扯远了
    Love4Taylor
        19
    Love4Taylor  
       2018-11-30 18:15:55 +08:00 via Android
    讲一件事 正常 TLS 流量在运营商后台是可以看到域名的. 而 s(r) 混淆出来的只有 IP.
    lcdtyph
        20
    lcdtyph  
    OP
       2018-11-30 18:25:09 +08:00 via iPhone
    @Love4Taylor 目前原版和 r 版的 tls 混淆都是有 sni 部分的,是看得见域名的。
    Love4Taylor
        21
    Love4Taylor  
       2018-11-30 18:28:54 +08:00
    @lcdtyph #20 然而就是看不到 这几年我尝试过无数次 相比之下 v2 的完整 TLS 才会有域名 (江苏联通的 DPI 还是很强的
    geekvcn
        22
    geekvcn  
       2018-11-30 18:33:27 +08:00
    @hundan 沒說現有協議 , 我只是告訴他混在海量 TCP/UDP 數據包裏面比混在 HTTP/HTTPS 這類本身就有特徵的流量裏更好罷了 , 至於怎麼實現還是用別人的輪子都更不容易被識別
    Liqianyu
        23
    Liqianyu  
       2018-11-30 19:12:05 +08:00
    混淆流量是通过混淆伪装正常流量,提供强特征以避免 QoS。
    加密流量没有特征但可以阻断或 QoS,白名单才可以完全屏蔽。
    honeycomb
        24
    honeycomb  
       2018-11-30 19:20:20 +08:00 via Android
    @lcdtyph 首先你的目的是什么,这里应该有这些:
    1,它认不出来目标就是它要的东西
    2,目标应该也是足够低调(比如和大众足够相似),不致不引起它注意
    lcdtyph
        25
    lcdtyph  
    OP
       2018-11-30 20:08:51 +08:00
    @honeycomb #24 我的目的是:
    1. 尽量不被注意
    2. 万一被怀疑了或者抽查到了,也尽量不被检测出来
    CEBBCAT
        26
    CEBBCAT  
       2018-12-01 02:40:42 +08:00 via Android
    @geekvcn 有博客吗?想关注一下
    CEBBCAT
        27
    CEBBCAT  
       2018-12-01 02:41:33 +08:00 via Android
    破娃讨论过这个问题,好像还在 Twitter 上拿公交车 出租车 私家车打了个比喻
    swsh007
        28
    swsh007  
       2018-12-01 07:53:52 +08:00 via Android
    流量为王
    cwek
        29
    cwek  
       2018-12-01 09:02:52 +08:00
    你要看混淆的程度,现在有一种研究就是做对加密流量负载的特征分析,这样做得话,混淆了和没做的没啥区别,其次是端口探测,如果对于访问行为能正确响应的,那就能避免被容易探测出来而减少风险。对于流量分析,好像有个说法是在不确定具体账户情况下,对于账户间的大额金额流动是不敏感的。

    所以,如果伪装得好,的确对抗分析还是有效果的。(其实就是流量整形和避免单纯模仿。)
    alfchin
        30
    alfchin  
       2018-12-01 14:39:17 +08:00 via Android
    @hundan 开个 ssr 直接在出口防火墙端提示异常 https 协议流量。ss 流量稍微大一点提示未知大流量协议。要解密流量很难也没必要,但是要把那些有问题的流量标志出来的成功率还是很高的,尤其是那些用来看 4k 的傻鸟。
    alfchin
        31
    alfchin  
       2018-12-01 14:44:01 +08:00 via Android
    @hundan 你这东西完全实现不了的。你的正常 http 单位时间能附加的东西是有限度的,而且没事连续高频刷几个页面本身就是高度可疑行为。结论就是流量一大分分钟被抓。目前所有工具在流量统计面前都是没啥用的,因为行为过于反常了,除非你能混在已经备案过的白名单流量里面。
    hundan
        32
    hundan  
       2018-12-01 15:09:03 +08:00 via Android
    @alfchin “连续高频刷几个页面”并不是我说的 是你自己理解的 理想状态下是构造出 http 协议下的正常页面 不是特定某几个页面
    “ http 附加信息”这个也是你自己理解的 我指的不是在 http 下附加信息 并不是说现有的这种 http 伪装
    理想状态下的 http 伪装 在 gfw 面前是一台日夜不停工作的爬虫 流量大但是内容正常
    cwbsw
        33
    cwbsw  
       2018-12-01 15:11:50 +08:00
    @hundan 正常爬虫会日夜不停地访问同一个 IP 吗?
    hundan
        34
    hundan  
       2018-12-01 15:13:28 +08:00 via Android
    @cwbsw 这不是很正常吗?其他不说,爬煎蛋的人应该不少吧?日夜不停地爬一个网站,有什么问题
    leavic
        35
    leavic  
       2018-12-01 19:04:32 +08:00 via Android
    说混淆特征更明显的既不懂密码学也不懂统计学,甚至连玄学都没学过。
    leavic
        36
    leavic  
       2018-12-01 19:07:12 +08:00 via Android
    @geekvcn 在一个莫名其妙的端口上,有巨大的不可解析的非常规协议的 tcp 流量,难道就比大流量的 http 特征更不明显了吗?
    leavic
        37
    leavic  
       2018-12-01 19:08:37 +08:00 via Android
    @geekvcn 你说的白名单时期我还真没经历过,臆想出来的吗?
    alfchin
        38
    alfchin  
       2018-12-02 11:06:14 +08:00 via Android
    @hundan 你自己都没发现你的逻辑有问题吗?一个啥都不是的网站,值得爬虫天天爬,大流量爬?墙现在也有主动探测能力。过去看一眼结合流量直接傻了。除非你能在白名单网站的网段内找到一个跳板,不然这招也是行不通。
    hundan
        39
    hundan  
       2018-12-02 11:07:49 +08:00 via Android
    @alfchin “啥都不是”这个不是你自己理解的吗??
    hundan
        40
    hundan  
       2018-12-02 11:10:13 +08:00 via Android
    @alfchin 既然不考虑精力和开发难度,你都能把墙说得这么牛逼,能不能把你的想象力分一部分到伪装上?
    qwvy2g
        41
    qwvy2g  
       2018-12-02 11:49:52 +08:00 via Android
    是不是有人以为混淆了显示个域名就检测不到你连接的 ip 了?
    lcdtyph
        42
    lcdtyph  
    OP
       2018-12-02 12:36:09 +08:00
    @qwvy2g #41 混淆的目的从来都不是隐藏 ip
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3442 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 10:32 · PVG 18:32 · LAX 02:32 · JFK 05:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.