V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
socradi
V2EX  ›  程序员

刚才统计了一下 Android 源码中单词出现的频率

  •  
  •   socradi · 2018-07-13 12:33:11 +08:00 · 2240 次点击
    这是一个创建于 2323 天前的主题,其中的信息可能已经有所发展或是发生改变。
    没想到,出现频率最高的竟然是 if,只打印出前 100 的结果,结果如下:

    | 排名 | 单词 | 出现频率 |
    | ------------- |:-------------:| --------:|
    | 1 | if | 6489514 |
    | 2 | the | 6468189 |
    | 3 | int | 4967434 |
    | 4 | struct | 4054639 |
    | 5 | return | 3914619 |
    | 6 | to | 3364146 |
    | 7 | static | 3005835 |
    | 8 | for | 2602651 |
    | 9 | dev | 2457599 |
    | 10 | of | 2245801 |
    | 11 | is | 2192005 |
    | 12 | in | 2140304 |
    | 13 | data | 2109912 |
    | 14 | void | 1884322 |
    | 15 | public | 1875271 |
    | 16 | null | 1687792 |
    | 17 | this | 1629959 |
    | 18 | size | 1602545 |
    | 19 | type | 1490284 |
    | 20 | code | 1441735 |
    | 21 | char | 1370901 |
    | 22 | name | 1347710 |
    | 23 | device | 1329365 |
    | 24 | and | 1278425 |
    | 25 | case | 1277509 |
    | 26 | info | 1273361 |
    | 27 | set | 1222857 |
    | 28 | get | 1217276 |
    | 29 | err | 1197467 |
    | 30 | include | 1157165 |
    | 31 | else | 1149694 |
    | 32 | final | 1109615 |
    | 33 | be | 1092061 |
    | 34 | const | 1091526 |
    | 35 | or | 1075364 |
    | 36 | ret | 1064328 |
    | 37 | id | 1053822 |
    | 38 | unsigned | 1042561 |
    | 39 | reg | 1031811 |
    | 40 | new | 984588 |
    | 41 | break | 938215 |
    | 42 | status | 928079 |
    | 43 | state | 925750 |
    | 44 | value | 924048 |
    | 45 | error | 881768 |
    | 46 | on | 873996 |
    | 47 | len | 861584 |
    | 48 | not | 858695 |
    | 49 | define | 856804 |
    | 50 | buf | 843766 |
    | 51 | lock | 838826 |
    | 52 | out | 812843 |
    | 53 | list | 808374 |
    | 54 | android | 803412 |
    | 55 | mode | 784920 |
    | 56 | string | 782238 |
    | 57 | flags | 780342 |
    | 58 | init | 760773 |
    | 59 | write | 752943 |
    | 60 | addr | 736167 |
    | 61 | read | 731406 |
    | 62 | license | 714767 |
    | 63 | port | 703178 |
    | 64 | buffer | 697968 |
    | 65 | irq | 687626 |
    | 66 | it | 682466 |
    | 67 | max | 680456 |
    | 68 | cmd | 673339 |
    | 69 | file | 671579 |
    | 70 | long | 667159 |
    | 71 | limit | 664887 |
    | 72 | that | 653529 |
    | 73 | we | 627837 |
    | 74 | td | 626595 |
    | 75 | mask | 590776 |
    | 76 | count | 590775 |
    | 77 | linux | 584192 |
    | 78 | with | 583013 |
    | 79 | free | 582117 |
    | 80 | offset | 581125 |
    | 81 | debug | 577145 |
    | 82 | priv | 570686 |
    | 83 | sizeof | 570191 |
    | 84 | goto | 569052 |
    | 85 | config | 568890 |
    | 86 | private | 568670 |
    | 87 | start | 563578 |
    | 88 | attr | 560578 |
    | 89 | test | 559815 |
    | 90 | base | 547793 |
    | 91 | tx | 536071 |
    | 92 | key | 522166 |
    | 93 | as | 518649 |
    | 94 | index | 515148 |
    | 95 | ull | 514935 |
    | 96 | by | 511802 |
    | 97 | dma | 509802 |
    | 98 | rc | 507164 |
    | 99 | false | 506355 |
    | 100 | pci | 502896 |

    源码: https://github.com/luoyesiqiu/StatisticWords
    6 条回复    2018-07-13 17:49:51 +08:00
    LenonZeng
        1
    LenonZeng  
       2018-07-13 15:48:46 +08:00
    ull 这个也算一个单词
    814084764
        2
    814084764  
       2018-07-13 15:54:16 +08:00
    明显包括了注释
    socradi
        3
    socradi  
    OP
       2018-07-13 17:25:59 +08:00
    @LenonZeng 算啊
    socradi
        4
    socradi  
    OP
       2018-07-13 17:27:04 +08:00
    @814084764 对的,不包括,得用上词法分析器
    flyingghost
        5
    flyingghost  
       2018-07-13 17:42:25 +08:00
    把保留字和注释放在一起统计显然不公平啊。
    另外,按照 java 规范的尿性来说,漫长的命名应该按驼峰拆开以后分别统计嘛。
    socradi
        6
    socradi  
    OP
       2018-07-13 17:49:51 +08:00 via Android
    @flyingghost 这些也想到过了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   964 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:34 · PVG 05:34 · LAX 13:34 · JFK 16:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.