V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
leyle
V2EX  ›  程序员

我感觉中文 ai 出来的话,应该做的第一件事是语义识别

  •  
  •   leyle · 2018-01-25 00:03:25 +08:00 · 4850 次点击
    这是一个创建于 2495 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大环境如此,在这片土地上要么忍要么滚,但是呢,做的事又太糙了,都是瞎屏蔽,比如 **不离十。
    以后中文 ai 发展起来了,第一件事应该是让汉字回归汉字,就不会在这里打码了。。。
    29 条回复    2018-01-26 17:48:46 +08:00
    PythonAnswer
        1
    PythonAnswer  
       2018-01-25 00:10:46 +08:00 via Android
    拆字党火星文永远不怕
    cisisustring
        2
    cisisustring  
       2018-01-25 01:22:30 +08:00
    道理都懂,我们这一代不滚,下一代还会重复问自己要不要滚.
    WuwuGin
        3
    WuwuGin  
       2018-01-25 05:21:55 +08:00 via Android
    错别字近音字无所畏惧
    yearliny
        4
    yearliny  
       2018-01-25 05:24:32 +08:00 via Android   ❤️ 4
    @PythonAnswer 人能识别的,人工智能也能识别,火星文和拆字难道对机器学习没有办法吗?最大的问题在于,人可以创造新的组合方法,所以在一种新的拆字组合方法刚刚出现的时候,难以被屏蔽,但机器识别使得没有任何一种拆字组合方法成为主流,并且主流的鉴定标注的阈值会因机器学习的精准度不断降低。

    当一句话不能长时间大范围流行的时候,这就已经给它的传播带来了极大的难度,你不能要求别人想猜谜一样不断的理解你的意思。

    正如 Google 对验证码的理解一样,随着机器视觉识别的兴起,复杂的字符验证码只能增加人类识别的难度,对机器学习的 bot 越来越难以防范。同样的道理,当你想要通过拆字、组合、火星文等方法来传播 xx 信息的时候,你需要不断的增加歧义来混淆机器识别,但这同样会增加人类识别的难度。
    wweir
        5
    wweir  
       2018-01-25 07:19:50 +08:00 via Android   ❤️ 2
    @yearliny 这行文、排版的风格很是喜欢
    pkookp8
        6
    pkookp8  
       2018-01-25 07:47:48 +08:00 via Android
    验证码都没法攻克的 rob
    文字转图片加码就好了吧
    dd1982cn
        7
    dd1982cn  
       2018-01-25 08:08:11 +08:00 via iPhone
    就从多音字来说 ai 连 店长都念不对 怕是连从 0 到 1 都还没有 何谈发展啊 难道机器不学习这么基础的事情?
    sean10
        8
    sean10  
       2018-01-25 08:14:40 +08:00 via Android
    @dd1982cn NLU,词性标注可以做到识别多音字了吧。
    aksoft
        9
    aksoft  
       2018-01-25 08:32:48 +08:00
    在等 20 年
    dong3580
        10
    dong3580  
       2018-01-25 09:03:44 +08:00
    两种不同的语境,同样的一句话可以表达相反的意思,这就是中文的强大:
    例如:"你做的好事"
    purejs
        11
    purejs  
       2018-01-25 09:06:06 +08:00
    瞎 YY 些啥
    maskerTUI
        12
    maskerTUI  
       2018-01-25 09:22:45 +08:00   ❤️ 1
    领导:你这是什么意思?
    小明:没什么意思,意思意思。
    领导:你这就不够意思了。
    小明:小意思,小意思。
    领导:你这人真有意思。
    小明:其实也没有别的意思。
    领导:那我就不好意思了。
    小明:是我不好意思。

    提问:以上“意思”分别是什么意思?
    enenaaa
        13
    enenaaa  
       2018-01-25 09:55:56 +08:00
    说反了, 什么时候能准确识别语义了, 才会有强 AI。
    snakeyou
        14
    snakeyou  
       2018-01-25 13:01:53 +08:00
    @dong3580

    任何语言都有类似的情况。

    Shut up! 可以表示让对面闭嘴,也可以表示对对方所说事情的赞叹。
    He can ’ t help himself(你能从字面看出这句话的实际意思吗)他无法抗拒做某事=他非常想做某事

    日语有个万能词どうも,任何想跟人打个招呼(表示感谢 歉意 慰问等等等等)的情况下几乎都可以用。
    说实话日语里这种情况是在太多了,因为由于组词的存在,日语口语中可以省略的句子成分太多了。
    Mutoo
        15
    Mutoo  
       2018-01-25 13:24:06 +08:00
    什么时候 AI 能够聪明到遇到不懂的句子,问人:这什么意思。然后给它解译一番,AI 说:原来如此,我懂了。下次它再遇到类似的东西能举一反三。那就不怕什么拆字啊火星文之类的了。细思极恐。
    XinLake
        16
    XinLake  
       2018-01-25 13:47:06 +08:00
    Google 早就开始研究这事了,搜索引擎输入文字几乎就可以理解到用户的意思。此外还有图像识别。

    人机对话过程中出现的一些模棱两可、模糊的含义,机器当即就提出,人就换个准确一点的表述。电影《钢铁侠》也有类似的场景,钢铁侠的电脑不就是具备语言和视觉能力的超级 AI 电脑么。语言理解+图像 就像人的耳朵和眼睛,再加上 AI。

    不过 Google 还提出过一个东西,就是知识图,就是将人类知识数字化,变成机器可以理解可以维护的数据集。目前图像识别里,吧图像的特征提取出来的数据(可用改数据匹配到图像),可以理解为一种简易的机器掌握的(数字化的)知识吧。就像人脑从小孩开始就建立人脑知识库,不断的除错完善扩大,机器这么做也需要漫长的过程
    banksiae
        17
    banksiae  
       2018-01-25 14:36:46 +08:00
    噗噗,语义还早呢;
    现在应该将是领域语用,这个做好我认为在不久的将来能看到。但是语义层面的,还是要结合场景。“你找我有事”,我觉得计算机不太可能理解
    yearliny
        18
    yearliny  
       2018-01-25 14:55:27 +08:00
    @wweir 谢谢欣赏,因为自己经常阅读一些英文或英文翻译过来的书,时间一长用词和句式自然而然的变成了这样,之前还很懊恼这个问题,没想到还能有人喜欢。
    kaiser1992
        19
    kaiser1992  
       2018-01-25 14:58:37 +08:00
    难,以前都是基于统计学方法实现,理解效果不佳,现在用的深度学习有所提高,虽有提高但是也不行,你看看谷歌翻译出来的是什么玩意。
    chengzhoukun
        20
    chengzhoukun  
       2018-01-25 14:58:52 +08:00 via Android
    @PythonAnswer 火星文审查系统的论文都有了
    hsuan
        21
    hsuan  
       2018-01-25 15:01:01 +08:00 via Android
    滚才是正解,用了 ai 就可以安心的忍了吗?
    mougua
        22
    mougua  
       2018-01-25 17:09:39 +08:00
    用了 AI,屏蔽更精准,屁民更安心?
    likuku
        23
    likuku  
       2018-01-25 17:54:48 +08:00
    智能高精度图像(人物)识别,成熟度已经很高了...被用在了公共环境的视频监控里。
    Shura
        24
    Shura  
       2018-01-25 18:06:12 +08:00
    @PythonAnswer 图像识别可破,除非你把字拆解到人类都无法理解的程度。
    PythonAnswer
        25
    PythonAnswer  
       2018-01-25 18:50:07 +08:00 via Android
    汉字可以 竖着来,从右向左,又要浪费你很多 cpu
    mingyun
        26
    mingyun  
       2018-01-25 23:32:37 +08:00
    @maskerTUI 哈哈
    wizardforcel
        27
    wizardforcel  
       2018-01-26 08:23:50 +08:00 via Android   ❤️ 1
    最烦一群不是搞 nlp 的跟那儿瞎吹
    183387594
        28
    183387594  
       2018-01-26 10:56:20 +08:00
    八九不离十
    chenyu8674
        29
    chenyu8674  
       2018-01-26 17:48:46 +08:00
    中国乒乓球谁都赢不了
    中国足球谁都赢不了
    反正我觉得语义识别的核心问题根本不是语言本身
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1609 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 16:58 · PVG 00:58 · LAX 08:58 · JFK 11:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.