导师比较坑爹,只给了个这么个方向就了无音讯了。
目前的背景情况是:平时的课程「几乎没有」学习过相关的技术,大概只知道可能要用到 Python、机器学习相关的知识,但具体再细分的就不清楚了。
有个学长大概给了个思路:
然而我承认比较学渣,也没看的懂他说的意思。。。
所以想问的是,有没有大神指点一下,我这个学长他说的这个每个阶段,具体指的是什么?该做的是什么?比如他说谣言分类用 SVM,这个「分类」和「 SVM 」之间怎么联系起来?有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的?
说到底就是,我现在到底应该干什么😂,越具体越好。现在完全无从下手
如有帮助,万分感谢🙏
101
SsuchingYu 2019-03-09 16:48:20 +08:00
@murmur #99 弱弱地问一下,新京报散播过啥谣言?
|
102
murmur 2019-03-09 16:49:24 +08:00
@SsuchingYu 搜索引擎搜 新京报 造谣
|
103
SsuchingYu 2019-03-09 16:53:46 +08:00
@murmur #102 100% 理中客是不可能的。
|
104
Aixtuz 2019-03-09 16:54:23 +08:00
又仔细看了下问题和回复,也如以上大多观点:
对某一条信息的语言逻辑进行谣言判定,暂时想不到什么可行方案。 对传播特点判定可能性,对大量数据归类特征,准确率终究也是个问题。 |
105
zkwang 2019-03-09 16:56:14 +08:00
须了解,没有辟谣的事情未必是真的
|
106
taobibi 2019-03-09 16:56:37 +08:00
现在不是有征信机制吗?好像可以购买个人征信的接口,然后把征信低的,提升谣言比例。然后在学习判定
|
107
murmur 2019-03-09 16:57:13 +08:00 1
@SsuchingYu 现在谣言都升级了,太弱智的谣言一看就被看出来,早就没有这种的东西,只有朋友圈才会有这种低等谣言
|
108
paopaotangdong 2019-03-09 17:02:22 +08:00
谣言用机器学习分类( svm。。。等)是不可能做出来的,特征也没有用,谣言的传播路径、传播时间特性、传播者行为特征和非谣言的这些特征完全一样(仔细想想是不是)。 标题党不一定是谣言,不是标题党也不能说明他正确,
|
109
jssyxzy 2019-03-09 17:06:08 +08:00
ls 我觉得关注点不太对,
关注点应该是写一篇“网络谣言识别”的论文,而不是“网络谣言识别”本身, 你指望一个本科毕业的人能解决这个大问题,是不可能的。 |
110
incompatible 2019-03-09 17:17:33 +08:00 2
光看主贴的话,我觉得这个不太难,做一个贝叶斯分类器,然后用已有的谣言去训练它就好了。这个对于本科毕设来说是难度适中的。
看到你的补充,我觉得你的导师很可能是个水货,然后他在网上看了 “阿里巴巴达摩院造个“神器” 谣言识别准确率 81%”之类的新闻就灵机一动想到一个通过传播路径判断谣言的点子。阿里巴巴有资源干这个,你导师一个高校教师自己有没有资源支持学生干这个难道心里没点数吗。。。。 |
111
evagreenworking 2019-03-09 18:11:35 +08:00 via Android
"网络安全空间"都出来了, 你导师看来学习 app 积分很高啊。
|
112
winglight2016 2019-03-09 18:29:46 +08:00
lz,就冲你看不懂师兄给的建议来说,这题目你做不了,早点考虑怎么外包出去吧
|
113
metrxqin 2019-03-09 18:56:50 +08:00
很简单,谣言的必要条件是没有**来源注明**。 如果有来源注明,在根据来源的权重来判断可信度,判定是否为谣言。
|
114
metrxqin 2019-03-09 18:57:53 +08:00
可以参考谷歌或者 Facebook 打击假新闻的解决思路。
|
115
DAPTX4869 2019-03-09 19:33:59 +08:00
这玩意的难度是本科生能干的吗。。。
|
116
zheyu 2019-03-09 19:53:51 +08:00 via Android
传播路径的话可以看看 social network 相关的论文?我也不懂,随口说说。
|
117
ftdx112 2019-03-09 20:08:37 +08:00
外行表示好高大上。。。但咋感觉一个语义分析的东西变成了一个标签匹配的东西
|
118
w2er 2019-03-09 20:17:16 +08:00 via iPhone
这个题目简直前途不可限量。不过呢,如果宽泛说谣言两个字怕是有点难。。不如考虑一下某个细分领域的或者某个特定媒体的,会不会好一些呢
|
119
bilibilifi 2019-03-09 20:17:21 +08:00
这个成果我觉得至少图灵奖级别的吧,可靠地判断任意谓词逻辑的真值
|
120
Heyavc 2019-03-09 21:11:37 +08:00
这个项目阿里达摩院里有,叫 AI 谣言粉碎机还参加了比赛。
|
121
wizardoz 2019-03-09 21:28:53 +08:00
你自己都无法辨别谣言,你怎么设计出一个能辨别谣言的机器?
|
122
janhu9527 2019-03-09 21:47:25 +08:00
我觉得这课题还不如换成欺诈信息识别比较好
谣言的识别真的好难,文笔好的以假乱真,只有实际考察求证才能破解 |
124
miaobug 2019-03-10 00:07:59 +08:00
我的感觉是...
你师兄的建议比你的水平高一个量级 你导师的思路又比你师兄的建议高一个量级 所以你做出来...应该是基本不可能的 “如果一遇到困难就撒手的话,那永远都一事无成。”如果你大学四年都这个态度,学 CS 专业大概不会看不懂师兄的建议。所以我也跟楼上一些人一样建议花钱找人做吧... |
125
itenyh 2019-03-10 00:19:48 +08:00 via iPhone
都要毕业了,你这个连点思路都没有,如果是你的专业的话,可能我想说一句 你可能不适合做这个,仅供参考
|
126
Muninn 2019-03-10 00:21:07 +08:00
师兄的思路应该是可行的
导师说的没看出来。本科论文是不是只需要写一篇思路加 demo,不用实现啊…… 传播路径的话,微信是取不到的。 微博能取到但是很难。 媒体之间互相抄能取到但是也很难,需要买到或者自己爬到一定时间的媒体资讯。 有的谣言传播时间很长可以和爆炸新闻区别开来。但是有的新谣言光传播路径真的很难区别特征。 这个用传播路径的思路真的是太难了,怎么都感觉导师应该外行瞎想的。 |
127
shyrock 2019-03-10 00:27:01 +08:00
师兄瞎几把支招,谣言识别不在当前大火的 DL 能力范围内。倒是导师的提示有效地把识别谣言本身转换成评估传播路径上的人的可信度问题,这是可以实现的,但是跟机器学习没关系,别瞎蹭热点。
|
128
zztt168 2019-03-10 00:38:09 +08:00
前两天去阿里玩,看到他们宣传有谣言粉碎的实验项目。不知道是否有开源的轮子。
我觉得这个题目够难,首先是分词,然后是语料库,接着是算法。 |
129
Shynoob 2019-03-10 00:53:21 +08:00
这个想做简单就简单 想做难就难,我觉得你整个词库然后 nlp 对比下差不多了
|
130
sunsolzn 2019-03-10 01:20:47 +08:00
这题目简单,
负能量的肯定是谣言必要条件之一,正能量哪怕是假的也不是谣言,而正负能量分析的网上有很多教程。 传播 500 次是必要条件之二,负能量的东东传播几次没关系,传播多了管它是真是假判定成谣言肯定没错, 这么简单的重复率检测应该会吧。 |
131
wwhc 2019-03-10 01:31:32 +08:00
@SsuchingYu 随便一搜,就看到知乎上的“知情人士”说:“新京 伪满洲国首都,新京报受日资资助,也可以说是日本在中国的媒体,还有一个南方都市报 这些的媒体不造谣生事怎么能行”
|
132
maemolee 2019-03-10 01:46:43 +08:00
谣言的根本特征是它所描述的事实不成立吧……用上一切符合所谓“谣言的语言特征”写一条真实的新闻,它也不会变成谣言啊。
|
133
lzx801 2019-03-10 02:08:24 +08:00
https://arxiv.org/pdf/1505.02463.pdf 了解一下 Truth finding,这是 data mining 的一个子领域。
|
134
YvesX 2019-03-10 02:27:59 +08:00
都这个时候了,毕业要紧。
首先谣言的定义要小,亩产十万斤或者四千点是牛市起点这种事实错误,你要怎样识别出来呢?尝试拿长辈朋友圈的那些沙雕文章去训练,看训练结果是否能把一些常见的沙雕文章用词找出来,找不出来的话魔改训练集、调参或者加规则(手动滑稽)。 测试模型对上面那些词是否足够敏感,对写作风格明显的沙雕文章能否初步判断,对于将信将疑的沙雕文章,概率波动是否靠谱。展示判断结果时话不要说死,把概率转成符合逻辑的百分比或者高中低的评级。 拿文章标题去搜索引擎或微博爬结果,如有权威媒体的发布或辟谣,将结果强行调整到谣言嫌疑低或高(手动滑稽)。 |
135
dallaslu 2019-03-23 15:44:53 +08:00
注[册][一]堆[微][博][僵][尸]号,[发][表]谣言,并[造]势转发。如果有[官][方]帐号[辟][谣],那么……
|