楼主是一只长期潜水于 V2EX 的传媒学生,如果有说错的地方,欢迎大神们指出。
昨天,我一个软件工程专业的同学拿了如上的一份 EXCEL 来找我,说项目老师让他根据 D 列的主题分别填写 B 、 C 、 E ,总共 1 万多行的数据要两天内完成。我那个同学苦恼不已,四处找熟人帮忙。楼主是个外行,想不到取巧的方法,只好答应帮他完成一部分。问题是,立志要当程序猿的人,难道不应该学会让电脑来做这些重复性劳动么(╯‵□′)╯︵┻━┻
论坛的大大们有什么好办法吗?
补充另一张 EXCEL :
1
just1 2016-05-08 16:19:55 +08:00 via Android
结巴分词可以尝试
|
2
shiny 2016-05-08 16:25:10 +08:00
考虑分词吧,有现成的轮子可以用
|
3
pheyer 2016-05-08 17:05:28 +08:00
愿意花时间的话上面已经给出提示了
省时间的话某宝上搜 python excel |
4
21grams 2016-05-08 17:13:04 +08:00 via Android
两天不见得写的出来,学生更不可能
|
5
scys 2016-05-08 17:51:45 +08:00
10k 的容量,这种分词人肉大概是 6 个小时左右 ~_~
猜测老师在分配自己的外快中。 |
6
mcone 2016-05-08 18:18:06 +08:00
没基础的话 2 天还是人肉来吧,什么立志当程序猿什么的,别想那么多……
这貌似是老师自己的私活平均分下来的吧,之前我校某老师出的翻译版的书,也是这么分给学生然后攒起来的。。。。。。 |
8
Rafaam OP |
9
just1 2016-05-08 18:51:36 +08:00 via Android
@wanll93918 程序员有什么美好幻想。好吧(∩_∩)我高一
|
10
Devin 2016-05-08 19:46:25 +08:00 via iPhone
把各行都出现的字都去掉,应该可以解决一半问题,最后问题变成字符处理问题
|
11
server 2016-05-08 19:51:50 +08:00
减少别人的重复劳动,不是较少程序员的重复劳动
|
12
billlee 2016-05-08 23:33:55 +08:00
|
13
xiamx 2016-05-08 23:47:27 +08:00
手动填 1000 行, 80/20 Split ,分词, IDF , SVM
|
14
yixiang 2016-05-08 23:50:46 +08:00
粗糙方法:网上搜索农产品名称,建个数组,根据字符串匹配出 BC ,手工做个几百行数据,做关键字数组,根据字符串匹配出 E 。
显然这个方法关键字数组会不怎么准确,但如果是我就将就用这个了。 |