我理解这种太正经,和黄赌毒不相关的东西==不赚钱==难维护。
也有过这样为爱发电的想法,也写了一些代码,但放弃了。
下面是一些当时的实现:
字典和生词:
我用的字典是:
https://github.com/kajweb/dict纯手动点出生词不现实,普通用户有 3000-8000 词汇量,如果一个网站要点几千次才能正常开始使用功能会很痛苦。
所以我按照字典里的划定了 basic_level(小初高 CET4), mid_level(CET6, TOFEL, GRE...),比如 a 用户已经考过了 CET6 ,就默认 CET6 中的单词全都会了,其他单词都不会,有点像 C++编程中的分支预测。然后想的从某个地方弄来词频的数据,然后让用户去选择一批单词,比如 TOFEL20 个单词,GRE20 个单词,然后根据他们猜对的单词判断他们的水平,再去对他们会哪些单词做一些预测。
词汇阅读材料处理:
视频:如果单纯是以美剧作为学习材料,可以直接从
https://my-subs.co/这里找到美剧的字幕,然后让 gpt 帮你写提取的代码。如果是任意视频,特别是没有字幕的视频,想要通过语音库去获取字幕,然后再将其处理为句子,感觉有些困难(我经验不足)。
文本:提取完台词后,或者直接用电子书,还要对人名,词汇的变形做一些处理工作。然后再进行是否生词的一些判断,感觉也会又些困难。
现有产品比较:
感觉做了也只是另一版本的 《蒙哥阅读器》