V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  polythene  ›  全部回复第 19 页 / 共 26 页
回复总数  504
1 ... 11  12  13  14  15  16  17  18  19  20 ... 26  
2015-12-08 15:18:48 +08:00
回复了 alexapollo 创建的主题 程序员 Q:印象笔记剪藏的只保持网页正文的功能是怎么实现的?
我用打分的方式实现了一个 python 的版本 https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor 目前看来提取正文的准确率还不错
2015-11-30 15:04:14 +08:00
回复了 Andor_Chen 创建的主题 Java 送几本《Java 技术手册(第 6 版)》
1024 ,求啊。。
2015-11-27 00:35:41 +08:00
回复了 TINGYUN 创建的主题 推广 [冬季福利] 部署听云 Server 基础版 ,领取卫衣! 双肩包!
难道就只有我一个人报错了么,截图见这里 http://i.imgur.com/M9OswN7.png
2015-11-06 17:21:20 +08:00
回复了 tiancai0312 创建的主题 推广 欧路词典 pro,又一波送码福利!
楼主好人,求一码 http://i.imgur.com/7tTRoV6.gif
2015-09-28 11:52:30 +08:00
回复了 acoder2013 创建的主题 程序员 阅读模式是如何实现的?
@kankana 比 readability 算法准确度高很多, readability 对一些排版混乱的中文网页根本提取不出什么,而这个方法可以提取很多奇葩网页的正文,至少 hacker news 上提交的页面大多都是可以正确提取的。
2015-09-26 17:59:09 +08:00
回复了 acoder2013 创建的主题 程序员 阅读模式是如何实现的?
我做 hacker news digest ( http://www.hackernews.im/ )的时候也用到了正文提取,具体的实现你可以参考一下 https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor

主要思想就是给标签打分,最终选出最有可能是正文的那个标签。因为一个标签是不是正文你不能仅看它的名字,不能说这个标签是<article>就认为它是正文,还要看它的属性等别的因素。
2015-09-24 23:40:11 +08:00
回复了 50vip 创建的主题 分享发现 在线计算文件 Hash 值( CRC-32, MD5, SHA1, SHA-256)
楼主做的不错,值得鼓励,但下次再写这类工具之前最好先问下是不是别人也遇到过同样的问题,免得自己再重复造轮子。
2015-09-24 01:04:15 +08:00
回复了 cloudop 创建的主题 程序员 关于英文阅读能力, hacker news。
@iyaozhen 想更好的阅读 Hacker News ,来试试这个吧 http://www.hackernews.im/ ,它图文并茂,很适合快速浏览 Hacker News
2015-09-08 15:21:52 +08:00
回复了 Henrybsbhp 创建的主题 Smartisan OS 求 16GB 坚果手机优先购买码一枚。
@Henrybsbhp 发邮件给你了,收到了没?
2015-09-08 09:20:55 +08:00
回复了 Henrybsbhp 创建的主题 Smartisan OS 求 16GB 坚果手机优先购买码一枚。
LZ ,我买到一个 32G 的,只玩过几天,要不然出给你?
2015-08-28 13:22:20 +08:00
回复了 endoffight 创建的主题 上海 以后要在金科路上班了,求合租!
2015-08-28 10:46:23 +08:00
回复了 endoffight 创建的主题 上海 以后要在金科路上班了,求合租!
我也在附近上班,也在找房子, LZ 求合租啊
2015-08-04 18:33:56 +08:00
回复了 firemiles 创建的主题 Vim 大家有同时用 Vim 的 YouCompleteMe 和 SrcExpl 插件吗
F*ck YouCompleteMe
2015-07-29 17:36:03 +08:00
回复了 awang 创建的主题 问与答 想买一个扫地机器人,大伙给点意见
然并卵
2015-05-14 13:36:00 +08:00
回复了 neverno 创建的主题 问与答 如何编辑 eml 格式的邮件并保存
直接用文本编辑器打开,就可以修改了,eml文件是文本格式的。
@khowarizmi 谢谢提供的参考,这个浮点数下溢出的问题我是遇到过的,也是通过去对数来解决的。

朴素贝叶斯之所以称之为朴素,正是因为这个独立性假设显得太naive,但是如果没有这个假设,在有限的训练集中 P(tok_1, tok_2, tok_3...tok_n | lang) 很难估算出来,马尔科夫假设的提出也是为了解决这个问题。大家测试了以后发现这个假设很有效,可不知道为什么到了我这里起得作用就不大了呢。。
@staticor 没有这个假设的话,数据会变得非常稀疏,或者根本没法计算,但算下来发现这个假设真的好naive,不知道大家做文本分类的时候用的是什么方法。。。
@billlee 嗯,我目前P(lang)的计算方法就是计算属于语言 lang 的样本出现的概率,而不是平均成1 / n_langs

我把p(lang| tok_1, tok_2, ..., tok_n) 拆分到最后的一个原因就是,我希望不仅能知道哪个是最有可能的语言,我还想得到这个语言可信度是多少,现在看来,第二个目标很难实现~
@liluo 谢谢提醒,在动手写这个程序之前,我也参考过linguist(包括你的python移植版 :D),发现它主要是基于规则的匹配,规则匹配不到的才上贝叶斯分类器,我觉得用规则来匹配的一个缺点就是前期为每种语言指定规则有点麻烦,所以才直接用贝叶斯,让机器去学习规则。
另一方面,linguist计算联合概率的方法就是把各个token的概率相乘,虽然可能对最终结果影响不大,但其实这种算法是不全面的,语言的因素他没有考虑进去,具体见我上面的推导。
1 ... 11  12  13  14  15  16  17  18  19  20 ... 26  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1802 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 16:29 · PVG 00:29 · LAX 08:29 · JFK 11:29
Developed with CodeLauncher
♥ Do have faith in what you're doing.