V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  tmacLiu9527  ›  全部回复第 3 页 / 共 7 页
回复总数  131
1  2  3  4  5  6  7  
@twinsdestiny @memorybox @Rollup @zzugyl

昨天晚上推的服务把 auto scaling 给 break 了! 现在已经修复 抱歉!
@FrankAdler 好问题! 搜索引擎自己并不产生数据, 所有的数据都是在能检索的 scope 内获取到的. 对于这个 scope 的理解, 我们和已有的解决方案和之前的创业尝试会有所不同.

我们倒过来看这个事情, 用户想要搜索 <--> 搜索引擎检索内容. 常见的做法是 xxx,xxx,xxx 个结果 (耗时 0.x)秒. 我们的问题是 - 真的需要那么多结果吗? 如果分析一下 registar 和 dns 的数据, 你会发现用户常见解决问题的地方, 不外乎是那几个. 大家都说搜索是个 fat tail event, 但仔细拆解一下, 你会发现搜索 query 是个 fat tail, 但是 solution 是个 pareto distribution 或者遵从 price law. 换句话说, 过去 20 年搜索引擎积累的数据, maybe 其中 5% 能够帮助引擎做更好的 embedding, 15% 能够帮助建立更好的 entity graph, 其余的, 其实是帮助搜索引擎自己更好的对抗 SEO 而已.

所以, 对于已有知识 / 信息的数据, 并不需要全量, 而只是需要被验证过有用的. 对于新的数据, 我们认为所有有技术能力的都是在同一起跑线上的, 甚至我们认为创业公司其实比起巨头是更有优势 (比如我们可以很灵活的解决内容农场的问题), 但是巨头需要首先考虑会不会对商业化造成影响.

回到你问题的前半部分 - "搜索引擎靠的是内容". 非常同意 - 引擎靠的是内容, 内容靠的是生态, 生态是 routing (引擎) 和 destination (站点) 相互依存的方式, 我们觉得这个是目前最大的问题, 也是中文质量持续下降的一个很重要一个原因.

所以或许是个好时间有些新的改变呢? 我们想做一些我们认为可以改善这些的事.

希望能回到到你的问题.
@chenoa 你好! 改进了一版! 变小了!
@chenoa 你好! 移动端的这周会改一下! 确实占地方效率低了!
2021-12-10 21:18:17 +08:00
回复了 graycreate 创建的主题 分享创造 v2er.app 双端代码已开源, 欢迎你来贡献代码
支持!!!
@bequt .com 的找了一圈都灰常的贵... 继续寻找中, 如果有合适的话就可以换啦!
@puzzle9 你好! 谢谢反馈! 已经修复!
@0073461 缓存得预判搜索关键词! 关键词是个超级 fat 的 tail! 每万条搜索的 cache hit 是 2%. 所以对于搜过的可以优化一定的 ttl, 但是没有搜过的很困难!
@Lemeng V2 标语 - Do have faith in what you're doing.
@Lemeng 有心就不难!
@wewin 你好! 我们在 prototyping 时候有试过你说的方案, 但是存在几个问题

1. IP rate limit (这个可以 proxy, 但是存在 serious legal risk)
2. Latency (这个体验不好, P50 ≥ 2.3s)
3. 合法合规 (这个挑战性比较大, 而且实时处理有很高的 overhead)

所以直接搜比较有挑战性! 但是用其他搜索引擎的结果用来做排序的参考是个不错的选择!
@lishuolin 你好! 谢谢!

目前必须的备案都已完成!

1. 对于广告, 可以看一下我之前的回复!
2. 我们不会索引内容农场的链接! 但是偶尔会漏, 如果大家能够及时反馈, 我们能够很快速的取消索引!
@Geo200 谢谢反馈! 这个下一周就能解决! 我们之前 pagination 用的比较 naive 的方法 (没有覆盖实时添加删减的链接), 因为大部分用户在 1-2 页就解决问题了!
@lin0kin @sunshijie 按时间范围选择结果已上线! 可以选择某一个时间段内的结果! 但是不推荐使用时间倒序, 相关性不是很理想!
@shenmezhidedu 哈喽!

如果想单次搜索屏蔽, 可以使用 "关键词 -baidu -taobao -alibaba", 如果想持续屏蔽, 可以点首页的右下角添加到相应的设置里!

希望可以帮到你!
@laycher 哈喽! 谢谢推荐!

+后面是不需要冒号的!

如果想看到更多的 csdn 的内容, 可以尝试 more:csdn.net
@johnsonshu 支持开发者! 非常同意你说的信息可用度的问题, 或许我们可以借鉴一些非英文语言的国家的解决方案

1. 对于高质量内容的翻译程度高
2. 内部高质量内容产生的生态好

目前的搜索引擎天然权重赋予站点大于内容, 导致很多高质量的站点和博客得不到相应的曝光. 相信接下来各种新趋势的推动下 (Web3.0, DAO, etc.) 可以让个人内容产生者有一个新的生态可以打破现在的僵局. 如果我们能在这个方面出一份力, 那也义不容辞.

回答你的问题, 如果在合法合规的前提下, 快照是一个非常好的解决方案 (我们目前对于 stackoverflow 和 github issues 会提供快照功能). 如果你想具体沟通对接的问题, 可以加我 wx : )
@Ciicing 谢谢! 有问题或者需求的话请和我们反馈!
@Geo200 已经修复!
@Geo200 你好! 谢谢反馈! 这个问题是我们昨天加日期 filter 时候导致的一个 bug, 页面日期的权重人为干扰逻辑出了些问题! 下午就能修复! 抱歉给你带来不好的体验 :(
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5108 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 09:28 · PVG 17:28 · LAX 01:28 · JFK 04:28
♥ Do have faith in what you're doing.