V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shendaowu  ›  全部回复第 1 页 / 共 51 页
回复总数  1010
1  2  3  4  5  6  7  8  9  10 ... 51  
6 天前
回复了 red13 创建的主题 问与答 你们会信 AI 说的话吗?
OP 数学还行吗?还行的话建议了解一下贝叶斯主义。我看你没有表达出相信的程度所以我感觉你应该是不了解这个。我是很想深入了解这个但是苦于数学不行和没时间。经典概率我都忘光了,这个比经典概率还复杂。据说是非常好的决策工具。只有信和不信据说是非常影响决策的。据说在贝叶斯计算中 0% 和 100% 的相信是大忌。当然这可能只是涉及重大决策才需要这么搞,某些不重要的东西是不需要这么麻烦的。当然前提是你确实不重视相关结果,并且愿意承担不理性对待的结果。比如对于生活中的一些看似琐碎的小问题。

还有大语言模型有一种很危险的能力,就是能让没什么根据的东西看起来很有根据,特别是对于批判性思维不强的人。
12 天前
回复了 nizhong044 创建的主题 随想 人类真的拥有创新能力么?
据说人脑可以对现实进行模拟。我觉得还应该加上有目的三个字。很可能原著就有这方面的东西,我是在二手信息中看到的。

这种模拟在某些情况下是比自然出现对应的东西快很多的。毕竟自然环境就是熵不断增大。

因此我的观点是创新的关键是模拟,而不是组合,组合只是最终的结果。重点是模拟的精度、速度和广度等。另外还有实践验证,但是我感觉这个重要程度可能不如模拟,特别是对于特别颠覆性的创新。不过对于一般人解决一般问题来说可能还是实践更重要。还有想要让自己的大脑获得更高的模拟精度应该还算是需要实践来打磨的。写着写着有点想收回之前的话了。模拟精度和实践验证应该是互相促进的。我前面说的模拟精度更重要可能是因为我这个人比较偏好空想吧。而且我有时候甚至反感验证我的某些想法。但是我至少能意识到这一点,我会逼着自己去验证。

如果一个人没有相关的概念,那么他大概率是无法注意到相关的现象的。比如大多数人在创造的过程中可能只能注意到组合,我怀疑这是人脑的出生就有的功能,或者说先天知识。但是模拟这个东西可能不是先天知识。

这种按既定目标进行模拟的东西有个相关的算法,叫遗传算法。我觉得遗传算法中的适应度函数就对应目标。不过据说遗传算法的效率非常感人,我相信人脑中对应按目标模拟的功能可能会有硬件优化。

另外我有个比较悲观的想法,就是创新其实不是个体的能力,而是群体的能力。特别是颠覆性创新。不过你要是说某些人创造力能会更高一些我是同意的。就像遗传算法如果没有算力支撑,随机的广度不够的话,效率会非常低。这个可以解释为什么绝大多数科学家无法连续创新,就算创新和无法跨学科创新。可能他们的观念只能导致他们得出少量的颠覆性创新。我更偏向人民史观一些。

我看了一下前面某人提到的《技术的本质》的核心观点,通过二手信息了解的。我感觉我之前就基本接受那些观点。但是我感觉我需要从上面说的模拟的角度补充一下,就是某些时候可能不需要语言进行模拟,某些时候语言甚至是障碍。我觉得要素和现象都偏向语言一些。前面说的语言包括特定的语言和所有语言。前一句的意思是某些东西可以讲清,但是某个特定语言会干扰讲清这种东西。比如逻辑语言可以澄清自然语言的很多东西。但是某些东西可能根本就无法用语言来表达。比如程序性知识。程序性知识跟编程没什么关系,别误解了。我最近在知乎问了个相关的问题: https://www.zhihu.com/question/1982894093513273374 。问题标题:概念有没有对信息进行过滤和使用注意力的成分?目前还没有我感觉比较好的回答,不过我感觉我再问题描述中给出的给 DeepSeek 聊的记录我已经比较满意了。

最后再瞎扯一点相关的东西。我之前听说特斯拉可以在脑中模拟各种机器的时候我还感觉挺神奇的,那时候我还不知道我有心盲症。后来我在了解心盲症的时候了解到正常人在进行视觉回忆的时候可能精度在某些地方还不如心盲症患者。具体是怎么回事我记不清了,大概是正常人回忆的画面细节很多,但是错误也很多,心盲症患者的回忆的细节少,但是精度高。

我感觉我真能扯。欢迎指出我的错误。我对创造力很感兴趣和在意,我很希望能改正我对创造力的错误理解。

另外再说一下很多人,也可能包括 OP ,可能对创新的顿悟感。就是那种将创新看成排列组合的顿悟。我感觉这东西有悟到沟里的嫌疑。我怀疑这是一种过度概括,它并没有什么实践意义,可能只能带来一点情绪价值,就是感觉自己悟到了什么。我一直都将创新看成是神圣的。再扯一句我很喜欢的话:To iterate is human, to recurse divine. 还有个类似的东西,我听说过遗传算法就是一种搜索算法的说法。我感觉这东西跟把创新看成排列组合很类似。可能就是吃不到葡萄说葡萄酸?

再说一下创新的可能的阴暗面。据说高大五开放性配合低大五尽责性能导致更高的创造性,我记得应该是因果,不是相关。我好像比较符合这个组合。但是我这个人混的应该算是挺失败的。我觉得这个可能主要是因为社会为了某种目的就是在高度筛选高尽责性的人。我不是恨国党。据我所知所有国家在这方面都大差不差。毕竟尽责性低的人多了社会很可能会更混乱,社会混乱我这种人甚至可能连活下去的机会都没有了。从我个人的角度来看,我对无聊的东西的忍受能力很低,但是想要在社会活下去忍受无聊的能力是必须的。我现在好想提升了一点这方面的能力,但是应该还是没有那些尽责性高的人强。还有就是开放性高的人可能只是对模糊、矛盾、不确定的忍受能力更强一些,可能也算不上喜欢。这种状态对创新应该也是必要的,毕竟如果你只能从一种视角看事物,那么应该就看不出什么新的东西了。而这种状态一般人应该是无法忍受的。我其实也不喜欢那种感觉。如果我的使命完成了我感觉我如果有选择的话我也不会愿意处于那种状态。
充更多的钱好像有 8 小时的选项。我之前问正常问题在人少的时候置顶十分钟也有几个人回。我感觉那些推广的好像都是在人多的时候置顶比较多。周六周日人比较少。https://v2ex.ipen.ink/?r=2w 。着急的话去 nodeseek 试试?在 nodeseek 服务器相关的问题好像都可以讨论。另外你发的节点帖子太多了,不容易被订阅或者经常看某个节点的人看到。你那个帖子感觉放站长节点还算贴边。
不知道是不是一个问题。我用的是 VMWare ,虚拟机和宿主机都是 Win 11 。今天虚拟机里突然无法联网了。重启一下宿主机的 VMware NAT Service 服务就好了。
@Ketteiron #9

我之前还真尝试看过 danbooru 的代码。不过我放弃了,看不懂 Ruby ,尝试让 GitHub Copilot 给我找标签搜索相关的代码好像也不太对劲。ehentai 对搜索的标签数量有很大的限制吧?我希望搜索就算不到 100 个最少也得 50 个比较好,而且还是全 OR 连接的比较多。再加上单个内容最大三万标签,我怕这个组合会出现非线性的资源需求增长,就是横纵扩展服务器都难以解决。那样的话初期用户很开心,并且用习惯了的话,后期数据量大了用户变得失望我感觉我的站就会烂掉了。

在这种事上我不太敢乐观,毕竟我没见过类似像我这么用的,而且如果最终出岔子了,我的整个站都可能会出问题。所谓的如果失败的损失很大就悲观,如果失败的损失不大就乐观。公开下载数据这种大杀器我还是不太想用。就算我基本不想赚钱,这招也会有其他的坏处。

ehentai 开源吗?我没搜到。或者有点大致的实现思路的也行,这个我也没搜到。

我之前对 deepseek 的回答一般都是比较怀疑的,不过我以后还是听你的减少问这种设计方面的技术问题吧。但是类似找轮子之类的问题我还是比较信任 deepseek 的,它都不知道的话我自己基本就不会找了。
@Ketteiron #6

大佬如果你愿意回复的话别回复我 7 楼问的那些问题了。我又改变主意了。我想目前只关注传统的(内容 id ,标签 id )的实现方式了。更高效的搜索以后再说。因我我发现 deepseek 说 intarray 实现的标签系统也不支持频繁的写入。然后我前面说的后期没多少时间也许可以通过敏捷开发解决一点。实在不行我还有大杀器,公开下载数据,允许用户本地给自己搜索或者帮别人搜索。我基本没有靠这个赚钱的想法,所以应该有更多的应对方法。

我现在主要想知道为了高效实现复杂标签查询,有哪些可以 tradeoff 掉的特性?我问过 deepseek 了,它给了一些东西: https://chat.deepseek.com/share/0nxwlfnzszgo9ps8va 。不知道大佬有没有什么补充的?或者能不能给个比较好的 tradeoff 方案?如果不能的话,我就只能各种方案同时测试试出比较好的方案了。我目前比较看好的是 pg_roaringbitmap 放到从服务器上,然后从服务器可写,deepseek 说从服务器可以写。然后每天夜里自动将前一天更新的(内容 id ,标签 id )内容批量写入到一个带 roaringbitmap 的表里。deepseek 说可以。
@Ketteiron #6

大佬不想回就不用会了,一直白嫖你的回复挺不好意思的。

大佬你把我 san 值搞低了。因此我基本决定将来把这东西搞到一个单独的服务器里跟其他实验性的功能坐一桌了。我计划主服务器只放置一些核心、稳定的功能。实验性的服务器放置一些非核心、不稳定的功能,并进行名声最不好的那种敏捷开发。

我的需求复杂读确实多,写应该也不少。但是我刚才测试 update 只有五毫秒,这应该不算高吧? 3333 行,每行的 roaringbitmap 三万元素。元素代表的标签一共 4500 种。deepseek 说一到十秒都正常,我没搜到多少正常。我懒得自己测试所谓的正常更新时间,感觉变数太多。

我没用 intarray 插件,就是普通的 integer[] 类型加个 GIN 索引。我先去测试 intarray 插件的性能了。另外看你的回复我隐约觉得 intarray 只擅长查询全部包含一系列标签的内容。我会测试这个。我之前别的测试完全没测试这个,看来大概率要全重测一遍。

另外附上我计划的一种查询( AI 生成的):

WITH target_tags AS (
SELECT tag_bitmap FROM content_tag_bitmaps WHERE content_id = 123 -- 这个忘了让 AI 限制搜索的元素的个数了,不过我记得好像加不加限制速度都差不多。
)
SELECT
content_id,
rb_cardinality(rb_and(tag_bitmap, (SELECT tag_bitmap FROM target_tags))) AS common_tag_count
FROM
content_tag_bitmaps
WHERE
content_id != 123
AND rb_and_cardinality(tag_bitmap, (SELECT tag_bitmap FROM target_tags)) > 0
ORDER BY
common_tag_count DESC
LIMIT 10;
@Ketteiron #1 我问过 deepseek 了,它说 content_tag_bitmaps 不用索引全表扫描也会比(标签 id ,内容 id )复合索引快。确实快了,某种数据分布只有二十分之一。不同的数据分布指每个内容的标签量,内容量和独立标签量。内容数量和每个内容的标签量的乘积是固定的,独立标签量是内容最大标签量的 1.5 倍。某种数据分布(标签 id ,内容 id )复合索引 11 秒多,pg_roaringbitmap 598 毫秒。不过我才反应过来这个优势好像没什么用?是我不想用的数据分布。我想用的数据分布 pg_roaringbitmap 好像还比符合索引慢点?我这坑爹的脑子之前怎么没发现这个问题?我用了它给的同时用两个表的 SQL ,还没有单独用一个表的快。不过可能是标签分布的原因。我测试的数据是所有标签的使用率应该都是二分之三。我还要进行很多无聊的性能测试。再次感谢吧,如果没有你的质疑我可能会很晚才发现问题。
@shendaowu #2 搜索时间达到(标签 id ,内容 id )复合索引的二十分之一。不是速度。我怎么就管不住我这手呢?
@Ketteiron #1

我试过数组类型 + GIN 实现标签,效率跟(标签 id ,内容 id )复合索引比效率好像没差多少。不知道是不是我没弄明白。或者你说的是用 jsonb ?

我也就现在时间多点,后期我就没多少时间开发网站了。后期我要搞钱养活自己,每天不会分出多少时间维护网站。所以我想让网站抗造一点。
@Ketteiron #1 我才发现我好像是轻信 deepseek 了,它给我的 SQL 代码里根本就没用 tag_content_bitmaps 。它给我解释说它用那个 tag_content_bitmaps 做索引我就信了,没细看。不过没索引查询速度也能达到(标签 id ,内容 id )复合索引的二十分之一我也是醉了。这个时间的降低好像更麻痹我了。我再去拷问一下 deepseek 。感谢大佬。
@CEBBCAT #5

白皮书太高大上了,我感觉我写不出来。我看过一些白皮书。

但是我确实写过一些半系统的介绍我的点子的东西。有兴趣点我本站 ID 到我的 GitHub 首页上看我的那个 Pinned 的项目。我怕站长会自动统计每个用户经常发的链接,然后自动屏蔽那些链接甚至降权封号。我记得我好像发过几次了。

另外过了这么长时间我的很多构想都变了。GitHub 上的介绍有点过时了。我简单提几个。最重要的就是我目前基本确定要提高最大标签数限制了。因为 pg_roaringbitmap 的效果好像不错,不过我还不放心,还需要继续测试一下。然后就是推荐一系列相关的推荐的时候不会一点一点挤牙膏了,会一下子全推荐过去。前者实现起来太费劲,我可能是受推荐系统的影响,没转过来弯。还有一点是我现在明确区分了实际的现象和规律以及录入到网站的现象和规律。虽然我之前就感觉这二者不同,但是没有命名。
@CEBBCAT 你说像指的是形式上像还是内容上像?内容上像的话能谈谈吗?比如你后来为什么相信行不通的?形式和内容意会吧,我感觉跟网上搜到的意思差不多。我想不到更准确的词。
@CEBBCAT 很难醒了。我估计除了运营个十年也没什么效果我是不会醒的。另外不用担心我,我目前计划是尽快写出来,然后以后就用业余时间运营。我问过 deepseek ,它没说出跟我的想法类似的网站。
38 天前
回复了 shendaowu 创建的主题 数据库 数据库性能测试的要点有哪些?
@AutumnVerse #11 问题是我的花活是一般人强烈不建议的。他要是个点查我才不会管。我怕它出现类似组合爆炸的问题。我只是个野生程序员,我的直觉和经验都不够,不敢猜和想。
38 天前
回复了 shendaowu 创建的主题 数据库 数据库性能测试的要点有哪些?
@ntedshen #8 不是。我主要是怕我那个花活根本就支撑不了多大的数据量,我主要不是为了优化性能。我没说明白。
1  2  3  4  5  6  7  8  9  10 ... 51  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2367 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 15:49 · PVG 23:49 · LAX 07:49 · JFK 10:49
♥ Do have faith in what you're doing.