V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  pathetique  ›  全部回复第 4 页 / 共 6 页
回复总数  110
1  2  3  4  5  6  
2023-06-02 21:12:16 +08:00
回复了 pathetique 创建的主题 Python 弱极了,请教 Python 多线程如何快速开始
@aitianci 嗯嗯,其实最大的价值、不是在于观察已有的成形的 pattern 或者单词,而恰恰是一些直观不熟悉但统计上又显著的词汇、语法结构或者说法。比如很多语言中动词-主语-宾语顺序多,但某些地方开始突然高密度调用其他语序;或者很多语言的果-因表达多,但如果突然用因-果连词;或者突然用佶屈聱牙的、甚至字典上没有的词,就很可能有很重要的、非母语者不容易看出的情绪或者信息。反常的信息最珍贵
2023-06-02 20:38:31 +08:00
回复了 pathetique 创建的主题 Python 弱极了,请教 Python 多线程如何快速开始
奇怪为啥有些帖子回复发不出去说要注册 1001 天……1001nights 吗……
2023-06-02 20:37:52 +08:00
回复了 pathetique 创建的主题 Python 弱极了,请教 Python 多线程如何快速开始
再问一个白痴问题,我和您方案的最大差别是不是创建的对象是不是 hashable 的差别?大概就是 30 楼大哥说 list 的效率低,hash 效率高的问题?
非常非常感谢两位的时间!知道大家都挺忙……
2023-06-02 20:37:10 +08:00
回复了 pathetique 创建的主题 Python 弱极了,请教 Python 多线程如何快速开始
@zhzy
@ispinfx
非常感谢
2023-06-02 20:32:57 +08:00
回复了 pathetique 创建的主题 Python 弱极了,请教 Python 多线程如何快速开始
@zhzy 跑通了,非常感谢!但是您的代码我还在慢慢理解中……因为不太理解 counter.get 或者 counter.items 这样的命令。是需要去 pathlib 的档案找意思吗?
2023-06-02 18:39:32 +08:00
回复了 pathetique 创建的主题 Python 弱极了,请教 Python 多线程如何快速开始
@hellojukay 感恩,我马上学一下 linklist 和 hash……
2023-06-02 18:38:07 +08:00
回复了 pathetique 创建的主题 Python 弱极了,请教 Python 多线程如何快速开始
@zhzy 谢过,我去试试用 panda !不用中文的分词 library 是因为用中文只是试试,其实主业是古代西方语言,最后需要 n-gram skipgram flexgram 之类的还是要自己微调很多自己写然后穷尽搜索。请问 regex 或者 panda 有好的入门建议吗?还,就 GPT 就好?
2023-06-02 14:49:37 +08:00
回复了 pathetique 创建的主题 Python 弱极了,请教 Python 多线程如何快速开始
@Kinnice @Weixiao0725 @adoni @aijam @coderluan @fyq @killva4624 @laqow @litguy @liyafe1997

非常感谢各位的帮助!就不一一回复,几位大佬我一起感谢先

先非常感谢对多线程和进程的区分,我已经开始用 multiprocessing module 了,在我的 M1max 上基本上十个小时可以做完,对于雍正可以接受了。但是随着搜索对象正则式的复杂化我怀疑还要更久更久,而且雍正才干几年,乾隆的起居录估计有十倍大,可能个人电脑还是不够。

然后几位大佬怀疑算法有没有问题,我也不知道哪里可以改善的。我把最简单的版本(算二字成词率)代码放在这里,辣大家的眼可能,但是真心请问如果有耐心看完的大佬:有没有改进的空间?如果是单线程的话,我可以从头到尾扫描,扫过的不再碰,复杂度是 n^2/2 ,但是因为多线程,把文本分成多块就没头没尾的,复杂度是 n^2 但是可以多核平均。


checkdict = [] #已经查过的单词词库
list = [] #文本本身
step = 100000 #每个机器人负责多大块

with open('yong3.txt', 'r') as file:
contents = file.read()
for chr in contents:
if chr != '\n' and chr != ' ' and chr != '。' and chr != '、' and chr != '○' and chr != '\u3000': #有些奇怪的字符去掉
list.append(chr)
length = len(list) #雍正大概 100 万字


import multiprocessing.pool #import the multiprocessing module

def worker(num):
"""Worker function for the process"""
print(f'Worker {num} starting')

count = 0
for i in range(0+step*num,min(step+step*num,length-2)): #每个机器人负责 #step 长度的文字
if (list[i:i+2] not in checkdict): #如果不在字典里
count = 0
for j in range(0,length-2): #全本比对,因为分块似乎只能这么做,不能从 i 开始?
if list[i:i+2] == list[j:j+2]:
count = count + 1
checkdict.append(list[i:i+2]) #check 完,添进已查字典
if count > 350: #出现次数高于 350 次的字显示出来
print (list[i:i+2])
print(i, count, f"{num}th worker at percentage = {format((i/step-num)*100, '.2f')}%" )
print(f'Worker {num} finished')


还是挺好玩的,发现很多有趣的事实,比如弄死了年羹尧雍正还常提,比如他喜欢的十三弟其实没那么常提。我其实拿清史资料是因为手头方便,下一步更想用 Colibri Core 处理黏着语(黏着语,比中文不一样的地方在于一个词根会有很多变化,比如 love, loves, loving )。

想问调用 Calobri Core 这样的库啊包的各位大佬还有什么建议呢?还是照着 ChatGPT 的做?(我的 Python 真的很生,刚学,小时候会用 c )

然后想问下,如果有人有时间帮小的看了这个案例,这种算法用显卡( CUDA )来帮助做会有帮助吗?或者我下一步弄大了,比如一千万字的更加模糊的搜索(比如犹太注经动辄几千万),有什么好的建议提速呢?可以借学校的服务器或者云吗?但是感觉云的 CPU 频率应该也一般。

非常感谢大家指路!小的刚刚用电脑编程对付这些,求拍求建议求更多工具。
2023-06-02 01:55:05 +08:00
回复了 sillydaddy 创建的主题 程序员 似曾相识,怎么用人工神经网络表达?
@leaflxh 我觉得是“多线接近收敛”但无一通路
2023-05-31 12:47:03 +08:00
回复了 yuhaiyang 创建的主题 杭州 自家小猫生了, 500 小偿领养,闲鱼链接如下
@ttxhxz 不不不,我也救助猫的。1. 自己用爱发电并不代表这种用爱发电模式可推广。2. 自己用爱发电就道德从严开喷,我就不喷什么了。3. 领养给钱对这一只猫到底有害有利我想不言自明。我的感觉:私下收点钱实现多方帕累托改善,可能损伤的只有道德严格主义者的无偿洁癖。
哈哈哈你这两个分问题之间没有因果联系啊

试试,“即使……也不能……”或者“不用……也可以……”

听起来更合理
2023-04-21 01:13:49 +08:00
回复了 Cong01 创建的主题 生活 目前适合去哪些城市发展?
@zerone0086 我在,感觉非常好啊
2023-03-22 15:42:36 +08:00
回复了 atkd 创建的主题 北京 北京已达严重污染!扬沙+雾霾天气,简直了。南方人体验过吗?
@jaTomn “北京空气质量在我看来主要是三个问题,雾霾、干燥和花粉。”
哈哈哈第一眼没有看到“空气质量”的限定,心里第一反应是,你不觉得人才是最大的问题吗
2023-03-22 15:42:00 +08:00
回复了 atkd 创建的主题 北京 北京已达严重污染!扬沙+雾霾天气,简直了。南方人体验过吗?
@jaTomn 北京空气质量在我看来主要是三个问题,雾霾、干燥和花粉。
哈哈哈第一眼没有看到“空气质量”的限定,心里第一反应是,你不觉得人才是最大的问题吗
这样想啊,你想另一个可能的世界里的自己,可能拿了三年的高薪,公司今年发现可以用一半的钱招一个硕士版的你。你大概会选择哪个轨迹呢?
2023-03-17 14:31:30 +08:00
回复了 pathetique 创建的主题 分享发现 请问有成功用上 MS Copilot 的同学吗?
@luoyich
2023-03-17 14:31:14 +08:00
回复了 pathetique 创建的主题 分享发现 请问有成功用上 MS Copilot 的同学吗?
Or BETA channel? Preview channel?
2023-02-26 16:54:15 +08:00
回复了 8520ccc 创建的主题 问与答 你们认为 25 年内生产力是否会爆发式,指数级暴涨?
@z7356995 其实蒸汽机是个显学案例……就,不是我们理解的一天发明出来的,并且瓦特用于矿里以后很长时间工厂并无太多跟进,就像电力发动机没有在十几二十年内被工业爆炸式跟进一样( https://mp.weixin.qq.com/s/RYdwV2u-dUJ8YpoHJi1wng
1  2  3  4  5  6  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1427 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 17:19 · PVG 01:19 · LAX 09:19 · JFK 12:19
Developed with CodeLauncher
♥ Do have faith in what you're doing.