V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  NoOneNoBody  ›  全部回复第 28 页 / 共 167 页
回复总数  3327
1 ... 24  25  26  27  28  29  30  31  32  33 ... 167  
@maxus #3
app 设置 安全里面
没绑邮箱?
75 天前
回复了 shinonome 创建的主题 Python Python 函数参数是选 list 还是*arg 呢
应该习惯参数分开不同的意义,前面的例子分开元素没有意义,所以没必要用*
用*多是
1. 输入有固定顺序,但不太关注名字,例如 from to ,start end 这些,使用者一般不考虑参数名直接输入两个数,且约定俗成一般不会搞错顺序
2. 多个参数,但长度不定,但函数内的计算是针对单个元素的,或者只使用其中某个位置的
如 def select_b(a,b,*args): return b 这样可以传一个*tuple 过去

你这个想法是“批量”,即使只有一个也可扔一组过去,循环一次而已
但建议也是要有单个处理的思想,将来 pandas/numpy 这些使用的向量函数,都是单个处理的,向量化能直接把单个处理的函数应用在一组数据,如果一开始就写成批量处理,反而没有向量化了(不能转为向量函数);向量化在海量数据处理中是很重要的,速度比 for 循环要高很多
但如果不考虑将来在大数据中复用,也可以忽略

PS: 传递单个参数习惯用 tuple ,因为 tuple 是 hashable ,而 list 是 unhashable ,将来遇到多进程调用某个函数(这个函数最初设计没有考虑到用在多进程),就可能出现不能 pickle 无法继续的情况
先想起中学的找人代表白
然后想起用“用电筒照着太阳能电筒使用的发明”
我又无边际思想漫游了
76 天前
回复了 coolair 创建的主题 问与答 为啥书名的中英文数字之间没有空格?
你都说是书了,书是印刷的,即使电子书,书名字体也是较大的,不影响阅读
只有入库以字符串格式,较小的字体才影响阅题,但是加了空格是影响搜索的,这是相对于阅题是更麻烦的事
例如《白雪公主和 7 个小矮人》,加空格和不加空格搜索方式不同
我选 2 寸 HDD ,就是笔记本硬盘,但不要选 SSD
我十多年前的 2 寸数据 HDD 还在读,应该说全都在
只是 50G 有点浪费,顺便存照片吧
别人的老婆,只能送没有记忆的东西,建议食物或日消品
76 天前
回复了 sg8011 创建的主题 程序员 我这种需求应该去学什么
ps: flask 用 debug 模式,这样改动 python ,ctrl-s ,flask 就能自适应刷新,反正个人需求,也不会出现大规模请求,就起一个 flask 够用了
76 天前
回复了 sg8011 创建的主题 程序员 我这种需求应该去学什么
给你个最简单的方案:
1. 先让 chatgpt 写个 python flask ,接收油猴提交过来的数据,就几行 python 而已
如果后续计算简单,可以让 flask import 计算模块直接计算,储存结果,然后返回给油猴
如果计算复杂耗时,几分钟完成不了,就直接存接收的数据,离线另外计算
2.油猴,让 chatgpt 写,你需要做的就是用浏览器找到数据所在元素,开发者工具 copy css selector 并告诉 gpt 提取这个
如果需要自动翻页,也是知道多个页面的地址,让 gpt 写自动跳到下一页
脚本获取后提交给前面说的 flask ,看情况是否需要获取返回,离线计算的话,alert 知道存了就行了

把整个需求组织一下,跟 chatgpt 说清楚,自己改改基本就可以了,全部本地操作,不用学太多东西
既然都说的二进制,总应该知道 6 个 bit 就是 64 吧? 62 不能完整表示 6 个 bit 啊,36 表示 5 个 bit 又浪费了几个字符
这些编码本来就早于 url 诞生的,你应该问的是为什么 url 标准不考虑兼容 base64

base64 的重要思想是将 bytes 以可视、非控制字符表示,是 bytes 类型转无控制字符的 string 类型的最简单实现,压根就和 url 没什么关系
上周用油猴自动爬了 2w+页面,用无头总是被 cloudfare 拦截,懒得研究 cookies ,干脆开油猴上,反正也不多
如果说的是 APP 登录的话,我从来没登录过,根本就没装过
你下载用的是官方 client 么?看看帐号有没有搞错,是不是有两个号
77 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@wxf666 #7
肯定是逐个 case 处理
我的意思是 sql 做这个是挺难的,不如 pandas 当成字串用正则,可以用向量或者 numba/c++处理
至于那些逻辑不对的,只能先转 8 位,并打 tag“日期异常”交给下家判断,清洗人员只做基础逻辑判断,数据实际意义也做判断就是“僭越”了

那些异常数据其实可以猜测,就是原始记录是有入库时间的,可以通过入库时间计算,只是人家本来就没有日期查询和展示的需求,可能只有月日或者年龄的需求,所以入库时就顺便变了形式,汇总(采集)时不会去拿那个入库时间,自然格式就不对了
77 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@wxf666 #5
刚遇到一个,你看看, 数据目标意义为日期
年月日
日月年
月日年
6 位数
7 位数
8 位数
4 位数:只有年、或只有月日
2 位数:年龄
23.3.24 或 11.12.13 (搞不清年月日分别是哪个)
……
以上情况混杂都有
78 天前
回复了 huyiwei 创建的主题 问与答 注销卸载了,这辈子不再信网盘。。。
人生问题:
从几岁开始不再尽信父母?
从几岁开始不再尽信老师?
从几岁开始不再尽信课本?
从几岁开始不再尽信文章?
……
从哪年开始不再信老板?
从哪年开始不再信广告?
从哪年开始不再信媒体?
……
从哪年开始不再信朋友?
从哪年开始不再信共和党、民主党?
……
从哪年开始不再信子女?
从哪年开始不再信伴侣?

都没有,你的世界才是真的真美好啊
79 天前
回复了 guoguobaba 创建的主题 Python 郁闷,折腾了一周的爬虫
最近在重拾前端做自动化,一些网页或网站打开就自动提取信息
不过倒不是爬大量页面,就是打开哪个是哪个,减少一顿 select ctrl-c open ctrl-v close 的手工操作而已

爬虫还是要找些机器一起爬才行,单机单 ip 遇到 5 秒反爬确实搞不了,我以前都是爬外站多,没什么线下问题,最多把我“升级”称为“中国黑客”,笑
1 ... 24  25  26  27  28  29  30  31  32  33 ... 167  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2643 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 44ms · UTC 15:50 · PVG 23:50 · LAX 07:50 · JFK 10:50
Developed with CodeLauncher
♥ Do have faith in what you're doing.