V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  TimG  ›  全部回复第 2 页 / 共 5 页
回复总数  94
1  2  3  4  5  
70 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@cccvno1 一开始确实是这么做的,但是当时没有给我一次交代所有需求,导致先写了 C#程序清洗,后期有新的列清洗需求,就图方便用 SQL 处理了,结果需求越加越多,SQL 也越来越多,成了这种人不人鬼不鬼的样子......这次痛定思痛,不再奢求一次全跑完,先把大表拆了再跑吧,并且尽量用一种方式去清洗,不然两者的优势都不沾哈哈
71 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@noqwerty 谢谢推荐,这个没听说过我会去了解一下。之前因为内存不够的问题也试过用 Vaex 替换 pandas ,结果好像不完整支持 apply ?折腾了好久最后无奈直接用 C#读数据库了。
71 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@wxf666 如您所说,只用 SQL 确实可以解决问题,但是难以迅速定位错误。这个项目的时间其实大部分会花费在打回数据重新收集这里,所以迅速的发现数据问题、修复可以修复的,一遇到无法修复的情况迅速反馈是非常重要的。因为数据五花八门,使用 SQL 的话,每次增加新的 case when 都要全部运行后才能知道清洗结果(而且一次还只能清洗一列)。如果编写程序以行去遍历,除了可以用多核加速和显示进度以外,还能:
1. 实时查看当前错误,数据第一次跑完,整个表的例外情况就可以掌握的差不多,简单的情况很多都已经改好程序了。而 SQL 的话,运行的时候人只能闲着,甚至连什么时候能跑完都不知道。
2. 记录修改前后数据,保存进日志或者存进数据库,如果出现意外可以 rollback 。
3. 对于复杂的逻辑可以 debug ,尽管只是 if else ,写多了也会混乱,也能美美地单元测试。对于这个量级的数据,在我的小电脑上跑是真的不想再来第二次。
71 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@512357301 感谢回复。我查到 clickhouse 不擅长更新数据,文档中也写明 update 是繁重操作。不过就原理上如果只查询+修改同一列,效率应该比行式数据库更高的。因为数据清洗势必牵扯到大量数据更新操作,不希望在这里产生意外。如果列式数据库在这方面不自信,我还是用回传统方法跟稳妥一些。
71 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@renmu 确实是这样,可以按照反馈数据的最小单元去拆分,导出成清洗完成和未完成两个文件夹,然后每次遍历未完成的文件夹,有新数据就替换掉未完成文件夹的旧数据。很有启发,谢谢。
71 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@lambdaq 只是觉得目前了解的程序不太适合处理这类问题,openrefine 也看了一下,好像也是针对列处理的,还得学习就不如继续用 SQL 了。这种需求想想也不算少,应该在我认知之外有合适的程序吧。不行就只能扩写那个 C#程序了......
喜欢玩游戏 ≠ 有兴趣学做游戏 +4

做游戏的人是要下功夫的,下的功夫就是让别人喜欢玩游戏。
人人都爱吃好菜,但未必人人都想当厨子。
稳定性/性能 - 扩展性 - 工作量 三者不可兼得。未来的需求不可预测,在这个前提下看项目组如何选择也算是一种项目设计的美学。
如果一个知识/技能你很容易就学会了,那么别人也可以很容易学会,目前不会只是他们懒得学。
我记得有能同时切换 hdmi 和 usb 的 kvm 。两个屏幕是同一个设备还是各一块屏幕?扩展坞接两块屏幕不确定能不能行,行的话也可能是复制模式,无法扩展屏幕,因为雷电的视频信号其实是一路 dp 吧。建议先从京东自营上买一个试试,不行就 7 天无理由。
103 天前
回复了 yesgg 创建的主题 计算机 轻薄本,我是选苹果 air 还是戴尔灵越啊
去年给小屋填了一台 mac mini ,主要是娱乐、练琴用,上班继续 Windows 。到现在复制文件下意识还会点到“复制”,剪切还在右键菜单找半天,返回上一层目录要愣三秒,选一堆文件点属性想看总大小,然后含泪一个一个关掉。同时用两个系统很难适应的。转换成本比想象中的高。
并且安卓手机配苹果电脑确实有些难受,甚至着急的时候都无法直接通过 USB 线缆传输文件。明明 nas 都可以直接读取安卓手机的文件。好在可以用 localsend 传输。
去商店搜了一下感觉就是 vsco ?很有名的后期预设 app ,也可以在 lightroom 安装预设包。
106 天前
回复了 idtlikeceleries 创建的主题 生活 在家做饭是否真的会比较划算?
@cmdOptionKana 端锅吃可太真实了,谢谢推荐,不过电饭锅已经搁置了,煮面会多一些。
106 天前
回复了 idtlikeceleries 创建的主题 生活 在家做饭是否真的会比较划算?
肯定比外面便宜,但精神上很累,因为不光做饭,还得洗锅洗碗。如果菜式稍稍升级,更是需要洗各种“过渡食材”碗,比如临时存放焯水的肉、待搅拌的土豆泥、待混合的蔬菜汁......
电饭煲对一个人生活来说更是痛苦:无论如何最少也会一次做出两顿的量,一旦启动,炒饭会成为固定频率的搭配......
我中午不回家,只有早晚饭在家做。超市里不散卖的蔬菜、葱、蘑菇,每周基本上是吃一半扔一半。大葱肯定是不敢买的,无论如何一个人也吃不完。
时间耗费更是惨烈,小火煎鸡胸,半小时起步没有了。
至于健康,也没有很健康。并不会像父母那一代人事无巨细的用心洗菜,只能说保证没有黑心用坏菜充好菜。
不过与上班毫无目的瞎忙相比,做饭至少能端出好菜。
106 天前
回复了 BlAckzkl 创建的主题 咖啡 有没有好喝的三合一速溶咖啡推荐
想借楼问下有没有好喝不酸的速溶美式,我在超市不管怎么买都是酸的,买了又不能不喝,一喝就痛苦面具。
114 天前
回复了 iLoveSS 创建的主题 问与答 请教雅黑字体的授权问题
就我知道的前端网页的标准,引用用户本地安装好的字体不需要付费。
黑屏重启后快捷键 win+R ,输入 eventvwr 打开事件查看器,点击系统看看有没有日志。
120 天前
回复了 superbai 创建的主题 程序员 咨询一个关于 DataGrip 的问题
没怎么用过行内显示结果的模式,不过数据量大的话无论怎么显示都不太好用的。想要什么查什么,列多就 transpose 一下,知道列名还可以用跳转到列的快捷键,默认快捷键好像是 ctrl+f12 ?因为我用的特别多所以自定义成 alt+L 了。
如果不改表结构可以从表数据预览的界面顶上的 where 筛一下,这个模式占用一整个界面,竖向空间充足。
或者干脆就别用行内显示结果了,下方显示拼到右侧,把竖向空间利用起来。不想改变结果 pin 住就可以了,还不占用代码空间。
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1032 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 27ms · UTC 19:18 · PVG 03:18 · LAX 11:18 · JFK 14:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.