1
noqwerty 2021-04-22 22:01:56 +08:00 via Android
SQLite 和 clickhouse😂
|
2
hellogitooxx 2021-04-22 23:25:54 +08:00
mysql
|
3
vertigo 2021-04-22 23:33:46 +08:00
问就是 mongodb,自由的一批
|
4
huzhikuizainali OP @noqwerty 求分享。和 mysql 对比如何?优势是什么? SQLite 和 clickhouse 中文知识生态如何?
|
5
huzhikuizainali OP @vertigo 具体好在哪里。求分享。
|
6
ipwx 2021-04-22 23:42:38 +08:00
做算法的一般不用数据库。。。。
结构化的数据用传统数据库也没用(比如 Knowledge Graph 知识图谱) |
7
vertigo 2021-04-22 23:43:46 +08:00 1
@huzhikuizainali 如果只是本地挖掘,而不是生产环境批量搞.其实对数据的各种维度变化和存储结构变化更多(毕竟是随着想法变),例如分析一组消费数据,一会想存用户年龄,一会又想存用户留存.用 mongo 就直接在程序里加个字段即可(关系型数据库基本只能重新建表),同时因为本身的 bson 格式存储,可以直接扔各种 json 格式数据进去且方便多层检索.
总体而言就是自由,轻量化,不会因为种种条框打断更重要的思考过程(俗称一把梭) |
8
huzhikuizainali OP @vertigo 谢谢分享。数据库入门有什么推荐的书籍。不涉及某一特定数据库。也不是上来就教 sql 语言。(不排斥以特定数据库,特定语言为主线进行讲解。但最好面能广一些)通过案例来普及一些数据库常识性知识。不抽象。
|
9
noqwerty 2021-04-23 00:14:52 +08:00 via Android
@huzhikuizainali 这要看你数据量和结构,本地如果数据量不大的情况我个人认为没必要 MySQL/PostgreSQL,SQLite+pandas 足够应对大多数需求。
提到 clickhouse 是因为我们之前的一组数据需要 columnar database,MySQL 超过 4096 列就不支持了。 |
10
huzhikuizainali OP @noqwerty 谢谢分享。数据库入门有什么推荐的书籍。不涉及某一特定数据库。也不是上来就教 sql 语言。(不排斥以特定数据库,特定语言为主线进行讲解。但最好面能广一些)通过案例来普及一些数据库常识性知识。不抽象
|
11
knightdf 2021-04-23 09:48:38 +08:00
csv
es |
12
buliugu 2021-04-23 09:49:44 +08:00
py 做数据挖掘用啥数据库?当然是 csv 啦(逃
|
13
z740713651 2021-04-23 10:34:27 +08:00
csv +1 后面也可以对接 hdf5
mongo 也很舒服 丑 sql 真的好麻烦 |
14
MinQ 2021-04-23 10:57:53 +08:00
csv+10086
|
15
princelai 2021-04-23 12:09:13 +08:00
我主要是时序数据,所以选择了 timescaledb,其实就是 postgresql 魔改版本,所以其他数据基本都入到我这个库里了,本地小数据我都用 pandas 输出为 parquet/feature,读写非常快,压缩比也很高
|
16
leven87 2021-04-23 12:42:26 +08:00
一般就是 CSV 就好,先数据清洗整理,生成一个符合要求的 csv,方便下次调用
|