V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  shrugginG  ›  全部回复第 1 页 / 共 1 页
回复总数  19
20 小时 27 分钟前
回复了 shrugginG 创建的主题 MySQL mysql 小白请教大佬一个问题
@redog 感谢解答,这个内外表的概念我确实没有了解,看来确实该加强学习了哈哈,还有就是 phishy_url 是很多表的汇总表,里面应该是有 300w+的数据量的,所以之前非常慢。
9 天前
回复了 shrugginG 创建的主题 MySQL mysql 小白请教大佬一个问题
@HolderRoberts
-- auto-generated definition
create table phishy_urls
(
id int auto_increment
primary key,
url varchar(2048) not null,
url_sha256 char(64) not null,
ecrimex tinyint(1) default 0 null,
ecrimex_brand varchar(255) null,
phishtank tinyint(1) default 0 null,
phishtank_brand varchar(255) null,
openphish tinyint(1) default 0 null,
openphish_brand varchar(255) null,
created_at timestamp default CURRENT_TIMESTAMP not null,
is_crawled tinyint(1) default 0 null,
page_url varchar(2048) null,
is_accessible tinyint(1) null,
is_completed tinyint(1) null,
status_code smallint unsigned null,
title varchar(255) collate utf8mb4_unicode_ci null,
ip varchar(39) null,
port int null,
updated_at timestamp default CURRENT_TIMESTAMP not null on update CURRENT_TIMESTAMP,
traffic_captured tinyint(1) default 0 null,
last_crawled_time datetime null,
constraint url_sha256_unique
unique (url_sha256)
);
11 天前
回复了 shrugginG 创建的主题 MySQL mysql 小白请教大佬一个问题
@sagaxu 我用 explain 测试过了
```
EXPLAIN
INSERT INTO phishing_intelligence.phishtank_database (phish_id, url, url_sha256, phish_detail_url, submission_time,
verified, verification_time, online, target, etag)
VALUES ('8746113', 'https://free-5477419.webadorsite.com/',
'66c5960b2546bb5d7807213f8d0b6c574ac9b329aca4cc9db6ded49dbc7c4662',
'http://www.phishtank.com/phish_detail.php?phish_id=8746113', '2024-09-06T11:43:49', 'yes',
'2024-09-06T11:53:23', 'yes', 'Other', '7c90038b7ae65365a87c0ef8615e98e4');
```
结果是
```
[
{
"id": 1,
"select_type": "INSERT",
"table": "phishtank_database",
"partitions": null,
"type": "ALL",
"possible_keys": null,
"key": null,
"key_len": null,
"ref": null,
"rows": null,
"filtered": null,
"Extra": null
}
]
```
我看了这应该就是全表扫描了吧,根本没有用到唯一索引
11 天前
回复了 shrugginG 创建的主题 MySQL mysql 小白请教大佬一个问题
@ttoh 我还真测试过 drop 掉 url_sha256 的唯一索引,但是测试发现 drop 前后插入速度基本没有区别
12 天前
回复了 shrugginG 创建的主题 MySQL mysql 小白请教大佬一个问题
@Gilgamesh7 感谢大佬,2s 是不包含获取 url 的时间的,就是单纯的 sql 执行时间
@cnevil 我承认自己对于这个问题没有足够的思考,也建议您仔细阅读一下别人的问题,我在问题中并没有表明 ipv4 和 mac 长度一致的想法
好想法,码住回来看
直接 clash-verge-rev ,我自己的实验室的 ubuntu 机器 22.04 在用
125 天前
回复了 wsseo 创建的主题 程序员 vscode 右侧的滚动条看不清怎么办?
"workbench.colorCustomizations": {
"scrollbarSlider.background": "#AF5F5F",
"scrollbarSlider.activeBackground": "#AF5F5F"
// "scrollbar.shadow": "#ff0000"
},
颜色可以自定义
165 天前
回复了 xxxxdingdong 创建的主题 Node.js 关于自动化测试的正确方式
playwright
网安专业不读博你去找计算机专业也没有问题,投简历只要是计算机大类都没什么区别,只不过可能硕士期间既要学习网安知识又要一手准备找工作
昨天刚改了 5 元无忧卡套餐,很简单。中国电信 APP 上找在线客服,然后他们会安排一个你归属地的客服给你发在线视频链接,然后你准备好身份证 5 分钟搞定
用 Wappalyzer 和 buildwith 扫一下试试呢
@BeiChuanAlex 前几年实习还用到了一些大数据的技术,当时 spark 还算主流,也看了一下 Flink ,请教大佬现在大数据流行的是什么组件呢
latex 中是如何实现的呢
@0o0O0o0O0o 感谢解答,其实 Cookie 并不是我主要考虑的,和传统的爬虫目的还不太一样,我爬虫的目的是要收集网站加载过程中的各种数据,就是类似于 Chrome Dev Tools 中的 Network 面板,同时还需要采集一定量的网站指纹,所以还是 playwright ,pupytter 这种的合适一点感觉。那如果脱离开爬虫的场景,有什么比较推荐的可以深刻理解学习进程/协程/线程的学习方法嘛
@Jony4Fun 好滴好滴,非常感谢解答,看来我可以去基于 GMP 再深入了解一下
@fregie 其实我有一个设想是,单线程(协程)执行任务的话是没法利用多核 CPU 的。我设想了两种方案:一是在开多进程然后每个进程中一个线程(协程);或者是在单进程中开多线程,每个线程都是协程。我不太确定这样的话能不能比一个线程(协程)更加高效呢
@huyomi 谢谢解答。那我是不是可以理解为其实目前多进程的应用已经不多了,python 那边还有应用的原因是 GIL 的存在呢。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   965 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 21:52 · PVG 05:52 · LAX 14:52 · JFK 17:52
Developed with CodeLauncher
♥ Do have faith in what you're doing.