1
VoidChen 2019-03-12 15:18:31 +08:00
大学跟导师做项目的时候不是经常要做这样的处理吗。。前端输入框做个条件限制,不好限制的后端直接怼过去 try catch 一下,失败就说“输入有误,请重新输入”。。
|
2
sheny 2019-03-12 15:30:13 +08:00
上海虽然没有深圳市,但有四川路、南京路。
|
3
Wisho 2019-03-12 15:41:40 +08:00
1. 尽可能把所有合法地址的文本数据搞到手,然后自己造轮子写个 trie 树,基于 trie 树实现前缀搜索。
2. 尽可能把所有合法地址的文本数据搞到手,一把梭倒进 Elasticsearch,用 ES 支持前缀联想了解一下。 |
4
484A4B 2019-03-12 16:26:05 +08:00
不是一般前面几个都是下拉列表选择的吗?
先选省,再选市,再选区县,然后再填详细地址。 这样要是再写错就 try catch 重新输入咯。 |
5
zixiaoguan 2019-03-12 17:09:14 +08:00
往大了讲 这就属于 人工智能的一部分,
往小了说,不按照固定的格式录入 就报错就好啦。 |
8
icered OP @Wisho #3 是准备把国家统计局的地址爬下来,然后再把高德的地址库也弄下来,跟公司自己的地址库做比较。。 字典树可以尝试下,我看看我的水平能不能实现,哈哈,第二种属于搜索引擎了吧,开会的时候公司的大佬们觉得引擎不好做,所以就,开拓视野了,嘿嘿
|
9
icered OP @484A4B #4 原先是有省市下拉,区 /县,街道 /镇是匹配后显示出来,听需求说觉得这样麻烦,不过这个的确是一个解决方案,会简单一些,只用处理后面的数据
|
10
icered OP @zixiaoguan #5 是的,错别字方面我看了百度 AI 开放平台,准备试着用一下,然后后面更细一点的,只能靠其他方式识别了,现在的功能特别依赖高德的 api,像明显的上海市杭州市错误,它仍然会返回上海的坐标结果,而不是报错,所以就需要先自己处理一下了
|
13
shiny 2019-03-12 19:33:19 +08:00
如果是快递地址,可以提供个思路:使用现成的地址清洗服务。菜鸟的贵一点,一次一分钱,还有一个快宝的是免费的。
|
14
gamexg 2019-03-12 20:20:25 +08:00
以前做过一次地址纠错,印象是直接拿统计局的省市划分匹配。
匹配时移除省市县区等字,如果某一级匹配不到直接匹配全部下一级,例如:地址没有市,那么直接将整个省所有区去匹配。 爬虫爬的一批地址这么处理一遍后就只有少量建设兵团等有问题,专门处理后只有几个有问题的了。 |