V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
waylybaye
V2EX  ›  分享创造

用 NLP 做了个全国小区、村镇感染地图

  •  1
     
  •   waylybaye · 2020-02-05 16:57:40 +08:00 · 5515 次点击
    这是一个创建于 1745 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这个春节本来想脱产学学习思考下路线问题呢,没想到疫情爆发打乱了所有计划。因为我做「后续」的原因有大部分官媒的新闻数据,所以就花了几天时间,做了一套分析疫情新闻提取地理信息的地图。

    地图精确到小区、村镇、建筑级别。数据全部来自于官媒,而且每条数据都有来源链接和推理的原始文本。

    很多城市因为只公布人数不公布小区所以没有数据。

    地址:https://houxu.app/nconv/map

    image.png

    21 条回复    2020-02-09 22:43:10 +08:00
    barble
        1
    barble  
       2020-02-05 17:05:18 +08:00
    数据不准确,济南有个景苑小区 新闻里说了是天桥的,标注到历城了
    janus77
        2
    janus77  
       2020-02-05 17:06:03 +08:00 via iPhone
    推上看的 已经用上了😂感谢
    kokdemo
        3
    kokdemo  
       2020-02-05 17:07:57 +08:00
    支持一下大佬
    huyinjie
        4
    huyinjie  
       2020-02-05 17:08:34 +08:00 via iPhone
    前排支持 baye
    waylybaye
        5
    waylybaye  
    OP
       2020-02-05 17:17:41 +08:00
    @barble 感谢反馈,最早加的一小批同名消歧上有 bug,正在纠错。

    @janus77 @kokdemo @huyinjie 😘
    qiayue
        6
    qiayue  
       2020-02-05 17:22:28 +08:00
    深圳的可以参考这个,你的数据缺了很多
    https://www.shuipingguo.com/defent-virus.html
    libasten
        7
    libasten  
       2020-02-05 17:47:32 +08:00 via Android
    程序提取新闻报到中的位置名,然后定位到地图上?
    wwqm2
        8
    wwqm2  
       2020-02-05 17:54:40 +08:00
    我看了一圈各地的每日报告,只有陕西发布的报告最详细,基本上大概行程、什么时候发热、什么时候去的哪个医院,都特详细,评论区还有人根据交叉感染做了图
    Tianyan
        9
    Tianyan  
       2020-02-05 19:44:38 +08:00
    支持一下
    permaylau
        10
    permaylau  
       2020-02-05 20:40:58 +08:00
    很想知道这地图是怎么做的? NLP 是什么
    good1uck
        11
    good1uck  
       2020-02-05 20:45:06 +08:00
    @permaylau 用 NLP 实现机器阅读,爬虫爬取文章内容,再结合机器阅读提取数据,自制 API 给地图使用
    good1uck
        12
    good1uck  
       2020-02-05 20:49:31 +08:00
    我看了一下江苏省常州市的,好像数据缺失了。根据当地公众号或丁香医生公布的情况来看,少了很多。目前有 24 例。地图上仅展示 1 例
    DevRoss
        13
    DevRoss  
       2020-02-05 20:53:39 +08:00 via Android
    好奇怎么识别的,用 NER 吗
    HTSdTt3WygdgQQGe
        14
    HTSdTt3WygdgQQGe  
       2020-02-05 21:39:13 +08:00 via Android
    技术难度不大,难得是数据
    jedicxl
        15
    jedicxl  
       2020-02-05 21:51:14 +08:00
    收藏一个
    waylybaye
        16
    waylybaye  
    OP
       2020-02-05 23:46:06 +08:00
    @wwqm2 陕西、河南和东北的都比较详细

    @q409640976 数据不难啊,会爬虫的那么多

    @good1uck 有些城市的数据可能没有媒体转载我这边就没有数据了……
    good1uck
        17
    good1uck  
       2020-02-06 08:46:04 +08:00
    @waylybaye 嗯,挺好了。不然得手动录数据也太麻烦了
    echopan
        18
    echopan  
       2020-02-06 09:22:15 +08:00
    @waylybaye 泰安的缺失了好多,我给你微信公众号文章爬吧
    qinxi
        19
    qinxi  
       2020-02-06 16:49:43 +08:00
    北京公布了 5 号感染的活动区域了

    https://weibo.com/1618051664/IsX5nm7Cy

    北京市疾病预防控制中心发布 2 月 5 日新发病例活动过的小区或场所,具体信息如下:

      东城区:体育馆路街道驹章胡同。

      西城区:月坛街道复兴门外大街甲 20 号、展览路街道南营房社区。

      朝阳区:来广营乡驻华年、东坝乡恒大江湾、慈云寺北里、北苑路 86 号嘉铭园、高碑店乡陶家湾。

      海淀区:北太平庄街道新街口外大街 15 号院、紫竹院街道民族大学西路 66 号鑫德家园。

      石景山区:玉泉北里 2 区、八宝山街道鲁谷远洋山水、五里坨街道西街天翠阳光新城。

      大兴区:黄村镇格林云墅、瀛海镇金茂悦北区 5 号院、观音寺街道双河南里。

      怀柔区:庙城镇郑重庄村。
    waylybaye
        20
    waylybaye  
    OP
       2020-02-07 01:14:11 +08:00
    @qinxi 感谢这个今天已经抓到啦
    @echopan 我只抓了媒体文章,没抓公众号 😂
    dick20cm
        21
    dick20cm  
       2020-02-09 22:43:10 +08:00
    好奇楼主大佬关键信息抽取用的哪种模型?能否简单透露下,thanks
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   981 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 22:28 · PVG 06:28 · LAX 14:28 · JFK 17:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.