余晖落尽暮晚霞,黄昏迟暮远山寻
本站
当前位置:网站首页 > 编程知识 > 正文

真会玩!看看“技术帝”如何清洗可疑莆田医院的数据

xiyangw 2023-10-03 16:28 29 浏览 0 评论

引 子

一夜间,百度和莆田系的话题院占领了俺的朋友圈。

直到这几天我才幡然觉悟,从小的性病广告,到公交车站的整容广告,到各种一看就伪科学的网站广告,原来师出一派。

本人不善口诛笔伐和道德说教,但好歹也被医院坑过一次,花了800做了个其实应该免费的婚检,自此才知道『军』字打头的医院未必是个好鸟。

昨天当我在github上看到了这个项目:

https://github.com/langhua9527/BlackheartedHospital, 心头一震, 原来码农也能为这件事做点什么。

github是一个分布式代码托管仓库,这么说有点装逼,简言之是大家可以在这里进行多人协作,比如我修改了一个片段,他修改了一个片段,github可以帮着做合并。

现在github已经被玩坏了,比如这个找医院的项目,至今有57个人参与其中,3000多个star()。

清 洗 数 据

问题来了,目前只有500个野鸡医院的名字,你要取得这500个医院的电话、省份、 城市、地区、地址供研究,你会怎么做,是一个个去搜索吗?

500个可以手动,如果是5000个呢,每次找到网站并刷出来需要15s,复制黏贴需要3s, 5个字段需要15s,加起来一条记录需要30s,5000条数据需要你一刻不停地高效率干一天半。

码农就是暖男,暖男让你的工作更省心。

如果我们用手机打开百度地图或者高德地图,随手输入一个地址,上海交大、上海交通大学、东川路800号,或在上海的视图搜索交大、交通大学,基本上你能找得到这个地方。

虽然一个地址不是很标准,我们还是能找到标准的信息,有时候还能跳个小框出来,告诉你这个地方的联系电话是多少。

代 码 片 段

如果我们打开chrome,然后打开控制台(windows用户按f12,mac用户 alt + command + r),然后点击network。

然后在搜索框搜索『上海交通大学』,打开控制台,你可以找到一条类似于这样的请求:

http://ditu.amap.com/service/poiInfo?query_type=TQUERY&city=330100&keywords=

%E4%B8%8A%E6%B5%B7%E4%BA%A4%E9%80%9A

%E5%A4%A7%E5%AD%A6&pagesize=20&pagenum=1&qii=true

&cluster_state=5&need_utd=true&utd_sceneid=1000&div=PC1000

&addr_poi_merge=true&is_classify=true&geoobj=119.917027%7C30.180823%

7C120.390125%7C30.393979

这个url有一段比较关键

keywords=%E4%B8%8A%E6%B5%B7%E4%BA%A4%E9%80%9A%E5%A4%A7%E5%AD%A6

很多字符是不能存在于url中的,所以浏览器会自动转化,各种语言应该都有这种转化的办法,比如javascript提供了2个函数做转换,我们可以在console里对这堆乱码进行试验,我们用encodeURI函数把中文转乱码,又用decodeURI转换成中文:

因此,如果我们有一堆可疑医院的列表,一条条告诉程序,程序把刚才url中key后面的乱码用下面的函数处理替换,就可以开始搜集信息了。

encodeURI('你想要搜索的地址')

我们可以看看这个接口包含的信息:

随 意 下 载

爬虫的细节就先略过了,如果调用太频繁,有时候会被高德封掉,最简单的方法可疑让任务排个队,每次完了休息一小会。

这份数据大家可以免费地使用,也提供了json和csv的格式可供下载,因为初始数据修改过, 目前还没有合并到主项目中。

https://github.com/zhouningyi/BlackheartedHospital

所有的数据都为网友采集,并不为准,大家可以利用互联网,开始进一步的调查。

谢谢每天我们用来导航的地图服务,利用这个,我们批量清洗出了可疑医院的详细信息。

可 疑 医 院 地 图

对于这份数据,顺便做了一份简单的热力图,可以点击每个热点看详细信息:

http://hotu.co/hospital/

贴 些 sample

相关推荐

华为交换机配置命令总结

1、配置文件相关命令[Quidway]displaycurrent-configuration显示当前生效的配置[Quidway]displaysaved-configuration显示fla...

解决账户无法登录的故障
解决账户无法登录的故障

在优化系统时错误地根据网上的提示,将唯一的Administrator账户设置为禁用,导致重启后无法进入系统。类似的故障还有使用组策略限制本地账户登录,导致重启后...

2023-10-11 17:16 xiyangw

S5720交换机登录提示初始密码存在安全风险
S5720交换机登录提示初始密码存在安全风险

问题描述客户每次登录输密码时,提示初始密码不安全,现在客户嫌麻烦想要去掉:Username:huaweiPassword:Warning:Theinitia...

2023-10-11 17:15 xiyangw

Springboot,Mybatis修改登录用户的密码
Springboot,Mybatis修改登录用户的密码

一、Mybatis.xml<updateid="changePassword"parameterType="string...

2023-10-11 17:15 xiyangw

PHP理论知识之沐浴更衣重看PHP基础(二)
PHP理论知识之沐浴更衣重看PHP基础(二)

接上篇,咱们继续讲解PHP基础八、标准PHP组件和框架的数量很多,随之产生的问题就是:单独开发的框架没有考虑到与其他框架的通信。这样对开发者和框架本身都是不利的...

2023-10-11 17:15 xiyangw

新鲜出炉UCloud云主机“数据方舟”评测报告(5)— — 关其城
新鲜出炉UCloud云主机“数据方舟”评测报告(5)— — 关其城

2015年10月29日,UCloud云主机黑科技——“数据方舟”功能正式上线,首轮内测随即开放。截止至2015年12月6日,我们共收到了534位用户的评测申...

2023-10-11 17:14 xiyangw

业余无线电Q简语及英文缩语
业余无线电Q简语及英文缩语

Q简语:语音通信及CW通信通用(加粗为常用)QRA电台何台QRB电台间之距离QRG告之正确频率QRH频率是否变动QRI发送音调QRJ能否收到QRK信号之可...

2023-10-11 17:14 xiyangw

非常详细!如何理解表格存储的多版本、生命周期和有效版本偏差
非常详细!如何理解表格存储的多版本、生命周期和有效版本偏差

表格存储在8月份推出了容量型实例,直接支持了表级别最大版本号和生命周期,高性能实例也将会在9月中旬支持这两个特性。那么,最大版本号和生命周期以及特有的...

2023-10-11 17:14 xiyangw

H3C交换机恢复出厂和各种基本配置,这20个要点你知道吗?
H3C交换机恢复出厂和各种基本配置,这20个要点你知道吗?

私信“干货”二字,即可领取138G伺服与机器人专属及电控资料!H3C交换机不知道密码如何恢复出厂设置1、开机启动,Ctrl+B进入bootrom菜单,选择恢复出...

2023-10-11 17:13 xiyangw

在使用移动支付系统的时候如何保护信息安全?

移动支付的方式近年来不断被更新,使得Venmo(据嘉丰瑞德理财师了解,此为美国的“支付宝”)之类的支付方式已经可以某种意义上代替随身携带现金了。但是你必须防范那些第三方应用程序轻松地获取你的银行卡以及...

界面控件DevExpress WinForms MVVM入门指南——登录表单(下)

从本文档中,您将了解如何向应用程序添加登录表单。在本节教程中着重讨论了如何实现此任务,这基本上是附加应用程序功能的一部分。DevExpressUniversalSubscription官方最新版免...

linux基础命令(一)
linux基础命令(一)

为啥要学linux?您可能熟悉WindowsXP、Windows7、Windows10和MacOSX等操作系统。Linux就是这样一种强大的操...

2023-10-11 17:13 xiyangw

MySQL数据库密码忘记了,怎么办?

#头条创作挑战赛#MySQL数据库密码忘记了且没有其他可以修改账号密码的账户时怎么办呢?登录MySQL,密码输入错误/*密码错误,报如下错误*/[root@TESTDB~]#mysql-u...

MobaXterm忘记Session密码,如何查看已保存的密码
MobaXterm忘记Session密码,如何查看已保存的密码

MobaXterm工具登录过SSH终端后,如果存储了Session(存储后再连接ssh的时候只需要输入账号不需要输入密码就可以直接连接上ssh),则可以...

2023-10-11 17:12 xiyangw

华为交换机密码丢失修改方法
华为交换机密码丢失修改方法

华为S2300交换机找回密码设置一、目的交换机的console和telnet密码丢失,无法登录设备。交换机已进行过数据配置,要把密码恢复而数据配置不能丢失。二、...

2023-10-11 17:12 xiyangw

取消回复欢迎 发表评论: