我现在的做法,用 jsoup 去标签,然后在得到的字符串里面找地址
可是!!! 地址没什么规律啊
有的在一个标签里,有的在多个标签里,还有的中间有逗号
无语。。。。。
所以大佬们有什么建议能帮帮我这只小菜鸡么
示例: 湖北省武汉市武昌区东湖西路特 2 号平安财富中心(东湖大厦正对面) B 座 7 楼 桂林市公共资源交易中心 4 号 柳州市柳江新城区,北接柳江大道(原堡隆路),南至南一路(原广场北路) 江苏省淮安市高教园区科技路 山东省淄博市张店区北西五路 68
1
Aoang 2018-09-29 16:07:16 +08:00 via Android
xx 省 xx 市
|
3
lhx2008 2018-09-29 16:24:43 +08:00 via Android
找地址提取的轮子
|
4
lithium4010 2018-09-29 16:28:01 +08:00
具体什么网页?
|
5
mhycy 2018-09-29 16:46:34 +08:00
关键字分割后重组
|
6
lyusantu 2018-09-29 16:56:17 +08:00
人为开发的都是有一定的规则的
|
8
Yohann97 OP |
9
Yohann97 OP @mhycy 嗯嗯,想过,但是关键字不好确定,可以看下我放的那两个网址。而且比如“地址”的话是很常见的关键字,后面跟的不一定是地址,比如“单位地址:_____________________________”,这样的
|
12
zhuangjia 2018-09-29 17:56:04 +08:00
没有头绪。。。
|
13
EvilCult 2018-09-29 18:04:34 +08:00
我觉得这事儿需要 py 大佬的人工智能.........
|
14
cccssss 2018-09-29 18:06:01 +08:00
你找找发快递时候,app 里粘贴一段文本就能识别地址的轮子
|
15
kokutou 2018-09-29 18:07:37 +08:00 via Android
看看顺丰和圆通的微信小程序?
地址自动识别,但是提供对话框让用户查错修改。 |
16
ClutchBear 2018-09-29 18:17:18 +08:00
![]( https://ww1.sinaimg.cn/large/005YhI8igy1fvqkuamd34j313k0fggp5)
用 foolnltk 大该能处理成这样的. |
17
ClutchBear 2018-09-29 18:20:37 +08:00
|
18
ClutchBear 2018-09-29 18:21:39 +08:00
foolnltk 基本上能满足,
不满足就需要手动调整了. |
19
ClutchBear 2018-09-29 18:24:18 +08:00
代码
``` import fool text = """七、采购人联系方式 采购单位:湖北省梁子湖管理局 地 址:鄂州市梁子湖区梁子镇广场大道 1 号 联 系 人:袁主任 电 话:0711-2473006 八、代理机构联系方式 单 位:武汉渤正项目管理有限公司 地 址:武汉市中北路楚河汉街同成富苑 A 座 2706 邮 编:430077 联 系 人:刘工 电 话:027-86615324""" words, ners = fool.analysis(text) print(ners) ``` <script src="https://gist.github.com/playbear/c89115a6905d9f346ffeb70c5543fc62.js"></script> |
20
ClutchBear 2018-09-29 18:24:37 +08:00
结果
[[(16, 34, 'location', '湖北省梁子湖管理局\n\n 地 址'), (34, 55, 'location', '鄂州市梁子湖区梁子镇广场大道 1 号\n\n'), (60, 64, 'person', '袁主任'), (63, 67, 'person', '\n\n 电'), (66, 70, 'person', ' '), (105, 118, 'company', '武汉渤正项目管理有限公司'), (126, 147, 'location', '武汉市中北路楚河汉街同成富苑 A 座 2706'), (169, 173, 'person', '刘工\n')]] |
21
arerec 2018-09-29 18:29:28 +08:00
用一些自然语言处理的 命名实体识别的轮子,提取地址类的实体
|
22
ClutchBear 2018-09-29 18:30:16 +08:00
|
23
ClutchBear 2018-09-29 18:32:56 +08:00 2
贴图再试试 |
25
ccnccy 2018-09-30 00:04:53 +08:00 via iPhone
看你两个网址爬
址: 后面的信息不就行了 |