V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  keepRun  ›  全部回复第 19 页 / 共 23 页
回复总数  448
1 ... 11  12  13  14  15  16  17  18  19  20 ... 23  
264 天前
回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
@iOCZ 可以解决,我说的省市县你不会以为就不包括街道吧,省市县代指三级地址结构,要想四、五级都可以,而且地址可以缺失。
我指出问题有啥不对?你这说话态度能不能好点
264 天前
回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
@Andrue 单个正则无法处理复杂的地址情况,而且即使写出来也会太复杂;写个匹配算法会更清晰易懂,性能也好
264 天前
回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
@Archeb 没必要用到人工智能,而且人工智能太耗算力了
265 天前
回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
模仿这个代码来写,我以前是把这个代码改成 java 版,然后加入很多我们的业务逻辑,这个代码并不是最完美的: https://github.com/wzc570738205/smartParsePro

我以前做过地址识别这块,当年给拼多多的几十万商家提供了地址解析接口用于快递地址识别(同时识别出姓名、手机号、地址的省市县),以前做过这个接口每天都有上百万调用。
首先,这个功能很坑爹,属于是难以做到完美,只能相对完美,识别也有准确率问题,可能识别错误,因为以下原因:1. 一年内总会有一些地方地名会改变 2. 有些地名有别称 3. 用户填写地址可能会少写省市区中任意几项 4. 用户输入的地址可能有缺漏,比如上海市漏写了市。

我自己做这块是自己模仿上面的 github 代码自己写了一版新的算法,可以实现地址缺漏、地名少字的情况下依然识别。
我给你解释下我的算法原理:
首先一定要建立数据库存储全国所有省市县的名称,以及上级单位,杭州市有个 parent_id 指向浙江省,浙江省的 parent 是全国,必须有个字段记录别名,例如:杭州、杭州市都是同一条记录。
然后针对地址从左到右先匹配省再匹配市再匹配县,匹配过程是从字符串去头 1 个字符、头两个字符,以此类推,在里面 contains 省,然后针对所有匹配出来的省做筛选( github 仓库中的筛选算法), 筛选出匹配的省后要把匹配出省的那个字符串删除,防止极端情况下省名影响到市名的匹配,以此类推继续匹配下级地址。

如果你需要缺省或者缺市的情况下匹配,其实就建立一个 set 作为候选待匹配地址,例如缺省时,匹配市就相当于把全国所有省下面的市都加入这个候选名单。

地址解析是个麻烦活,地址数据必然要不断更新的,如果只是演示或者流量比较小也许可以糊弄下,必然存在地址解析错误的情况,因此一定要针对地址解析错误有相应的处理方式。
270 天前
回复了 cbdyzj 创建的主题 Java Java 21 今日 GA,有虚拟线程(协程)
java11 已经不少公司在用了,别再 java8 了
即使这样的 cpu ,我不用 graalvm 编译也就十几秒
骑行裤一定要,坐久了屁股痛
284 天前
回复了 keepRun 创建的主题 程序员 2023 年,你们读了哪些技术书籍,推荐下
@SimonOne 这是要备战么
285 天前
回复了 keepRun 创建的主题 程序员 2023 年,你们读了哪些技术书籍,推荐下
@q474818917 推荐些技术书籍,大家都是程序员,其它领域的书先放一放
如果你是学生的话,如果是初学,建议先从实践性较强的书籍开始学,先去动手,学计算机一定要多动手。
我认为比较合适的学习一个领域的学习方法是:
前期先看实践性比较强的书籍,适合入门阶段。
后期适合看理论性相对多点的书籍,适合有一定基础后看。
看的过程中,如果某个知识点不懂,就去 CSDN 、掘金、知乎、B 站等搜索相关内容补充知识,然后继续。
与此同时,我建议刷书,针对某个领域,我一般至少挑 3 本书,遇到不懂的可以先跳过或者换本书,这样保证自己对这个领域认识比较全面。

这个学习方法我认为适合学习大部分领域。

读书最关键的是要看懂,如果一本书让你看得一点都看不懂,先得去补齐前置知识。
就像面试一样,你跟面试官解释你以前做了啥时,其实面试官完全不知道你之前在公司的情况,因此面试时无比把面试官当成一无所知的人,用大众容易懂的话来表达。
你想想自己写的文章是给对这个领域一无所知的人看,再审视哪些地方最容易引起疑惑。一般来说举个例子会降低理解难度,另一方面,你可以搜索下自己这个领域的一些博客,看别人是怎么讲解的。
298 天前
回复了 tftk 创建的主题 知乎 知乎早期的那批创作者都去哪里了呢?
社区劣化是个永恒的问题,本质上就是熵增,对抗这种熵增就是不断投入资源去抵抗
@guangming3055 我有种感觉,如果 poe 未来模仿你的功能,你怎么防御? poe 很容易就能模仿出你的功能
你们采用的是一种全新的模式去打造社区,传统的审核模式不一定有效,可能得探索出一条新技术下的对抗社区劣化的手段
@freekindom 是的,我大致了解过从猫扑到如今各大社区平台,社区劣化确实不可避免,这本质是一种信息熵增,因此都会有相应的审核措施来抑制劣化
ACM 会员有啥好处?
一直有个疑问,对于这种永久存储的模式,对于广告、垃圾文本怎么处理?
我认为一旦有这种模式,那么最有利益驱动去存储的就是黑灰产业,这种必然导致广告、诈骗文本一大堆,而普通用户必然不会像这些黑灰产业那么有驱动去发内容,最终将会变成垃圾场
@guangming3055 确实,好产品
@horizon poe 我在用,但是没法一个页面同时展示多个
@taotaosimple 其实记灵感挺好用的,我是其核心用户。
我个人其实记笔记超级多,我用有道云笔记记录自我管理、个人规划、生活相关,用印象笔记收集各类知识,飞书知识库整理商业相关,我的笔记数目好几千条,如果把灵感记录放入有道云笔记、印象笔记会显得特别繁杂,不好找,这时候用 flomo 就很方便。
有道云笔记的问题在于我记录灵感时点进去还得看几秒广告,这没法忍,印象笔记的问题在于主界面是为了展示笔记,而不是灵感,这时 flomo 这种简洁的产品对我来说很有吸引力,而且 flomo 网页端打开特别方便,印象笔记、有道云笔记网页端加载时间太长了,notion 问题在于打开有点慢。
1 ... 11  12  13  14  15  16  17  18  19  20 ... 23  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2526 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 12:27 · PVG 20:27 · LAX 05:27 · JFK 08:27
Developed with CodeLauncher
♥ Do have faith in what you're doing.