V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  zyx199199  ›  全部回复第 2 页 / 共 2 页
回复总数  37
1  2  
我上份工作是做商业化的简历自动解析的。我们当时使用的是 MongoDB 数据库存储,主要是考虑到解析的字段经常增加修改

但是我们的存储除本身没有太考虑复杂查询的优化

当时的存储格式大体是

[
{'学校': '北京大学(珠海分校)', // 简历中的原始名称
'标准校名': ''北京大学', // 在解析学校的同时,判断学校的标准名称
'起始时间': '2009.9',
'结束时间': '2013.9',
'专业': '气象学'},
]

数组中的一个 字典( dict )就是一段经历,在存储到数据库前按照时间排序,第一个字典对应第一段经历,以此类推

如果需要实现复杂的高效查询,可以先试试这样存储后的查询效率。如果效率太低,可以考虑在 MongoDB 存储基础数据之外再增加一个 Neo4j 的图数据库,用于存储数据之间的关系

如果不是做实时的复杂查询,而是已经确定好了要查询的内容,至少几十万条数据的情况下,应该还是不太需要 Neo4j 的。分步做好预处理,然后将预处理好的数据用 pandas 加载,一个正常的笔记本就能做到比较快的各种统计查询了
2022-01-05 19:39:49 +08:00
回复了 zzq825924 创建的主题 创业组队 [上海] 拉一个创业者交流群
微信:zyx199199
2021-12-02 14:32:22 +08:00
回复了 HK560 创建的主题 分享发现 快圣诞节了,大家有什么小众好玩的礼物推荐
没有同居的话,可以考虑下智能门铃,女生独住的安全性可以提高一点
2021-09-19 20:23:25 +08:00
回复了 shmichaelli 创建的主题 上海 上海的程序员交流群(技术、求职、生活)
zyx199199
2021-08-02 13:55:30 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
@Braisdom 可以用 spacy,外国的全能 NLP 工具,支持中文

可以参考这个 https://spacy.io/usage/rule-based-matching 文档,可以根据各种条件进行正则匹配,当然也支持词性匹配
2021-07-29 12:50:08 +08:00
回复了 x97bgt 创建的主题 English 有啥能提高表达的英语书推荐的吗?
有点不好意思的推荐我自己做的一个小网站 http://www.wakongkong.com

给定英文名言警句的中文翻译,以及英文原文句子,挖掉原文中两个单词,自己试着把单词补上

主动练习,提高表达能力
2021-07-21 16:24:13 +08:00
回复了 zyx199199 创建的主题 分享创造 摸鱼顺便玩一玩英语名言短句
@tuoov

多谢鼓励。

不过我自己电脑和手机加载速度都还行哦,无论是在家中,还是在公司,最多两三秒就打开了

脑阔疼……
2021-07-21 12:52:20 +08:00
回复了 zyx199199 创建的主题 分享创造 摸鱼顺便玩一玩英语名言短句
@Tumblr

同学,别放弃呀…… 中文真的不是机翻的,我人工看过了所有的译文,还对其中一些做了修改,没有机翻,真的没有机翻!!!

一直在 loading 的话,方不方便打开开发者工具看看是不是报错了?可能是网络问题,也可能是我写了 bug

我的前后端水平都很一般,边学边写的代码
2021-07-21 11:36:54 +08:00
回复了 zyx199199 创建的主题 分享创造 摸鱼顺便玩一玩英语名言短句
@phplin 翻译大部分搜集自网络,其中一部分明显有问题的翻译我手动修改了。
至于没有快感……只能说不同的人有不同的喜好吧……
无论如何,你愿意试一试,就很感谢啦~~~
2021-06-19 10:26:36 +08:00
回复了 chengshilieren 创建的主题 翻译 中译英,这句话的翻译有点奇怪
这句翻译实际上是英文中本就有的谚语。

所以实际上就是从英文中找了个类似含义的谚语,作为译文而已。

这是翻译俗语习语时常用的方法
2021-04-12 11:48:10 +08:00
回复了 andersonGzy 创建的主题 程序员 求一个最大值解法
整数线性规划求解。

8 个装备定为 1-8 号。六种属性分别定为 a,b,c,d,e,f,。然后将他们组合,得到 a1, a2,...,b1, b2,...,f8,一共 48 个变量

每个变量值只能取 0 或 1

例如,用 a1 这个变量表示装备 1 是否选择 “力智” 这个属性。a1=1 表示装备 1 选择力智属性,a1=0 表示装备 1 不选择力智属性。

最终求解的就是 ( a1*0.169 + a2*0.085+...+...+a8*0 + 1 )*...*( f1*0.186+...+f8*0+1 ) 的最大值。不过要满足一行最多只能选一个属性的条件,即

a1+b1+c1+...+g1 <=1
a2+b2+c2+...+g2 <= 1
...
a8+b8+...+g8 <=1


这种规模的数据,excel 就能解
2021-03-24 11:49:52 +08:00
回复了 frmongo 创建的主题 Python pythoner 如何快速入门一个前端开发技能?
推荐 DASH,plotly 出的,原生就提供了很丰富的 html 组件,全部都封装为 Python 对象了。结合网友开发的第三方组件,非常好用

上面有网友提到的了 streamlit,性质上和 Dash 差不多,但是 Dash 出来的时间更久,功能更全更丰富

其实如果不是一定要做成网页的话,PyQt5 做界面 UI 也很强。
2021-02-02 17:23:11 +08:00
回复了 CornerInerme 创建的主题 程序员 咨询一下武汉和上海的薪资问题,本人前端。
楼主要不要考虑下我们公司?小创业公司,不加班,非外包,目前主要做微信小程序。

需求: https://www.lagou.com/jobs/8105819.html
2021-01-16 23:46:16 +08:00
回复了 yixiugegegege 创建的主题 Python 迫于逻辑实在理不清了, Python 求助
···
from itertools import groupby

{k: list(v) for k,v in groupby(data['child'], key=lambda x: x["f_pyfirstletter"])}
```
2021-01-05 16:23:21 +08:00
回复了 yucongo 创建的主题 Python 重提「英文词组」分词问题
这个在自然语言处理里比较类似于 Constituency Parsing 问题,将一个句子分成多个子组成部分,每个子组成部分又可以进一步细分。

但是题主你的需求定义是不明确的,“有意义的词组”这个概念太宽泛了。比方说 A match / is / a tool / for starting / a fire. 我就觉得 A match / is / a tool / for / starting a fire. 更合理。

我觉得可以先做 Constituency Parsing,然后定义一些规则,用于处理解析结果。

例如 Typically, modern matches are made of small wooden sticks or stiff paper. 使用 AllenNLP ( https://demo.allennlp.org/constituency-parsing/MjYyNTUwNQ==) 这个工具做 Constituency Parsing,就可以发现其实已经分好了,只是题主还需要定义规则,决定 Constituency Parsing 的结果细分到哪一层
@akin 不好意思,需要到公司上班哦
可以看一下《流利的 Python 》这本书。书里对协程的用法举了好几个不同的例子。

简单的例子有不断计算平均数( running average ):定义一个函数,不断调用这个函数,传入新的数字作为参数,输出当前传入的参数与之前所有传入过的参数的平均数。

复杂的例子有使用协程做离散事件的模拟:模拟了 N 辆出租车一天中的各种事件,出车、空跑、载客、下班等等事件。
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1750 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 00:35 · PVG 08:35 · LAX 17:35 · JFK 20:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.