Xs0ul 最近的时间轴更新
Xs0ul

Xs0ul

V2EX 第 57957 号会员,加入于 2014-03-12 00:00:14 +08:00
今日活跃度排名 1871
根据 Xs0ul 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
Xs0ul 最近回复了
22 小时 35 分钟前
回复了 Richard14 创建的主题 问与答 Bert 神经网络结构中是否使用了多头自注意力机制?
可能没说清楚,你可以先看一眼可选的 config: https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertConfig
里面有两个参数分别是 num_hidden_layers 和 num_attention_heads ,而它们的默认值刚好都是 12.

你说打印出来看起来像是线性的 12 层,这是个 num_hidden_layers: https://github.com/huggingface/transformers/blob/main/src/transformers/models/bert/modeling_bert.py#L577, 可以从源代码看出来确实是线性进行的。

而 multihead 的并行,是我上面发的那个,包括往下几行的 forward 。这个在打印的结构里是没有体现的
2 天前
回复了 jasondennis12139 创建的主题 宽带症候群 请教留学在外如何回国冲浪?
弹幕很多人都提到了,再提两个不大不小的问题
1. YouTube 更新剧往往要慢一点,这样会导致没法和朋友讨论,也容易被剧透。
2. YouTube 对版权音乐的审核很严格,会出现国内综艺在 YouTube 上没背景音乐版权的情况,这段时间就只能消音。这个对一些音乐和选秀节目观看感受影响挺大的
8 天前
回复了 hertzry 创建的主题 职场话题 深度学习的老哥能不能帮忙看一下简历
1. 建议项目里(比如第三个)不要把所有你试过的方法一股脑全摆上去,这样会给人一种理解不深,只是把所有能用的方法试了一遍的感觉。
2. 另外介绍模型的时候,很少直接写 CNN ,因为 CNN 的模型太多了,得写的更具体一点
3. 技能清单里的 GNN ,不知道是不是指 graph 的。这个其实相对 CNN 或者 sequential 的模型,是用的比较少的,应该是个亮点。建议多介绍下什么为什么用 GNN ,效果如何
8 天前
回复了 kkkiio 创建的主题 Jira JIRA 是伪需求吗?
IM 当入口确实有,slack 就有 jira 的插件
8 天前
回复了 kkkiio 创建的主题 Jira JIRA 是伪需求吗?
1. 协同文档还有 confluence ,和 jira 一样是 Atlassian 的
2. 用 IM 很难说,但想象了一下要查过去某个 ticket 会很麻烦
37 天前
回复了 taofoo 创建的主题 字体排印 有 word 大神吗
因为你设置了 3 倍行距?
38 天前
回复了 13936 创建的主题 分享发现 救命,千万别用百度翻译
"Can you flowing my requirement?" 这句话本身就挺怪的,不知道是不是打错了。更常见的应该是 fulfill 或者 follow
有一点,跨国比较的时候,不少国家是有房产税的
关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1225 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 19:13 · PVG 03:13 · LAX 12:13 · JFK 15:13
Developed with CodeLauncher
♥ Do have faith in what you're doing.