conhost 最近的时间轴更新
conhost

conhost

V2EX 第 535847 号会员,加入于 2021-03-03 22:29:48 +08:00
今日活跃度排名 2164
根据 conhost 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
conhost 最近回复了
8 天前
回复了 Taomanman 创建的主题 Surge 寻求有偿代写 surge 规则
楼上这些说这个说那个的,就是没有一个人说怎么写。
最简单的就是在 Proxy Group 定义 policy-path ,几个机场就你定义几个,然后在 Proxy 里面还可以加你自己搭建的节点,这样就可以只更新节点,不动其他配置
policy1 = select, policy-path=url, update-interval=0, tolerance=10
auto = url-test, policy1
不知道,我没车
20 天前
回复了 kerrspace 创建的主题 程序员 深度学习显卡选择(RTX A6000 和 RTX 3090)
@kerrspace 这个看你的需求了。如果要搞目前的大模型的话,当然首推更大内存的。但是虽然 3090 的计算速度不如 a6000 ,但是 a6000 也到不了 3090 的两倍,如果 24G 内存够的话,想要更快的话,还是推荐 3090 。此外,两张卡的话,你还可以一张用来调试,一张用来实验。colab 的话,就不用考虑了,pro 都只能分到 p100 ,pro+也只能分配到原来免费的 v100 。
60 天前
回复了 zxCoder 创建的主题 分享发现 感觉科研水论文就像鬼畜视频创作一样
恭喜你发现了科研界的流量密码
春困秋乏夏打盹,睡不醒的冬三月
@Richard14 改变的-1 维度是因为 lstm 是针对词进行处理的。至于三维向量的理解,你可以理解为第一位是是有多少条句子,然后每一条句子中有 20 个词,每个词的维度是 8 。
@conhost 如果你不理解长度的话,你可以使用 nn.LSTMCell(8,64),然后自己定义循环生成,结果也是一样的。
@Richard14 我不太理解的是你为什么会将 2 ,3 两个维度互换呢,20 是序列长度,也就是说一个序列单元要走 20 步到达结尾,如果你设置的 bacth_first=False 的话,你需要将 1 ,2 两个维度互换。总得来说,LSTM 是对每一个词进行处理。nn.LSTM(20,64)的意思是输入到 LSTM 的维度是 20 ,LSTM 的输出维度为 64 ,这里你设置应该是不对的。要么你把[32, 20, 8]经过一个线形变换,转换成[32, 20, 20],要么你设置 nn.LSTM(8 ,64)。
@Richard14 总体来说循环网络的结构确实比较抽象,在实际理解的时候内部递归结构需要展开来看,不能将其单单就理解为一个层。包括训练时候的梯度回传,也要按照 rnn 的时间步进行展开回传的。而 cnn 由于其参数共享的原因,各个窗口之间是完全并行的,因此你理解一个窗口的操作,就可以直接扩展到其他窗口。
具体需要看你做什么了,lstm 后面加一个 dense 已经是一个完整的网络结构了。其递归的结构可以提取到全部的输入信息。在文本方面的话,cnn 确实需要堆叠多层,这是因为 cnn 是提取的局部信息,想要获取到全部信息,只能通过堆叠间接扩大卷积核的大小,从而能覆盖到全部输入。
关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   885 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 20:35 · PVG 04:35 · LAX 13:35 · JFK 16:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.