首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
chenlide
›
全部回复第 1 页 / 共 1 页
回复总数
2
2023-10-03 20:21:06 +08:00
回复了
Trinityuan
创建的主题
›
OpenAI
›
请问 docsGPT 这类文档帮助阅读类应用是如何实现全文准确总结的?
gpt 的 prompt 肯定是不可能一次接收几十万字的。
他们把你说的几十万字篇文档分成了很多段,比如 1000 字一段。再把每一段经过 text2vec 文本嵌入算法把每一段转化为一个段落小向量(相当于把一段压缩成了向量来存储)。有个很新的东西叫向量数据库,就是存这些向量的。数据库是有查找功能的。
当用户提问时把用户的问题转化为小向量,把用户文本向量拿去和向量数据库的向量计算距离,做相似度匹配,找到距离最近的 K 个向量。取出 K 个向量对应的原文。
把 K 个向量的原文和用户的原问题组成一个 prompt 发给 gpt (字数相比直接接收几十万字少了很多),gpt 再回复
推荐搜一下 langchain
https://www.youtube.com/watch?v=Yv1HmTGU-So&t=603s
2023-06-16 19:55:14 +08:00
回复了
insanny
创建的主题
›
OpenAI
›
访问 chatGpt3.5 提示 ChatGPT is at capacity right now
就是人太多了,早上用还好。这 3.5 到处都是,不必官网,上 poe 也行
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
3567 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms ·
UTC 04:40
·
PVG 12:40
·
LAX 20:40
·
JFK 23:40
Developed with
CodeLauncher
♥ Do have faith in what you're doing.