Dify LLM 视觉参数问题请教

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

Dify 的 LLM 节点中视觉参数只能选择开始的文件吗。如果是 PDF 格式的，如何进行视觉识别呢，我测试直接传入文件没法获取正常结果。如果是每页 PDF 转成图片。那 LLM 如何进行选择转图片后的参数，我试了直接在提示词里面输入图片转的 base64 也不行

3 条回复 • 2025-08-25 23:24:07 +08:00

mrbananaeros

15 天前

不是，开始节点中的参数也是可以的。
PDF 目前不支持 OCR ，所以纯图片的 PDF 会读出来是空的。可以用别的插件，minerU 试试

Sh1xin

13 天前

@mrbananaeros 感谢，另外还有个问题想请教下：如果开始节点上传的图片需要处理后再调用大模型识别。那如何做呢。我测试代码节点生成的类型好像都没法在 LLM 的视觉中获取

mrbananaeros

12 天前

@Sh1xin 因为代码节点生成的格式不是 File 格式的，我建议你写一个插件去处理图片，因为插件是可以返回 File 类型的。