AI开发平台AI应用API接口

Reader

从网页中提取有价值的信息,并将其转换成适合语言模型处理的格式

标签:
其他站点:项目仓库

Jina的网页内容获取工具Reader能够运用视觉语言模型(VLM)为网页上的每一张图片生成描述,并自动为这些图片创建alt标签。这样,当RAG进行内容检索时,就能够同时检索到图片信息。

Reader API的功能

  1. 核心内容提取:Reader API能够从提供的URL中提取核心内容,过滤掉不必要的元素,如HTML标签和脚本代码,从而得到干净、易于处理的文本。
  2. LLM友好的输入:通过转换提取的内容为LLM友好的文本格式,Reader API确保了输入数据的质量,这对于训练和使用语言模型来说是非常重要的。
  3. 免费使用:Reader API提供了一个简单的前缀https://r.jina.ai,用户可以通过这个前缀将任何URL转换成LLM友好的输入格式,并且这个服务是免费的。

如何使用Reader API

  • 获取源代码:用户可以直接点击网页上的按钮来获取页面的源代码。
  • 获取内容:同样,用户可以点击另一个按钮通过Reader API获取URL的内容。
  • 结合问题生成答案:用户可以输入一个问题,并结合通过Reader API获取的内容,让语言模型(LLM)生成答案。

相关导航

暂无评论

暂无评论...