示例:PDF 聊天机器人📚#

描述

这个例子展示了如何使用本地 LLM 和 embedding 模型构建PDF聊天机器人。

涉及技术

@ Xinference 作为LLM模型托管服务

@ LlamaIndex 用于编排整个RAG管道

@ Streamlit 用于交互式用户界面

关于演示功能的详细说明

  • 制作了一个Dockerfile,通过 docker 简化了部署流程并确保易于复现。

  • 使用 Xinference 拉起 LLM 和 embedding 模型,并暴露两个端口以访问它们。

  • 利用 Streamlit 实现无缝文件上传和与聊天引擎的交互通信。

  • 文档 embedding 速度比 OpenAI 的 API快5倍。

  • 利用 GGML 的强大功能将模型置于GPU上运行,确保加速、减少等待返回的时间。

源代码