RAG – 一粒云

RAG搜索不准确，4个优化来解决

2025 年 3 月 1 日由admin发布在AI智能、RAG在上留下评论

很多人发现自己建立的AI知识库非常不准确，那么用一下几个方法，优化优化看看效果吧！

1. 混合检索策略（稀疏 + 稠密检索）

功能选型：

稀疏检索：选用 BM25 算法，如 Elasticsearch 内置的 BM25（成熟、易用、对词频敏感）。
稠密检索：选用基于预训练嵌入模型的检索，如使用 Hugging Face 的 “all-MiniLM-L6-v2” 模型，通过 Faiss 或 Pinecone 进行向量化检索。

实现方式：

数据预处理：对文档进行文本清洗和合理切分（如滑动窗口或递归分块），确保关键信息完整保留。
独立检索模块：
- 使用 Elasticsearch 实现 BM25 检索。
- 使用 Faiss（或 Pinecone 等向量数据库）对文档进行向量化，并实现稠密检索。
混合策略：将两种检索得到的候选结果按权重组合，例如： 综合得分 = α * BM25 得分 + (1 – α) * 嵌入相似度得分
通过调整 α 来平衡两者，确保召回结果既能捕捉到关键词匹配，也能理解语义相似性。

参考实现示例（Python + Elasticsearch + Faiss）：

# BM25 检索（Elasticsearch 示例）
from elasticsearch import Elasticsearch
es = Elasticsearch("http://localhost:9200")
bm25_results = es.search(index="docs", body={"query": {"match": {"content": query}}})

# 稠密检索（Faiss 示例）
import faiss
import numpy as np
# 假设 embeddings_matrix 是所有文档的向量表示，query_vec 是查询向量
index = faiss.IndexFlatL2(embedding_dim)
index.add(embeddings_matrix)
_, dense_indices = index.search(np.array([query_vec]), k=10)

# 结合两种得分（示例伪代码）
combined_results = []
for doc in candidate_docs:
    score = alpha * doc.bm25_score + (1 - alpha) * doc.dense_score
    combined_results.append((doc, score))
combined_results.sort(key=lambda x: x[1], reverse=True)

2. 重排序模块（多阶段检索）

功能选型：

候选文档精排：采用交叉编码器（Cross-Encoder）模型，如 “cross-encoder/ms-marco-MiniLM-L-6-v2”，可以更好地捕捉 query 与候选文档之间的交互信息。

实现方式：

第一阶段：使用混合检索策略快速召回一批候选文档（例如 top 100）。
第二阶段：将 query 与每个候选文档拼接，输入交叉编码器模型，获得精确的相关性得分，然后重新排序，选择最优的 top K（例如 top 5）供生成模型使用。

参考实现示例（基于 Hugging Face Transformers）：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("cross-encoder/ms-marco-MiniLM-L-6-v2")
model = AutoModelForSequenceClassification.from_pretrained("cross-encoder/ms-marco-MiniLM-L-6-v2")

def rerank(query, candidates):
    scores = []
    for doc in candidates:
        inputs = tokenizer.encode_plus(query, doc, return_tensors="pt", truncation=True)
        outputs = model(**inputs)
        score = outputs.logits.item()  # 得到相关性分数
        scores.append(score)
    # 按得分排序
    ranked_docs = [doc for _, doc in sorted(zip(scores, candidates), reverse=True)]
    return ranked_docs

# 调用示例
final_results = rerank(query, candidate_docs)

3. 查询重写与上下文压缩

功能选型：

查询重写：利用大语言模型（例如 GPT-3.5 / GPT-4 或开源模型如 ChatGLM）将用户原始查询改写为更明确、更细化的版本，从而提高检索器的召回率。
上下文压缩：使用 LLM 或专门的摘要模型（如 T5、PEGASUS）对召回的文档进行压缩，只保留与查询最相关的部分，减少无关信息干扰生成过程。

实现方式：

查询重写模块：构建一个函数，将原始查询发送给 LLM API，返回改写后的查询文本。
上下文压缩模块：对每个候选文档，调用摘要模型生成“精炼版”上下文，然后再将这些压缩后的内容传给生成模块。

参考实现示例：

def rewrite_query(query):
    # 调用 LLM API，例如 OpenAI 的 GPT-3.5
    rewritten = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "system", "content": "请将查询重写为更明确的版本。"},
                  {"role": "user", "content": query}]
    )
    return rewritten.choices[0].message["content"]

def compress_context(doc_content, query):
    # 调用 LLM API 对文档内容进行压缩（摘要）
    compressed = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "system", "content": "请根据查询提取文档中最相关的部分。"},
                  {"role": "user", "content": f"查询：{query}\n文档内容：{doc_content}"}]
    )
    return compressed.choices[0].message["content"]

# 使用示例
enhanced_query = rewrite_query(original_query)
# 进行检索后对每个文档进行上下文压缩
compressed_docs = [compress_context(doc.content, enhanced_query) for doc in retrieved_docs]

4. 用户反馈与持续优化

功能选型：

在线反馈机制：集成反馈按钮或评分系统，让用户标注回答的准确性。
持续优化：定期使用收集的反馈数据进行模型微调（可以采用自监督或知识蒸馏方法），进一步提高嵌入模型与检索器的表现。

实现方式：

在系统前端为每个回答添加“反馈”按钮，记录用户评分和意见；
后台记录反馈日志，构建反馈数据集；
利用反馈数据（正反馈和负反馈样本）进行再训练或使用增量学习策略来调整检索模块（例如对负样本进行hard negative mining）或微调交叉编码器的排序能力。

参考实现思路：

# 前端（示例伪代码）
if user_clicks_feedback:
    feedback_log.append({
        "query": current_query,
        "retrieved_doc": doc_id,
        "user_rating": rating_value
    })

# 后端：定期导出 feedback_log 并构建微调数据集，
# 利用 PyTorch 或 TensorFlow 进行模型再训练。

总结

通过以上功能模块的选型与实现，可以构建一个具有以下能力的优化系统：

混合检索 能同时利用 BM25 和嵌入模型的优势；
重排序模块 通过交叉编码器精细调整候选文档顺序；
查询重写与上下文压缩 优化检索输入和结果内容；
用户反馈 帮助不断迭代和优化模型效果。

使用一粒云RAG，更好用更精准的RAG系统

RAG与传统搜索的本质区别

2025 年 1 月 21 日2025 年 1 月 21 日由admin发布在AI智能、RAG、数据增强在上留下评论

RAG（Retrieval-Augmented Generation）搜索 的本质区别在于，它结合了 信息检索（retrieval） 和 生成（generation） 的能力，而传统的搜索方法通常只依赖于信息检索部分，主要进行匹配和排序。RAG 模型通过集成生成模型来提升搜索结果的丰富性和上下文适应能力，提供更为自然和智能的回答或结果。

1. 传统搜索（例如 Elasticsearch）

在传统的搜索系统中，信息检索的过程通常是通过 匹配查询词 和存储的文档（或向量）来找到最相关的结果。这类系统的核心特性是：

基于关键词匹配：通过布尔查询、分词、匹配等技术来查找最匹配的文档。
信息定位：用户的查询可以直接返回一个或多个精确匹配的文档或数据，这些文档是完全独立的，返回的内容多是片段或整篇文档。

举个例子：

用户搜索“Java编程基础”，ES 系统会返回包含这个关键词的所有文档，用户可以浏览这些文档来获取答案。

2. RAG 搜索（Retrieval-Augmented Generation）

RAG 的本质区别在于它结合了检索和生成这两部分：

检索部分：类似传统搜索系统，首先从文档库或数据库中通过关键词检索到相关信息，确定出最相关的文档或信息片段。
生成部分：在检索结果的基础上，RAG 使用 生成模型（如 GPT、T5 等） 来“生成”或“增强”最终的回答或结果。它不仅仅返回原始的检索结果，还能够 将检索到的信息整合，并生成一个更符合用户需求的输出。

举个例子：

用户搜索“Java编程基础”，传统的搜索系统会返回相关的文档。而 RAG 系统 会检索相关的文档片段，然后利用生成模型生成一个更加定制化的回答，比如直接给出“Java编程基础包括变量、数据类型、控制结构等内容…”等具体信息。

3. 两者的对比

特点	传统搜索	RAG 搜索
基本原理	关键词匹配，基于文档检索	结合检索和生成，通过检索补充生成信息
返回内容	直接返回相关的文档或片段	在检索到的文档或片段基础上生成自然语言回答
结果类型	片段、段落或完整文档	生成的文本、回答、摘要等
准确度	依赖于关键词和文档匹配的精确度	依赖于检索的相关性以及生成模型的理解能力
适用场景	文档查找、信息匹配	复杂问题回答、聊天机器人、知识增强
理解与生成	不具备生成能力，仅提供检索结果	通过生成模型理解检索内容并提供自然语言生成的回答

4. RAG 的工作流程

RAG 搜索通常分为以下几个步骤：

检索：首先，检索系统（如 Elasticsearch）基于用户的查询，从文档库或数据库中提取相关的文档或信息片段。
信息聚合：将检索到的文档或片段作为背景知识输入到生成模型中。
生成：生成模型（如 GPT-3、T5、BART 等）基于背景知识和查询生成一个符合用户需求的答案或内容，可能还会补充上下文信息。
返回结果：将生成的答案返回给用户，通常会更加自然、流畅并且上下文相关。

5. RAG 与传统搜索的本质区别

生成能力：RAG 结合了信息检索和生成模型，不仅提供检索到的信息片段，还能根据这些片段生成完整且自然的答案，而传统搜索系统仅返回检索到的原始文档或片段。
上下文理解：RAG 在生成过程中能够理解检索到的上下文，并整合相关信息来生成更加精准和连贯的回答。传统的搜索系统并不具备这种能力，它仅仅依赖匹配结果。
灵活性与适应性：RAG 能够适应复杂的查询，尤其是那些需要结合多个文档或上下文信息的查询。传统搜索则更多是简单的匹配和查找。

6. RAG 在实际应用中的优势

复杂查询处理：RAG 特别适合处理复杂或开放式问题，例如当用户询问一个多方面的问题时，RAG 能够通过检索多个相关文档，并生成一个综合的答案。
提升生成质量：生成模型可以结合检索到的信息，从而生成更符合用户需求的回答，避免生成模型单纯依赖预训练知识时可能产生的错误或不准确回答。
提高智能问答系统效果：RAG 非常适合于问答系统，尤其是在需要外部知识库或文档库的场景下，生成部分能够通过集成检索结果提供更加智能的解答。

总结

传统搜索：关注 检索匹配，返回最相关的文档或片段。
RAG 搜索：不仅执行检索，还通过 生成模型 结合检索到的信息生成一个智能的、上下文相关的答案，适应更复杂和多样化的查询需求。

构建企业数据安全传输的金盾-一粒云KWS4.5

2024 年 12 月 25 日由admin发布在数据增强、新闻动态、软件更新、隔离网安全在上留下评论

摆渡与中转的需求不断提高

随着信息化程度的不断加深，企业面临的数据交换安全问题日益突出。传统的文件传输方式，无法在确保高效的同时满足企业对数据安全的严格需求。而一粒云科技的KWS隔离网文件安全交换系统，以强大的技术实力与丰富的功能设计，成为数据传输安全领域的标杆。

最近一粒云科技重磅推出的KWS隔离网文件安全交换系统4.5版本，以全新功能与优化升级，助力企业构建更安全、更高效的文件交换网络。

全新功能，强势升级，即是摆渡又能中转

作为全新发布的4.5版本，KWS系统不仅继承了以往的强大功能，还针对实际使用场景进行了多项突破性优化，为企业提供更可靠的文件交换解决方案。

智能内容检测2.0
4.5版本对内容检测模块进行了全面升级，引入更先进的AI算法，可识别更复杂的数据内容，并自动完成安全分级，支持文本、图片及多格式文件的深度扫描。
目标网段智能适配
新版本实现了目标网段自动适配功能，系统能根据文件内容、传输场景及目标区域，动态推荐匹配网段，提升效率同时避免人工错误。
多流程并行审批
为满足复杂审批需求，4.5版本新增了多流程并行审批功能，各部门负责人可同时处理审批任务，缩短审批周期，提升整体流转效率。
操作日志智能分析
新版本新增日志智能分析功能，可自动识别异常行为，快速生成审计报告，为企业提供安全威胁的预警。
隔离交换与文件中转同时支持
系统既可以实现多节点之间的隔离网文件安全交换，还能实现单个节点，上百个区域的实现更灵活、更精准的网络管控。

案例：KWS 4.5版本助力大型制造企业实现安全升级

某大型制造企业拥有数十个分厂与研发中心，单个地区又有10多个网段，合计所有网段超过50个，文件传输需求复杂且安全等级要求极高。对市面上个种产品测试后发现没有能满足要求的，或者成本极度昂贵。

使用KWS 4.5版本后，通过多区域多网段分级功能，加上智能内容检测和目标网段适配功能，该企业将文件分类流转效率提升了十倍以上，传输错误率下降至0.2%。结合多流程审批与动态内外网隔离功能，该企业的跨网段文件交换在保证绝对安全的同时，也实现了极高的效率。

多区域、多网段隔离与交换：
A、B、C、D四个地理区域，各包含多个部门和实验室。
通过核心的KWS隔离网文件安全交换系统实现不同区域之间的文件传输。

系统优势，独一无二

全新算法，效率倍增
4.5版本采用更高效的核心算法，文件传输速度提升20%以上，同时确保传输过程的绝对安全。
智能化操作，简化流程
从智能内容检测到日志分析，自动化程度更高，减少了人工参与，让数据传输既安全又轻松。
动态适配，贴合需求
目标网段的动态适配功能帮助企业更灵活地分配传输资源，最大限度减少出错概率。
前瞻性设计，未来可扩展
4.5版本设计充分考虑企业未来的扩展需求，支持模块化功能升级，保障投资的长远价值。

价值所在：为什么选择KWS 4.5版本？

顶级安全：以4.5版本的新功能，为企业构建牢不可破的数据安全屏障。
更高效率：优化的流程和智能工具，让文件传输更加高效省时。
灵活拓展：模块化设计和动态控制，适配各种企业场景需求。
成本节约：通过智能化、自动化功能减少人工成本，提升投入产出比。

即刻升级，享受前沿技术带来的红利！

一粒云科技的KWS隔离网文件安全交换系统4.5版本，结合多项创新技术与优化设计，帮助企业轻松应对数据安全与高效传输的双重挑战。无论是科研机构、大型制造企业，还是金融、医疗行业，这款系统都将成为您不可或缺的核心助力。

快来联系一粒云科技，抢先体验4.5版本的革命性升级，让您的企业站在数据安全与高效管理的最前沿！

Python 语言检测

2024 年 12 月 17 日由admin发布在RAG、数据增强在上留下评论

Python 中有多种优秀的语言识别工具，以下是一些常用的工具和库：

1. langdetect

• 简介: langdetect 是一个非常流行的语言检测库，基于 Google 的 language-detection 项目。它可以检测多种语言，并且对于短文本也有不错的识别效果。

• 安装:

pip install langdetect

• 使用示例:

from langdetect import detect

text = “Bonjour tout le monde”

language = detect(text)

print(language) # 输出: ‘fr’ (法语)

2. langid

• 简介: langid 是另一个非常强大的语言识别库，支持97种语言。它的特点是完全自包含且无需外部依赖。

• 安装:

pip install langid

• 使用示例:

import langid

text = “Hola, ¿cómo estás?”

language, _ = langid.classify(text)

print(language) # 输出: ‘es’ (西班牙语)

3. polyglot

• 简介: polyglot 是一个支持多语言处理的库，它不仅提供语言识别功能，还支持情感分析、实体识别等多种自然语言处理任务。

• 安装:

pip install polyglot

• 使用示例:

from polyglot.detect import Detector

text = “Ceci est un exemple de texte en français”

detector = Detector(text)

language = detector.language.code

print(language) # 输出: ‘fr’ (法语)

4. TextBlob

• 简介: TextBlob 是一个简洁易用的自然语言处理工具包，虽然它主要用于情感分析、词性标注等任务，但也支持语言识别。

• 安装:

pip install textblob

• 使用示例:

from textblob import TextBlob

text = “Hello, how are you?”

blob = TextBlob(text)

print(blob.detect_language()) # 输出: ‘en’ (英语)

5. FastText (by Facebook)

• 简介: FastText 是一个由 Facebook 提供的开源库，除了高效的词向量表示外，它也能很好地进行语言识别。它支持多达170多种语言。

• 安装:

pip install fasttext

• 使用示例:

import fasttext

model = fasttext.load_model(‘lid.176.bin’) # 下载预训练模型

text = “Ceci est un texte en français”

prediction = model.predict(text)

print(prediction) # 输出: (‘__label__fr’,)

6. cld3 (Compact Language Detector v3)

• 简介: cld3 是一个高效的语言检测库，基于 Google 的 Compact Language Detector v3。它对短文本和多语言文本都有不错的支持。

• 安装:

pip install cld3

• 使用示例:

import cld3

text = “Hola, ¿cómo estás?”

language = cld3.get_language(text)

print(language) # 输出: Language: es (西班牙语)

总结：

• 如果需要一个简单、易用的工具，langdetect 和 langid 都是不错的选择。

• 如果对处理多语言的文本和需要其他 NLP 功能有需求，可以考虑使用 polyglot 或 TextBlob。

• 如果需要更高精度的检测，尤其是在短文本的情况下，FastText 和 cld3 是更强大的选择。

你可以根据具体需求选择适合的工具！

PDF 内容提取对比Pymupdf4llm 和 pdf-extract-api

2024 年 12 月 9 日由admin发布在AI智能、数据增强在上留下评论

下面是对比 Pymupdf4llm 和 pdf-extract-api 两种工具在多个维度上的分析：

1. 工具介绍

• Pymupdf4llm

是基于 PyMuPDF 的轻量级库，用于解析 PDF 文档并将其输出为适合 LLM 使用的格式。主要侧重文本提取和结构化处理，适合生成上下文良好的段落，便于用于 LLM 的问答场景。

• pdf-extract-api

是一个基于 API 的工具，专注于从 PDF 中提取特定的数据（如表格、元数据、关键段落等）。它通常提供更精细的配置选项，且需要在线服务支持。

2. 优点

Pymupdf4llm

• 开源和轻量化：基于 PyMuPDF，依赖简单，不需要网络请求。

• 灵活性：支持本地化部署和定制，适合对隐私敏感的数据处理。

• LLM优化：文本提取经过优化，更适合直接喂给 LLM 使用。

• 社区支持：有 Python 社区的广泛支持，文档丰富。

pdf-extract-api

• 精确提取：通过 API 提供强大的功能，如识别表格、图像提取以及结构化内容分离。

• 便捷性：通常不需要用户过多了解 PDF 内部结构，适合快速实现提取目标。

• 扩展性：可与其他 API 组合实现复杂任务，如 OCR 集成处理扫描 PDF。

3. 缺点

Pymupdf4llm

• 复杂性有限：对非常复杂的 PDF（如多层嵌套、表格、图片）支持不如专业化工具。

• 手动调整需求高：对提取后的数据，需要编写代码进一步清洗和整理。

pdf-extract-api

• 依赖在线服务：需要网络访问，可能对敏感文档不适合。

• 成本问题：通常是收费服务，使用量大时费用可能较高。

• 上手门槛高：需要了解 API 调用的基础，复杂设置可能增加学习成本。

4. 准备度与上手难度

指标 Pymupdf4llm pdf-extract-api

部署与安装 安装简单（pip install pymupdf 等）需要注册 API 服务并配置访问权限

学习曲线 易于上手，Python 开发者友好需要熟悉 API 文档，配置参数稍复杂

定制化能力 高，代码灵活，自由控制输出内容和格式中，定制需依赖 API 提供的接口和选项

速度本地运行，速度快 API 请求受网络和服务端性能影响

环境依赖 本地运行，无需联网需联网使用在线 API 服务

总结与建议

• 选择 Pymupdf4llm：

如果你希望完全掌控 PDF 的提取逻辑、对敏感数据有隐私保护需求，并倾向于本地化轻量部署，Pymupdf4llm 是不错的选择。

• 选择 pdf-extract-api：

如果需要快速处理复杂的 PDF 任务（如表格解析、精确提取特定内容），且不介意使用在线服务和支付一定费用，那么 pdf-extract-api 更加适合。

最终选择取决于项目的复杂性、隐私要求和开发资源。

使用RAGFlow+iText2KG针对文档进行搜索与知识图片生成（一）

2024 年 11 月 25 日由admin发布在AI智能、RAG、数据增强、知识图谱在上留下评论

1、RAGFlow 的使用指南

RAGFlow 是一个基于对文档的深入理解的开源 RAG（检索增强生成）引擎。它为任何规模的企业提供了简化的 RAG 工作流程，结合了 LLM（大型语言模型）以提供真实的问答功能，并以来自各种复杂格式数据的有根据的引文为后盾。

demo链接：RAGFlow

特点：

1、有一定的数据质量保证，能从复杂的非结构化数据中提取基于文档理解的深度知识。

2、内置模板，可以基于模板形成知识库；文档分块可以实现人工干预，提高文档质量；

3、可以兼容异构数据源，支持 Word、幻灯片、excel、txt、图像、扫描副本、结构化数据、网页等。

4、自动化且轻松的 RAG 工作流程

简化的 RAG 编排同时满足了个人和大型企业的需求。
可配置的 LLM 以及嵌入模型。
多重召回与融合的重新排名配对。
直观的 API，可与业务无缝集成。
RAGFlow架构图

部署要求：

CPU >= 4 cores
RAM >= 16 GB
Disk >= 50 GB
Docker >= 24.0.0 & Docker Compose >= v2.26.1

启动服务器

确保 >= 262144：vm.max_map_count要检查的值：vm.max_map_count$ sysctl vm.max_map_count如果不是，则重置为至少 262144 的值。vm.max_map_count

# In this case, we set it to 262144:$ sudo sysctl -w vm.max_map_count=262144此更改将在系统重启后重置。为了确保您的更改保持永久，请相应地在 /etc/sysctl.conf 中添加或更新该值：vm.max_map_count
vm.max_map_count=262144
克隆存储库：$ git clone https://github.com/infiniflow/ragflow.git构建预构建的 Docker 镜像并启动服务器：
以下命令下载 RAGFlow slim （）的开发版本 Docker 映像。请注意，RAGFlow slim Docker 映像不包括嵌入模型或 Python 库，因此大小约为 1GB。dev-slim$ cd ragflow/docker$ docker compose -f docker-compose.yml up -d注意：包含嵌入模型和 Python 库的 RAGFlow Docker 映像的大小约为 9GB，加载时间可能要长得多。
- 要下载特定版本的 RAGFlow slim Docker 镜像，请将 docker/.env 中的变量更新为所需版本。例如。进行此更改后，请重新运行上述命令以启动下载。RAGFlow_IMAGERAGFLOW_IMAGE=infiniflow/ragflow:v0.12.0-slim
- 要下载 RAGFlow Docker 映像的开发版本（包括嵌入模型和 Python 库），请将 docker/.env 中的变量更新为。进行此更改后，请重新运行上述命令以启动下载。RAGFlow_IMAGERAGFLOW_IMAGE=infiniflow/ragflow:dev
- 要下载特定版本的 RAGFlow Docker 映像（包括嵌入模型和 Python 库），请将 docker/.env 中的变量更新为所需的版本。例如。进行此更改后，请重新运行上述命令以启动下载。RAGFlow_IMAGERAGFLOW_IMAGE=infiniflow/ragflow:v0.12.0
在服务器启动并运行后检查服务器状态：$ docker logs -f ragflow-server以下输出确认系统已成功启动：
____ ___ ______ ______ __
/ __ \ / | / ____// ____// /____ _ __
/ /_/ // /| | / / __ / /_ / // __ \| | /| / /
/ _, _// ___ |/ /_/ // __/ / // /_/ /| |/ |/ /
/_/ |_|/_/ |_|\____//_/ /_/ \____/ |__/|__/

* Running on all addresses (0.0.0.0)
* Running on http://127.0.0.1:9380
* Running on http://x.x.x.x:9380 INFO:werkzeug:Press CTRL+C to quit如果您跳过此确认步骤并直接登录 RAGFlow，您的浏览器可能会提示错误，因为此时您的 RAGFlow 可能没有完全初始化。network abnormal

在您的 Web 浏览器中，输入服务器的 IP 地址并登录 RAGFlow。使用默认设置时，您只需输入（sans port number）作为使用默认配置时可以省略默认 HTTP 服务端口。http://IP_OF_YOUR_MACHINE80
在 service_conf.yaml 中，选择所需的 LLM 工厂，并使用相应的 API 密钥更新字段。user_default_llmAPI_KEY有关更多信息，请参阅 llm_api_key_setup。

部署完成后，还需要对RAGFlow进行配置，需要关注以下几点：

.env：保留系统的基本设置，例如SVR_HTTP_PORTMYSQL_PASSWORDMINIO_PASSWORD
service_conf.yaml：配置后端服务。
docker-compose.yml：系统依赖 docker-compose.yml 启动。

您必须确保对 .env 文件的更改与 service_conf.yaml 文件中的更改一致。

./docker/README 文件提供了环境设置和服务配置的详细描述，您需要确保 ./docker/README 文件中列出的所有环境设置都与 service_conf.yaml 文件中的相应配置保持一致。

要更新默认 HTTP 服务端口（80），请转到 docker-compose.yml 并更改为。80:80<YOUR_SERVING_PORT>:80

对上述配置的更新需要重启所有容器才能生效：

$ docker compose -f docker/docker-compose.yml up -d

在不嵌入模型的情况下构建 Docker 镜像

此映像的大小约为 1 GB，依赖于外部 LLM 和嵌入服务。

git clone https://github.com/infiniflow/ragflow.git
cd ragflow/
pip3 install huggingface-hub nltk
python3 download_deps.py
docker build -f Dockerfile.slim -t infiniflow/ragflow:dev-slim .

构建包含嵌入模型的 Docker 镜像

此映像的大小约为 9 GB。由于它包括嵌入模型，因此它仅依赖于外部 LLM 服务。

git clone https://github.com/infiniflow/ragflow.git
cd ragflow/
pip3 install huggingface-hub nltk
python3 download_deps.py
docker build -f Dockerfile -t infiniflow/ragflow:dev .

从源头启动服务进行开发

安装 Poetry，如果已安装，请跳过此步骤：curl -sSL https://install.python-poetry.org | python3 –
克隆源码并安装 Python 依赖项：git clone https://github.com/infiniflow/ragflow.git
cd ragflow/
export POETRY_VIRTUALENVS_CREATE=true POETRY_VIRTUALENVS_IN_PROJECT=true
~/.local/bin/poetry install –sync –no-root # install RAGFlow dependent python modules
使用 Docker Compose 启动依赖服务（MinIO、Elasticsearch、Redis 和 MySQL）：docker compose -f docker/docker-compose-base.yml up -d
添加以下行以将 docker/service_conf.yaml 中指定的所有主机解析为：/etc/hosts127.0.0.1

127.0.0.1 es01 mysql minio redis
在 docker/service_conf.yaml 中，将 mysql 端口更新为，将 es 端口更新为，如 docker/.env 中指定。54551200

如果无法访问 HuggingFace，请将环境变量设置为使用镜像站点：HF_ENDPOINTexport HF_ENDPOINT=https://hf-mirror.com启动 backend service：
source .venv/bin/activate
export PYTHONPATH=$(pwd)bash docker/launch_backend_service.sh
安装前端依赖项：
cd webnpm install –force
将前端配置为在 .umirc.ts 更新为：proxy.targethttp://127.0.0.1:9380

启动前端服务：

npm run dev 以下输出确认系统已成功启动完成。

1、Text2KG 的使用

Text2KG是一个开源项目，能够利用大型语言模型（zero-shot）跨领域从文本中提取实体和关系，自动构建和更新知识图谱，并通过Neo4j进行可视化。

iText2KG由四个主要模块组成：文档提取器、增量实体提取器、增量关系提取器、图形集成器和可视化。它们协同工作，从非结构化文本构建和可视化知识图谱。

文档提取器（Document Distiller）：该模块处理原始文档，并根据用户定义的模式将其重新表述为语义块。它通过关注相关信息并以预定义的格式对其进行结构化来提高信噪比。
增量实体提取器（Incremental Entity Extractor）：此模块从语义块中提取唯一实体并解决歧义以确保每个实体都有明确定义。它使用余弦相似度度量将局部实体与全局实体进行匹配。
增量关系提取器（Incremental Relation Extractor）：此模块识别提取实体之间的关系。它可以以两种模式运行：使用全局实体丰富图形中的潜在信息，或使用局部实体建立更精确的关系。
图形集成器和可视化（Graph Integrator and Visualization）：此模块将提取的实体和关系集成到 Neo4j 数据库中，提供知识图谱的可视化表示。它允许对结构化数据进行交互式探索和分析。

四个模块中，增量实体提取器与增量关系提取器最为关键，采用大模型来实现，LLM提取代表一个唯一概念的实体，以避免语义混合的实体。显示了使用 Langchain JSON 解析器的实体和关系提取prompt。分类如下：蓝色 – 由 Langchain 自动格式化的prompt；常规 – iText2KG设计的prompt；斜体 – 专门为实体和关系提取设计的prompt。（a）关系提取prompt和（b）实体提取prompt。

为了说明知识图谱构建的结果，在三种不同场景下，将基线方法与iText2KG进行了比较：

基线方法在所有三种知识图谱构建场景中都揭示了存在没有关系的孤立节点。这种现象可能归因于实体提取和关系提取的同时执行，这可能会在语言模型中引起幻觉效应，导致“遗忘”效应，即分离实体和关系提取的过程可以提高性能。
在“网站到知识图谱”的场景中，输入文档数量的增加与图中噪声节点的出现有关。这强调了对文档进行有效精炼和蒸馏的模块1的关键需求。
iText2KG方法在三种知识图谱构建场景中展示了改进的实体和关系解析能力。当输入文档较少且由简单、非复杂短语组成时，语言模型在实体和关系解析方面表现出高效率，如“简历到知识图谱”过程中所证明的。相反，随着数据集变得更加复杂和庞大，挑战也随之增加，如“网站到知识图谱”场景所示。此外，重要的是要强调输入文档的分块大小和阈值对知识图谱构建的影响。文档分馏器的输入文档可以是独立的文档或分块。如果分块大小较小，则语义块将从文档中捕获更具体的详细信息，反之亦然

一种由 LLM 驱动的零样本方法，使用大型语言模型构建增量知识图谱（KG）

iText2KG 是一个 Python 包，通过利用大型语言模型从文本文档中提取实体和关系，逐步构建具有已解析实体和关系的一致知识图谱。

它具有零样本能力，无需专门的训练即可跨各个领域提取知识。

它包含四个模块：文档提炼器、增量实体提取器、增量关系提取器和图形集成器与可视化。

文档提取器：此模块将原始文档重新表述为预定义的语义块，并由指导 LLM 提取特定信息的模式引导。
增量实体提取器：此模块识别并解析语义块内的唯一语义实体，确保实体之间的清晰度和区别。
增量关系提取器：此组件处理已解析的实体以检测语义上唯一的关系，解决语义重复的挑战。
Neo4j 图形集成器：最后一个模块以图形格式可视化关系和实体，利用 Neo4j 进行有效表示。

对于我们的 iText2KG 它包含了两大特点

增量构建：iText2KG 允许增量构建 KG，这意味着它可以在新数据可用时不断更新和扩展图，而无需进行大量重新处理。
零样本学习：该框架利用 LLM 的零样本功能，使其无需预定义集或外部本体即可运行。这种灵活性使其能够适应各种 KG 构建场景，而无需进行大量训练或微调。

一、设置模型

在运行 iText2KG 之前，我们先设置好大模型，我这里选择的是 OpenAi 的模型以及 HuggingFace 的 bge-large-zh embedding 模型。这么选择也是考虑到构建 KG 的准确度。

from langchain_openai import ChatOpenAI, OpenAIEmbeddings
import os
os.environ["OPENAI_API_KEY"] = "*****"
openai_api_key = os.environ["OPENAI_API_KEY"]
openai_llm_model = llm = ChatOpenAI(
    model="gpt-4o-mini",
    temperature=0,
    max_tokens=None,
    timeout=None,
    max_retries=2,
)
messages = [
    (
        "system",
        "You are a helpful assistant that translates English to French. Translate the user sentence.",
    ),
    ("human", "I love programming."),
]

ai_msg=openai_llm_model.invoke(messages)

开始部署我们的 Embedding 模型：

from langchain_huggingface.embeddings import HuggingFaceEmbeddings
openai_embeddings_model = HuggingFaceEmbeddings(model_name="BAAI/bge-large-zh-v1.5")
text = "This is a test document."
query_result = openai_embeddings_model.embed_query(text)
query_result[:3]
doc_result = openai_embeddings_model.embed_documents([text])

二、使用 `iText2KG` 构建 `KG`

我们这里的场景是，给出一篇简历，使用知识图谱将在线职位描述与生成的简历联系起来。

设定目标是评估候选人是否适合这份工作。

我们可以为 iText2KG 的每个模块使用不同的 LLM 或嵌入模型。但是，重要的是确保节点和关系嵌入的维度在各个模型之间保持一致。

如果嵌入维度不同，余弦相似度可能难以准确测量向量距离以进行进一步匹配。

我们的简历放到根目录，加载简历：

from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader(f"./CV_Emily_Davis.pdf")
pages = loader.load_and_split()

初始化 DocumentDistiller 引入 llm ：

from itext2kg.documents_distiller import DocumentsDisiller, CV
document_distiller = DocumentsDisiller(llm_model = openai_llm_model)

信息提炼：

IE_query = '''
# DIRECTIVES :
- Act like an experienced information extractor.
- You have a chunk of a CV.
- If you do not find the right information, keep its place empty.
'''
# 使用定义好的查询和输出数据结构提炼文档。
distilled_cv = document_distiller.distill(documents=[page.page_content.replace("{", '[').replace("}", "]") for page in pages], IE_query=IE_query, output_data_structure=CV)

将提炼后的文档格式化为语义部分。

semantic_blocks_cv = [f"{key} - {value}".replace("{", "[").replace("}", "]") for key, value in distilled_cv.items() if value !=[] and value != ""  and value != None]

我们可以自定义输出数据结构，我们这里定义了4种，工作经历模型，岗位，技能，证书。

from pydantic import BaseModel, Field
from typing import List, Optional

class JobResponsibility(BaseModel):
    description: str = Field(..., description="A specific responsibility in the job role")

class JobQualification(BaseModel):
    skill: str = Field(..., description="A required or preferred skill for the job")

class JobCertification(BaseModel):
    certification: str = Field(..., description="Required or preferred certifications for the job")

class JobOffer(BaseModel):
    job_offer_title: str = Field(..., description="The job title")
    company: str = Field(..., description="The name of the company offering the job")
    location: str = Field(..., description="The job location (can specify if remote/hybrid)")
    job_type: str = Field(..., description="Type of job (e.g., full-time, part-time, contract)")
    responsibilities: List[JobResponsibility] = Field(..., description="List of key responsibilities")
    qualifications: List[JobQualification] = Field(..., description="List of required or preferred qualifications")
    certifications: Optional[List[JobCertification]] = Field(None, description="Required or preferred certifications")
    benefits: Optional[List[str]] = Field(None, description="List of job benefits")
    experience_required: str = Field(..., description="Required years of experience")
    salary_range: Optional[str] = Field(None, description="Salary range for the position")
    apply_url: Optional[str] = Field(None, description="URL to apply for the job")

定义一个招聘工作需求的描述：

job_offer = """
About the Job Offer
THE FICTITIOUS COMPANY

FICTITIOUS COMPANY is a high-end French fashion brand known for its graphic and poetic style, driven by the values of authenticity and transparency upheld by its creator Simon Porte Jacquemus.

Your Role

Craft visual stories that captivate, inform, and inspire. Transform concepts and ideas into visual representations. As a member of the studio, in collaboration with the designers and under the direction of the Creative Designer, you should be able to take written or spoken ideas and convert them into designs that resonate. You need to have a deep understanding of the brand image and DNA, being able to find the style and layout suited to each project.

Your Missions

Translate creative direction into high-quality silhouettes using Photoshop
Work on a wide range of projects to visualize and develop graphic designs that meet each brief
Work independently as well as in collaboration with the studio team to meet deadlines, potentially handling five or more projects simultaneously
Develop color schemes and renderings in Photoshop, categorized by themes, subjects, etc.
Your Profile

Bachelor’s degree (Bac+3/5) in Graphic Design or Art
3 years of experience in similar roles within a luxury brand's studio
Proficiency in Adobe Suite, including Illustrator, InDesign, Photoshop
Excellent communication and presentation skills
Strong organizational and time management skills to meet deadlines in a fast-paced environment
Good understanding of the design process
Freelance cont

继续使用上面方法做信息提炼：

IE_query = '''
# DIRECTIVES :
- Act like an experienced information extractor.
- You have a chunk of a job offer description.
- If you do not find the right information, keep its place empty.
'''
distilled_Job_Offer = document_distiller.distill(documents=[job_offer], IE_query=IE_query, output_data_structure=JobOffer)
print(distilled_Job_Offer)
semantic_blocks_job_offer = [f"{key} - {value}".replace("{", "[").replace("}", "]") for key, value in distilled_Job_Offer.items() if value !=[] and value != ""  and value != None]

到这里准备工作完成，简历和工作需求都已经提炼完毕，然后正式开始构建 graph，我们将简历的所有语义块作为一个块传递给了 LLM。

也将工作需求作为另一个语义块传递，也可以在构建图时将语义块分开。

我们需要注意每个块中包含多少信息，然后好将它与其他块连接起来，我们在这里做的就是一次性传递所有语义块。

from itext2kg import iText2KG
itext2kg = iText2KG(llm_model = openai_llm_model, embeddings_model = openai_embeddings_model)

global_ent, global_rel = itext2kg.build_graph(sections=[semantic_blocks_cv], ent_threshold=0.6, rel_threshold=0.6)

global_ent_, global_rel_ = itext2kg.build_graph(sections=[semantic_blocks_job_offer], existing_global_entities = global_ent, existing_global_relationships = global_rel,  ent_threshold=0.6, rel_threshold=0.6)

iText2KG 构建 KG 的过程我们看到有很多参数，下面分贝是对每个参数的表示做一些解释：

llm_model：用于从文本中提取实体和关系的语言模型实例。
embeddings_model：用于创建提取实体的向量表示的嵌入模型实例。
sleep_time (int)：遇到速率限制或错误时等待的时间（以秒为单位）（仅适用于 OpenAI）。默认为 5 秒。

iText2KG 的 build_graph 参数：

sections (List[str])：字符串（语义块）列表，其中每个字符串代表文档的一部分，将从中提取实体和关系。
existing_global_entities (List[dict], optional)：与新提取的实体进行匹配的现有全局实体列表。每个实体都表示为一个字典。
existing_global_relationships (List[dict], optional)：与新提取的关系匹配的现有全局关系列表。每个关系都表示为一个字典。
ent_threshold (float, optional)：实体匹配的阈值，用于合并不同部分的实体。默认值为 0.7。
rel_threshold (float, optional)：关系匹配的阈值，用于合并不同部分的关系。默认值为 0.7。

从图中结果看到我们构建过程中的实体，和关联关系。

最后使用 GraphIntegrator 对构建的知识图谱进行可视化。

使用指定的凭据访问图形数据库 Neo4j，并对生成的图形进行可视化，以提供从文档中提取的关系和实体的视觉表示。

from itext2kg.graph_integration import GraphIntegrator
URI = "bolt://3.216.93.32:7687"
USERNAME = "neo4j"
PASSWORD = "selection-cosal-cubes"
new_graph = {}
new_graph["nodes"] = global_ent_
new_graph["relationships"] = global_rel_
GraphIntegrator(uri=URI, username=USERNAME, password=PASSWORD).visualize_graph(json_graph=new_graph)

打开我们的 Neo4j 图形数据库：

一粒云核心产品功能模块简介

2024 年 11 月 21 日2024 年 11 月 22 日由admin发布在手册教程、软件更新在上留下评论

四个核心产品的功能模块概要描述

以下是一粒云科技的四个核心产品“协同办公网盘”、“文件安全交换审计系统”、“统一RAG文档搜索平台”和“ESS统一存储平台”四个产品核心功能模块的概要描述。

1. 协同办公网盘

核心功能模块及描述：

功能模块	描述
文档管理与权限划分	实现文档的集中化管理，基于用户角色和权限等级进行细粒度的访问控制，支持文档分类、归档和版本管理。
在线预览与分享协同	支持多格式文件的在线预览（如PDF、视频等），快速生成分享链接，支持设置访问权限和有效期限。
多人协同编辑	提供实时多人编辑功能，支持变更记录追溯和版本控制，方便团队协作与文档修改。
多终端文件同步与备份	实现PC端、移动端的实时文件同步与备份，支持断点续传和跨设备访问，保障文件在多设备间的一致性。
日志审计	提供详细的操作日志记录，包括文件的上传、下载、分享和编辑行为，方便管理员审计和追踪异常操作。

2. 文件安全交换审计系统

核心功能模块及描述：

功能模块	描述
多区域网段配置管理	支持不同区域、网段的配置与管理，定义文件交换的区域范围，确保跨网文件交换过程受控。
点对点的跨网文件交换	实现单点间跨网文件安全交换，保障数据传输的可靠性和安全性，适用于小范围点对点的快速文件传输。
区对区的跨网文件交换同步	提供多网段、多个区域间的文件同步与交换能力，支持大规模文件在不同网域之间高效、安全传输。
跨网审批流程图形配置	支持跨网传输的审批流程图形化配置，简化流程定义，方便管理员快速部署和调整审批策略。
敏感内容安全与病毒检测	集成敏感信息检测和病毒扫描模块，确保文件传输的内容合规和安全。
内容AI识别检测	采用AI算法对文件内容进行智能识别和分析，自动检测敏感信息、分类并标记不符合传输规范的内容。
文件安全级别设定与计算	根据文件的敏感程度自动分配安全级别，并提供动态调整机制，确保安全策略与文件的实际属性匹配。
网络边缘安全接入管理盒子	在跨网边缘部署安全接入设备，实现网络隔离的情况下文件安全交换，并防止未经授权的设备访问。

3. 统一RAG文档搜索平台

核心功能模块及描述：

功能模块	描述
多源存储的纳管	实现对多种存储类型（NAS、对象存储、分布式存储等）的统一接管和管理，消除信息孤岛，支持跨源数据搜索。
索引管理	提供高效的索引创建、更新与优化功能，支持分布式搜索，快速定位目标文档。
知识主题管理与问答	基于文档内容创建知识主题，提供主题分类和关联关系，支持智能问答和知识推荐，提升文档利用率。
基于规范规则下的文档内容鉴定	根据预定义的规则对文档内容进行自动化鉴定，识别合规性与敏感信息，分类管理不合规内容。
敏感内容信息的布控与识别处理	通过设置敏感信息的布控规则，实时监控和识别文档中的敏感内容，并对违规文档采取自动处理措施。
RAG统一搜索（数据增强生成式搜索）	提供基于生成式AI的智能搜索能力，结合外部知识库和现有文档，实现上下文增强的内容生成与精准查询。

4. ESS统一存储平台

核心功能模块及描述：

功能模块	描述
统一存储（文件、对象、块、生命周期）	支持文件存储、对象存储和块存储的统一管理，提供自动化的存储生命周期策略，实现数据分级存储与清理。
安全与管理	提供快照、克隆、容灾和高可用（HA）支持，配置故障隔离和精简管理功能，保障存储系统的安全性与可靠性。
访问控制	支持QoS（服务质量控制）、ACL（访问控制列表）权限管理、多副本机制、断点续传和WORM（一次写入多次读取）功能。
性能监控	提供IOPS（每秒输入输出操作数）、纠删码支持、快速数据恢复等性能监控功能，保障存储系统的高效运行。
硬件管理与告警	实现对存储设备（SSD、HDD、磁带等）健康状态的监控与告警，支持硬件异常的实时检测与处理。

价值总结

协同办公网盘：聚焦企业内外部团队协作与文档管理，提升协作效率。
文件安全交换审计系统：解决跨网环境下的文件安全传输，确保内容合规与传输安全。
统一RAG文档搜索平台：通过智能搜索和内容分析提升文档检索效率，推动知识管理优化。
ESS统一存储平台：统一存储与安全管控，满足大规模、高复杂度存储需求，确保高性能和高可用性。

如果贵单位对以上产品有需求，请与我方工作人员联系。

联系工作人员

1. 混合检索策略（稀疏 + 稠密检索）

2. 重排序模块（多阶段检索）

3. 查询重写与上下文压缩

4. 用户反馈与持续优化

总结

1. 传统搜索（例如 Elasticsearch）

举个例子：

2. RAG 搜索（Retrieval-Augmented Generation）

举个例子：

3. 两者的对比

4. RAG 的工作流程

5. RAG 与传统搜索的本质区别

6. RAG 在实际应用中的优势

总结

摆渡与中转的需求不断提高

全新功能，强势升级，即是摆渡又能中转

案例：KWS 4.5版本助力大型制造企业实现安全升级

系统优势，独一无二

价值所在：为什么选择KWS 4.5版本？

即刻升级，享受前沿技术带来的红利！

4、 自动化且轻松的 RAG 工作流程

启动 服务器

在不嵌入模型的情况下构建 Docker 镜像

构建包含嵌入模型的 Docker 镜像

从源头启动服务进行开发

一 、设置模型

二 、使用 iText2KG 构建 KG

四个核心产品的功能模块概要描述

1. 协同办公网盘

2. 文件安全交换审计系统

3. 统一RAG文档搜索平台

4. ESS统一存储平台

价值总结

4、自动化且轻松的 RAG 工作流程

启动服务器

一、设置模型

二、使用 `iText2KG` 构建 `KG`