欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

RAGFlow：基于OCR和文檔解析的下一代 RAG 引擎

Telemart跨境遠程購跨境電商2024-07-08230

在人工智能的浪潮中，檢索增強生成（Retrieval-Augmented Generation，簡稱RAG）技術以其獨特的優(yōu)勢成為了研究和應用的熱點。RAG技術通過結合大型語言模型（LLMs）的強大生成能力和高效的信息檢索系統(tǒng)，為用戶提供了一種全新的交互體驗。然而，隨著技術的深入應用，一系列挑戰(zhàn)也逐漸浮現(xiàn)。

首先，現(xiàn)有的RAG系統(tǒng)在處理海量數(shù)據(jù)時面臨著效率和準確性的雙重壓力。盡管LLMs能夠生成流暢的文本，但在面對復雜、非結構化的數(shù)據(jù)時，它們往往難以準確把握和召回關鍵信息。此外，RAG系統(tǒng)在數(shù)據(jù)管理和理解方面也存在局限，這導致了所謂的“垃圾輸入，垃圾輸出”（GIGOut）問題，即如果輸入數(shù)據(jù)質量不高，那么生成的答案也很難達到預期的準確性。

正是在這種背景下，RAGFlow 應運而生。作為一款端到端的RAG解決方案，RAGFlow 旨在通過深度文檔理解技術，解決現(xiàn)有RAG技術在數(shù)據(jù)處理和生成答案方面的挑戰(zhàn)。它不僅能夠處理多種格式的文檔，還能夠智能地識別文檔中的結構和內(nèi)容，從而確保數(shù)據(jù)的高質量輸入。RAGFlow 的設計哲學是“高質量輸入，高質量輸出”，它通過提供可解釋性和可控性的生成結果，讓用戶能夠信任并依賴于系統(tǒng)提供的答案。

2024年4月1日，RAGFlow宣布正式開源，這一消息在技術界引起了轟動。開源當天，RAGFlow 在 GitHub 上迅速獲得了數(shù)千的關注，不到一周時間，已吸收2900顆星，這不僅體現(xiàn)了社區(qū)對 RAGFlow 的高度認可，也顯示出大家對這一新技術的熱情。

隨著 RAGFlow 的開源，它不僅為技術社區(qū)帶來了新的活力，也為解決RAG技術面臨的困難提供了新的思路和工具。RAGFlow的出現(xiàn)，標志著我們在構建更加智能、高效和可靠的RAG系統(tǒng)的道路上邁出了堅實的一步。

二、RAGFlow 的核心功能

深度文檔理解："Quality in, quality out"，RAGFlow 基于深度文檔理解，能夠從各類復雜格式的非結構化數(shù)據(jù)中提取真知灼見。真正在無限上下文（token）的場景下快速完成大海撈針測試。對于用戶上傳的文檔，它需要自動識別文檔的布局，包括標題、段落、換行等，還包含難度很大的圖片和表格。對于表格來說，不僅僅要識別出文檔中存在表格，還會針對表格的布局做進一步識別，包括內(nèi)部每一個單元格，多行文字是否需要合并成一個單元格等。并且表格的內(nèi)容還會結合表頭信息處理，確保以合適的形式送到數(shù)據(jù)庫，從而完成 RAG 針對這些細節(jié)數(shù)字的“大海撈針”。

可控可解釋的文本切片：RAGFlow 提供多種文本模板，用戶可以根據(jù)需求選擇合適的模板，確保結果的可控性和可解釋性。因此 RAGFlow 在處理文檔時，給了不少的選擇：Q&A，Resume，Paper，Manual，Table，Book，Law，通用... 。當然，這些分類還在不斷繼續(xù)擴展中，處理過程還有待完善。后續(xù)還會抽象出更多共通的東西，使各種定制化的處理更加容易。

降低幻覺：RAGFlow 是一個完整的 RAG 系統(tǒng)，而目前開源的 RAG，大都忽視了 RAG 本身的最大優(yōu)勢之一：可以讓 LLM 以可控的方式回答問題，或者換種說法：有理有據(jù)、消除幻覺。我們都知道，隨著模型能力的不同，LLM 多少都會有概率會出現(xiàn)幻覺，在這種情況下，一款 RAG 產(chǎn)品應該隨時隨地給用戶以參考，讓用戶隨時查看 LLM 是基于哪些原文來生成答案的，這需要同時生成原文的引用鏈接，并允許用戶的鼠標 hover 上去即可調出原文的內(nèi)容，甚至包含圖表。如果還不能確定，再點一下便能定位到原文。RAGFlow 的文本切片過程可視化，支持手動調整，答案提供關鍵引用的快照并支持追根溯源，從而降低幻覺的風險。

兼容各類異構數(shù)據(jù)源：RAGFlow 支持支持豐富的文件類型，包括 Word 文檔、PPT、excel 表格、txt 文件、圖片、PDF、影印件、復印件、結構化數(shù)據(jù), 網(wǎng)頁等。對于無序文本數(shù)據(jù)，RAGFlow 可以自動提取其中的關鍵信息并轉化為結構化表示；而對于結構化數(shù)據(jù)，它則能靈活切入，挖掘內(nèi)在的語義聯(lián)系。最終將這兩種不同來源的數(shù)據(jù)統(tǒng)一進行索引和檢索，為用戶提供一站式的數(shù)據(jù)處理和問答體驗。

自動化 RAG 工作流：RAGFlow 支持全面優(yōu)化的 RAG 工作流可以支持從個人應用乃至超大型企業(yè)的各類生態(tài)系統(tǒng)；大語言模型 LLM 以及向量模型均支持配置，用戶可以根據(jù)實際需求自主選擇。；基于多路召回、融合重排序，能夠權衡上下文語義和關鍵詞匹配兩個維度，實現(xiàn)高效的相關性計算；提供易用的 API，可以輕松集成到各類企業(yè)系統(tǒng)，無論是對個人用戶還是企業(yè)開發(fā)者，都極大方便了二次開發(fā)和系統(tǒng)集成工作。

三、技術架構

3.1、RAGFlow 系統(tǒng)架構

RAGFlow 系統(tǒng)是一個高效、智能的信息處理平臺，它通過一系列精心設計的組件，實現(xiàn)了對復雜查詢的快速響應和精準處理。這個系統(tǒng)的核心組件包括：

文檔解析器：這是 RAGFlow 系統(tǒng)的“大腦”，負責將各種格式的文檔進行解析，從中提取出文本、圖像和表格等關鍵內(nèi)容。無論是PDF、Word文檔還是Excel表格，文檔解析器都能夠準確捕捉信息，為后續(xù)的處理打下基礎。

查詢分析器：這個組件是 RAGFlow 系統(tǒng)的“神經(jīng)系統(tǒng)”，它對用戶的查詢進行深入分析，識別并提取出查詢中的關鍵信息。通過這種分析，系統(tǒng)能夠更準確地理解用戶的需求，為檢索工作提供精確的指導。

檢索：這是 RAGFlow 系統(tǒng)的“搜索引擎”，它使用查詢分析器提供的關鍵信息，從海量文檔中快速檢索出與之相關的信息。檢索組件的強大能力保證了用戶能夠及時獲得所需的數(shù)據(jù)。

重排：這個組件是 RAGFlow 系統(tǒng)的“過濾器”，它對檢索到的信息進行排序和過濾，確保最終呈現(xiàn)給用戶的信息是最相關、最有價值的。通過這種方式，系統(tǒng)能夠去除冗余和不相關的數(shù)據(jù)，提高信息的準確性和可用性。

LLM：作為 RAGFlow 系統(tǒng)的“語言生成器”，LLM（大型語言模型）負責將排序后的信息整合并生成最終的答案或輸出。LLM的強大生成能力不僅能夠確保答案的準確性，還能夠使答案表達得更加自然和流暢。

這些組件共同構成了RAGFlow系統(tǒng)的強大架構，使得它能夠高效地處理用戶的查詢，快速地從文檔中檢索信息，并生成準確、有用的答案。這個系統(tǒng)不僅提高了信息處理的效率，也極大地提升了用戶的使用體驗。

RAG 系統(tǒng)的架構是一個精密而高效的工作流程，它通過一系列精心設計的組件，確保了用戶查詢的準確處理和高質量答案的生成。這個系統(tǒng)的工作流程可以概括為以下幾個步驟：

首先，當用戶輸入一個查詢時，查詢分析器便開始工作。它對用戶的查詢進行深入分析，從中提取出關鍵信息，這些信息是后續(xù)檢索工作的基礎。

接下來，檢索模塊根據(jù)查詢分析器提供的關鍵信息，在大量的文檔資源中尋找與之相關的數(shù)據(jù)。這一步驟是在整個系統(tǒng)中非常關鍵的一環(huán)，因為它直接決定了后續(xù)答案的相關性和準確性。

然后，重排模塊對檢索到的信息進行進一步的排序和過濾。這一步驟確保了最終呈現(xiàn)給用戶的信息是經(jīng)過優(yōu)化的，去除了不相關或冗余的內(nèi)容，使得答案更加精確和有價值。

最后，LLM（大型語言模型）根據(jù)重排模塊提供的信息，生成最終的答案或輸出。LLM的強大生成能力使得答案不僅準確，而且表達流暢自然，就像一個知識豐富的助手在回答用戶的問題一樣。

通過這樣的工作流程，RAG系統(tǒng)架構能夠高效地處理用戶的查詢，從文檔中提取有價值的信息，并生成準確、有用的答案。這種系統(tǒng)不僅提高了信息檢索的效率，也極大地提升了用戶體驗。

3.2、DeepDoc：深度文檔理解的基石

DeepDoc 是 RAGFlow 的核心組件，它利用視覺信息和解析技術，對文檔進行深度理解，提取文本、表格和圖像等信息。DeepDoc 的功能模塊包括：

OCR 技術：支持多種語言和字體，并能夠處理復雜的文檔布局和圖像質量。

布局識別（布局分析識別）技術：RAGFlow 使用 Yolov8 進行 OCR/布局識別/TSR（表格結構識別），識別文檔的布局結構，例如標題、段落、表格、圖像等。

表格結構識別 (TSR)：識別表格的結構，例如行列、表頭、單元格合并等，并將其轉換為自然語言句子。

文檔解析：支持解析 PDF、DOCX、EXCEL 和 PPT 等多種文檔格式，并提取文本塊、表格和圖像等信息。

簡歷解析：將簡歷中的非結構化文本解析為結構化數(shù)據(jù)，例如姓名、聯(lián)系方式、工作經(jīng)歷、教育背景等。

3.3、LLM 和嵌入模型在 RAGFlow 中的作用

在 RAGFlow 中，LLM（Large Language Models，大型語言模型）和嵌入模型（Embedding Models）扮演著至關重要的角色，它們共同協(xié)作以實現(xiàn)高效的信息檢索和生成任務。

LLM是RAGFlow中的核心組件之一，負責理解和生成自然語言。在RAGFlow中，LLM的主要作用包括：

理解用戶查詢： LLM能夠理解用戶的自然語言查詢，并將其轉化為可執(zhí)行的指令或問題。

生成回答：基于用戶查詢和檢索到的信息，LLM能夠生成流暢、連貫且相關性強的回答。

提供可控性： LLM可以根據(jù)用戶的指示生成特定風格或格式的回答，確保生成內(nèi)容的可控性和準確性。

跨語言能力：對于多語言環(huán)境下的RAG任務，LLM需要具備跨語言理解和生成的能力，以便在不同語言之間進行有效的信息檢索和轉換。

嵌入模型在RAGFlow中主要用于將文本數(shù)據(jù)轉換為向量表示，這對于信息檢索和相似性比較至關重要。嵌入模型的主要作用包括：

文本向量化：嵌入模型將文本（如文檔、段落、句子等）轉換為數(shù)值向量，這些向量能夠表示文本的語義信息。

相似性比較：通過計算向量之間的相似度，嵌入模型可以幫助 RAGFlow 快速找到與用戶查詢最相關的信息。

數(shù)據(jù)檢索：嵌入模型使得RAGFlow能夠在大規(guī)模數(shù)據(jù)集中高效地執(zhí)行檢索任務，尤其是在處理非結構化數(shù)據(jù)時，如文檔和圖片。

多模態(tài)能力：對于包含圖表、圖片等非文本元素的文檔，嵌入模型可以輔助提取和理解這些元素的語義信息，增強RAGFlow的多模態(tài)處理能力。

在 RAGFlow 中，LLM 和嵌入模型的結合使用，使得系統(tǒng)不僅能夠理解復雜的自然語言查詢，還能夠在海量數(shù)據(jù)中快速準確地檢索到相關信息，并生成高質量的回答。這種協(xié)同工作機制大大提高了RAGFlow在知識庫問答、企業(yè)數(shù)據(jù)集成和多模態(tài)信息處理等場景下的應用潛力和效率。

3.4、文本分塊過程中的可視化和人工干預

RAGFlow在處理文檔時，特別強調了智能文檔處理的可視化和可解釋性。這意味著用戶不僅可以獲得由系統(tǒng)處理后的結果，還能夠清晰地看到文檔是如何被分塊和解析的。這樣的設計使得用戶可以對AI的處理結果進行核查和必要的干預，確保最終輸出的準確性和可靠性。

在文本分塊過程中，RAGFlow首先會對用戶上傳的文檔進行結構識別，這包括但不限于標題、段落、換行等。對于更為復雜的元素，如圖片和表格，RAGFlow也會進行詳細的布局識別和結構分析。例如，在處理表格時，系統(tǒng)不僅會識別出表格的存在，還會進一步識別表格內(nèi)部的每一個單元格，以及多行文字是否需要合并成一個單元格等。這些信息都會被合理地處理并結合表頭信息，以確保數(shù)據(jù)的正確性和完整性。

RAGFlow的可視化功能允許用戶查看文檔解析的具體結果。用戶可以看到文檔被分割成了多少塊，各種圖表是如何處理的。如果系統(tǒng)識別的結果與用戶的預期有所出入，用戶可以進行適當?shù)母深A。這種干預可能包括調整分塊的方式、合并或分割某些部分，以及修改表格的識別結果等。RAGFlow提供了直觀的用戶界面，使得用戶可以輕松地進行這些操作。

此外，RAGFlow還提供了一種機制，允許用戶通過點擊來定位到原文，對比處理結果和原文的差異。這種對比功能不僅可以幫助用戶確認AI的處理是否準確，還可以讓用戶對處理過程有更多的了解和控制。這種可視化和可解釋性的設計，大大提高了用戶對AI處理結果的信任度，同時也使得RAGFlow成為一個更加強大和靈活的工具。

四、設置和運行 RAGFlow

RAGFlow 是一個基于深度文檔理解的開源 RAG（檢索增強生成）引擎，旨在為企業(yè)提供一個簡化的 RAG 工作流程。以下是設置和運行 RAGFlow 的詳細指南：

4.1、系統(tǒng)要求

在開始安裝 RAGFlow 之前，請確保您的系統(tǒng)滿足以下基本要求：

CPU 核心數(shù)：至少 2 核

內(nèi)存大?。褐辽?8 GB

4.2、安裝 Docker

RAGFlow 需要 Docker 來運行。如果您的本地計算機（Windows、Mac 或 Linux）尚未安裝 Docker，請訪問 Docker 官網(wǎng)進行安裝。

4.3、啟動 RAGFlow 服務器

調整系統(tǒng)設置：確保 vm.max_map_count 的值大于或等于 262144。您可以通過運行以下命令來檢查和設置該值：

# 要檢查 vm.max_map_count 的值：

sysctl vm.max_map_count

# 如果不是，請將 vm.max_map_count 重置為至少 262144 的值。

sudo sysctl -w vm.max_map_count=262144

為了使更改永久生效，請在 /etc/sysctl.conf 文件中添加或更新 vm.max_map_count=262144。

1、克隆 RAGFlow 存儲庫：

git clone https://github.com/infiniflow/ragflow.git

2、克隆 RAGFlow 存儲庫：

git clone https://github.com/infiniflow/ragflow.git

3、構建 Docker 鏡像并啟動服務器：

cd ragflow/docker

docker compose up -d

核心映像大小約為 9 GB，加載可能需要一些時間。

4、檢查服務器狀態(tài)：

docker logs -f ragflow-server

如果系統(tǒng)成功啟動，您將看到確認消息。

____ ______ __

/ __ \ ____ _ ____ _ / ____// /____ _ __

/ /_/ // __ `// __ `// /_ / // __ \| | /| / /

/ _, _// /_/ // /_/ // __/ / // /_/ /| |/ |/ /

/_/ |_| \__,_/ \__, //_/ /_/ \____/ |__/|__/

/____/

* Running on all addresses (0.0.0.0)

* Running on http://127.0.0.1:9380

* Running on http://172.22.0.5:9380

INFO:werkzeug:Press CTRL+C to quit

4.4、配置選項

選擇 LLM 工廠：在 service_conf.yaml 文件中的 user_default_llm 部分選擇所需的 LLM 工廠。

API 密鑰設置：使用相應的 API 密鑰更新 service_conf.yaml 文件中的 API_KEY 字段。更多信息請參閱 /docs/llm_api_key_setup.md。

要更新默認 HTTP 服務端口 (80)，請轉到 docker-compose.yml 并將 80:80 更改為 <YOUR_SERVING_PORT>:80 。

所有系統(tǒng)配置的更新需要重新啟動系統(tǒng)才能生效：docker-compose up -d

4.5、訪問 RAGFlow 界面

一旦服務器啟動并運行，您可以通過瀏覽器訪問 RAGFlow 界面。在默認配置下，您可以省略默認 HTTP 服務端口 80。只需在瀏覽器中輸入 RAGFlow 服務器的 IP 地址即可。

通過上述步驟，您可以成功設置和運行 RAGFlow。確保遵循所有配置指南，并在啟動服務器后檢查其狀態(tài)以確認一切正常。通過選擇適當?shù)?LLM 工廠和設置 API 密鑰，您可以確保 RAGFlow 與您的業(yè)務需求無縫集成。最后，通過簡單的瀏覽器操作，您就可以開始使用 RAGFlow 強大的文檔理解和問答功能了。

五、RAGFlow 未來規(guī)劃

RAGFlow 作為一款先進的檢索增強生成引擎，其未來發(fā)展規(guī)劃主要圍繞以下幾個核心方向：

增強多語言支持能力：

RAGFlow 將致力于提升其對不同語言的支持能力，使其能夠更好地服務于全球化的市場。這意味著 RAGFlow 將開發(fā)和集成更多語言的文檔結構識別模型，從而能夠準確理解和處理各種語言的非結構化數(shù)據(jù)。這不僅包括常見的英語、中文等，還將擴展到其他語種，以滿足不同地區(qū)用戶的需求。

提升本地大型語言模型（LLM）的性能：

為了提高 RAGFlow 在處理非結構化數(shù)據(jù)時的準確性和效率，未來將對本地的大型語言模型進行優(yōu)化和升級。這可能包括改進模型的訓練數(shù)據(jù)、調整模型結構以及采用新的算法和技術，以提高模型的理解和生成能力。通過這些改進，RAGFlow 將能夠更準確地理解和生成復雜的語言內(nèi)容，為用戶提供更加豐富和精準的信息。

擴展網(wǎng)絡爬蟲功能：

RAGFlow 計劃擴展其網(wǎng)絡爬蟲的功能，以便能夠從更廣泛的來源獲取數(shù)據(jù)。這包括接入企業(yè)的各類數(shù)據(jù)源，如 MySQL 的 binlog、數(shù)據(jù)湖的 ETL 以及外部的爬蟲等。通過這些數(shù)據(jù)源的集成，RAGFlow 將能夠更全面地收集和分析信息，為用戶提供更全面的知識庫和更準確的檢索結果。

適應更多復雜場景：

RAGFlow 的設計目標之一是讓其能夠適應更多的復雜場景，尤其是企業(yè)級（B 端）的應用場景。為此，RAGFlow 將開發(fā)更多的定制化模板和處理流程，以滿足不同行業(yè)和崗位對文檔處理和信息檢索的特殊需求。這可能涉及到對特定行業(yè)術語的理解、對復雜文檔結構的處理等。

提供更靈活的企業(yè)級數(shù)據(jù)接入：

RAGFlow 將推出面向企業(yè)級數(shù)據(jù)接入的低代碼平臺，使得企業(yè)能夠更容易地將內(nèi)部數(shù)據(jù)和文檔整合到 RAGFlow 系統(tǒng)中。這將極大地提高企業(yè)使用 RAGFlow 的便利性和效率，同時也為企業(yè)提供了更多的靈活性和自主性。

高級內(nèi)容生成：

除了問答對話之外，RAGFlow 還將提供高級內(nèi)容生成的功能，如長文生成等。這將使得 RAGFlow 不僅能夠回答用戶的問題，還能夠創(chuàng)作文章、報告等內(nèi)容，為用戶提供更加全面的服務。

通過這些未來規(guī)劃，RAGFlow 旨在成為一個更加強大、靈活且易于使用的系統(tǒng)，能夠滿足不同用戶在各種場景下的需求，特別是在企業(yè)級應用中發(fā)揮重要作用，可以期待一下。

六、總結

在對 RAGFlow 的探索中，我們可以清晰地看到其在RAG（Retrieval-Augmented Generation）領域中的重要地位和顯著優(yōu)勢。RAGFlow作為一款下一代開源RAG引擎，不僅在問答對話方面表現(xiàn)出色，還具備高級內(nèi)容生成的能力，例如長文生成等。這使得RAGFlow能夠為用戶提供更為全面和深入的服務，滿足不同場景下的需求，尤其在企業(yè)級應用中發(fā)揮著重要作用。

RAGFlow 的核心功能和技術架構，包括其系統(tǒng)架構、DeepDoc深度文檔理解模塊、LLM和嵌入模型的應用，以及文本分塊過程中的可視化和人工干預等，共同構成了一個強大、靈活且易于使用的系統(tǒng)。這些特點不僅提升了用戶體驗，也為開發(fā)者提供了更多的創(chuàng)新空間。

開源項目如 RAGFlow 在推動技術創(chuàng)新方面扮演著至關重要的角色。它們促進了知識的共享和技術的民主化，為全球開發(fā)者社區(qū)提供了一個共同成長和協(xié)作的平臺。通過開源，RAGFlow鼓勵更多的開發(fā)者參與到項目中來，共同解決問題，分享最佳實踐，從而加速了創(chuàng)新的步伐。

最終，RAGFlow 的成功不僅體現(xiàn)在其技術成就上，更在于其對整個RAG領域乃至人工智能技術發(fā)展的貢獻。它不僅推動了相關技術的創(chuàng)新和應用，也為未來的技術進步和產(chǎn)業(yè)發(fā)展奠定了堅實的基礎。隨著RAGFlow的不斷發(fā)展和完善，我們有理由相信，它將繼續(xù)在推動人工智能技術進步和促進社會數(shù)字化轉型方面發(fā)揮重要作用。

七、參考文獻

[1]. DeepDoc: https://huggingface.co/InfiniFlow/deepdoc

[2]. RAGFlow GitHub: https://github.com/infiniflow/ragflow

[3]. RAGFlow Demo: https://demo.ragflow.io/

[4]. Infinity : https://github.com/infiniflow/infinity

[5]. RAGFlow YC News: https://news.ycombinator.com/item?id=39896923

[6]. DTrOCR: Decoder-only Transformer for Optical Character Recognition: https://arxiv.org/pdf/2308.15996v1.pdf

本文內(nèi)容根據(jù)網(wǎng)絡資料整理，出于傳遞更多信息之目的，不代表金鑰匙跨境贊同其觀點和立場。

轉載請注明，如有侵權，聯(lián)系刪除。

本文鏈接：http://gantiao.com.cn/post/19145834.html