失效链接处理 |
大模型(LLMsQRAG 版面分析——文本分块?PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
一、ؓ(f)什么需要对文本分块Q?/strong>
使用大型语言模型Q?/span>LLMQ时Q切勿忽略文本分块的重要性,其对处理l果的好坏有重大影响?/span>
考虑以下场景Q你面(f)一个几N的文,其中充满了文字,你希望对其进行摘录和问答式处
理。在q个程中,最初的一步是提取文的嵌入向量,但这样做?x)带来几个问题?x)
• 信息丢失的风?/strong>Q试图一ơ性提取整个文的嵌入向量Q虽然可以捕捉到整体的上下文Q但?/span>
可能?x)忽略掉许多针对特定主题的重要信息,q可能会(x)D生成的信息不够精或者有所~?/span>
失?/span>
• 分块大小的限?/strong>Q在使用?/span>OpenAIq样的模型时Q分块大是一个关键的限制因素。例如,
GPT-4模型有一?/span>32K的窗口大限制。尽这个限制在大多数情况下不是问题Q但从一开?/span>
p虑到分块大是很重要的?/span>
因此Q恰当地实施文本分块不仅能够提升文本的整体品质和可读性,q能够预防由于信息丢失或?/span>
当分块引L(fng)问题。这是Z在处理长文时Q采用文本分块而非直接处理整个文臛_重要
的原因?/span>
|