> ## Documentation Index
> Fetch the complete documentation index at: https://docs.dify.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# チャンク設定

> このドキュメントは AI によって自動翻訳されています。不正確な部分がある場合は、[英語版](/en/cloud/use-dify/knowledge/create-knowledge/chunking-and-cleaning-text) を参照してください。

## チャンクとは？

ナレッジベースにインポートされたドキュメントは、**チャンク** と呼ばれる小さなセグメントに分割されます。チャンクとは、大きな本を章や段落に整理するようなものです。大きなテキストブロックから特定の情報をすぐに見つけることはできませんが、適切に整理されたセクションなら効率的に検索できます。

ユーザーが質問すると、システムはこれらのチャンクから関連情報を検索し、LLM にコンテキストとして提供します。チャンク化がなければ、クエリごとにドキュメント全体を処理することになり、遅くて非効率的です。

**主要なチャンクパラメータ**

* **区切り文字**：テキストを分割する文字またはシーケンス。例えば、`\n\n`は段落区切りで分割し、`\n`は改行で分割します。

  <Note>
    区切り文字はチャンク化の際に削除されます。例えば、`A`を区切り文字として使用すると、`CBACD`は`CB`と`CD`に分割されます。

    情報の損失を避けるために、ドキュメント内に自然に出現しない非コンテンツ文字を使用してください。
  </Note>

* **最大チャンク長**：各チャンクの最大サイズ（文字数）。この制限を超えるテキストは、区切り文字の設定に関係なく強制的に分割されます。

## 汎用モード vs 親子モード

<Note>
  チャンクモードは、ナレッジベースを作成した後は変更できません。ただし、区切り文字や最大チャンク長などのチャンク設定はいつでも調整できます。
</Note>

### モードの概要

<Tabs>
  <Tab title="汎用モード">
    汎用モードでは、すべてのチャンクが同じ設定を共有します。マッチしたチャンクは検索結果として直接返されます。

    **チャンク設定**

    区切り文字と最大チャンク長に加えて、**チャンクのオーバーラップ** を設定して、隣接するチャンク間で重複する文字数を指定できます。これにより、意味的なつながりが保持され、重要な情報がチャンクの境界で分断されることを防ぎます。

    例えば、50 文字のオーバーラップを設定すると、あるチャンクの最後の 50 文字が次のチャンクの最初の 50 文字としても表示されます。
  </Tab>

  <Tab title="親子モード">
    親子モードでは、テキストは 2 つの階層に分割されます：小さな **子チャンク** と大きな **親チャンク** です。クエリが子チャンクにマッチすると、その親チャンク全体が検索結果として返されます。

    これは一般的な検索のジレンマを解決します：小さなチャンクは正確なクエリマッチングを可能にしますがコンテキストが不足し、大きなチャンクは豊富なコンテキストを提供しますが検索精度が低下します。

    親子モードは両方のバランスを取り、精度の高い検索とコンテキストのある回答を実現します。

    **親チャンク設定**

    親チャンクは **段落** モードまたは **全文** モードで作成できます。

    <Tabs>
      <Tab title="段落">
        ドキュメントは、指定された区切り文字と最大チャンク長に基づいて複数の親チャンクに分割されます。

        セクションが適切に構造化された長いドキュメントで、各セクションが独立して意味のあるコンテキストを提供する場合に適しています。
      </Tab>

      <Tab title="全文">
        ドキュメント全体が単一の親チャンクとして扱われます。

        特定の詳細を理解するために完全なコンテキストが不可欠な、小さくまとまりのあるドキュメントに適しています。

        <Note>
          **全文** モードでは：

          * 最初の 10,000 トークンのみが処理されます。この制限を超えるコンテンツは切り捨てられます。

          * 親チャンクは作成後に編集できません。変更するには、新しいドキュメントをアップロードする必要があります。
        </Note>
      </Tab>
    </Tabs>

    **子チャンク設定**

    各親チャンクは、独自の区切り文字と最大チャンク長設定を使用してさらに子チャンクに分割されます。
  </Tab>
</Tabs>

### 比較表

| 項目                                                                                     | 汎用モード                        | 親子モード                                             |
| :------------------------------------------------------------------------------------- | :--------------------------- | :------------------------------------------------ |
| チャンク戦略                                                                                 | 単一階層：すべてのチャンクが同じ設定を使用        | 二階層：親チャンクと子チャンクで別々の設定                             |
| 検索ワークフロー                                                                               | マッチしたチャンクが直接返される             | 子チャンクがクエリのマッチングに使用され、親チャンクがより広いコンテキストを提供するために返される |
| 対応する[インデックス方式](/ja/cloud/use-dify/knowledge/create-knowledge/setting-indexing-methods) | 高品質、経済的                      | 高品質のみ                                             |
| 最適な用途                                                                                  | 用語集や FAQ などのシンプルで自己完結したコンテンツ | 技術マニュアルや研究論文などコンテキストが重要な情報密度の高いドキュメント             |

## チャンク化前のテキスト前処理

テキストをチャンクに分割する前に、不要なコンテンツをクリーンアップして検索品質を向上させることができます。

* **連続する空白、改行、タブを置換**

  * 3 つ以上の連続した改行 → 2 つの改行

  * 複数の空白 → 単一の空白

  * タブ、フォームフィード、特殊な Unicode 空白 → 通常の空白

* **すべての URL とメールアドレスを削除**

  <Info>
    この設定は **全文** モードでは無視されます。
  </Info>

## チャンクをプレビュー

**プレビュー** をクリックして、コンテンツがどのようにチャンク化されるかを確認できます。クイックレビュー用に限られた数のチャンクが表示されます。

結果が期待と完全に一致しない場合は、最も近い設定を選択してください。後で手動でチャンクを微調整できます。詳細は[ナレッジコンテンツの管理](/ja/cloud/use-dify/knowledge/manage-knowledge/maintain-knowledge-documents)を参照してください。

複数のドキュメントの場合、プレビューパネル上部のファイル名をクリックして、ドキュメントを切り替えることができます。
