> ## Documentation Index
> Fetch the complete documentation index at: https://docs.dify.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# Web サイトからデータをインポート

> このドキュメントは AI によって自動翻訳されています。不正確な部分がある場合は、[英語版](/en/cloud/use-dify/knowledge/create-knowledge/import-text-data/sync-from-website) を参照してください。

Dify のナレッジベースでは、[Jina Reader](https://jina.ai/reader)や[Firecrawl](https://www.firecrawl.dev/)を利用してウェブページをスクレイピングし、解析したデータを Markdown の形式でナレッジベースに取り込むことができます。

<Info>
  [Jina Reader](https://jina.ai/reader) や [Firecrawl](https://www.firecrawl.dev/) は、オープンソースのウェブページ解析ツールです。ウェブページをクリーンで大規模言語モデル（LLM）が扱いやすい Markdown 形式のテキストに変換します。また、使いやすい API サービスも提供しています。
</Info>

## Firecrawl

### Firecrawl の認証情報の設定

右上隅にあるアバターをクリックし、DataSource ページで Firecrawl の認証情報を設定する必要があります。

<Frame>
  ![データソース設定ページ](https://assets-docs.dify.ai/2024/12/ced8357e468accd1c3f75f451172c1ce.png)
</Frame>

[Firecrawl 公式サイト](https://www.firecrawl.dev/) にログインして登録を完了し、API キーを取得してから入力し、保存します。

<Frame>
  ![Firecrawl API キー設定](https://assets-docs.dify.ai/2024/12/e1a854f9b60a429f11181dfb8bcc7990.png)
</Frame>

### Firecrawl を使用して Web コンテンツをクロールする

ナレッジベース作成のページで **Sync from website** を選択し、スクレイピングの対象どしてのウェブページの URL を入力します。

設定項目には、サブページのスクレイピング、スクレイピングするページの上限、ページのスクレイピング深度、ページの除外、指定ページのみのスクレイピング、コンテンツの抽出などが含まれます。設定が完了したら **Run** をクリックし、解析結果のページをプレビューします。

<Frame>
  ![Web コンテンツをクロールする](https://assets-docs.dify.ai/2024/12/3e63b4ced9770e21d5132c3aa8e5d2de.png)
</Frame>

解析されたテキストをナレッジベースのドキュメントにインポートし、結果を確認します。**Add URL** をクリックすると、新しいウェブページをさらにインポートできます。

## Jina Reader

### Jina Reader の認証情報の設定

右上隅にあるアバターをクリックし、DataSource ページで Jina Reader の認証情報を設定する必要があります。

<Frame>
  ![データソース設定ページ](https://assets-docs.dify.ai/2024/12/ced8357e468accd1c3f75f451172c1ce.png)
</Frame>

[Jina Reader の公式サイト](https://jina.ai/reader) にログインして登録を完了し、API キーを取得してから入力し、保存します。

<Frame>
  ![Jina Reader API キー設定](https://assets-docs.dify.ai/2024/12/ced8357e468accd1c3f75f451172c1ce.png)
</Frame>

### Jina Reader を使用して Web コンテンツをクロールする

ナレッジベース作成のページで **Sync from website** を選択し、スクレイピングの対象どしてのウェブページの URL を入力します。

<Frame>
  ![Jina Reader でのウェブページ入力](https://assets-docs.dify.ai/2024/12/f9170b2a2ab1be94bc85ff3ed3c3e723.png)
</Frame>

設定項目には、サブページをクロールするかどうか、クロールされるページ数の上限、サイトマップのクロールを使用するかどうかなどがあります。設定が完了したら **Run** をクリックし、解析結果のページをプレビューします。

<Frame>
  ![クロール設定と実行](https://assets-docs.dify.ai/2024/12/a875f21a751551c03109c76308c577ee.png)
</Frame>

解析されたテキストをナレッジベースのドキュメントにインポートし、結果を確認します。**Add URL** をクリックすると、新しいウェブページをさらにインポートできます。

<Frame>
  ![クロール結果のインポート](https://assets-docs.dify.ai/2024/12/03494dc3c882ac1c74b464ea931e2533.png)
</Frame>

クロールが完了すると、Web ページのコンテンツがナレッジ ベースに組み込まれます。
