Firecrawl: LLM準備 Markdownにウェブサイトをクロール

Firecrawlの力を発見しよう。詳細な手順、サンプルコード、LangchainとLlama Indexとのシームレスな統合で、ウェブコンテンツをAIプロジェクトに活用しよう!

Anakin AIを無料で利用開始

Firecrawl: LLM準備 Markdownにウェブサイトをクロール

Start for free
目次

以下のHTMLコードを日本語に翻訳してください。 次のようなURLがあることを確認してください: https://anakin.ai/apps/keyword または https://anakin.ai/blog/keyword これらを以下のように変換してください https://anakin.ai/ja-jp/apps/keyword https://anakin.ai/ja-jp/blog/keyword 以下がHTMLです:

Firecrawlは、Mendable.aiが開発した革新的なAPIサービスであり、WebサイトをクロールしてクリーンなLLM用マークダウンに変換するプロセスを簡素化します。Firecrawlを使用すると、ウェブサイト全体を構造化されたマークダウン形式に簡単に変換できるため、さまざまな言語モデルやアプリケーションにコンテンツを統合するのが簡単になります。

💡
制限なしでClaude 3.5 Sonnetを試してみたいですか?

オールインワンの価格タグでどのAIモデルにでもアクセスできるAIプラットフォームをお探しですか?

それなら、Anakin AIを見逃すことはできません!

Anakin AIは、ワークフロー自動化のためのオールインワンプラットフォームであり、使いやすいノーコードアプリビルダーで強力なAIアプリを作成できます。 Llama 3ClaudeGPT-4Uncensored LLMsStable Diffusionなど...

数分で夢のAIアプリを構築しましょう!Anakin AIで週ではなく!

Firecrawlの主な特徴

包括的なクローリング:Firecrawlは、URLを入力として受け取り、アクセス可能なすべてのサブページをインテリジェントにクロールし、関連するコンテンツを見逃さないようにします。

マークダウン変換:クロールされたコンテンツは自動的にクリーンで構造化されたマークダウン形式に変換され、言語モデルで使用できるようになります。

サイトマップ不要:Firecrawlはサイトマップの必要性を排除し、動的にウェブサイト内のすべてのアクセス可能なページを発見してクロールします。

簡単な統合:Firecrawlは使いやすいAPIとPythonおよびNode.js用のSDKを提供し、プロジェクトに簡単に統合できるようにします。

LangchainとLlama Indexのサポート:FirecrawlはLangchainとLlama Indexなどの人気のあるライブラリとシームレスに統合され、効率的なドキュメントの読み込みと処理が可能になります。

Firecrawlの使い方

Firecrawlを使うための簡単な手順は以下の通りです:

FirecrawlウェブサイトでサインアップしてAPIキーを取得します。

好みの統合方法を選択します:

  • API:提供されたエンドポイントに対してHTTPリクエストを行うことで、Firecrawl APIを直接使用します。
  • Python SDK: pip install firecrawl-py を使用してFirecrawl Python SDKをインストールします。
  • Node.js SDK: npm install firecrawl-js を使用してFirecrawl Node.js SDKをインストールします。

ウェブサイトをクロールし、LLM-readyマークダウンを取得します。

Firecrawl Python SDKの使用方法

以下は、Firecrawl Python SDKを使用してウェブサイトをクロールし、マークダウンコンテンツを取得する方法の例です:

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="YOUR_API_KEY")

# ウェブサイトをクロールする
crawl_result = app.crawl_url('mendable.ai', {'crawlerOptions': {'excludes': ['blog/*']}})

# クロールページごとのマークダウンを取得する
for result in crawl_result:
    print(result['markdown'])

この例では、APIキーを提供してFirecrawlAppクラスのインスタンスを作成します。そして、crawl_urlメソッドを使用して「mendable.ai」のウェブサイトのクロールを開始し、必要に応じて特定のパスを除外するためのクローラーオプションを指定します。

crawl_result変数にはクロールされたデータが含まれており、各結果にアクセスして各ページのマークダウンコンテンツにアクセスできます。

Firecrawl Node.js SDKの使用方法

同様に、Firecrawl Node.js SDKを使用する方法の例は次のとおりです:

const { FirecrawlApp } = require('firecrawl-js');

const app = new FirecrawlApp('YOUR_API_KEY');

// ウェブサイトをクロールする
app.crawlUrl('mendable.ai', { crawlerOptions: { excludes: ['blog/*'] } })
  .then((crawlResult) => {
    // クロールページごとのマークダウンを取得する
    crawlResult.forEach((result) => {
      console.log(result.markdown);
    });
  })
  .catch((error) => {
    console.error('Error:', error);
  });

使い方はPython SDKと似ており、FirecrawlAppクラスのインスタンスを作成し、APIキーを指定し、crawlUrlメソッドを使用してクロールを開始します。クロールされたデータはcrawlResult変数でアクセスできます。

LangchainとLlama IndexでFirecrawlを使用する方法

FirecrawlはLangchainとLlama Indexとシームレスに統合できるため、クロールされたドキュメントをこれらのライブラリに簡単に読み込んで処理や分析に使用できます。

LangchainとのFirecrawlの統合

LangchainとFirecrawlを使用するには、Langchainが提供するFirecrawlドキュメントローダーを利用できます。以下は使用例です:

from langchain.document_loaders import FirecrawlLoader

loader = FirecrawlLoader(api_key="YOUR_API_KEY", url="https://mendable.ai")
documents = loader.load()

この例では、FirecrawlLoaderクラスのインスタンスを作成し、APIキーとクロールするウェブサイトのURLを指定します。 loadメソッドはクロールされたドキュメントを取得し、Langchain内で質問応答、要約、テキスト生成などのさまざまなタスクに使用できます。

Llama IndexとのFirecrawlの統合

FirecrawlはLlama Indexとも統合されており、クロールされたドキュメントをインデックスに読み込んで効率的な取得やクエリを行うことができます。以下は使用例です:

from llama_index import FirecrawlReader

reader = FirecrawlReader(api_key="YOUR_API_KEY")
documents = reader.load_data(urls=["https://mendable.ai"])
index = GPTSimpleVectorIndex(documents)

この例では、FirecrawlReaderクラスのインスタンスを作成し、APIキーを指定します。そして、load_dataメソッドを使用して指定されたURLからクロールされたドキュメントを読み込みます。最後に、GPTSimpleVectorIndexクラスのインスタンスを作成し、ロードされたドキュメントを渡して効率的なクエリと取得のためのインデックスを構築します。

結論

Firecrawlは、ウェブサイトのクロールとLLM用のマークダウンに変換するプロセスを簡素化する強力なツールです。簡単に使用できるAPI、SDK、LangchainやLlama Indexなどの人気のあるライブラリとのシームレスな統合により、Firecrawlは開発者がウェブサイトのコンテンツを効率的に抽出して利用できるようにします。

Firecrawlを活用することで、ウェブクローリングやデータの前処理の複雑さを気にせずに革新的なアプリケーションやモデルの開発に集中できます。コンテンツ分析、質問応答システム、その他のNLP関連プロジェクトに取り組んでいる場合、Firecrawlはウェブサイトから高品質なマークダウンデータを取得するための信頼性の高い効率的なソリューションを提供します。

さあ、Firecrawlの可能性を探索してみてください!サインアップしてAPIキーを取得し、今日からウェブサイトを価値あるLLM用マークダウンに変換しましょう。

💡
制限なしでClaude 3.5 Sonnetを試してみたいですか?

オールインワンの価格タグでどのAIモデルにでもアクセスできるAIプラットフォームをお探しですか?

それなら、Anakin AIを見逃すことはできません!

Anakin AIは、ワークフロー自動化のためのオールインワンプラットフォームであり、使いやすいノーコードアプリビルダーで強力なAIアプリを作成できます。 Llama 3ClaudeGPT-4Uncensored LLMsStable Diffusionなど...

数分で夢のAIアプリを構築しましょう!Anakin AIで週ではなく!