生成AIでのテキスト埋込みの作成

OCI生成AIのCohere Embedモデルを使用して、セマンティック検索、テキスト分類、テキスト・クラスタリングにアプリケーションで使用するために、テキストのベクトル埋込みを変換します。

テキスト埋込みの入力データには、次の要件が必要です。

  • 埋込み用の文、フレーズまたは段落は、一度に1つのフレーズを追加するか、ファイルをアップロードして追加できます。
  • .txt拡張子を持つファイルのみが許可されます。
  • 入力ファイルを使用する場合、ファイル内の入力文、フレーズまたは段落は、改行文字で区切る必要があります。
  • 各実行には最大96の入力が許可されます。
  • コンソールでは、テキストのみのモデルの各入力は512トークン未満である必要があります。
  • 入力が長すぎる場合は、「切捨て」パラメータを「開始」または「終了」に設定して、テキストの開始または終了をトークン制限内に収めるかどうかを選択します。入力が512トークン制限を超え、「切捨て」パラメータが「なし」に設定されている場合、エラー・メッセージが表示されます。
  • テキスト・モデルおよびイメージ・モデルでは、最大128,000個のトークンを追加するファイルおよび入力を使用できます。
  • Cohere Embed English Image V3などのテキストおよびイメージ埋込みモデルでは、テキストを追加するか、1つのイメージのみを追加できます。イメージには、APIを使用できます。イメージ入力はコンソールで使用できません。APIの場合は、実行ごとにbase64エンコード・イメージを入力します。たとえば、512 x 512イメージは、約1,610トークンに変換されます。
    1. コンソールのナビゲーション・バーで、米国中西部(シカゴ)など、生成AIを含むリージョンを選択します。リージョンで提供されるモデルを参照してください。
    2. ナビゲーション・メニューを開き、「アナリティクスとAI」を選択します。「AIサービス」で、「生成AI」を選択します。
    3. 作業する権限があるコンパートメントを選択します。プレイグラウンドが表示されない場合は、管理者に生成AIリソースへのアクセス権の付与を依頼して、次のステップに戻ります。
    4. 「プレイグラウンド」を選択します。
    5. 「埋込み」を選択します。
    6. 次のいずれかのアクションを実行して、テキスト埋込みを作成するモデルを選択します。
      • 「モデル」リストで、モデルを選択します。
      • 「モデル詳細の表示」を選択し、「モデルの選択」を選択します。
    7. (オプション)「例」リストの例を使用するには、次のステップを実行します。
      1. 「例」リストから例を選択します。
      2. 「実行」を選択して、例の埋込みを生成します。
      3. 「出力ベクトル投影」セクションで、出力の2ディメンション・バージョンを確認します。

        埋込みを使用して出力をビジュアル化するために、出力ベクトルは2つのディメンションに投影され、ポイントとしてプロットされます。近いポイントは、モデルが類似とみなすフレーズに対応します。

      4. 「クリア」を選択してすべての文を削除し、新しい文の埋込みの生成を開始します。
    8. (オプション)サイズが5MB以下の.pngまたは.jpgイメージを追加します。
      イメージは1つのみ許可されます。
    9. 「センテンス入力」領域で、次のいずれかの方法でテキストを入力します。
      • 「1.」ボックスに文を入力し、「文の追加」を選択して文を追加します。
      • 「ファイルのアップロード」を選択し、追加するテキストを含むファイルを選択します。
      ノート

      .txt拡張子のファイルのみが許可されます。各入力文、フレーズまたは段落は、改行文字で区切る必要があります。実行ごとに最大96の入力が許可され、各入力のトークン数は512未満である必要があります。入力の最大数に達するまで、文を手動で追加するか、複数のファイルをアップロードできます。
    10. 「切捨て」パラメータで、トークンは最大許容トークン数(512)を超える場合に、開始トークンまたは終了トークンのどちらを切り捨てるかを選択します。
      ヒント

      512トークンを超える入力の場合、「切捨て」パラメータを「なし」に設定すると、エラー・メッセージが表示されます。埋込みモデルを実行する前に、「切捨て」パラメータに「開始」または「終了」を選択します。
    11. 「実行」を選択します。
    12. 「出力ベクトル投影」セクションで、出力の2ディメンション・バージョンを確認します。
      埋込みを使用して出力を視覚化するために、出力ベクトルは2つのディメンションに投影され、ポイントとしてプロットされます。近いポイントは、モデルが類似とみなすフレーズに対応します。
    13. 結果に満足したら、「JSONへの埋込みのエクスポート」を選択して、入力ごとに1024次元ベクトルを含むJSONファイルを取得します。
    14. (オプション)「コードの表示」を選択し、プログラミングの言語またはフレームワークを選択して「コードのコピー」を選択し、コードをファイルに貼り付けます。ファイルが、貼り付けられたコードの形式を保持していることを確認します。
      ヒント

      アプリケーションでコードを使用する場合:

    15. (オプション)「クリア」を選択してすべての文を削除し、新しい文の埋込みの生成を開始します。
      ノート

      「クリア」を選択すると、「切捨て」パラメータはデフォルト値「なし」にリセットされます。
  • テキストの埋込みを作成するには、embed-text-result操作を使用します。

    次のコマンドを入力して、テキスト埋込みを作成するオプションのリストを表示します。

    oci generative-ai-inference embed-text-result embed-text -h

    OCI生成AI CLIコマンドのパラメータおよび値の完全なリストは、生成AI推論CLIおよび生成AI管理CLIを参照してください。

  • EmbedText操作を実行して、テキスト埋込みを作成します。

    APIの使用およびリクエストの署名の詳細は、REST APIのドキュメントおよびセキュリティ資格証明を参照してください。SDKの詳細は、SDKおよびCLIを参照してください。