生成AIのトレーニング・データ

OCI生成AIで事前トレーニング済モデルをファインチューニングするためのトレーニング・データを作成するためのガイドラインを次に示します。カスタム・モデルは、1つのデータセットのみを使用して微調整できます。このデータセットは、80⁇%のトレーニングと20⁇%の検証データに自動的に分割されます。データセットは、少なくとも32⁇ プロンプト/完了ペアを含むJSONLファイルである必要があります。各行は、{"prompt": "<your prompt>", "completion": "<expected response>"}としてフォーマットされています。ファイルをOCIオブジェクト・ストレージ・バケットに保存し、カスタム・モデルの作成時に参照します。

データセット要件

トレーニング・カスタム・モデルのデータセットには、次の要件があります。

カスタム・モデルごとに最大1つのファインチューニング・データセットを使用できます。このデータセットは、トレーニングと検証のために80:20の比率にランダムに分割されます。
各ファイルには、少なくとも32のプロンプト/完了ペアの例が必要です。
ファイル形式はJSONLです。
JSONLファイルの各行の形式は、次のとおりです。
{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
ファイルは、OCIオブジェクト・ストレージ・バケットに格納する必要があります。

JSONL形式

JSONLについて

JSONLファイルには、各行に新しいJSON値またはオブジェクトが含まれます。ファイルは、通常のJSONファイルと同様に全体として評価されません。かわりに、各行は個別のJSONファイルであるかのように処理されます。この形式は、一連の入力をJSON形式で格納するのに最適です。

OCI Generative AIサービスは、次の形式でカスタム・モデルをファインチューニングするためのJSONLファイルを受け入れます:

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.

JSONL例

{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}

ノート

生成AIに作成する各JSONLデータセット・ファイルに次のプロパティがあることを確認してください:

ファイルはUTF-8でエンコードされています。
各行アイテムには、有効なJSONオブジェクトが含まれます。
各JSONオブジェクトには、"prompt"と"completion"の2つのプロパティがあります
各JSONオブジェクトは、改行または改行文字(\n)で入力されます。

JSONLファイルを作成したら、データセットをオブジェクト・ストレージ・バケットに追加します。

Oracle Cloud Infrastructureドキュメント

生成AIのトレーニング・データ

データセット要件

JSONL形式