Meta Llama 3.3 (70B)
meta.llama-3.3-70b-instruct
モデルは、オンデマンド推論、専用ホスティングおよびファインチューニングに使用でき、テキスト・タスクのLlama 3.1 70BおよびLlama 3.2 90Bよりも優れたパフォーマンスを提供します。
これらのリージョンで使用可能
- ブラジル東部(サンパウロ)
- ドイツ中央部(フランクフルト)
- インド南部(ハイデラバード)(専用AIクラスタのみ)
- 日本中央部(大阪)
- サウジアラビア中央部(リヤド)(専用AIクラスタのみ)
- 英国南部(ロンドン)
- 米国中西部(シカゴ)
主な機能
- モデルには700億のパラメータがあります。
- テキストのみの入力を受け入れ、テキストのみの出力を生成します。
- Llama 3.1 70Bと同じプロンプト形式を使用します。
- Llama 3.1 70Bと同じコード・インタプリタをサポートし、128,000トークン・コンテキストの長さを保持します。(最大プロンプト+レスポンス長: 実行ごとに128,000トークン。)
- Llama 3.1 70Bの前身と比較して、推論、コーディング、数学、および命令のフォローが改善されて対応します。Llama 3.3 model cardを参照してください。
- オンデマンド推論、専用ホスティングおよびファインチューニングに使用できます。
- オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
- 専用モードの場合、レスポンスの長さは制限されず、コンテキストの長さは128,000トークンです。
- データセットを使用してこのモデルを微調整できます。
オンデマンドモード
-
プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
- 生成AIの使用を開始するための障壁が低くなります。
- 実験、概念実証、およびモデルの評価に最適です。
- としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
オンデマンド・モードで生成AIモデルへの確実なアクセスを確保するには、拒否後にリクエストを遅延させるバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。
価格設定ページのこのモデルの製品名については、次の表を参照してください。
モデル名 | OCIモデル名 | 価格設定ページ製品名 |
---|---|---|
Meta Llama 3.3 | meta.llama-3.3-70b-instruct |
Large Meta |
モデルの専用AIクラスタ
前述のリージョン・リストでは、(専用AIクラスタのみ)とマークされていないリージョンには、オンデマンドと専用のAIクラスタ・オプションの両方があります。オンデマンド・オプションの場合、クラスタは必要ありません。また、コンソール・プレイグラウンドまたはAPIを介してモデルにアクセスできます。専用モードについて学習します。
リストされた任意のリージョンの専用AIクラスタを介してモデルに到達するには、専用AIクラスタにそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。
ベース・モデル | ファインチューニング・クラスタ | ホスティング・クラスタ | 価格設定ページ情報 | クラスタ制限の引上げをリクエスト |
---|---|---|---|---|
|
|
|
|
|
-
専用AIクラスタでMeta Llama 3.3 (70B)モデルをホストするための十分なクラスタ制限がテナンシにない場合は、
dedicated-unit-llama2-70-count
制限を2増やすようにリクエストします。 - ファインチューニングの場合、
dedicated-unit-llama2-70-count
制限を4増やすようにリクエストします。 - 様々なユースケースについて、Meta Llama 3.3 (70B)クラスタのパフォーマンス・ベンチマークを確認します。
リリース日と除・売却日
モデル | リリース日 | オンデマンド処分日 | 専用モード除・売却日 |
---|---|---|---|
meta.llama-3.3-70b-instruct
|
2025-02-07 | 1番目の置換モデルのリリースから少なくとも1か月後。 | 最初の交換モデルのリリースから少なくとも6か月後。 |
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。
- 温度
-
出力テキストの生成に使用されるランダム性のレベル。
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率に
p
に0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、p
を1に設定します。 - 上位k
-
top k
の最も可能性の高いトークンからモデルが次のトークンをランダムに選択するサンプリング・メソッド。k
の値が大きいほど、ランダムな出力が生成され、出力テキストがより自然になります。kのデフォルト値は、Cohere Command
モデルの場合は0、Meta Llama
モデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。 - 頻度ペナルティ
-
トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。
Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスになります。正の数は、モデルが新しいトークンを使用することを推奨し、負の数はモデルがトークンを繰り返すことを推奨します。無効にするには、0に設定します。
- プレゼンス・ペナルティ
-
出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。
- シード
-
トークンを確定的にサンプリングする最善の努力をするパラメータ。このパラメータに値が割り当てられると、大規模言語モデルは、リクエストに同じシードとパラメータを割り当てたときに、繰返しリクエストに対して同じ結果を返すことを目的としています。
許可される値は整数で、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストを番号でタグ付けすることと似ています。大規模言語モデルは、連続するリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がなく、コンソールでは最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能は無効になります。
警告
OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータで長時間実行しても同じ結果が生成されない場合があります。