Cohere Command R 08-2024

OCI生成AIの専用AIクラスタの1つのSmall Cohere V2ユニットでホストされているcohere.command-r-08-2024 (Cohere Command R 08-2024)モデルのパフォーマンス・ベンチマークを確認します。

  • モデルの詳細を参照し、次のセクションを確認してください:
    • このモデルで使用可能なリージョン。
    • このモデルをホストするための専用AIクラスタ。
  • メトリックを確認します。

ランダム長

このシナリオは、プロンプトおよびレスポンスのサイズが事前に不明であるテキスト生成のユース・ケースを模倣します。プロンプト長と応答長が不明なため、プロンプト長と応答長の両方が正規分布に従う確率的アプローチを使用しました。プロンプトの長さは、平均480個のトークンと240個のトークンの標準偏差を持つ正規分布に従います。応答の長さは、平均300トークンと標準偏差150トークンの正規分布に従います。

サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.52 66.43 52.84 2.68 0.37 230.39
2 0.52 64.11 105.80 3.01 0.66 432.60
4 0.52 59.66 198.97 3.27 1.20 763.19
8 0.53 53.36 357.07 3.62 2.16 1,368.83
16 0.56 44.39 583.18 3.88 3.92 2,505.03
32 0.65 35.61 906.21 5.03 5.81 3,760.75
64 1.06 24.01 1,073.21 6.86 7.67 4,692.56
128 3.96 15.89 1,034.44 12.18 7.96 5,137.40
256 11.54 16.24 1,052.12 19.47 8.19 5,039.19
サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.40 77.29 69.62 3.89 0.26 190.39
2 0.40 76.36 138.03 4.03 0.49 374.14
4 0.41 73.69 266.03 4.03 0.98 754.56
8 0.41 70.41 505.38 4.33 1.80 1,351.03
16 0.42 63.38 888.54 4.57 3.33 2,528.83
32 0.48 55.54 1,540.69 5.83 5.14 4,160.40
64 0.68 42.29 2,201.45 6.93 8.12 6,020.98
128 1.48 28.35 2,496.73 10.50 9.70 7,168.11
256 8.60 28.69 2,394.67 18.04 9.02 6,593.74

チャット

このシナリオでは、プロンプトとレスポンスが短いチャットおよびダイアログのユースケースについて説明します。プロンプトとレスポンスの長さはそれぞれ100個のトークンに固定されます。

サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.49 67.40 46.63 1.58 0.63 107.89
2 0.48 65.55 90.56 1.59 1.24 211.04
4 0.49 61.38 173.89 1.71 2.31 398.14
8 0.49 55.53 317.10 1.81 4.32 736.50
16 0.52 49.01 555.54 2.03 7.49 1,283.30
32 0.76 41.59 843.26 2.53 11.59 1,969.48
64 0.82 29.63 1,231.41 3.31 16.86 2,867.06
128 1.84 19.64 1,340.32 5.57 18.54 3,141.31
256 5.71 20.10 1,313.56 9.41 17.91 3,050.80
サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.36 76.40 59.84 1.61 0.62 119.86
2 0.36 75.94 118.12 1.62 1.22 236.67
4 0.36 75.32 233.50 1.64 2.41 467.06
8 0.38 73.41 450.63 1.69 4.65 902.00
16 0.41 70.81 835.46 1.76 8.64 1,673.27
32 0.52 66.82 1,407.97 1.95 14.53 2,816.44
64 0.77 58.49 2,320.21 2.42 23.97 4,645.34
128 1.27 46.58 2,866.51 3.35 29.55 5,729.64
256 2.98 42.43 3,057.44 5.26 31.58 6,119.24

ジェネレーションヘビー

このシナリオは、生成およびモデル・レスポンスの重いユースケース用です。たとえば、アイテムの短い箇条書きリストから生成される長いジョブの説明です。この場合、プロンプトの長さは100トークンに固定され、レスポンスの長さは1,000トークンに固定されます。

サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.49 67.35 54.93 2.82 0.35 89.10
2 0.53 65.72 106.49 2.96 0.67 171.57
4 0.49 62.54 205.55 2.99 1.32 333.29
8 0.49 57.08 361.81 2.99 2.56 610.19
16 0.51 51.99 668.26 3.44 4.41 1,097.11
32 0.58 44.49 1,060.46 3.79 7.52 1,790.39
64 0.68 35.05 1,633.24 4.89 11.02 2,702.83
128 2.20 25.59 1,676.80 7.09 13.50 2,985.41
256 7.02 26.23 1,609.94 11.96 12.50 2,819.72
サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.36 76.15 77.02 4.62 0.23 99.43
2 0.38 78.71 151.85 12.97 0.15 166.68
4 0.37 77.94 296.54 13.07 0.30 325.57
8 0.39 76.05 587.00 13.41 0.59 644.47
16 0.42 73.99 1,132.69 13.81 1.14 1,243.49
32 0.56 69.18 2,085.87 14.88 2.10 2,290.54
64 0.91 60.54 3,520.34 17.26 3.55 3,864.78
128 1.40 47.76 5,511.72 22.13 5.56 6,050.87
256 15.84 47.14 5,432.58 36.85 5.48 5,963.23

RAG

検索拡張生成(RAG)シナリオには、非常に長いプロンプトがあり、ユースケースの要約などの短いレスポンスがあります。プロンプトの長さは2,000トークンに固定され、レスポンスの長さは200トークンに固定されます。

サウジアラビア中央部(リヤド)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.66 65.07 48.27 2.62 0.38 802.19
2 0.66 59.60 89.68 2.84 0.70 1,480.35
4 0.68 50.85 156.94 3.23 1.22 2,596.61
8 0.80 40.68 247.23 4.06 1.93 4,098.09
16 0.97 28.73 351.66 5.60 2.76 5,853.26
32 1.37 18.19 425.94 8.82 3.37 7,157.15
64 2.54 9.78 440.59 15.46 3.61 7,647.41
128 9.88 5.86 392.06 29.10 3.55 7,488.14
256 28.75 6.13 425.79 48.52 3.47 7,364.71
サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのSmall Cohere V2ユニットでホストされるcohere.command-r-08-2024モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.47 76.63 64.40 2.97 0.33 731.96
2 0.52 74.08 122.71 3.11 0.64 1,393.97
4 0.63 69.81 223.99 3.38 1.17 2,553.48
8 0.86 62.80 382.46 3.93 1.99 4,348.31
16 1.33 53.08 584.74 5.01 3.04 6,652.72
32 2.28 40.67 809.47 7.20 4.21 9,211.93
64 3.01 21.57 946.96 11.98 4.90 10,736.65
128 5.32 10.40 866.21 23.76 4.50 9,845.27
256 21.17 9.60 830.40 41.13 4.31 9,441.68