Cohere Command A

OCI生成AIの専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされているcohere.command-a-03-2025 (Cohere Command A)モデルのパフォーマンス・ベンチマークを確認します。

  • モデルの詳細を参照し、次のセクションを確認してください:
    • このモデルで使用可能なリージョン。
    • このモデルをホストするための専用AIクラスタ。
  • メトリックを確認します。

ランダム長

このシナリオは、プロンプトおよびレスポンスのサイズが事前に不明であるテキスト生成のユース・ケースを模倣します。プロンプト長と応答長が不明なため、プロンプト長と応答長の両方が正規分布に従う確率的アプローチを使用しました。プロンプトの長さは、平均480トークンと標準偏差240トークンの正規分布に従います。応答の長さは、平均300トークンと標準偏差150トークンの正規分布に従います。

サウジアラビア中央部(リヤド)およびUAE東部(ドバイ)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.64 36.07 33.25 8.55 0.12 84.39
2 0.65 35.41 64.98 8.48 0.23 179.66
4 0.73 34.37 123.92 8.97 0.44 329.48
8 0.80 32.22 231.51 9.41 0.84 589.64
16 0.81 28.11 396.14 10.77 1.44 1,132.72
32 1.01 23.12 634.55 13.25 2.24 1,630.96
64 12.51 22.17 619.43 25.02 2.28 1,816.53
128 30.89 21.90 622.78 42.94 2.38 1,719.41
256 45.91 19.89 482.91 60.27 1.86 1,345.80
サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.80 44.25 39.38 7.31 0.14 105.57
2 0.80 44.17 77.29 7.29 0.27 206.67
4 0.86 42.09 148.23 7.64 0.52 393.64
8 0.88 38.80 271.18 8.48 0.92 701.66
16 0.94 33.89 463.68 9.49 1.61 1,236.27
32 1.17 27.24 738.08 12.26 2.45 1,932.98
64 10.53 25.87 739.56 21.41 2.64 2,019.43
128 27.58 25.89 736.30 38.27 2.65 1,986.29
256 44.59 24.74 616.97 56.67 2.15 1,613.15
UAE東部(ドバイ)リージョンの専用AIクラスタの1つのSMALL_COHERE_4ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.66 29.72 27.28 10.34 0.09 73.66
2 0.66 28.97 53.23 10.43 0.19 141.35
4 0.72 27.52 102.17 11.18 0.35 269.89
8 1.02 25.51 184.06 12.69 0.62 479.75
16 0.97 20.65 298.17 15.01 1.03 774.93
32 1.37 15.40 419.11 19.19 1.54 1,166.62
64 2.41 9.99 514.52 30.97 1.84 1,354.47
128 24.85 8.34 484.54 58.04 1.75 1,318.84
256 45.98 6.87 352.45 87.80 1.33 995.58

チャット

このシナリオでは、プロンプトとレスポンスが短いチャットおよびダイアログのユースケースについて説明します。プロンプトとレスポンスの長さはそれぞれ100個のトークンに固定されます。

サウジアラビア中央部(リヤド)およびUAE東部(ドバイ)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.71 35.92 28.36 3.29 0.30 57.73
2 0.67 35.93 57.53 3.25 0.61 117.00
4 0.78 35.49 109.42 3.38 1.17 223.01
8 1.00 34.22 198.45 3.70 2.13 404.70
16 1.34 31.51 333.75 4.29 3.57 680.26
32 1.92 26.64 517.73 5.50 5.51 1,053.90
64 5.90 19.91 516.36 10.57 5.51 1,050.88
128 14.30 19.88 514.45 18.96 5.49 1,047.35
256 24.58 20.15 511.25 29.19 5.46 1,041.15
サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.86 44.47 31.66 2.96 0.34 64.24
2 0.84 44.81 64.06 2.91 0.68 130.43
4 0.94 43.94 120.99 3.05 1.29 246.50
8 1.15 42.81 221.20 3.33 2.36 449.37
16 1.49 38.47 374.52 3.92 4.00 761.89
32 2.05 32.03 576.48 5.05 6.15 1,172.43
64 5.29 23.19 577.06 9.30 6.15 1,173.82
128 12.91 22.95 576.30 16.96 6.14 1,172.48
256 22.36 23.18 570.21 26.37 6.07 1,158.97
UAE東部(ドバイ)リージョンの専用AIクラスタの1つのSMALL_COHERE_4ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.72 29.97 24.46 3.80 0.26 50.02
2 0.65 29.74 49.35 3.76 0.53 100.55
4 0.85 29.25 92.17 4.01 0.99 187.90
8 1.25 28.28 162.54 4.52 1.74 330.74
16 2.05 26.43 260.60 5.56 2.79 530.63
32 3.41 21.33 365.80 7.78 3.90 743.86
64 5.35 14.60 466.61 11.96 4.99 951.35
128 6.42 5.28 431.36 24.06 4.61 879.33
256 21.53 5.40 430.52 38.72 4.61 877.44

ジェネレーションヘビー

このシナリオは、生成およびモデル・レスポンスの重いユースケース用です。たとえば、アイテムの短い箇条書きリストから生成される長いジョブの説明です。この場合、プロンプトの長さは100トークンに固定され、レスポンスの長さは1,000トークンに固定されます。

サウジアラビア中央部(リヤド)およびUAE東部(ドバイ)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 1.08 35.51 32.66 27.39 0.03 36.04
2 0.68 35.16 67.73 26.98 0.07 74.85
4 0.79 35.13 130.61 27.38 0.14 144.14
8 1.03 34.25 260.45 28.22 0.28 287.63
16 1.35 32.80 497.46 29.63 0.54 549.50
32 1.92 30.80 915.24 32.10 0.98 1,010.80
64 29.85 29.67 916.69 61.12 0.99 1,012.47
128 78.31 29.94 852.79 109.34 0.92 941.47
256 96.26 29.98 726.60 127.26 0.78 802.38
サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 1.14 43.35 40.11 22.51 0.04 44.29
2 0.86 43.86 83.17 21.95 0.09 91.92
4 0.95 43.32 161.50 22.48 0.17 178.25
8 1.17 42.21 308.96 23.16 0.33 341.27
16 1.51 40.79 606.60 24.29 0.65 669.78
32 2.06 38.21 1,115.21 26.41 1.20 1,231.36
64 24.52 36.45 1,117.31 49.89 1.21 1,234.37
128 47.43 36.94 1,099.25 72.62 1.18 1,213.73
256 65.37 36.00 923.60 91.30 0.99 1,019.91
UAE東部(ドバイ)リージョンの専用AIクラスタの1つのSMALL_COHERE_4ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 1.03 29.13 27.76 32.84 0.03 30.69
2 0.70 28.95 55.79 32.85 0.06 61.62
4 0.87 28.60 105.88 33.57 0.11 116.84
8 1.27 27.07 197.75 35.56 0.21 218.40
16 2.02 24.51 370.30 39.85 0.40 409.03
32 3.41 20.29 602.00 49.21 0.65 664.88
64 3.95 13.96 792.68 70.80 0.85 875.53
128 22.38 9.81 708.10 122.64 0.76 781.78
256 87.99 9.41 600.13 196.22 0.64 662.66

RAG

検索拡張生成(RAG)シナリオには、非常に長いプロンプトがあり、ユースケースの要約などの短いレスポンスがあります。プロンプトの長さは2,000トークンに固定され、レスポンスの長さは200トークンに固定されます。

サウジアラビア中央部(リヤド)およびUAE東部(ドバイ)リージョンを除くすべてのリージョンについて、専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 1.01 34.27 28.56 6.25 0.16 344.06
2 1.12 34.29 56.05 6.38 0.31 673.78
4 1.35 31.44 100.94 7.08 0.56 1,215.89
8 2.14 29.00 171.12 8.35 0.95 2,072.96
16 3.27 23.98 259.25 10.94 1.44 3,134.40
32 4.23 15.11 338.19 16.28 1.86 4,060.07
64 16.39 12.10 332.78 31.24 1.84 4,011.11
128 43.34 11.95 320.85 58.38 1.78 3,870.48
256 41.98 10.81 22.63 62.65 0.13 275.02
サウジアラビア中央部(リヤド)リージョンの専用AIクラスタの1つのLARGE_COHERE_V3ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 1.06 42.40 33.84 5.32 0.19 405.82
2 1.25 42.78 65.84 5.47 0.36 789.91
4 1.66 40.07 116.06 6.14 0.64 1,401.03
8 2.28 35.52 193.05 7.42 1.07 2,321.70
16 3.43 29.09 288.39 9.88 1.59 3,465.03
32 5.25 19.32 371.72 14.89 2.07 4,496.70
64 15.06 13.44 366.10 28.46 2.02 4,405.68
128 38.58 13.39 358.48 51.98 1.99 4,327.78
256 42.95 13.33 28.62 56.34 0.16 347.19
UAE東部(ドバイ)リージョンの専用AIクラスタの1つのSMALL_COHERE_4ユニットでホストされるcohere.command-a-03-2025モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) トークン・レベルの推論速度(トークン/秒) トークン・レベルのスループット(トークン/秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 1.01 26.47 22.75 7.69 0.13 278.43
2 1.35 26.48 43.67 8.10 0.24 528.50
4 2.19 25.90 78.72 9.08 0.44 955.39
8 3.60 23.15 125.73 11.27 0.71 1,536.67
16 5.72 17.93 177.70 15.91 0.99 2,153.78
32 5.16 8.33 206.41 26.81 1.14 2,491.38
64 28.94 8.25 205.11 50.65 1.14 2,490.27
128 88.92 6.53 117.32 121.12 0.66 1,427.63
256 46.78 7.74 9.14 76.55 0.05 112.07