Cohere Embed Multilingual Image 3

OCI生成AIの専用AIクラスタの1つのEmbed Cohereユニットでホストされているcohere.embed-multilingual-image-v3.0 (Cohere Embed Multilingual Image 3)モデルのパフォーマンス・ベンチマークを確認します。

  • モデルの詳細を参照し、次のセクションを確認してください:
    • このモデルで使用可能なリージョン。
    • このモデルをホストするための専用AIクラスタ。
  • メトリックを確認します。

テキスト埋め込み

このシナリオは、テキスト入力を含む埋込みモデルにのみ適用されます。このシナリオは、ベクトル・データベースのデータ取込みパイプラインの一部として生成を埋め込むことを模倣します。各シナリオでは、すべてのリクエストが同じサイズ(96ドキュメント)で、それぞれが同じ数のトークンを持ちます。たとえば、512トークンのシナリオでは、大きなPDFファイルの集合を模倣します。各ファイルには、ユーザーがベクトルDBに取り込む30,000以上の単語が含まれています。

64 トークン

次の表に、96ドキュメント、ドキュメントごとに64トークンというシナリオのベンチマークを示します。

専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.10 0.10 9.86 607.39
2 0.10 0.10 9.66 1,192.60
4 0.11 0.11 9.30 2,295.80
8 0.11 0.11 8.69 4,296.59
24 0.15 0.15 6.69 9,900.74
48 0.19 0.19 5.10 15,114.13
96 0.28 0.28 3.43 20,339.92

128 トークン

次の表に、96ドキュメント、1ドキュメント当たり128トークンのシナリオのベンチマークを示します。

専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.10 0.10 9.78 1,243.08
2 0.10 0.10 9.55 2,428.37
4 0.11 0.11 9.16 4,660.31
8 0.12 0.12 8.42 8,561.42
24 0.15 0.15 6.31 19,255.04
48 0.21 0.21 4.62 28,172.80
96 0.31 0.31 3.01 36,706.87

256 トークン

次の表に、96ドキュメント、1ドキュメント当たり256トークンのシナリオのベンチマークを示します。

専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.10 0.10 9.65 2,493.61
2 0.10 0.10 9.37 4,840.64
4 0.11 0.11 8.81 9,107.30
8 0.12 0.12 7.88 16,286.08
24 0.17 0.17 5.50 34,074.47
48 0.24 0.24 3.85 47,783.85
96 0.43 0.43 2.16 53,652.55

512 トークン

次の表に、96ドキュメント、ドキュメント当たり512トークンのシナリオのベンチマークを示します。

専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.10 0.10 9.21 4,791.85
2 0.11 0.11 8.74 9,094.38
4 0.12 0.12 7.76 16,165.29
8 0.15 0.15 6.39 26,582.37
24 0.23 0.23 4.03 50,284.92
48 0.37 0.37 2.44 61,014.65
96 0.63 0.63 1.42 71,048.17

1,024 トークン

次の表に、96ドキュメント、1ドキュメント当たり1,024トークンのシナリオのベンチマークを示します。

専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.09 0.09 8.96 9,348.26
2 0.10 0.10 8.25 17,233.64
4 0.12 0.12 6.87 28,670.18
8 0.15 0.15 5.37 44,877.47
24 0.28 0.28 2.86 71,733.22
48 0.53 0.53 1.52 76,050.39
96 0.99 0.99 0.80 80,597.64

2,048 トークン

次の表に、96ドキュメント、ドキュメント当たり2,048トークンのシナリオのベンチマークを示します。

専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.11 0.11 8.16 17,069.42
2 0.13 0.13 7.17 30,023.10
4 0.15 0.15 5.82 48,737.45
8 0.21 0.21 4.21 70,449.76
24 0.48 0.48 1.79 90,090.74
48 0.93 0.93 0.92 92,553.18
96 1.68 1.68 0.51 101,574.61

8,096 トークン

次の表に、96ドキュメント、ドキュメント当たり8,096トークンのシナリオのベンチマークを示します。

専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.15 0.15 5.40 44,724.35
2 0.20 0.20 4.05 67,118.88
4 0.31 0.31 2.59 85,752.57
8 0.59 0.59 1.41 93,369.42
24 1.56 1.56 0.53 105,492.68
48 2.84 2.84 0.29 115,098.50
96 5.27 5.27 0.15 121,706.97

32,000 トークン

次の表に、96ドキュメント、ドキュメント当たり32,000トークンのシナリオのベンチマークを示します。

専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 0.38 0.38 1.90 62,367.46
2 0.57 0.57 1.30 85,209.04
4 1.05 1.05 0.75 97,631.79
8 1.91 1.91 0.42 109,411.13
24 5.12 5.12 0.16 122,915.27

128,000 トークン

次の表に、96ドキュメント、1ドキュメント当たり128,000トークンのシナリオのベンチマークを示します。

専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0モデル。
同時実行性 最初のトークンまでの時間(TTFT)(秒) リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS) 合計スループット(トークン/秒)
1 1.00 1.00 0.99 121,894.93
2 2.26 2.26 0.44 134,957.95
4 3.36 3.36 0.29 146,216.07

イメージ埋込み

このシナリオは、イメージ入力のある埋込みモデルにのみ適用されます。各シナリオで、I(M、N): 高さNpxおよび幅Mpxのイメージは、高さMおよび幅Nピクセルのイメージを表します。たとえば、I(1024,512)は、高さが1,024ピクセル、幅が512ピクセルのイメージです。

I(512,512)

次の表は、高さと幅が512ピクセルのイメージのシナリオで、専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0を使用した専用AIクラスタ・ベンチマークのホスティングを示しています。

同時実行性 リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 0.13 6.50
2 0.13 12.20
4 0.14 22.71
8 0.15 39.19
16 0.19 62.23
32 0.31 80.75
64 0.46 113.57
128 1.25 83.80
256 2.60 80.95

I(1024,512)

次の表は、高さが1,024ピクセル、幅が512ピクセルのイメージのシナリオで、専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0を使用したホスティング専用AIクラスタ・ベンチマークを示しています。

同時実行性 リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 0.14 5.79
2 0.14 10.67
4 0.16 18.74
8 0.17 32.08
16 0.24 47.64
32 0.44 58.76
64 0.93 60.67
128 1.71 64.96
256 3.06 68.54

I(2048年、2048年)

次の表は、高さと幅が2,048ピクセルのイメージのシナリオで、専用AIクラスタの1つのEmbed Cohereユニットでホストされるcohere.embed-multilingual-image-v3.0を使用した専用AIクラスタ・ベンチマークのホスティングを示しています。

同時実行性 リクエスト・レベルのレイテンシ(秒) リクエスト・レベルのスループット(リクエスト/秒) (RPS)
1 0.26 2.82
2 0.30 4.77
4 0.29 10.43
8 0.34 18.14
16 0.57 21.93
32 1.09 25.44
64 2.08 26.99
128 4.14 26.24
256 10.17 23.60