Cohere Command R+ 08-2024

Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024 (Cohere Command R+ 08-2024) hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado na OCI Generative AI.

Consulte os detalhes do modelo e revise as seguintes seções:
- Regiões disponíveis para este modelo.
- Clusters de IA dedicados para hospedar este modelo.
Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0.58	59.4	51.39	3.97	0.25	177.94
2	0.54	56.82	99.37	4.07	0.49	343.94
4	0.55	53.54	187.3	4.29	0.92	629.78
8	0.55	45.14	321.74	4.98	1.57	1,086.9
16	0.58	37.45	527.84	6.06	2.52	1,803.26
32	0.71	31.06	835.95	7.05	4.17	2,930.36
64	1.12	21.23	1,013.92	9.91	5.36	3,690.25
128	2.46	12.27	1,013.5	15.17	6.28	4,184.62
256	28.89	11.97	711.27	41.84	4.49	2,995.92

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0.67	68.26	57.04	4.56	0.22	159.08
2	0.68	66.98	113.61	4.65	0.43	320.69
4	0.69	63.73	217.25	4.94	0.8	576.2
8	0.69	59.32	403.93	5.15	1.53	1,175.95
16	0.7	54.51	737.83	5.63	2.75	2,092.64
32	0.74	45.65	1,213.09	6.57	4.55	3,306.18
64	0.94	35.81	1,791.62	8.42	6.71	4,945.78
128	1.81	24.2	2,030.12	11.87	8.22	5,947.53
256	9.35	23.53	2,064.19	19.82	8.42	6,063.79

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0.51	59.64	44.86	1.99	0.5	93.29
2	0.5	57.81	87.16	2.02	0.98	182.21
4	0.51	54.31	164.73	2.12	1.86	344.89
8	0.52	46.73	290.36	2.43	3.22	601.4
16	0.57	40.77	496.24	2.76	5.52	1,031.61
32	0.97	34.74	786.28	3.53	8.77	1,634.87
64	1.03	25.08	1,074.45	4.57	12.13	2,249.96
128	1.93	17.46	1,402.86	7.15	15.58	2,908.96
256	6.39	14.68	1,321.52	12.48	14.82	2,754.62

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0.64	69.01	47.06	1.97	0.5	96.12
2	0.63	67.99	92.76	1.99	1	189.46
4	0.64	66.71	182.12	2.03	1.95	370.65
8	0.66	64.71	345.04	2.09	3.7	704.19
16	0.7	61.79	658.79	2.19	7.06	1,343.09
32	0.76	57.74	1,196.06	2.37	12.79	2,437.58
64	1.01	50.01	1,861.32	2.86	19.97	3,798.59
128	1.53	37.88	2,266.4	4	24.28	4,611.58
256	3.56	35.73	2,753.63	6.15	29.5	5,616.33

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0.53	61.54	58.82	12.2	0.08	66.68
2	0.53	59.46	113.88	14.32	0.14	127.24
4	0.52	56.83	216.43	13.34	0.29	244.89
8	0.52	50.35	383.52	14.16	0.55	436.81
16	0.55	45.71	681.87	16.28	0.94	772.85
32	0.61	42.04	1,203.12	16.03	1.81	1,378.76
64	0.85	32.83	1,870.11	19.12	2.99	2,159.32
128	1.72	24.8	2,728.79	27.59	3.96	3,112.68
256	17.43	24.51	2,532.47	43.73	3.69	2,889.44

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0.65	66.69	62.92	14.14	0.07	69.68
2	0.66	66.4	123.84	14.32	0.14	137.02
4	0.66	64.72	244.79	14.51	0.27	271.17
8	0.67	63.87	486.7	14.9	0.53	538.49
16	0.71	60.49	915.45	15.54	1.02	1,014.47
32	0.77	57.09	1,708.15	16.57	1.89	1,891.81
64	1.02	49.88	2,943.89	18.9	3.3	3,263.78
128	1.56	40.01	4,514.92	23.89	5.05	5,003.86
256	16.89	39.84	4,740.55	39.5	5.26	5,250.54

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0.68	58.51	48.56	4.08	0.24	533.48
2	0.77	55.59	91.08	4.35	0.46	1,001.07
4	0.98	51.26	162.12	4.87	0.81	1,784.54
8	1.52	42.35	251.89	6.25	1.26	2,768.79
16	2.3	32.91	371.92	8.47	1.86	4,093.1
32	3.91	28.74	555.48	11.29	2.78	6,108.24
64	5.98	15.69	627.51	19	3.14	6,898.71
128	8.99	7.11	577.71	36.95	2.9	6,359.07
256	31.42	6.27	541.87	63.18	2.72	5,975.51

O modelo cohere.command-r-plus-08-2024 hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad).


Simultânea	Time to First Token (TTFT)(segundo)	Velocidade de Inferência no Nível do Token (tokens/segundo)	Throughput no nível do token (tokens/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por segundo) (RPS)	Throughput Total (tokens/segundo)
1	0.76	69.52	54.09	3.46	0.29	625.42
2	0.82	67.31	103.91	3.62	0.55	1,200.85
4	0.94	63.19	189.23	3.91	1.01	2,198.58
8	1.18	57.13	331.56	4.48	1.77	3,858.68
16	1.7	48.48	524.4	5.64	2.79	6,090.47
32	2.68	38.31	735.33	7.84	3.9	8,523.79
64	4.09	22.66	894.11	12.58	4.73	10,335.98
128	6.69	10.61	819.11	24.39	4.35	9,499.74
256	21.64	9.16	803.95	42.18	4.25	9,287.02

Documentação do Oracle Cloud Infrastructure

Cohere Command R+ 08-2024

Comprimento aleatório

Chat

Geração pesada

RAG