Cohere Command Light 6 B

Revise os benchmarks de desempenho do modelo cohere.command-light (Cohere Command Light 6 B) hospedado em uma unidade Small Cohere de um cluster de IA dedicado na OCI Generative AI.

Consulte os detalhes do modelo e revise as seguintes seções:
- Regiões disponíveis para este modelo.
- Clusters de IA dedicados para hospedar este modelo.
Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	69.17	69.19	3.57	15.69
8	38.75	208.22	6.54	45.08
32	17.98	337.35	13.49	75.5
128	4.01	397.36	37.69	92.17

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	71.85	54.49	1.74	30.21
8	41.91	191.52	2.87	105.63
32	31.37	395.49	3.55	216.87
128	28.27	557.57	3.9	302.44

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	80.38	83.61	9.19	6.34
8	45.96	278.91	13.89	22.46
32	23.9	493.78	27.34	41.13
128	5.12	565.06	82.15	44.89

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.


Simultânea	Velocidade de Inferência no Nível do Token (token/segundo)	Throughput no nível do token (token/segundo)	Latência no nível da solicitação (segundo)	Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1	56.71	50.88	3.14	17.61
8	24.7	148.42	6.15	53.93
32	11.06	235.31	13.37	85.14
128	3.4	280.3	31.64	105.77

Documentação do Oracle Cloud Infrastructure

Cohere Command Light 6 B

Comprimento aleatório

Chat

Geração pesada

RAG