Cohere Command Light 6 B

Revise os benchmarks de desempenho do modelo cohere.command-light (Cohere Command Light 6 B) hospedado em uma unidade Small Cohere de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 69.17 69.19 3.57 15.69
8 38.75 208.22 6.54 45.08
32 17.98 337.35 13.49 75.5
128 4.01 397.36 37.69 92.17

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 71.85 54.49 1.74 30.21
8 41.91 191.52 2.87 105.63
32 31.37 395.49 3.55 216.87
128 28.27 557.57 3.9 302.44

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 80.38 83.61 9.19 6.34
8 45.96 278.91 13.89 22.46
32 23.9 493.78 27.34 41.13
128 5.12 565.06 82.15 44.89

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por minuto) (RPM)
1 56.71 50.88 3.14 17.61
8 24.7 148.42 6.15 53.93
32 11.06 235.31 13.37 85.14
128 3.4 280.3 31.64 105.77