Cohere Command Light 6 B
Revise os benchmarks de desempenho do modelo cohere.command-light
(Cohere Command Light 6 B) hospedado em uma unidade Small Cohere de um cluster de IA dedicado na OCI Generative AI.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
---|---|---|---|---|
1 | 69.17 | 69.19 | 3.57 | 15.69 |
8 | 38.75 | 208.22 | 6.54 | 45.08 |
32 | 17.98 | 337.35 | 13.49 | 75.5 |
128 | 4.01 | 397.36 | 37.69 | 92.17 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
---|---|---|---|---|
1 | 71.85 | 54.49 | 1.74 | 30.21 |
8 | 41.91 | 191.52 | 2.87 | 105.63 |
32 | 31.37 | 395.49 | 3.55 | 216.87 |
128 | 28.27 | 557.57 | 3.9 | 302.44 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
---|---|---|---|---|
1 | 80.38 | 83.61 | 9.19 | 6.34 |
8 | 45.96 | 278.91 | 13.89 | 22.46 |
32 | 23.9 | 493.78 | 27.34 | 41.13 |
128 | 5.12 | 565.06 | 82.15 | 44.89 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por minuto) (RPM) |
---|---|---|---|---|
1 | 56.71 | 50.88 | 3.14 | 17.61 |
8 | 24.7 | 148.42 | 6.15 | 53.93 |
32 | 11.06 | 235.31 | 13.37 | 85.14 |
128 | 3.4 | 280.3 | 31.64 | 105.77 |