Cohere Command R+ 08-2024
Revise os benchmarks de desempenho do modelo cohere.command-r-plus-08-2024
(Cohere Command R+ 08-2024) hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado na OCI Generative AI.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
- O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.58 59.4 51.39 3.97 0.25 177.94 2 0.54 56.82 99.37 4.07 0.49 343.94 4 0.55 53.54 187.3 4.29 0.92 629.78 8 0.55 45.14 321.74 4.98 1.57 1,086.9 16 0.58 37.45 527.84 6.06 2.52 1,803.26 32 0.71 31.06 835.95 7.05 4.17 2,930.36 64 1.12 21.23 1,013.92 9.91 5.36 3,690.25 128 2.46 12.27 1,013.5 15.17 6.28 4,184.62 256 28.89 11.97 711.27 41.84 4.49 2,995.92 - O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.67 68.26 57.04 4.56 0.22 159.08 2 0.68 66.98 113.61 4.65 0.43 320.69 4 0.69 63.73 217.25 4.94 0.8 576.2 8 0.69 59.32 403.93 5.15 1.53 1,175.95 16 0.7 54.51 737.83 5.63 2.75 2,092.64 32 0.74 45.65 1,213.09 6.57 4.55 3,306.18 64 0.94 35.81 1,791.62 8.42 6.71 4,945.78 128 1.81 24.2 2,030.12 11.87 8.22 5,947.53 256 9.35 23.53 2,064.19 19.82 8.42 6,063.79
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
- O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.51 59.64 44.86 1.99 0.5 93.29 2 0.5 57.81 87.16 2.02 0.98 182.21 4 0.51 54.31 164.73 2.12 1.86 344.89 8 0.52 46.73 290.36 2.43 3.22 601.4 16 0.57 40.77 496.24 2.76 5.52 1,031.61 32 0.97 34.74 786.28 3.53 8.77 1,634.87 64 1.03 25.08 1,074.45 4.57 12.13 2,249.96 128 1.93 17.46 1,402.86 7.15 15.58 2,908.96 256 6.39 14.68 1,321.52 12.48 14.82 2,754.62 - O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.64 69.01 47.06 1.97 0.5 96.12 2 0.63 67.99 92.76 1.99 1 189.46 4 0.64 66.71 182.12 2.03 1.95 370.65 8 0.66 64.71 345.04 2.09 3.7 704.19 16 0.7 61.79 658.79 2.19 7.06 1,343.09 32 0.76 57.74 1,196.06 2.37 12.79 2,437.58 64 1.01 50.01 1,861.32 2.86 19.97 3,798.59 128 1.53 37.88 2,266.4 4 24.28 4,611.58 256 3.56 35.73 2,753.63 6.15 29.5 5,616.33
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Para esse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
- O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.53 61.54 58.82 12.2 0.08 66.68 2 0.53 59.46 113.88 14.32 0.14 127.24 4 0.52 56.83 216.43 13.34 0.29 244.89 8 0.52 50.35 383.52 14.16 0.55 436.81 16 0.55 45.71 681.87 16.28 0.94 772.85 32 0.61 42.04 1,203.12 16.03 1.81 1,378.76 64 0.85 32.83 1,870.11 19.12 2.99 2,159.32 128 1.72 24.8 2,728.79 27.59 3.96 3,112.68 256 17.43 24.51 2,532.47 43.73 3.69 2,889.44 - O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.65 66.69 62.92 14.14 0.07 69.68 2 0.66 66.4 123.84 14.32 0.14 137.02 4 0.66 64.72 244.79 14.51 0.27 271.17 8 0.67 63.87 486.7 14.9 0.53 538.49 16 0.71 60.49 915.45 15.54 1.02 1,014.47 32 0.77 57.09 1,708.15 16.57 1.89 1,891.81 64 1.02 49.88 2,943.89 18.9 3.3 3,263.78 128 1.56 40.01 4,514.92 23.89 5.05 5,003.86 256 16.89 39.84 4,740.55 39.5 5.26 5,250.54
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
- O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para todas as regiões, exceto para a região Centro da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.68 58.51 48.56 4.08 0.24 533.48 2 0.77 55.59 91.08 4.35 0.46 1,001.07 4 0.98 51.26 162.12 4.87 0.81 1,784.54 8 1.52 42.35 251.89 6.25 1.26 2,768.79 16 2.3 32.91 371.92 8.47 1.86 4,093.1 32 3.91 28.74 555.48 11.29 2.78 6,108.24 64 5.98 15.69 627.51 19 3.14 6,898.71 128 8.99 7.11 577.71 36.95 2.9 6,359.07 256 31.42 6.27 541.87 63.18 2.72 5,975.51 - O modelo
cohere.command-r-plus-08-2024
hospedado em uma unidade Large Cohere V2_2 de um cluster de IA dedicado para a região Central da Arábia Saudita (Riad). -
Simultânea Time to First Token (TTFT)(segundo) Velocidade de Inferência no Nível do Token (tokens/segundo) Throughput no nível do token (tokens/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS) Throughput Total (tokens/segundo) 1 0.76 69.52 54.09 3.46 0.29 625.42 2 0.82 67.31 103.91 3.62 0.55 1,200.85 4 0.94 63.19 189.23 3.91 1.01 2,198.58 8 1.18 57.13 331.56 4.48 1.77 3,858.68 16 1.7 48.48 524.4 5.64 2.79 6,090.47 32 2.68 38.31 735.33 7.84 3.9 8,523.79 64 4.09 22.66 894.11 12.58 4.73 10,335.98 128 6.69 10.61 819.11 24.39 4.35 9,499.74 256 21.64 9.16 803.95 42.18 4.25 9,287.02