Meta Llama 4 Maverick
Revise os benchmarks de desempenho do modelo meta.llama-4-maverick-17b-128e-instruct-fp8
(Meta Llama 4 Scout) hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado na OCI Generative AI.
Comprimento aleatório
Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|---|
1 | 160.92 | 156.72 | 1.88 | 0.53 |
2 | 144.6 | 282.14 | 2.14 | 0.93 |
4 | 130.72 | 508.33 | 2.3 | 1.73 |
8 | 115.38 | 891.47 | 2.76 | 2.85 |
16 | 93.39 | 1,415.86 | 3.27 | 4.73 |
32 | 69.48 | 2,040.86 | 4.28 | 7.02 |
64 | 49.96 | 2,709.44 | 5.82 | 9.55 |
128 | 35.25 | 3,300.96 | 8 | 12.39 |
256 | 16.01 | 2,302.47 | 16.04 | 9.58 |
Chat
Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|---|
1 | 164.93 | 153.48 | 0.65 | 1.53 |
2 | 144.84 | 265.33 | 0.75 | 2.65 |
4 | 137.8 | 499.68 | 0.79 | 5 |
8 | 125.67 | 896.43 | 0.89 | 8.96 |
16 | 112.67 | 1,598.32 | 0.98 | 15.98 |
32 | 93.28 | 2,454.19 | 1.19 | 24.54 |
64 | 81.8 | 3,984.66 | 1.42 | 39.85 |
128 | 62.56 | 6,152.13 | 1.9 | 61.52 |
256 | 21.94 | 4,642.28 | 5.03 | 46.42 |
Geração pesada
Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|---|
1 | 161.55 | 159.91 | 6.24 | 0.16 |
2 | 145.3 | 286.51 | 6.95 | 0.29 |
4 | 136.6 | 541.22 | 7.38 | 0.54 |
8 | 127.96 | 1,009.45 | 7.89 | 1.01 |
16 | 111.65 | 1,750.32 | 9.06 | 1.75 |
32 | 90.76 | 2,855.66 | 11.14 | 2.86 |
64 | 75.55 | 4,702.83 | 13.41 | 4.7 |
128 | 59.49 | 7,378.83 | 17.11 | 7.38 |
256 | 22.47 | 5,622.02 | 44.94 | 5.62 |
RAG
O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.
Simultânea | Velocidade de Inferência no Nível do Token (token/segundo) | Throughput no nível do token (token/segundo) | Latência no nível da solicitação (segundo) | Throughput no nível da solicitação (Solicitação por segundo) (RPS) |
---|---|---|---|---|
1 | 161.27 | 149.17 | 1.33 | 0.75 |
2 | 142.81 | 266.51 | 1.49 | 1.33 |
4 | 132.11 | 475.77 | 1.65 | 2.38 |
8 | 121.12 | 819.25 | 1.91 | 4.1 |
16 | 103.7 | 1,288.25 | 2.36 | 6.44 |
32 | 79.09 | 1,806 | 3.29 | 9.03 |
64 | 60.38 | 2,453.36 | 4.73 | 12.27 |
128 | 42.01 | 2,970.15 | 7.53 | 14.85 |
256 | 17.37 | 2,601.33 | 16.93 | 13.01 |