Meta Llama 4 Maverick

Revise os benchmarks de desempenho do modelo meta.llama-4-maverick-17b-128e-instruct-fp8 (Meta Llama 4 Scout) hospedado em uma unidade Large Generic 2 de um cluster de IA dedicado na OCI Generative AI.

  • Consulte os detalhes do modelo e revise as seguintes seções:
    • Regiões disponíveis para este modelo.
    • Clusters de IA dedicados para hospedar este modelo.
  • Verifique as métricas.

Comprimento aleatório

Esse cenário imita casos de uso de geração de texto em que o tamanho do prompt e da resposta é desconhecido antecipadamente. Por causa dos comprimentos de prompt e resposta desconhecidos, usamos uma abordagem estocástica em que tanto o comprimento de prompt quanto o comprimento de resposta seguem uma distribuição normal. O comprimento do prompt segue uma distribuição normal com uma média de 480 tokens e um desvio padrão de 240 tokens. O comprimento da resposta segue uma distribuição normal com uma média de 300 tokens e um desvio padrão de 150 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 160.92 156.72 1.88 0.53
2 144.6 282.14 2.14 0.93
4 130.72 508.33 2.3 1.73
8 115.38 891.47 2.76 2.85
16 93.39 1,415.86 3.27 4.73
32 69.48 2,040.86 4.28 7.02
64 49.96 2,709.44 5.82 9.55
128 35.25 3,300.96 8 12.39
256 16.01 2,302.47 16.04 9.58

Chat

Esse cenário abrange casos de uso de chat e diálogo em que o prompt e as respostas são curtos. O prompt e o tamanho da resposta são fixados em 100 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 164.93 153.48 0.65 1.53
2 144.84 265.33 0.75 2.65
4 137.8 499.68 0.79 5
8 125.67 896.43 0.89 8.96
16 112.67 1,598.32 0.98 15.98
32 93.28 2,454.19 1.19 24.54
64 81.8 3,984.66 1.42 39.85
128 62.56 6,152.13 1.9 61.52
256 21.94 4,642.28 5.03 46.42

Geração pesada

Esse cenário é para casos de uso pesados de resposta de geração e modelo. Por exemplo, uma descrição longa do cargo gerada a partir de uma lista curta de itens. Nesse caso, o comprimento do prompt é fixado em 100 tokens e o comprimento da resposta é fixado em 1.000 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 161.55 159.91 6.24 0.16
2 145.3 286.51 6.95 0.29
4 136.6 541.22 7.38 0.54
8 127.96 1,009.45 7.89 1.01
16 111.65 1,750.32 9.06 1.75
32 90.76 2,855.66 11.14 2.86
64 75.55 4,702.83 13.41 4.7
128 59.49 7,378.83 17.11 7.38
256 22.47 5,622.02 44.94 5.62

RAG

O cenário de geração aumentada de recuperação (RAG) tem um prompt muito longo e uma resposta curta, como resumir casos de uso. O comprimento do prompt é fixado em 2.000 tokens e o comprimento da resposta é fixado em 200 tokens.

Simultânea Velocidade de Inferência no Nível do Token (token/segundo) Throughput no nível do token (token/segundo) Latência no nível da solicitação (segundo) Throughput no nível da solicitação (Solicitação por segundo) (RPS)
1 161.27 149.17 1.33 0.75
2 142.81 266.51 1.49 1.33
4 132.11 475.77 1.65 2.38
8 121.12 819.25 1.91 4.1
16 103.7 1,288.25 2.36 6.44
32 79.09 1,806 3.29 9.03
64 60.38 2,453.36 4.73 12.27
128 42.01 2,970.15 7.53 14.85
256 17.37 2,601.33 16.93 13.01