Nombre maximal d'utilisateurs simultanés
  • 10 May 2024
  • 1 Minute to read
  • Contributors
  • Dark
    Light
  • PDF

Nombre maximal d'utilisateurs simultanés

  • Dark
    Light
  • PDF

Article summary

Nombre maximal d'utilisateurs simultanés

Pour 300 utilisateurs simultanés 95% des réponses obtenues en moins de 20 secondes

Avec deux GPUs dédiés de type H100, c'est-à-dire la configuration standard recommandée pour déployer Paradigm, pour 300 utilisateurs simultanés nous obtenons une latence p95 de 20 secondes. C'est à dire qu'avec 300 utilisateurs simultanément connectés sur Paradigm et faisant des requêtes au LLM à un rythme naturel, 95% des réponses sont obtenues en moins de 20 secondes. Autrement dit le temps entre l'envoi de la requête par l'utilisateur et la fin de l'affichage complet de la réponse (incluant l'affichage progressif du texte) est de moins de 20 secondes dans 95% des cas.

Un temps de réponse médian de 2 secondes

Dans cette même configuration (2 GPUs H100, 300 utilisateurs simultanés), 50% des réponses sont fournies par le LLM en moins de 2 secondes (latence p50 de 2 secondes).

Impact sur le dimensionnement de l'infrastructure

Ces chiffres sont à prendre comme point de repère pour dimensionner l'infrastructure nécessaire au déploiement de Paradigm dans votre entreprise. Avec plus de GPUs et moins d'utilisateurs simultanés Paradigm sera plus rapide, et inversement avec moins de GPUs et plus d'utilisateurs simultanés, la latence sera plus élevée.

Note

Tous ces tests ont été effectués avec notre modèle Alfred.


Was this article helpful?