- 10 May 2024
- 1 Minute to read
- Print
- DarkLight
- PDF
Nombre maximal d'utilisateurs simultanés
- Updated on 10 May 2024
- 1 Minute to read
- Print
- DarkLight
- PDF
Nombre maximal d'utilisateurs simultanés
Pour 300 utilisateurs simultanés 95% des réponses obtenues en moins de 20 secondes
Avec deux GPUs dédiés de type H100, c'est-à-dire la configuration standard recommandée pour déployer Paradigm, pour 300 utilisateurs simultanés nous obtenons une latence p95 de 20 secondes. C'est à dire qu'avec 300 utilisateurs simultanément connectés sur Paradigm et faisant des requêtes au LLM à un rythme naturel, 95% des réponses sont obtenues en moins de 20 secondes. Autrement dit le temps entre l'envoi de la requête par l'utilisateur et la fin de l'affichage complet de la réponse (incluant l'affichage progressif du texte) est de moins de 20 secondes dans 95% des cas.
Un temps de réponse médian de 2 secondes
Dans cette même configuration (2 GPUs H100, 300 utilisateurs simultanés), 50% des réponses sont fournies par le LLM en moins de 2 secondes (latence p50 de 2 secondes).
Impact sur le dimensionnement de l'infrastructure
Ces chiffres sont à prendre comme point de repère pour dimensionner l'infrastructure nécessaire au déploiement de Paradigm dans votre entreprise. Avec plus de GPUs et moins d'utilisateurs simultanés Paradigm sera plus rapide, et inversement avec moins de GPUs et plus d'utilisateurs simultanés, la latence sera plus élevée.
Tous ces tests ont été effectués avec notre modèle Alfred.