Main Content

Résultats du concours pour l'allocation de ressources pour 2024

Sommaire

La Fédération de l’Alliance de recherche numérique du Canada est responsable de la plateforme canadienne de calcul informatique de pointe en partenariat avec les organisations régionales Compute Ontario, Calcul Québec, ACENET, le Groupe de l’IRN de la C.-B., le Groupe de l’IRN des Prairies, ainsi que des établissements de partout au pays. Offrant l’infrastructure et l’expertise pour des recherches transformatrices de niveau international, cette plateforme desservait au 1er janvier 2024 plus de 20 000 utilisatrices et utilisateurs, dont plus de 5 483 chercheuses et chercheurs canadiens.

Dans le cadre du concours pour l’allocation des ressources pour 2024, la plateforme nationale de calcul informatique de pointe dispose d’environ 232 560 CPU, 56 405 vCPU (CPU virtuels), 4 237 Unités GPU de référence (UGR-années) et 210,7 Po d’espace de stockage sur les grappes Arbutus (Université Victoria), Cedar (Université Simon-Fraser), Graham (Université de Waterloo), Niagara (Université de Toronto), et Béluga et Narval (Calcul Québec). 

L’augmentation sans cesse croissante des besoins fait que la demande reste toujours plus forte que l’offre. 

Cette année, le concours a pu combler 42 % des besoins en ressources de calcul, 76 % des besoins en espace de stockage et 21 % des besoins en GPU-années. D’autre part, les besoins en vCPU sur les nuages Arbutus, Béluga, Cedar et Graham ont été satisfaits à 70 %. Un total de 670 candidatures ont été présentées, soit 77 demandes de moins que l’année dernière, en raison principalement de l’augmentation du minimum de ressources requises pour l’admissibilité au concours.

Remarque : La somme de 225 millions de dollars en financement de capital reçue de sources fédérales, provinciales et institutionnelles nous permettra de remplacer plusieurs systèmes de l’Alliance d’ici au printemps 2025. Nous nous efforcerons de minimiser les effets sur les travaux de recherche, mais le processus de transition des systèmes actuels vers les nouveaux systèmes nécessitera des interruptions de service au cours de l'hiver 2025. Il est donc possible que certains projets ne puissent pas utiliser pleinement leurs allocations au cours de l'année. Les chercheuses et chercheurs sont invités à consulter la page sur l’état des systèmes (https://status.alliancecan.ca) pour de l’information sur les changements en cours. Les nouveaux équipements augmenteront de façon importante la quantité de ressources de stockage et de calcul, en plus d’en améliorer la fiabilité et la disponibilité.

 

Tableau 1 : Candidatures soumises

Année

Demandes reçues

Augmentation par rapport à l’année précédente

2024

670

-5 %

2023

707

-1 %

2022

716

10 %

2021

651

10 %

2020

590

16 %

2019

507

8 %

2018

469

15 %

2017

409

12 %

2016

366

5 %

 

Pour la définition de plusieurs termes utilisés ici, consultez le glossaire technique. Toute question relative au présent rapport peut être adressée à allocations@tech.alliancecan.ca.

 

Ressources de calcul informatique de pointe

Capacité minimale pour un projet et accès opportuniste aux ressources de calcul

Pour être admissible à présenter une demande, un projet doit nécessiter un minimum de 200 cœurs-années CPU et 25 RGU-années. Ces valeurs servent en partie à contrôler la quantité de demandes qui doivent être soumises à l’examen scientifique. Le fait de disposer d’une allocation qui respecte la capacité minimale garantit une plus haute priorité aux tâches soumises. 

Outre les ressources allouées via le concours, tous les chercheurs et chercheuses ainsi que leurs utilisateurs parrainés peuvent se prévaloir d’un accès opportuniste aux CPU et aux GPU pourvu qu'ils disposent d’un compte actif. Puisque l’utilisation est purement opportuniste, il est impossible de garantir combien de ressources peuvent être consommées par les projets qui n’ont pas fait l’objet d’une demande au concours.

L’historique de l’utilisation montre que plusieurs groupes qui n’ont pas obtenu d’allocation par le concours peuvent atteindre et même dépasser les minimums mentionnés ci-dessus. Pour maximiser l’utilisation des ressources en calcul, les stratégies suivantes sont employées :

  • conserver des tâches dans la queue de façon régulière;
  • tolérer un temps d’attente plus long avant le lancement des tâches;
  • soumettre des tâches ayant des caractéristiques optimales

Par exemple, des tâches opportunistes de courte durée qui nécessitent quelques cœurs d’une grappe d’usage général seront habituellement exécutées plus rapidement que celles qui requièrent quelques dizaines de cœurs.

Pour savoir comment maximiser l’utilisation de ressources si vous ne disposez pas de ressources allouées via le concours, veuillez lire attentivement les pages Allocation et ordonnancement et Politique d’ordonnancement des tâches ou écrivez à support@tech.alliancecan.ca.

Allocations de CPU

Le concours de 2024 a satisfait à 43 % la demande en CPU, ce qui représente une baisse de 5 % par rapport à l’année dernière. Béluga, Cedar, Graham, Narval et Niagara fournissent environ 232 560 cœurs, dont près de 80 % sont alloués via le concours.

Tableau 2 : Allocations de CPU pour 2024

Grappe

Cœurs-années disponibles*

Cœurs-années demandés

Cœurs-années alloués*

Pourcentage de la capacité totale allouée

Béluga

28 960

46 540

20 164

70 %

Cedar

40 000,00

92 684

39 212

98 %

Graham

26 000

43 136

15 792

61 %

Narval

61 760

112 007

50 503

82 %

Niagara

75 840

150 443

63 431

84 %

Total

232 560

444 810

189 102

81 %

 

* La quantité allouée inclut les ressources qui ne seront pas disponibles lors d’arrêts de service en raison des mises à jour. Par exemple, une allocation de 100 cœurs pour la période 2024-2025 sur une grappe qui serait hors service pour une mise à jour est chiffrée à 100 cœurs-années même si la grappe n’est en service que pour 11 mois. La portion non allouée de la grappe qui est mise à la disposition pour une utilisation opportuniste (sans allocation via le concours) est la différence entre les ressources disponibles et les ressources allouées, ce qui inclut des ressources qui risquent d’être inutilisables parce qu’elles ne sont pas supportées ou qu’elles font l’objet d’un arrêt de service non planifié. Cette portion des ressources disponibles est en pratique beaucoup plus petite, plus intermittente et moins fiable que le tableau ne le laisse entendre. 

Tableau 3 : Évolution de la demande de CPU

Année

Cœurs-années disponibles

Cœurs-années demandés

Cœurs-années alloués

Demande satisfaite à

2024

232 560

444 810

189 102

43  %

2023

263 326

460 346

216 164

47  %

2022

293 312

436 780

234 275

  54  %

2021

232 704

468 498

188 925

40  %

2020

232 704

455 892

181 502

40  %

2019

201 320

390 352

157 262

40  %

2018

211 020

287 347

158 612

56  %

2017

182 760

255 638

148 100

58  %

2016

155 952

237 862

128 463

54  %

 

 

Mise à l’échelle des demandes de CPU

Comme mentionné au préalable, les ressources en calcul informatique de pointe ne suffisaient pas à satisfaire les demandes reçues pour la période 2024-2025.

Les demandes ont donc été mises à l’échelle pour les adapter aux ressources insuffisantes. La procédure, cautionnée par les présidentes et présidents des comités d’examen, a été mise en place afin que seules les candidatures ayant reçu une note supérieure à 2,0 (sur 5) obtiennent une allocation de ressources. Les chercheuses et chercheurs qui n’ont pas obtenu l’allocation de CPU peuvent toutefois se prévaloir de la possibilité d’une utilisation opportuniste par le biais du service d'accès rapide. La note moyenne attribuée à l’ensemble des demandes pour 2024 se situe à 3,9.

Les demandes en termes de CPU sont mises à l’échelle d’après la note générale obtenue par la demande et la capacité demandée. Les détails de la fonction de mise à l’échelle et quelques exemples sont présentés ici. Pour plus d’information, écrivez à allocations@tech.alliancecan.ca.

Allocations de GPU

À partir du concours pour 2024, le concept d'unité GPU de référence (UGR) est utilisé pour demander, allouer et mesurer la quantité des ressources GPU. L’UGR mesure le coût d'utilisation d’un modèle particulier de GPU puisque la performance de chacun est différente. Les allocations de GPU et le calcul de leur utilisation se font dorénavant en UGR-années plutôt qu’en GPU-années; pour plus d'information, consultez ce paragraphe. Puisqu’il s’agit d’une nouvelle unité de mesure, nous ne possédons pas de données historiques pour leur capacité, la demande et les allocations; le tableau 4 montre donc les valeurs en UGR-années alors que le tableau 5 décrit les GPU-années.

La concurrence pour les ressources GPU est toujours plus forte que celle pour les CPU; le tableau 5 indique que la demande de GPU a été stable au cours des quatre dernières années, mais que l’écart entre la demande et la capacité disponible reste assez important. La demande d'UGR-années pour 2024 a été satisfaite à 21 %.  

Tableau 4 : Allocation de GPU par grappe pour 2024 (en UGR-années)

Grappe

UGR-années
demandés 

UGR-années
alloués

UGR-années
disponibles

Pourcentage de la capacité
totale allouée

Béluga

4 164

1 219

1 548

79 %

Cedar

5 686

1 660

1 922

86 %

Graham

2 751

448

598

75 %

Narval

11 389

1 695

2 096

81 %

Total

23 990

5 022

6 164

81 %

* La quantité allouée inclut les ressources qui ne seront pas disponibles lors d’arrêts de service en raison des mises à jour. Par exemple, une allocation de 10 GPU-années (ou 26 UGR-années) 2024-2025 sur une grappe qui serait hors service pour une mise à jour est chiffrée à 10 GPU-années (ou 26 UGR-années) même si la grappe n’est en service que pour 11 mois. La portion non allouée de la grappe qui est mise à la disposition pour une utilisation opportuniste (sans allocation via le concours) est la différence entre les ressources disponibles et les ressources allouées, ce qui inclut des ressources qui risquent d’être inutilisables parce qu’elles ne sont pas supportées ou qu’elles font l’objet d’un arrêt de service non planifié. Cette portion des ressources disponibles est en pratique beaucoup plus petite, plus intermittente et moins fiable que le tableau ne le laisse entendre.  

Tableau 5 : Évolution de la demande de GPU (en GPU-années)

Année

GPU-années disponibles

GPU-années

demandés

GPU- années alloués

Demande satisfaite à

2024

2 416

8 947

1 935

22 %

2023

2 569

9 826

2 012

20 %

2022

3 062

9 070

2 161

24 %

2021

2 610

9 980

2 187

22 %

2020

2 552

12 885

1 936

15 %

2019

1 664

6 555

1 331

20 %

2018

976

4 092

840

20 %

2017

1 420

2 790

1 047

39 %

2016

373

1 357

269

20 %

 

 

Mise à l’échelle des demandes de GPU

Les allocations de GPU sont déterminées d’après 

  • la note générale obtenue par la demande; 
  • la justification technique des besoins en ressources; 
  • la preuve d’une utilisation précédente de GPU; 
  • le domaine de recherche (par exemple intelligence artificielle, apprentissage machine, etc.); et 
  • la taille du groupe de recherche.

Il ne faut pas oublier que :

  • les chercheuses et chercheurs qui présentent une demande trouvent difficile d’estimer leurs besoins en GPU et, dans la plupart des cas, ils en demandent beaucoup plus que nécessaire. Avant de présenter une demande, nous les encourageons fortement à faire deux choses : 1. commencer à utiliser les GPU pour mieux cerner leurs besoins, et 2. consulter notre équipe technique qui peut les aider à évaluer la performance de leurs programmes et à estimer plus exactement leurs besoins en GPU;
  • les allocations de GPU sont contraintes entre autres par le type de GPU demandé et le nombre disponible sur chaque grappe;
  • les demandes de GPU pour des applications d’intelligence artificielle ont considérablement augmenté.

Allocations de stockage 

Ensemble, les ressources intégrées à Arbutus, Béluga, Cedar, Graham, Narval et Niagara permettent le stockage en ligne d'environ 210,7  Po pour 2024. Ainsi, 76 % de la capacité de stockage a été allouée.

 


 

Tableau 6 : Évolution de la demande de stockage

Année

Stockage disponible (To)

Stockage demandé (To)

Stockage alloué (To)

Demande satisfaite à

2024

210 764

209 642

159 746

76 %

2023

190 479

192 363

153 639

72 %

2022

190 479

161 186

151 775

87 %

2021

150 915

135 427

122 272

91 %

2020

143 914

109 718

100 222

90 %

2019

101 344

89 898

77 923

94 %

2018

63 340

60 126

43 508

80 %

 

 Tableau 7 : Allocations de stockage, par type

Catégorie

Type 

Espace disponible 

Espace demandé 

Espace alloué      

Demande satisfaite à

CHP

project

63 550

81 400

51 438

81 %

CHP

nearline

117 800

87 561

77 536

66 %

CHP

dCache

13 467

18 300

13 467

100 %

nuage

volumes et instantanés

4 947

3,389

3 175

64 %

nuage

objet 

15 803

15 803

11 135

100 %

nuage

partagé

3 000

3 223

3 060

102 %

 

Total

210 764

209 676

159 811

76%

 

Allocations de ressources infonuagiques

La grappe Arbutus de l’Université de Victoria peut allouer 41 920 vCPU (CPU virtuels). Ils sont disponibles via le concours et via le service d’accès rapide et sont aussi utilisés par les services internes pour le développement de logiciels et l’hébergement. De petites capacités infonuagiques sont aussi disponibles sur Cedar, Graham et Béluga. Pour 2024, la demande totale de vCPU a augmenté de 30 %  : la demande pour les vCPU de calcul est en hausse de 30% et celle pour les vCPU persistants de 43%.

Le surprovisionnement des vCPU persistants à un ratio de 10:1 a permis une expansion significative des allocations persistantes au cours des dernières années. La demande pour des cœurs réels continue d’augmenter alors que la capacité disponible diminue en raison du matériel qui exige de plus en plus de maintenance. Ceci résulte en une utilisation qui dépasse largement les 80 %, un seuil au-delà duquel l’ordonnancement d’instances de calcul plus exigeantes devient difficile.

Avec Arbutus et les nœuds ajoutés à Cedar, Graham et Béluga, nous avons pu allouer par le concours 70 % des vCPU demandés, soit 7 % de moins que l'année dernière. 

Tableau 8 : Évolution de la demande de vCPU

Année

vCPU-années disponibles

vCPU-années

demandés

vCPU- années alloués

Demande satisfaite à

2024

56 405

46 192

32 511

70 %

2023

56 405

35 618

27 313

77 %

2022

62 549

34 536

27 444

79 %

2021

62 549

30 323

24 443

81 %

2020

50 501

18 330

18 229

99 %

2019

29 147

19 479

18 511

95 %

2018

24 854

12 480

11 829

95 %


 

 

Processus d'évaluation

Deux processus d’évaluation sont en place :

  • un examen scientifique effectué bénévolement par plus de 100 pairs experts en provenance de divers établissements d’enseignement canadiens qui jugent du mérite des projets soumis. Chaque demande reçoit une note qui sert à guider objectivement les décisions relatives à l’allocation des ressources;
     
  • une évaluation technique effectuée par le personnel, qui vérifie le bien-fondé des ressources décrites dans la demande et recommande la grappe appropriée au projet, selon ses besoins.

Les processus d’évaluation sont supervisés par le comité administratif du programme d’accès aux ressources composé de représentants de chacune des régions et des sites hôtes de l’infrastructure nationale de calcul.

Les nouvelles demandes sont soumises aux examens techniques et scientifiques, alors que seul un examen technique est fait pour les demandes accélérées et les demandes pluriannuelles pour les projets de plateformes et portails de recherche.

Principes directeurs

Les principes directeurs du concours pour l’allocation des ressources sont :

  • toutes les demandes sont traitées équitablement;
  • les ressources sont allouées sur la base du mérite du projet plutôt que sur le mérite du programme de recherche; 
  • la quantité de ressources allouée n’est pas directement proportionnelle à la qualité ou à l’excellence des résultats escomptés; certaines recherches importantes peuvent être accomplies avec relativement peu de ressources;  
  • les difficultés posées par le manque de ressources et les autres contraintes liées aux systèmes sont partagées entre toutes les candidatures.

Examen technique

Cet examen est effectué par l'équipe technique pour

  • veiller à ce que le chercheur principal ou la chercheuse principale soumette une demande pour une ressource appropriée;
  • vérifier la disponibilité des logiciels nécessaires;
  • évaluer l'efficacité et la scalabilité de la demande;
  • identifier les groupes qui pourraient avoir besoin d’aide avec l’optimisation du code et des processus;
  • relever les disparités entre la demande soumise en ligne et la description complète du projet;
  • repérer les exigences logicielles particulières;
  • fournir une opinion technique sur le caractère raisonnable de la demande.

Avant d’avoir accès aux demandes, le personnel technique doit signer une entente de confidentialité et de non-divulgation.

Examen scientifique

Un comité de pairs experts examine chaque demande et lui attribue une note au mérite scientifique. Avant d’avoir accès aux demandes, les membres des comités de pairs experts doivent signer une entente de confidentialité et de non-divulgation et accepter de se conformer à la politique en matière de conflits d’intérêts.

La note accordée à une demande se base sur :

  • l'excellence scientifique du projet pour lequel les ressources de calcul sont demandées;
  • la faisabilité scientifique et technique du projet;
  • la pertinence des ressources demandées par rapport aux objectifs du projet;
  • la probabilité que les ressources demandées seront utilisées de façon efficiente.

Les demandes sont évaluées par les comités suivants : 

  • Astronomie, astrophysique et cosmologie
  • Bio-informatique
  • Chimie, biochimie et biophysique
  • Sciences informatiques et mathématiques
  • Génie
  • Sciences de la Terre et de l’environnement
  • Sciences humaines et sociales
  • Nanotechnologie, matériaux et matière condensée
  • Neurosciences, imagerie médicale et physique médicale
  • Physique des particules subatomiques, physique nucléaire et physique cosmique

Valeur monétaire des allocations pour 2024

Le tableau suivant montre les moyennes pour l’ensemble de la plateforme de calcul de haute performance; les montants incluent le coût en capital et le coût d’exploitation des ressources et services. Il ne s’agit pas de la valeur sur le marché. La valeur est calculée sur une base annuelle.

Tableau 9 : Valeur des allocations

Ressources

2024

1 cœur-année

107,63 $

1 UGR-année

1 145,31 $

1 To de stockage /project par année

59,24 $

1 To de stockage /nearline par année

26,53 $

1 vCPU-année

39,15 $

1 To de stockage pour les volumes et instantanés (Ceph) par année

50,85 $

1 To de stockage objet

50,85 $

1 To de stockage dans un système de fichiers partagé

50,85 $