La Fédération de l’Alliance de recherche numérique du Canada est responsable de la plateforme canadienne de calcul informatique de pointe en partenariat avec les organisations régionales Compute Ontario, Calcul Québec, ACENET, le Groupe de l’IRN de la C.-B., le Groupe de l’IRN des Prairies, ainsi que des établissements de partout au pays. Offrant l’infrastructure et l’expertise pour des recherches transformatrices de niveau international, cette plateforme desservait au 1er janvier 2024 plus de 20 000 utilisatrices et utilisateurs, dont plus de 5 483 chercheuses et chercheurs canadiens.
Dans le cadre du concours pour l’allocation des ressources pour 2024, la plateforme nationale de calcul informatique de pointe dispose d’environ 232 560 CPU, 56 405 vCPU (CPU virtuels), 4 237 Unités GPU de référence (UGR-années) et 210,7 Po d’espace de stockage sur les grappes Arbutus (Université Victoria), Cedar (Université Simon-Fraser), Graham (Université de Waterloo), Niagara (Université de Toronto), et Béluga et Narval (Calcul Québec).
L’augmentation sans cesse croissante des besoins fait que la demande reste toujours plus forte que l’offre.
Cette année, le concours a pu combler 42 % des besoins en ressources de calcul, 76 % des besoins en espace de stockage et 21 % des besoins en GPU-années. D’autre part, les besoins en vCPU sur les nuages Arbutus, Béluga, Cedar et Graham ont été satisfaits à 70 %. Un total de 670 candidatures ont été présentées, soit 77 demandes de moins que l’année dernière, en raison principalement de l’augmentation du minimum de ressources requises pour l’admissibilité au concours.
Remarque : La somme de 225 millions de dollars en financement de capital reçue de sources fédérales, provinciales et institutionnelles nous permettra de remplacer plusieurs systèmes de l’Alliance d’ici au printemps 2025. Nous nous efforcerons de minimiser les effets sur les travaux de recherche, mais le processus de transition des systèmes actuels vers les nouveaux systèmes nécessitera des interruptions de service au cours de l'hiver 2025. Il est donc possible que certains projets ne puissent pas utiliser pleinement leurs allocations au cours de l'année. Les chercheuses et chercheurs sont invités à consulter la page sur l’état des systèmes (https://status.alliancecan.ca) pour de l’information sur les changements en cours. Les nouveaux équipements augmenteront de façon importante la quantité de ressources de stockage et de calcul, en plus d’en améliorer la fiabilité et la disponibilité.
Tableau 1 : Candidatures soumises
Année |
Demandes reçues |
Augmentation par rapport à l’année précédente |
2024 |
670 |
-5 % |
2023 |
707 |
-1 % |
2022 |
716 |
10 % |
2021 |
651 |
10 % |
2020 |
590 |
16 % |
2019 |
507 |
8 % |
2018 |
469 |
15 % |
2017 |
409 |
12 % |
2016 |
366 |
5 % |
Pour la définition de plusieurs termes utilisés ici, consultez le glossaire technique. Toute question relative au présent rapport peut être adressée à allocations@tech.alliancecan.ca.
Capacité minimale pour un projet et accès opportuniste aux ressources de calcul
Pour être admissible à présenter une demande, un projet doit nécessiter un minimum de 200 cœurs-années CPU et 25 RGU-années. Ces valeurs servent en partie à contrôler la quantité de demandes qui doivent être soumises à l’examen scientifique. Le fait de disposer d’une allocation qui respecte la capacité minimale garantit une plus haute priorité aux tâches soumises.
Outre les ressources allouées via le concours, tous les chercheurs et chercheuses ainsi que leurs utilisateurs parrainés peuvent se prévaloir d’un accès opportuniste aux CPU et aux GPU pourvu qu'ils disposent d’un compte actif. Puisque l’utilisation est purement opportuniste, il est impossible de garantir combien de ressources peuvent être consommées par les projets qui n’ont pas fait l’objet d’une demande au concours.
L’historique de l’utilisation montre que plusieurs groupes qui n’ont pas obtenu d’allocation par le concours peuvent atteindre et même dépasser les minimums mentionnés ci-dessus. Pour maximiser l’utilisation des ressources en calcul, les stratégies suivantes sont employées :
- conserver des tâches dans la queue de façon régulière;
- tolérer un temps d’attente plus long avant le lancement des tâches;
- soumettre des tâches ayant des caractéristiques optimales.
Par exemple, des tâches opportunistes de courte durée qui nécessitent quelques cœurs d’une grappe d’usage général seront habituellement exécutées plus rapidement que celles qui requièrent quelques dizaines de cœurs.
Pour savoir comment maximiser l’utilisation de ressources si vous ne disposez pas de ressources allouées via le concours, veuillez lire attentivement les pages Allocation et ordonnancement et Politique d’ordonnancement des tâches ou écrivez à support@tech.alliancecan.ca.
Allocations de CPU
Le concours de 2024 a satisfait à 43 % la demande en CPU, ce qui représente une baisse de 5 % par rapport à l’année dernière. Béluga, Cedar, Graham, Narval et Niagara fournissent environ 232 560 cœurs, dont près de 80 % sont alloués via le concours.
Tableau 2 : Allocations de CPU pour 2024
Grappe |
Cœurs-années disponibles* |
Cœurs-années demandés |
Cœurs-années alloués* |
Pourcentage de la capacité totale allouée |
Béluga |
28 960 |
46 540 |
20 164 |
70 % |
Cedar |
40 000,00 |
92 684 |
39 212 |
98 % |
Graham |
26 000 |
43 136 |
15 792 |
61 % |
Narval |
61 760 |
112 007 |
50 503 |
82 % |
Niagara |
75 840 |
150 443 |
63 431 |
84 % |
Total |
232 560 |
444 810 |
189 102 |
81 % |
* La quantité allouée inclut les ressources qui ne seront pas disponibles lors d’arrêts de service en raison des mises à jour. Par exemple, une allocation de 100 cœurs pour la période 2024-2025 sur une grappe qui serait hors service pour une mise à jour est chiffrée à 100 cœurs-années même si la grappe n’est en service que pour 11 mois. La portion non allouée de la grappe qui est mise à la disposition pour une utilisation opportuniste (sans allocation via le concours) est la différence entre les ressources disponibles et les ressources allouées, ce qui inclut des ressources qui risquent d’être inutilisables parce qu’elles ne sont pas supportées ou qu’elles font l’objet d’un arrêt de service non planifié. Cette portion des ressources disponibles est en pratique beaucoup plus petite, plus intermittente et moins fiable que le tableau ne le laisse entendre.
Tableau 3 : Évolution de la demande de CPU
Année |
Cœurs-années disponibles |
Cœurs-années demandés |
Cœurs-années alloués |
Demande satisfaite à |
2024 |
232 560 |
444 810 |
189 102 |
43 % |
2023 |
263 326 |
460 346 |
216 164 |
47 % |
2022 |
293 312 |
436 780 |
234 275 |
54 % |
2021 |
232 704 |
468 498 |
188 925 |
40 % |
2020 |
232 704 |
455 892 |
181 502 |
40 % |
2019 |
201 320 |
390 352 |
157 262 |
40 % |
2018 |
211 020 |
287 347 |
158 612 |
56 % |
2017 |
182 760 |
255 638 |
148 100 |
58 % |
2016 |
155 952 |
237 862 |
128 463 |
54 % |
Mise à l’échelle des demandes de CPU
Comme mentionné au préalable, les ressources en calcul informatique de pointe ne suffisaient pas à satisfaire les demandes reçues pour la période 2024-2025.
Les demandes ont donc été mises à l’échelle pour les adapter aux ressources insuffisantes. La procédure, cautionnée par les présidentes et présidents des comités d’examen, a été mise en place afin que seules les candidatures ayant reçu une note supérieure à 2,0 (sur 5) obtiennent une allocation de ressources. Les chercheuses et chercheurs qui n’ont pas obtenu l’allocation de CPU peuvent toutefois se prévaloir de la possibilité d’une utilisation opportuniste par le biais du service d'accès rapide. La note moyenne attribuée à l’ensemble des demandes pour 2024 se situe à 3,9.
Les demandes en termes de CPU sont mises à l’échelle d’après la note générale obtenue par la demande et la capacité demandée. Les détails de la fonction de mise à l’échelle et quelques exemples sont présentés ici. Pour plus d’information, écrivez à allocations@tech.alliancecan.ca.
Allocations de GPU
À partir du concours pour 2024, le concept d'unité GPU de référence (UGR) est utilisé pour demander, allouer et mesurer la quantité des ressources GPU. L’UGR mesure le coût d'utilisation d’un modèle particulier de GPU puisque la performance de chacun est différente. Les allocations de GPU et le calcul de leur utilisation se font dorénavant en UGR-années plutôt qu’en GPU-années; pour plus d'information, consultez ce paragraphe. Puisqu’il s’agit d’une nouvelle unité de mesure, nous ne possédons pas de données historiques pour leur capacité, la demande et les allocations; le tableau 4 montre donc les valeurs en UGR-années alors que le tableau 5 décrit les GPU-années.
La concurrence pour les ressources GPU est toujours plus forte que celle pour les CPU; le tableau 5 indique que la demande de GPU a été stable au cours des quatre dernières années, mais que l’écart entre la demande et la capacité disponible reste assez important. La demande d'UGR-années pour 2024 a été satisfaite à 21 %.
Tableau 4 : Allocation de GPU par grappe pour 2024 (en UGR-années)
Grappe |
UGR-années |
UGR-années |
UGR-années |
Pourcentage de la capacité |
Béluga |
4 164 |
1 219 |
1 548 |
79 % |
Cedar |
5 686 |
1 660 |
1 922 |
86 % |
Graham |
2 751 |
448 |
598 |
75 % |
Narval |
11 389 |
1 695 |
2 096 |
81 % |
Total |
23 990 |
5 022 |
6 164 |
81 % |
* La quantité allouée inclut les ressources qui ne seront pas disponibles lors d’arrêts de service en raison des mises à jour. Par exemple, une allocation de 10 GPU-années (ou 26 UGR-années) 2024-2025 sur une grappe qui serait hors service pour une mise à jour est chiffrée à 10 GPU-années (ou 26 UGR-années) même si la grappe n’est en service que pour 11 mois. La portion non allouée de la grappe qui est mise à la disposition pour une utilisation opportuniste (sans allocation via le concours) est la différence entre les ressources disponibles et les ressources allouées, ce qui inclut des ressources qui risquent d’être inutilisables parce qu’elles ne sont pas supportées ou qu’elles font l’objet d’un arrêt de service non planifié. Cette portion des ressources disponibles est en pratique beaucoup plus petite, plus intermittente et moins fiable que le tableau ne le laisse entendre.
Tableau 5 : Évolution de la demande de GPU (en GPU-années)
Année |
GPU-années disponibles |
GPU-années demandés |
GPU- années alloués |
Demande satisfaite à |
2024 |
2 416 |
8 947 |
1 935 |
22 % |
2023 |
2 569 |
9 826 |
2 012 |
20 % |
2022 |
3 062 |
9 070 |
2 161 |
24 % |
2021 |
2 610 |
9 980 |
2 187 |
22 % |
2020 |
2 552 |
12 885 |
1 936 |
15 % |
2019 |
1 664 |
6 555 |
1 331 |
20 % |
2018 |
976 |
4 092 |
840 |
20 % |
2017 |
1 420 |
2 790 |
1 047 |
39 % |
2016 |
373 |
1 357 |
269 |
20 % |
Mise à l’échelle des demandes de GPU
Les allocations de GPU sont déterminées d’après
- la note générale obtenue par la demande;
- la justification technique des besoins en ressources;
- la preuve d’une utilisation précédente de GPU;
- le domaine de recherche (par exemple intelligence artificielle, apprentissage machine, etc.); et
- la taille du groupe de recherche.
Il ne faut pas oublier que :
- les chercheuses et chercheurs qui présentent une demande trouvent difficile d’estimer leurs besoins en GPU et, dans la plupart des cas, ils en demandent beaucoup plus que nécessaire. Avant de présenter une demande, nous les encourageons fortement à faire deux choses : 1. commencer à utiliser les GPU pour mieux cerner leurs besoins, et 2. consulter notre équipe technique qui peut les aider à évaluer la performance de leurs programmes et à estimer plus exactement leurs besoins en GPU;
- les allocations de GPU sont contraintes entre autres par le type de GPU demandé et le nombre disponible sur chaque grappe;
- les demandes de GPU pour des applications d’intelligence artificielle ont considérablement augmenté.
Allocations de stockage
Ensemble, les ressources intégrées à Arbutus, Béluga, Cedar, Graham, Narval et Niagara permettent le stockage en ligne d'environ 210,7 Po pour 2024. Ainsi, 76 % de la capacité de stockage a été allouée.
Tableau 6 : Évolution de la demande de stockage
Année |
Stockage disponible (To) |
Stockage demandé (To) |
Stockage alloué (To) |
Demande satisfaite à |
2024 |
210 764 |
209 642 |
159 746 |
76 % |
2023 |
190 479 |
192 363 |
153 639 |
72 % |
2022 |
190 479 |
161 186 |
151 775 |
87 % |
2021 |
150 915 |
135 427 |
122 272 |
91 % |
2020 |
143 914 |
109 718 |
100 222 |
90 % |
2019 |
101 344 |
89 898 |
77 923 |
94 % |
2018 |
63 340 |
60 126 |
43 508 |
80 % |
Tableau 7 : Allocations de stockage, par type
Catégorie |
Type |
Espace disponible |
Espace demandé |
Espace alloué |
Demande satisfaite à |
CHP |
project |
63 550 |
81 400 |
51 438 |
81 % |
CHP |
nearline |
117 800 |
87 561 |
77 536 |
66 % |
CHP |
dCache |
13 467 |
18 300 |
13 467 |
100 % |
nuage |
volumes et instantanés |
4 947 |
3,389 |
3 175 |
64 % |
nuage |
objet |
15 803 |
15 803 |
11 135 |
100 % |
nuage |
partagé |
3 000 |
3 223 |
3 060 |
102 % |
Total |
210 764 |
209 676 |
159 811 |
76% |
Allocations de ressources infonuagiques
La grappe Arbutus de l’Université de Victoria peut allouer 41 920 vCPU (CPU virtuels). Ils sont disponibles via le concours et via le service d’accès rapide et sont aussi utilisés par les services internes pour le développement de logiciels et l’hébergement. De petites capacités infonuagiques sont aussi disponibles sur Cedar, Graham et Béluga. Pour 2024, la demande totale de vCPU a augmenté de 30 % : la demande pour les vCPU de calcul est en hausse de 30 % et celle pour les vCPU persistants de 43 %.
Le surprovisionnement des vCPU persistants à un ratio de 10:1 a permis une expansion significative des allocations persistantes au cours des dernières années. La demande pour des cœurs réels continue d’augmenter alors que la capacité disponible diminue en raison du matériel qui exige de plus en plus de maintenance. Ceci résulte en une utilisation qui dépasse largement les 80 %, un seuil au-delà duquel l’ordonnancement d’instances de calcul plus exigeantes devient difficile.
Avec Arbutus et les nœuds ajoutés à Cedar, Graham et Béluga, nous avons pu allouer par le concours 70 % des vCPU demandés, soit 7 % de moins que l'année dernière.
Tableau 8 : Évolution de la demande de vCPU
Année |
vCPU-années disponibles |
vCPU-années demandés |
vCPU- années alloués |
Demande satisfaite à |
2024 |
56 405 |
46 192 |
32 511 |
70 % |
2023 |
56 405 |
35 618 |
27 313 |
77 % |
2022 |
62 549 |
34 536 |
27 444 |
79 % |
2021 |
62 549 |
30 323 |
24 443 |
81 % |
2020 |
50 501 |
18 330 |
18 229 |
99 % |
2019 |
29 147 |
19 479 |
18 511 |
95 % |
2018 |
24 854 |
12 480 |
11 829 |
95 % |
Deux processus d’évaluation sont en place :
- un examen scientifique effectué bénévolement par plus de 100 pairs experts en provenance de divers établissements d’enseignement canadiens qui jugent du mérite des projets soumis. Chaque demande reçoit une note qui sert à guider objectivement les décisions relatives à l’allocation des ressources;
- une évaluation technique effectuée par le personnel, qui vérifie le bien-fondé des ressources décrites dans la demande et recommande la grappe appropriée au projet, selon ses besoins.
Les processus d’évaluation sont supervisés par le comité administratif du programme d’accès aux ressources composé de représentants de chacune des régions et des sites hôtes de l’infrastructure nationale de calcul.
Les nouvelles demandes sont soumises aux examens techniques et scientifiques, alors que seul un examen technique est fait pour les demandes accélérées et les demandes pluriannuelles pour les projets de plateformes et portails de recherche.
Principes directeurs
Les principes directeurs du concours pour l’allocation des ressources sont :
- toutes les demandes sont traitées équitablement;
- les ressources sont allouées sur la base du mérite du projet plutôt que sur le mérite du programme de recherche;
- la quantité de ressources allouée n’est pas directement proportionnelle à la qualité ou à l’excellence des résultats escomptés; certaines recherches importantes peuvent être accomplies avec relativement peu de ressources;
- les difficultés posées par le manque de ressources et les autres contraintes liées aux systèmes sont partagées entre toutes les candidatures.
Examen technique
Cet examen est effectué par l'équipe technique pour
- veiller à ce que le chercheur principal ou la chercheuse principale soumette une demande pour une ressource appropriée;
- vérifier la disponibilité des logiciels nécessaires;
- évaluer l'efficacité et la scalabilité de la demande;
- identifier les groupes qui pourraient avoir besoin d’aide avec l’optimisation du code et des processus;
- relever les disparités entre la demande soumise en ligne et la description complète du projet;
- repérer les exigences logicielles particulières;
- fournir une opinion technique sur le caractère raisonnable de la demande.
Avant d’avoir accès aux demandes, le personnel technique doit signer une entente de confidentialité et de non-divulgation.
Examen scientifique
Un comité de pairs experts examine chaque demande et lui attribue une note au mérite scientifique. Avant d’avoir accès aux demandes, les membres des comités de pairs experts doivent signer une entente de confidentialité et de non-divulgation et accepter de se conformer à la politique en matière de conflits d’intérêts.
La note accordée à une demande se base sur :
- l'excellence scientifique du projet pour lequel les ressources de calcul sont demandées;
- la faisabilité scientifique et technique du projet;
- la pertinence des ressources demandées par rapport aux objectifs du projet;
- la probabilité que les ressources demandées seront utilisées de façon efficiente.
Les demandes sont évaluées par les comités suivants :
- Astronomie, astrophysique et cosmologie
- Bio-informatique
- Chimie, biochimie et biophysique
- Sciences informatiques et mathématiques
- Génie
- Sciences de la Terre et de l’environnement
- Sciences humaines et sociales
- Nanotechnologie, matériaux et matière condensée
- Neurosciences, imagerie médicale et physique médicale
- Physique des particules subatomiques, physique nucléaire et physique cosmique
Le tableau suivant montre les moyennes pour l’ensemble de la plateforme de calcul de haute performance; les montants incluent le coût en capital et le coût d’exploitation des ressources et services. Il ne s’agit pas de la valeur sur le marché. La valeur est calculée sur une base annuelle.
Tableau 9 : Valeur des allocations
Ressources |
2024 |
1 cœur-année |
107,63 $ |
1 UGR-année |
1 145,31 $ |
1 To de stockage /project par année |
59,24 $ |
1 To de stockage /nearline par année |
26,53 $ |
1 vCPU-année |
39,15 $ |
1 To de stockage pour les volumes et instantanés (Ceph) par année |
50,85 $ |
1 To de stockage objet |
50,85 $ |
1 To de stockage dans un système de fichiers partagé |
50,85 $ |