Présentation
Zarr est une spécification open-source pour le stockage de tableaux de données multidimensionnels (également appelés tableaux N-dimensionnels, ND-arrays, ou tenseurs très répandus dans la recherche scientifique et l’ingénierie.
Zarr stocke les métadonnées à l’aide de fichiers texte .json et de données de tableau sous forme (facultative) de morceaux binaires compressés. Zarr peut stocker des données dans la plupart des systèmes de stockage, y compris les bases de données, les systèmes de fichiers standards « à base de répertoires » et le cloud. Cette flexibilité permet aux implémentations d’expérimenter de nouvelles technologies de stockage tout en maintenant une API uniforme pour les bibliothèques et les utilisateurs en aval.
Standards de base
Ce standard est un profil de :
- JSON
Exemples de mise en œuvre
- Climate Science: The CMIP6 Google Cloud Public Dataset
- Oceanography: The ECCOv4r3 Ocean State Estimate
- Atmospheric Science: Global cloud-resolving aquaplanet simulations with the System for Atmospheric Modeling
Notes de version
La version proposée par l’OGC est la version 2.
Travaux en cours
Ce standard communautaire est adopté à l’OGC en tant que community standard.
Avis technique
Ce format émergent est prometteur car il permet un accès plus rapide aux données cloud (il n’est pas nécessaire de télécharger la donnée entière pour pouvoir l’utiliser). Il pourrait remplacer à terme le format NetCDF/HDF. D’ailleurs NetCDF pourrait prochainement proposer un encodage Zarr.