GGUF arrive dans quelques heures...

  • ctx = 4096
  • d = 384
  • vocab = 32768
  • layers = 4
  • heads = 4
  • dtype = bfloat16
  • tokens total d'entraînement = 450M tokens / 660M (sous-training noté)
  • Activité RNE 2015-2026 = 150 millions tokens
  • Epochs ≈ 3

Actuellement il n'existe pas de modèle en français en dim 384, bf16 et en ctx > 1024 qui permet de générer des embeddings rapidement, nous ciblons ce problème.
Ceci est le premier test avec un dataset des activités des 5 millions d'entreprises françaises (2015-2026) issues de la Base RNE.
D'ici quelques jours nous entraînerons plusieurs modèles en dim 384, 768 et 1024 sur des données beaucoup plus larges que la simple Base RNE.

Entraîné from scratch avec Sage-Attention sur une RTX 5060 8 Go ;)
low compute, big ambitions...

Downloads last month
282
Safetensors
Model size
33.8M params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Evaluation results