Test Model Demo - BERT con Vocabolario Personalizzato
Modello BERT ridotto creato con un vocabolario personalizzato italiano di 50,000 parole.
Descrizione
Questo è un modello BERT (Bidirectional Encoder Representations from Transformers) ridotto con:
- Architettura: 2 layer transformer, hidden size 128, 2 attention heads
- Parametri: 6.9 milioni di parametri
- Vocabolario: 50,005 token (incl. token speciali BERT)
- Vocabolario personalizzato: Basato su un dataset italiano di 4.2+ milioni di parole
Caratteristiche
- Tokenizer personalizzato con vocabolario italiano
- Modello BERT ottimizzato per risorse limitate
- Formato safetensors per sicurezza
- Compatibile con Hugging Face Transformers
Utilizzo
from transformers import BertForMaskedLM, PreTrainedTokenizerFast
# Carica il modello e tokenizer
model = BertForMaskedLM.from_pretrained("Tonysar/test-model-demo")
tokenizer = PreTrainedTokenizerFast.from_pretrained("Tonysar/test-model-demo")
# Esempio di utilizzo
text = "a ab abc"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
Specifiche Tecniche
- Model Type: BERT for Masked Language Modeling
- Vocab Size: 50,005
- Hidden Size: 128
- Num Hidden Layers: 2
- Num Attention Heads: 2
- Intermediate Size: 512
- Max Position Embeddings: 128
- Parameters: 6,880,853
Note
Questo modello è stato creato come demo e non ha completato il training completo. È ottimizzato per test e sviluppo su sistemi con risorse limitate.
Licenza
MIT License
- Downloads last month
- 93
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support