Finestra di contesto e VRAM
E17 NEXUS · Guida tecnica
Finestra di contesto e VRAM: quale scheda video serve davvero
Quanto può “leggere in una volta” l’assistente E17 NEXUS, quanta memoria della scheda video richiede e quanti utenti può servire contemporaneamente. Una guida con numeri misurati sui due modelli che usiamo, gemma3:12b e gemma4:26b.
Cos’è la “finestra di contesto”
La finestra di contesto è la quantità massima di testo che il modello può tenere sott’occhio mentre risponde: la tua domanda, la cronologia della conversazione e i documenti recuperati dalla base di conoscenza. Si misura in token (un token è circa ¾ di parola). Più è ampia, più materiale l’assistente può considerare insieme senza “dimenticare” l’inizio.
Per dare un’idea concreta, contando una pagina di libro a ~300 parole (≈ 400 token):
| Finestra | Token | Parole circa | Pagine circa | In pratica |
|---|---|---|---|---|
| 32K | 32.768 | ~24.000 | ~80 | un capitolo lungo / un contratto |
| 128K | 131.072 | ~96.000 | ~320 | un romanzo intero |
| 256K | 262.144 | ~190.000 | ~640 | due romanzi / un manuale corposo |
I due modelli E17
- Pesi del modello in VRAM: ~8 GB
- ~320 pagine di testo in una volta
- Per VRAM da 16 a 24 GB
- Pesi del modello in VRAM: ~18 GB
- ~640 pagine di testo in una volta
- Per VRAM da 32 GB in su
- Più capace su documenti lunghi e ragionamento complesso
Curiosità tecnica: pur essendo più grande, gemma4:26b consuma meno memoria per ogni token di contesto rispetto a gemma3:12b (architettura con meno layer e attenzione “a finestra scorrevole” più aggressiva). A pesare sulla VRAM, per gemma4, è soprattutto il modello in sé.
Come si consuma la VRAM
La memoria occupata sulla scheda video è la somma di quattro voci:
| Voce | Cosa è | Da cosa dipende |
|---|---|---|
| Pesi del modello | Il modello caricato | Dipende dal modello scelto (il modello esteso pesa di più) |
| Contesto (KV cache) | La “memoria di lavoro” | Cresce con la finestra di contesto e con gli utenti contemporanei |
| Motori ausiliari | Ricerca semantica + analisi della domanda | Sempre presenti accanto al modello |
| Buffer di sistema | Margine tecnico | Margine per calcolo, driver e display |
La regola d’oro. Il costo del contesto si moltiplica per il numero di utenti contemporanei (le richieste realmente in corso nello stesso istante, non gli utenti registrati). Servire più persone insieme oppure dare a ciascuna un contesto più ampio richiede più VRAM. È lo stesso “budget” diviso in modi diversi.
Tabella: contesto disponibile per scheda video
Per ciascuna scheda in commercio, la finestra di contesto massima che ogni utente ottiene in base al numero di utenti contemporanei. “max” significa che si raggiunge il limite del modello (128K o 256K); “—” indica una configurazione non supportata su quella scheda.
gemma3:12b — finestra massima 128K (VRAM 16–24 GB)
| VRAM | 1 utente | 2 utenti | 4 utenti | 8 utenti |
|---|---|---|---|---|
| 16 GB | 28K | 12K | — | — |
| 24 GB | max | 68K | 32K | 16K |
gemma4:26b — finestra massima 256K (VRAM da 32 GB in su)
| VRAM | 1 utente | 2 utenti | 4 utenti | 8 utenti |
|---|---|---|---|---|
| 32 GB | max | 192K | 96K | 48K |
| 48 GB | max | max | max | 148K |
| 96 GB | max | max | max | max |
Misure effettuate direttamente sull’occupazione di memoria della scheda (32 GB di VRAM) con la configurazione di default E17. Per le altre schede la stima usa lo stesso modello lineare validato sul campo. Una quota della VRAM resta sempre riservata a sistema e driver e ai motori ausiliari (ricerca semantica + analisi della domanda).
Le configurazioni consigliate E17
VRAM 16–24 GB → gemma3:12b (ingresso / valutazione)
È la fascia d’ingresso, adatta a provare E17 o a un singolo utente. E17 adatta automaticamente la finestra di contesto alla memoria disponibile: con 16 GB un utente arriva fino a ~28K token, con 24 GB fino al massimo del modello (128K); con più utenti contemporanei il contesto si riduce di conseguenza. Per un uso di gruppo consigliamo comunque di partire da 32 GB.
VRAM da 32 GB in su → gemma4:26b (consigliato)
gemma4:26b occupa già ~18 GB di soli pesi, a cui si aggiungono i motori ausiliari (ricerca semantica + analisi della domanda): con 24 GB lo spazio residuo per contesto e utenti è troppo poco, per questo la soglia per gemma4:26b è 32 GB. Con 32 GB un singolo utente raggiunge il contesto massimo (256K); con 48 GB o più si servono più utenti contemporanei senza compromessi.
Quanti “utenti contemporanei” mi servono davvero?
Un gruppo di persone raramente ha tutti i suoi membri che premono “invio” nello stesso secondo. Ciò che conta per la VRAM è il picco di richieste simultanee, non il numero totale di persone. Gli scenari qui sotto sono indicazioni di massima (non valori misurati) e coerenti con la licenza E17 fino a 15 postazioni: la colonna che pesa davvero è quella degli utenti contemporanei.
| Scenario | Persone (indicativo) | Utenti contemporanei (picco) | Indicazione |
|---|---|---|---|
| Prova / valutazione | 1 | 1–2 | 16 GB · gemma3:12b (solo per provare) |
| Professionista / studio | 1–5 | 1–2 | 32 GB · gemma4:26b |
| Piccolo team | 5–10 | 2–4 | 32 GB · gemma4:26b |
| Piccola azienda | fino a ~15 | 3–6 | 32–48 GB · gemma4:26b |
| Contesto massimo per tutti | fino a ~15 | 6+ | 96 GB · gemma4:26b |
La riga da 96 GB è per chi vuole la finestra di contesto più ampia garantita a ogni utente anche con molti accessi in contemporanea: è la VRAM a determinare quanti utenti contemporanei può gestire Ollama mantenendo il contesto al massimo. Con 96 GB ogni utente, fino al picco previsto, lavora sempre sui 256K token pieni.
E17 elabora in contemporanea un certo numero di richieste (gli “slot” configurati); se in un picco ne arrivano di più, quelle in eccesso non vengono rifiutate né perse: entrano automaticamente in coda e vengono servite in ordine di arrivo, con qualche secondo di attesa in più. Per questo non occorre dimensionare la scheda video sul numero totale di persone, ma solo sul picco realistico di richieste davvero simultanee: un gruppo da una decina di persone lavora bene anche con pochi slot, perché di rado premono “invio” tutti nello stesso istante.
In sintesi. Per un uso reale consigliamo almeno 32 GB con gemma4:26b: è il punto in cui l’esperienza diventa davvero solida (contesto ampio e margine per più utenti). La 16–24 GB con gemma3:12b resta un’opzione d’ingresso per valutazione o singolo utente. Poi aggiungi VRAM in base al picco di utenti contemporanei e all’ampiezza di contesto che vuoi garantire a ciascuno. E17 calcola e applica automaticamente la finestra di contesto ottimale a ogni avvio, restando entro i limiti della tua scheda.
