E17® è un marchio registrato di BI@Work Srl Socio Unico.

Informazioni di Contatto BI@Work Srl
Via dei Mirti 8 - 34135 Trieste info@biatwork.com +39 040 9896513

Finestra di contesto e VRAM

E17 NEXUS · Guida tecnica

Finestra di contesto e VRAM: quale scheda video serve davvero

Quanto può “leggere in una volta” l’assistente E17 NEXUS, quanta memoria della scheda video richiede e quanti utenti può servire contemporaneamente. Una guida con numeri misurati sui due modelli che usiamo, gemma3:12b e gemma4:26b.

Cos’è la “finestra di contesto”

La finestra di contesto è la quantità massima di testo che il modello può tenere sott’occhio mentre risponde: la tua domanda, la cronologia della conversazione e i documenti recuperati dalla base di conoscenza. Si misura in token (un token è circa ¾ di parola). Più è ampia, più materiale l’assistente può considerare insieme senza “dimenticare” l’inizio.

Per dare un’idea concreta, contando una pagina di libro a ~300 parole (≈ 400 token):

Finestra Token Parole circa Pagine circa In pratica
32K 32.768 ~24.000 ~80 un capitolo lungo / un contratto
128K 131.072 ~96.000 ~320 un romanzo intero
256K 262.144 ~190.000 ~640 due romanzi / un manuale corposo

I due modelli E17

Modello d’ingresso · valutazione / singolo utente
gemma3:12b
128K token di contesto massimo
  • Pesi del modello in VRAM: ~8 GB
  • ~320 pagine di testo in una volta
  • Per VRAM da 16 a 24 GB
Modello esteso · da 32 GB
gemma4:26b
256K token di contesto massimo
  • Pesi del modello in VRAM: ~18 GB
  • ~640 pagine di testo in una volta
  • Per VRAM da 32 GB in su
  • Più capace su documenti lunghi e ragionamento complesso

Curiosità tecnica: pur essendo più grande, gemma4:26b consuma meno memoria per ogni token di contesto rispetto a gemma3:12b (architettura con meno layer e attenzione “a finestra scorrevole” più aggressiva). A pesare sulla VRAM, per gemma4, è soprattutto il modello in sé.

Come si consuma la VRAM

La memoria occupata sulla scheda video è la somma di quattro voci:

Voce Cosa è Da cosa dipende
Pesi del modello Il modello caricato Dipende dal modello scelto (il modello esteso pesa di più)
Contesto (KV cache) La “memoria di lavoro” Cresce con la finestra di contesto e con gli utenti contemporanei
Motori ausiliari Ricerca semantica + analisi della domanda Sempre presenti accanto al modello
Buffer di sistema Margine tecnico Margine per calcolo, driver e display

La regola d’oro. Il costo del contesto si moltiplica per il numero di utenti contemporanei (le richieste realmente in corso nello stesso istante, non gli utenti registrati). Servire più persone insieme oppure dare a ciascuna un contesto più ampio richiede più VRAM. È lo stesso “budget” diviso in modi diversi.

Tabella: contesto disponibile per scheda video

Per ciascuna scheda in commercio, la finestra di contesto massima che ogni utente ottiene in base al numero di utenti contemporanei. “max” significa che si raggiunge il limite del modello (128K o 256K); “—” indica una configurazione non supportata su quella scheda.

gemma3:12b — finestra massima 128K (VRAM 16–24 GB)

VRAM 1 utente 2 utenti 4 utenti 8 utenti
16 GB 28K 12K
24 GB max 68K 32K 16K

gemma4:26b — finestra massima 256K (VRAM da 32 GB in su)

VRAM 1 utente 2 utenti 4 utenti 8 utenti
32 GB max 192K 96K 48K
48 GB max max max 148K
96 GB max max max max

Misure effettuate direttamente sull’occupazione di memoria della scheda (32 GB di VRAM) con la configurazione di default E17. Per le altre schede la stima usa lo stesso modello lineare validato sul campo. Una quota della VRAM resta sempre riservata a sistema e driver e ai motori ausiliari (ricerca semantica + analisi della domanda).

Le configurazioni consigliate E17

VRAM 16–24 GB → gemma3:12b (ingresso / valutazione)

È la fascia d’ingresso, adatta a provare E17 o a un singolo utente. E17 adatta automaticamente la finestra di contesto alla memoria disponibile: con 16 GB un utente arriva fino a ~28K token, con 24 GB fino al massimo del modello (128K); con più utenti contemporanei il contesto si riduce di conseguenza. Per un uso di gruppo consigliamo comunque di partire da 32 GB.

VRAM da 32 GB in su → gemma4:26b (consigliato)

gemma4:26b occupa già ~18 GB di soli pesi, a cui si aggiungono i motori ausiliari (ricerca semantica + analisi della domanda): con 24 GB lo spazio residuo per contesto e utenti è troppo poco, per questo la soglia per gemma4:26b è 32 GB. Con 32 GB un singolo utente raggiunge il contesto massimo (256K); con 48 GB o più si servono più utenti contemporanei senza compromessi.

Quanti “utenti contemporanei” mi servono davvero?

Un gruppo di persone raramente ha tutti i suoi membri che premono “invio” nello stesso secondo. Ciò che conta per la VRAM è il picco di richieste simultanee, non il numero totale di persone. Gli scenari qui sotto sono indicazioni di massima (non valori misurati) e coerenti con la licenza E17 fino a 15 postazioni: la colonna che pesa davvero è quella degli utenti contemporanei.

Scenario Persone (indicativo) Utenti contemporanei (picco) Indicazione
Prova / valutazione 1 1–2 16 GB · gemma3:12b (solo per provare)
Professionista / studio 1–5 1–2 32 GB · gemma4:26b
Piccolo team 5–10 2–4 32 GB · gemma4:26b
Piccola azienda fino a ~15 3–6 32–48 GB · gemma4:26b
Contesto massimo per tutti fino a ~15 6+ 96 GB · gemma4:26b

La riga da 96 GB è per chi vuole la finestra di contesto più ampia garantita a ogni utente anche con molti accessi in contemporanea: è la VRAM a determinare quanti utenti contemporanei può gestire Ollama mantenendo il contesto al massimo. Con 96 GB ogni utente, fino al picco previsto, lavora sempre sui 256K token pieni.

E17 elabora in contemporanea un certo numero di richieste (gli “slot” configurati); se in un picco ne arrivano di più, quelle in eccesso non vengono rifiutate né perse: entrano automaticamente in coda e vengono servite in ordine di arrivo, con qualche secondo di attesa in più. Per questo non occorre dimensionare la scheda video sul numero totale di persone, ma solo sul picco realistico di richieste davvero simultanee: un gruppo da una decina di persone lavora bene anche con pochi slot, perché di rado premono “invio” tutti nello stesso istante.

In sintesi. Per un uso reale consigliamo almeno 32 GB con gemma4:26b: è il punto in cui l’esperienza diventa davvero solida (contesto ampio e margine per più utenti). La 16–24 GB con gemma3:12b resta un’opzione d’ingresso per valutazione o singolo utente. Poi aggiungi VRAM in base al picco di utenti contemporanei e all’ampiezza di contesto che vuoi garantire a ciascuno. E17 calcola e applica automaticamente la finestra di contesto ottimale a ogni avvio, restando entro i limiti della tua scheda.

tecnologia
tecnologia