On-device AI senza compromessi con QVAC Fabric

La novità importante è semplice da dire, ma enorme da capire: LLM avanzati possono essere addestrati e personalizzati direttamente su smartphone, laptop e GPU consumer . Niente cloud, niente infrastrutture costose, niente vendor lock-in. QVAC Fabric LLM ribalta l’idea che l’AI moderna debba vivere per forza dentro data center specializzati. Un runtime che cambia le regole L’inferenza LLM ad alte prestazioni e il fine-tuning sono sempre stati riservati a chi poteva permettersi sistemi NVIDIA di fascia alta. QVAC Fabric rompe questo schema e introduce un runtime unico, portabile, scalabile, che funziona allo stesso modo su: iOS e Android Windows, macOS, Linux laptop, desktop, server GPU AMD, Intel, NVIDIA, Apple Silicon perfino su GPU mobili come Qualcomm Adreno e ARM Mali Il risultato è un’infrastruttura AI che funziona ovunque, senza adattamenti dolorosi e senza dipendere da un singolo produttore. Il punto di svolta: addestrare modelli su uno smartphone ...

On-device AI senza compromessi con QVAC Fabric

La novità importante è semplice da dire, ma enorme da capire: LLM avanzati possono essere addestrati e personalizzati direttamente su smartphone, laptop e GPU consumer.
Niente cloud, niente infrastrutture costose, niente vendor lock-in. QVAC Fabric LLM ribalta l’idea che l’AI moderna debba vivere per forza dentro data center specializzati.

Un runtime che cambia le regole

L’inferenza LLM ad alte prestazioni e il fine-tuning sono sempre stati riservati a chi poteva permettersi sistemi NVIDIA di fascia alta. QVAC Fabric rompe questo schema e introduce un runtime unico, portabile, scalabile, che funziona allo stesso modo su:

iOS e Android
Windows, macOS, Linux
laptop, desktop, server
GPU AMD, Intel, NVIDIA, Apple Silicon
perfino su GPU mobili come Qualcomm Adreno e ARM Mali

Il risultato è un’infrastruttura AI che funziona ovunque, senza adattamenti dolorosi e senza dipendere da un singolo produttore.

Il punto di svolta: addestrare modelli su uno smartphone

È la parte che colpisce più di tutte.
Per la prima volta un framework di produzione permette LoRA e instruction-tuning su hardware da telefono. Questo sblocca un’idea che fino a ieri sembrava teoria:

Un modello che impara dal singolo utente, sul suo dispositivo, senza mai inviare fuori un byte di dati personali.

Significa personalizzazione profonda, anche offline, con benefici immediati:

privacy intrinseca
resilienza in aree a bassa connettività
applicazioni edge che non collassano quando manca la rete
AI “anti-fragile”, capace di vivere e crescere ai margini della rete

Un cambio culturale prima ancora che tecnologico.

Un potenziamento dell’ecosistema llama.cpp

QVAC Fabric estende llama.cpp oltre i suoi limiti attuali. Porta nel workflow di fine-tuning modelli moderni come:

Tutti gestiti con procedure coerenti, indipendentemente dall’hardware.
Una coerenza che gli sviluppatori aspettavano da tempo.

Hardware eterogeneo, potere distribuito

Per anni si è dato per scontato che “AI serio” volesse dire “GPU NVIDIA”. Ma non è più vero. QVAC Fabric dimostra che:

le GPU consumer fanno la loro parte
i chip mobili non sono più dei semplici destinatari dell’inferenza
l’intero parco dispositivi di un’azienda può diventare un cluster AI diffuso

E questo porta a un’altra implicazione, forse la più rilevante per le imprese.

Fine-tuning in-house, senza esposizione dei dati

Le aziende possono personalizzare modelli sui propri dispositivi, in totale sicurezza.
Niente cloud esterno, nessun rischio di fuga dati, nessuna compliance da rincorrere.

Il fine-tuning diventa un processo interno, distribuito, governabile, allineato alle esigenze regolamentari e ai costi reali.

Open source e accessibile da subito

Tether Data ha rilasciato QVAC Fabric LLM come software open-source sotto licenza Apache 2.0, con binari multipiattaforma e adapter già disponibili su Hugging Face. Bastano pochi comandi per iniziare a personalizzare modelli moderni su qualsiasi dispositivo.

Paolo Ardoino, CEO di Tether, lo ha sintetizzato così:
“AI should not be controlled only by large cloud platforms.”

Ed è esattamente questo il punto.
QVAC Fabric riporta l’AI nelle mani delle persone e delle aziende.

Un passo deciso verso un’AI davvero decentralizzata

Il settore continua a puntare tutto sul cloud-first. QVAC Fabric va nella direzione opposta: edge-first. Un’AI progettata per vivere sui margini della rete, non per dipendere da essa.

È un cambio che favorisce:

territori a bassa connettività
applicazioni critiche che richiedono continuità
sistemi che devono resistere a guasti e attacchi
utenti che vogliono controllo totale sui propri dati

Ed è qui che si gioca la prossima fase dell’AI: modelli che non vivono più “da qualche parte nel cloud”, ma direttamente nelle nostre tasche.

FAQ

1) QVAC Fabric funziona anche senza GPU dedicata?
Sì. Funziona su CPU, GPU integrate e perfino chip mobili, con prestazioni proporzionate all’hardware disponibile.

2) Posso fare fine-tuning completamente offline?
Sì. Il framework è progettato per lavorare anche senza connessione, ideale per contesti ad alta privacy o bassa connettività.

3) Quali modelli LLM sono supportati?
Llama 3, Qwen 3, Gemma 3 e altri modelli moderni dell’ecosistema llama.cpp con workflow unificato.

4) È adatto a uso enterprise?
Decisamente. Permette fine-tuning in-house su hardware controllato, riducendo costi, rischi e dipendenza da vendor esterni.

5) Il progetto è completamente open-source?
Sì. Rilasciato sotto licenza Apache 2.0, con binari e adapter già disponibili su Hugging Face.

BE THE PLAN

Cerca nel blog

Post in evidenza