Emotion-Vision

XHIGHEfficientNet-B071%

Rete neurale convoluzionale da 4 milioni di parametri, pre-addestrata su ImageNet (oltre un milione di immagini generiche) e poi rifinita sui volti di FER2013 a 224 pixel, con aumento dei dati (ribaltamenti, rotazioni, ritagli) e arresto anticipato. Il miglior equilibrio tra qualità e velocità: è il modello consigliato.

HIGHResNet5069%

Rete residua profonda da 23,5 milioni di parametri, pre-addestrata su ImageNet e rifinita sui volti a 224 pixel. Più grande della XHIGH ma leggermente meno accurata su questo compito: più parametri non significano automaticamente più qualità.

MEDIUMResNet1867%

La sorella minore della ResNet50 (11 milioni di parametri), rifinita a risoluzione più bassa (64 pixel). Più leggera e veloce, con un po' di accuratezza in meno.

LOWSimpleCNN64%

Piccola rete convoluzionale da 1,2 milioni di parametri addestrata da zero solo sui volti di FER2013, senza alcun pre-addestramento: mostra quanto vale il "transfer learning" rispetto a partire da capo.

CLASSICOHOG + LBP + SVM47%

L'approccio storico, senza reti neurali: descrittori progettati a mano (HOG per i bordi, LBP per la texture della pelle) e un classificatore SVM. È il termine di paragone del progetto: veloce e interpretabile, ma molto meno accurato del deep learning.

Come sono addestrati i modelli