Inquadra un volto e scopri in tempo reale l'emozione che esprime.
Rete neurale convoluzionale da 4 milioni di parametri, pre-addestrata su ImageNet (oltre un milione di immagini generiche) e poi rifinita sui volti di FER2013 a 224 pixel, con aumento dei dati (ribaltamenti, rotazioni, ritagli) e arresto anticipato. Il miglior equilibrio tra qualità e velocità: è il modello consigliato.
Rete residua profonda da 23,5 milioni di parametri, pre-addestrata su ImageNet e rifinita sui volti a 224 pixel. Più grande della XHIGH ma leggermente meno accurata su questo compito: più parametri non significano automaticamente più qualità.
La sorella minore della ResNet50 (11 milioni di parametri), rifinita a risoluzione più bassa (64 pixel). Più leggera e veloce, con un po' di accuratezza in meno.
Piccola rete convoluzionale da 1,2 milioni di parametri addestrata da zero solo sui volti di FER2013, senza alcun pre-addestramento: mostra quanto vale il "transfer learning" rispetto a partire da capo.
L'approccio storico, senza reti neurali: descrittori progettati a mano (HOG per i bordi, LBP per la texture della pelle) e un classificatore SVM. È il termine di paragone del progetto: veloce e interpretabile, ma molto meno accurato del deep learning.
Tutti i modelli sono valutati sullo stesso insieme di test di FER2013 (3 589 volti mai visti in addestramento); la percentuale è l'accuratezza sul test. Le 7 emozioni riconosciute sono: rabbia, disgusto, paura, felicità, tristezza, sorpresa e neutralità.