Resumen
Reducir agresivamente la tensión de alimentación (𝑉𝑑𝑑) por debajo de la tensión umbral de seguridad (𝑉𝑚𝑖𝑛) puede suponer un importante ahorro de energía en los circuitos digitales. Sin embargo, operar con voltajes de alimentación tan bajos plantea retos debido a la alta ocurrencia de fallos permanentes resultantes de las variaciones en los procesos de fabricación actuales.
Este trabajo aborda el impacto de los fallos permanentes en la precisión de un acelerador de inferencia de redes neuronales convolucionales (CNN) que utiliza memorias de activación en chip alimentadas a 𝑉𝑑𝑑 inferiores a 𝑉𝑚𝑖𝑛. Basándose en un estudio de caracterización de patrones de fallo, este trabajo propone dos técnicas microarquitectónicas de bajo coste, concretamente Flip-and-Patch, que mantienen la precisión original de las aplicaciones CNN incluso en presencia de un elevado número de fallos causados por el funcionamiento a 𝑉𝑑𝑑 < 𝑉𝑚𝑖𝑛. A diferencia de las técnicas existentes, Flip-and-Patch sigue siendo transparente para el programador y no depende de las características de la aplicación, por lo que es fácilmente aplicable a aceleradores CNN reales.
Los resultados experimentales muestran que Flip-and-Patch mantiene la precisión original de la CNN con un impacto mínimo en el rendimiento del sistema (menos del 0,05% para cada aplicación), a la vez que consigue un ahorro medio de energía del 10,5% y del 46,6% en las memorias de activación en comparación con un acelerador convencional que funcione a tensiones de alimentación seguras y nominales, respectivamente. En comparación con la técnica ThUnderVolt de última generación, que ajusta dinámicamente la tensión de alimentación en tiempo de ejecución y descarta cualquier sobrecarga energética por dicho enfoque, el ahorro medio de energía es de un 3,2%.