Fast.ai, una organización que ofrece cursos gratuitos sobre aprendizaje profundo, reclamó un nuevo récord de velocidad para entrenar una base de datos de imágenes popular utilizando GPU Nvidia que se ejecuta en infraestructura de nube pública.

Un par de investigadores entrenó la base de datos ImageNet con un 93 por ciento de precisión en 18 minutos utilizando 16 instancias de nube de Amazon Web Services, cada una con ocho GPU Nvidia Tesla V100 Tensor Core. Al ejecutar las bibliotecas Fast.ai y Pytorch, los investigadores reclamaron un aumento del 40 por ciento en la velocidad y la precisión para capacitar a ImageNet en la infraestructura pública. El registro anterior estaba en manos de Google en su clúster de Pods de la Unidad de Procesamiento Tensor.

"Nuestro enfoque usa la misma cantidad de unidades de procesamiento que el índice de referencia de Google (128) y cuesta alrededor de $ 40 para funcionar", informó Fast.ai. Los investigadores dijeron que lanzarían su software para entrenar y monitorear modelos distribuidos que se ejecutan en la nube de AWS.

Los investigadores incluyeron un alumno de Fast.ai y un experto en aprendizaje profundo con la Defense Innovation Unit Experimental (DIUx), una startup del Pentágono que trabaja para transferir tecnologías comerciales a los militares.

Fast.ai desarrolló un conjunto de herramientas para recortar las imágenes de la base de datos, mientras que DIUx proporcionó un marco llamado nexus-scheduler que se utiliza para orquestar las ejecuciones de entrenamiento y rastrear los resultados.

Los investigadores dijeron que se sintieron alentados por un informe reciente de que AWS pudo reducir el tiempo de entrenamiento de la base de datos de imágenes a 47 minutos con una precisión comparable.

"Mucha gente cree erróneamente que las redes neuronales convolucionales solo pueden funcionar con un tamaño de imágenes fijo y no es correcto", explicó Jeremy Howard de Fast.ai en una publicación de blog. "Sin embargo, la mayoría de las bibliotecas admiten capas de agrupación "adaptativas" o "globales", que evitan por completo esta limitación".

Howard continuó: "... a menos que los usuarios de estas bibliotecas reemplacen esas capas, están limitados a solo un tamaño y forma de imagen (generalmente 224 por 224 píxeles). La biblioteca Fast.ai convierte automáticamente modelos de tamaño fijo a modelos de tamaño dinámico".

Los investigadores dijeron que el entrenamiento comenzó con imágenes pequeñas que gradualmente aumentaban de tamaño a medida que avanzaba el entrenamiento. Los modelos tempranos e inexactos aprendieron rápidamente a identificar imágenes más grandes a la vez que observaban más detalles y distinciones de la imagen. Para acelerar el entrenamiento, también utilizaron tamaños por lotes más grandes durante los pasos intermedios de entrenamiento para utilizar mejor la memoria de la GPU para evitar la latencia de la red.

Entre las lecciones extraídas de los experimentos de Fast.ai está de que no requieren necesariamente un procesamiento masivo para acelerar el entrenamiento. Los investigadores argumentaron que una combinación de nuevas técnicas de capacitación, como los modelos de tamaño dinámico junto con el acceso público en la nube a la infraestructura de la GPU bajo demanda, puede ayudar a democratizar el aprendizaje profundo y otras tareas de desarrollo de inteligencia artificial.