Nova técnica acelera o Deep Learning com TensorFlow em 2x

Pesquisadores da Universidade Estadual da Carolina do Norte apresentaram recentemente um artigo na Conferência Internacional de Supercomputação (ICS) sobre a nova técnica, "deep reuse" (DR), que pode acelerar o tempo para redes neurais deep learning em execução no TensorFlow em até 2x, sem quase perder a precisão.

O Dr. Xipeng Shen, em conjunto com o aluno de graduação Lin Ning, foram os autores do artigo que descreve a técnica, que não requer hardware especial ou alterações no modelo de deep learning. Ao tirar proveito dessas semelhanças e nos valores de dados que são inseridos em uma camada de rede neural, o DR elimina a computação redundante durante a inferência, reduzindo o total de tempo gasto. A redução computacional também reduz o consumo de energia, um recurso essencial para aplicativos móveis ou incorporados. Executando vários modelos comuns em deep learning da visão computacional em GPUs, incluindo CifarNet, AlexNet e VGG-19, o DR alcançou de 1,75X a 2,02X, com um aumento de 0,0005. Em alguns casos, o DR melhorou ligeiramente a precisão. Em experimentos semelhantes em um telefone celular, o DR "alcança uma velocidade média de 2,12x para o CifarNet e 2,55X para o AlexNet".

Uma grande parte do processamento durante a inferência da rede neural é gasta multiplicando um vetor de dados por uma matriz de peso. O vetor pode ser dados de entrada ou os mapas de ativação que são alimentados nas camadas ocultas da rede. Embora existam técnicas de treinamento para produzir modelos menores que possuam menos produtos com matriz vetorial, o DR não exige nenhuma alteração no processo de treinamento ou no modelo.

No momento da inferência, o DR usa o hash sensível à localidade (LSH) para agrupar a entrada de cada camada de rede. O centróide do cluster é usado no produto da matriz vetorial, em vez do vetor de entrada real. O resultado é salvo na memória, e sempre que uma nova entrada é encontrada, é mapeada rapidamente para o cluster e o resultado do produto da matriz vetorial é salvo, em vez de ser recalculado com a nova entrada. Isso pode reduzir a precisão dos cálculos, mas, de acordo com a equipe, "a margem de comparação está entre 54-78% de precisão geral de inferência". Também há alguma sobrecarga necessária para aplicar o algoritmo LSH, mas, novamente, os ganhos totais mais do que compensam.

O tempo de execução aprimorado do DR significa menor consumo de energia, o que é atraente para dispositivos móveis ou incorporados, no entanto, não reduz os requisitos de armazenamento e memória do modelo. Muitos modelos deep learning são grandes para serem executados em celulares, por exemplo, a equipe de pesquisa não pôde executar o modelo VGG-19 nos dispositivos móveis. Esse problema pode ser solucionado através da produção de modelos menores ou de técnicas de compactação, como a quantização pós-treinamento. Os pesquisadores investigaram o desempenho do DR com redes compactadas e descobriram que havia alcançado uma velocidade de 2x a 3x nas camadas convolucionais de um AlexNet compactado.

A equipe implementou o DR usando o TensorFlow para experimentos com GPU e o TensorFlow Lite para experimentos com dispositivos móveis. Em um artigo anterior, os pesquisadores investigaram o uso de DR para acelerar o treinamento. Nessas experiências mais recentes, a equipe usou modelos pré treinados da biblioteca TensorFlow slim como linha de base para comparar as melhorias de inferência do DR.

Unlock the full InfoQ experience

Não tem uma conta no InfoQ?

Tópicos

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

APIs em tempo real no contexto do Apache Kafka

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

Entendendo Os Valores e Princípios Ágeis

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Links úteis

Escolha a região

Avalie esse artigo

Conteúdo publicado no tópico IA, ML e Engenharia de Dados

Tópicos Relacionados:

Conteúdo editorial relacionado

Conteúdo relacionado de patrocinadores

Conteúdo educacional

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

Blockchain Empresarial: Jornada de uma rede multi-organização à produção

PHP 7 - Melhorias na biblioteca padrão

O último conteúdo do InfoQ Brasil

APIs em tempo real no contexto do Apache Kafka

Sete duras lições aprendidas na migração de um monólito para microservices

Adquira leads qualificados no mercado de desenvolvimento de software com a eMag InfoQ

Entendendo Os Valores e Princípios Ágeis

Somente empresas ágeis sobrevivem ao ambiente de negócios em constante mudança

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

A inteligência artificial estaria mais próxima do bom senso?

Desafios na avaliação postural humana em aplicativos de condicionamento físico baseados em IA

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Arquitetura de Microservices Multi-Runtime

Armadilhas de design NoSQL com Java

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ Engineering Leadership Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027