Prévias de “deep image” em Redes Neurais sem treinamento

No final do ano passado, pesquisadores da Universidade Oxford e do Instituto de Ciência e Tecnologia Skolkovo detalharam seu trabalho sobre prévias de "deep-images". O conceito de uma "prévia de deep-image" é baseado intuitivamente a partir de exemplos fornecidos; pegue uma imagem distorcida ou com ruídos e a faça parecer tão normal quanto a original. Mas seu trabalho dá um passo além por fazê-lo sem uma referência à imagem original e também sem uma rede neural treinada.

Uma enorme quantidade de estatísticas de imagem são capturadas pela estrutura de um gerador de imagem convolutivo no lugar de qualquer capacidade aprendida; e nenhum aspecto da rede neural é aprendido a partir dos dados. Ao invés disso, os pesos da rede são sempre iniciados aleatoriamente, assim a única informação prévia está dentro da própria estrutura da rede.

A pesquisa foca em super-resolução, remoção de ruídos, reconstrução de imagem e inpaiting. Foi criada e demonstrada uma rede geradora sem pré-treinamento e banco de dados, capaz de renderizar imagens de qualidade original. Seus resultados são comparáveis aos padrões referenciados em seu artigo de pesquisa baseado no treinamento redes neurais convolutivas profundas ou, simplesmente, ConvNets. Os pesquisadores Ulyanov, Vedaldi e Lempitsky afirmam que:

A estrutura de uma rede geradora é suficiente para capturar uma grande quantidade de estatísticas de imagem de baixo nível antes de qualquer aprendizado. Mostramos que uma rede neural aleatoriamente inicializada pode ser usada como uma prévia manual com resultados excelentes em problemas de padrões inversos como remoção de ruídos, super-resolução e inpainting; e faz uma ponte entre duas famílias muito populares de métodos de restauração de imagens: métodos baseados em aprendizado usando ConvNets, e métodos de aprendizado livre baseados em prévias manuais de imagem como a auto-semelhança (self-similarity).

A equipe implementou as redes geradoras usando a biblioteca Torch em Python. Desenvolveram módulos para processamento de ruídos, distorção e interferência em uma imagem a partir de coisas como "ruído de TV", pixel scrambling e máscaras de imagem. O inpaiting é o processo de remover "a máscara" de uma imagem. As máscaras podem ser simples marcas d'àgua em imagens compradas, mas demonstrações de máscaras de imagem genéricas foram usadas no código de exemplo. Os exemplos de saída a partir de arquivos PNG processados pela rede neural mostram que a rede identifica a máscara com sucesso e a remove como se houvesse uma área sobreposta em cima da imagem original.

A própria rede alterna filtrando operações como convolução, aumento artificial da taxa de amostragem (upsampling) e ativação não-linear… A escolha da arquitetura de rede tem um efeito maior em como o espaço de solução é buscado por métodos como o gradiente descendente. Em particular, mostramos que a rede resiste a "más" soluções e descende muito mais rapidamente em direção a imagens aparentemente naturais.

Suas descobertas podem desafiar a noção de que ConvNets derivam seus sucessos pela habilidade de aprender prévias realísticas a partir de dados. A equipe notou que sua "abordagem de canivete suíço" é computacionalmente intensiva, requerendo vários minutos de tempo de GPU para uma simples imagem de 512 x 512 pixel. O código Python, incluindo Jupyter notebooks e dados de amostra podem ser encontrados no Github.

Unlock the full InfoQ experience

Não tem uma conta no InfoQ?

Tópicos

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

APIs em tempo real no contexto do Apache Kafka

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

Entendendo Os Valores e Princípios Ágeis

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Links úteis

Escolha a região

Avalie esse artigo

Conteúdo publicado no tópico Machine Learning

Tópicos Relacionados:

Conteúdo editorial relacionado

Conteúdo relacionado de patrocinadores

Conteúdo educacional

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

Blockchain Empresarial: Jornada de uma rede multi-organização à produção

PHP 7 - Melhorias na biblioteca padrão

O último conteúdo do InfoQ Brasil

APIs em tempo real no contexto do Apache Kafka

Sete duras lições aprendidas na migração de um monólito para microservices

Adquira leads qualificados no mercado de desenvolvimento de software com a eMag InfoQ

Entendendo Os Valores e Princípios Ágeis

Somente empresas ágeis sobrevivem ao ambiente de negócios em constante mudança

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

A inteligência artificial estaria mais próxima do bom senso?

Desafios na avaliação postural humana em aplicativos de condicionamento físico baseados em IA

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Arquitetura de Microservices Multi-Runtime

Armadilhas de design NoSQL com Java

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco