Computadores desenvolvem um novo caminho para a inteligência humana

inteliar1 As redes neurais que emprestam estratégias da biologia estão dando saltos profundos em suas habilidades. Ignorar uma meta é a melhor maneira de criar máquinas verdadeiramente inteligentes? Em 2007, Kenneth Stanley, cientista da computação da Universidade da Flórida Central, brincava com o Picbreeder, um site que ele e seus alunos haviam criado, quando um alienígena se tornou um carro de corrida e mudou sua vida. No Picbreeder, os usuários visualizavam uma variedade de 15 imagens semelhantes, compostas de formas geométricas ou padrões swirly, todas as variações de um tema.

Na ocasião, alguns podem se parecer com um objeto real, como uma borboleta ou um rosto. Os usuários foram solicitados a selecionar um e, geralmente, clicavam no que achavam mais interessante. Assim que o fizessem, um novo conjunto de imagens, com todas as variações de sua escolha, preencheria a tela. A partir dessa exploração lúdica, surgiu um catálogo de desenhos fantasiosos.

Stanley é pioneiro em um campo de inteligência artificial chamado neuroevolução, que coopta os princípios da evolução biológica para projetar algoritmos mais inteligentes. Com Picbreeder, cada imagem era a saída de um sistema computacional semelhante a uma rede neural. Quando uma imagem surgiu, sua rede subjacente se transformou em 15 variações ligeiramente diferentes, cada uma das quais contribuiu com uma nova imagem. Stanley não pretendia que Picbreeder gerasse algo em particular. Ele tinha apenas um pressentimento de que ele ou o público poderia aprender algo sobre evolução ou inteligência artificial.

Um dia, Stanley viu algo parecido com um rosto alienígena no site e começou a evoluí-lo, selecionando um filho e um neto e assim por diante. Por acaso, os olhos redondos se abaixaram e começaram a se parecer com as rodas de um carro. Stanley foi com ele e desenvolveu um carro esportivo de aparência esfarrapada. Ele continuou pensando no fato de que se ele tivesse começado a tentar evoluir um carro do zero, em vez de um alienígena, ele nunca poderia ter feito isso, e se perguntou o que isso implicava em atacar os problemas diretamente. "Isso teve um enorme impacto em toda a minha vida", disse ele. Ele olhou para outras imagens interessantes que surgiram em Picbreeder, traçou suas linhagens e percebeu que quase todas elas haviam evoluído por meio de algo que parecia completamente diferente. "Depois que vi as evidências, fiquei impressionado."

A realização de Stanley levou ao que ele chama de princípio da etapa - e, com ele, uma maneira de projetar algoritmos que abraçam mais plenamente o potencial infinitamente criativo da evolução biológica. Algoritmos evolutivos existem há muito tempo. Tradicionalmente, eles foram usados para resolver problemas específicos. Em cada geração, as soluções com melhor desempenho em algumas métricas - a capacidade de controlar um robô de duas pernas, por exemplo - são selecionadas e produzem descendentes. Embora esses algoritmos tenham tido alguns sucessos, eles podem ser mais intensivos em termos computacionais do que outras abordagens, como a "aprendizagem profunda", que explodiu em popularidade nos últimos anos.

O princípio da etapa vai além das abordagens evolutivas tradicionais. Em vez de otimizar para um objetivo específico, ele abraça a exploração criativa de todas as soluções possíveis. Ao fazer isso, valeu a pena com resultados inovadores. No início deste ano, um sistema baseado no princípio da etapa dominou dois videogames que haviam frustrado os métodos populares de aprendizado de máquina. E em um artigo publicado na semana passada na Nature, a DeepMind - empresa de inteligência artificial que foi pioneira no uso de aprendizado profundo para problemas como o jogo do Go - relatou sucesso ao combinar aprendizado profundo com a evolução de uma população diversificada de soluções.

O potencial do trampolim pode ser visto por analogia com a evolução biológica. Na natureza, a árvore da vida não tem um objetivo abrangente, e os recursos usados para uma função podem encontrar-se alistados por algo completamente diferente. As penas, por exemplo, provavelmente evoluíram para isolamento e só mais tarde se tornaram úteis para o vôo.

A evolução biológica também é o único sistema a produzir inteligência humana, que é o sonho final de muitos pesquisadores de IA. Devido ao histórico da biologia, Stanley e outros acreditam que, se quisermos algoritmos que possam navegar no mundo físico e social tão facilmente quanto possível - ou melhor! - precisamos imitar as táticas da natureza. Em vez de codificar as regras do raciocínio, ou de fazer com que os computadores aprendam a obter uma pontuação alta em métricas específicas de desempenho, eles argumentam, devemos deixar uma população de soluções florescer. Faça com que eles priorizem a novidade ou o interesse, em vez da capacidade de andar ou falar. Eles podem descobrir um caminho indireto, um conjunto de degraus e acabar andando e conversando melhor do que se tivessem procurado essas habilidades diretamente.

Novo, Interessante, Diverso

Depois de Picbreeder, Stanley começou a demonstrar que a neuroevolução poderia superar o argumento mais óbvio: “Se eu executar um algoritmo que seja criativo a tal ponto que não tenho certeza do que ele produzirá”, ele disse, “é muito interessante. do ponto de vista da pesquisa, mas é mais difícil vender comercialmente. ”

Ele esperava mostrar que, simplesmente seguindo idéias em direções interessantes, os algoritmos não apenas produziam uma diversidade de resultados, mas resolviam problemas. Mais audaciosamente, ele pretendia mostrar que ignorar completamente um objetivo pode levá-lo até mais rápido do que persegui-lo. Ele fez isso através de uma abordagem chamada busca de novidades.

O sistema começou com uma rede neural, que é um arranjo de pequenos elementos computacionais chamados neurônios conectados em camadas. A saída de uma camada de neurônios é passada para a próxima camada por meio de conexões com vários "pesos". Em um exemplo simples, dados de entrada, como uma imagem, podem ser alimentados na rede neural. À medida que as informações da imagem são passadas de camada para camada, a rede extrai informações cada vez mais abstratas sobre seu conteúdo. Eventualmente, uma camada final calcula as informações de nível mais alto: um rótulo para a imagem.

Na neuroevolução, você começa atribuindo valores aleatórios aos pesos entre as camadas. Essa aleatoriedade significa que a rede não será muito boa em seu trabalho. Mas, a partir desse triste estado, você cria um conjunto de mutações aleatórias - redes neurais de descendentes com pesos ligeiramente diferentes - e avalia suas habilidades. Você mantém os melhores, produz mais filhos e repete. (Estratégias de neuroevolução mais avançadas também introduzirão mutações no número e no arranjo de neurônios e conexões.) A neuroevolução é um meta-algoritmo, um algoritmo para projetar algoritmos. E, eventualmente, os algoritmos ficam muito bons em seu trabalho.

Para testar o princípio da etapa, Stanley e seu aluno Joel Lehman aprimoraram o processo de seleção. Em vez de selecionar as redes que tiveram melhor desempenho em uma tarefa, a pesquisa de novidade as selecionou pelo quão diferentes elas eram daquelas com comportamentos mais semelhantes aos deles. (Em Picbreeder, as pessoas recompensavam a interessante. Aqui, como um proxy para a interessante, a pesquisa de novidades recompensava a novidade.)

Em um teste, eles colocaram robôs virtuais de rodas em um labirinto e desenvolveram os algoritmos que os controlavam, esperando que alguém encontrasse um caminho para a saída. Eles executaram a evolução do zero 40 vezes. Um programa de comparação, no qual os robôs foram selecionados para a proximidade (quando o corvo voa) da saída, desenvolveu um robô vencedor apenas 3 em cada 40 vezes. A pesquisa de novidades, que ignorou completamente o quão perto cada bot estava da saída, conseguiu 39 vezes. Funcionou porque os bots conseguiram evitar becos sem saída. Em vez de encarar a saída e bater a cabeça na parede, eles exploraram território desconhecido, encontraram soluções alternativas e venceram por acidente. "A pesquisa de novidades é importante porque virou tudo de cabeça para baixo", disse Julian Togelius, cientista da computação da Universidade de Nova York, "e basicamente perguntou o que acontece quando não temos um objetivo".

Uma vez que Stanley afirmou que a busca de objetivos pode ser um obstáculo para alcançá-los, ele procurou maneiras inteligentes de combinar busca de novidades e objetivos específicos. Isso levou ele e Lehman a criar um sistema que espelha os nichos evolutivos da natureza. Nesta abordagem, os algoritmos competem apenas contra outros que são semelhantes a eles. Assim como os vermes não competem com as baleias, o sistema mantém nichos algorítmicos separados, dos quais uma variedade de abordagens promissoras pode surgir.

Tais algoritmos evolutivos com competição localizada mostraram proficiência no processamento de pixels, controle de um braço de robô e (como mostrado na capa da Nature), ajudando um robô de seis patas a adaptar rapidamente sua marcha depois de perder um membro, como um animal faria. Um elemento chave desses algoritmos é que eles promovem trampolins. Em vez de priorizar constantemente uma melhor solução geral, eles mantêm um conjunto diversificado de nichos vibrantes, qualquer um dos quais poderia contribuir com um vencedor. E a melhor solução pode derivar de uma linhagem que pulou entre nichos.

Evoluiu para ganhar

Para Stanley, que agora está no Uber AI Labs, o princípio da etapa explica a inovação: se você voltasse no tempo com um computador moderno e dissesse às pessoas que desenvolviam tubos de vácuo para abandoná-los e se concentrar em laptops, não teríamos nenhum. Isso também explica a evolução: evoluímos a partir de vermes chatos, que não eram especialmente inteligentes, mas tinham simetria bilateral. "Não está totalmente claro que a descoberta da simetria bilateral tenha algo a ver com inteligência, muito menos com Shakespeare", disse Stanley, "mas sim". A própria neuroevolução seguiu um caminho inesperadamente tortuoso na última década. Por um longo tempo, ele viveu nas sombras de outras formas de IA.

Uma de suas maiores desvantagens, segundo Risto Miikkulainen, cientista da computação da Universidade do Texas, Austin (e ex-orientador de doutorado de Stanley), é a quantidade de computação necessária. No aprendizado de máquina tradicional, à medida que você treina uma rede neural, ela gradualmente se torna cada vez melhor. Com a neuroevolução, os pesos mudam aleatoriamente, para que o desempenho da rede possa se deteriorar antes de melhorar.

Outra desvantagem é o fato básico de que a maioria das pessoas tem um problema específico que gostaria de resolver. Uma estratégia de pesquisa que otimize o interesse pode levar você a uma solução criativa para esse problema específico. Mas isso pode desencaminhar você antes de colocá-lo no caminho certo.

Então, novamente, nenhuma estratégia é perfeita. Nos últimos cinco anos, mais ou menos, a pesquisa explodiu em diferentes áreas da pesquisa em IA, como aprendizado profundo e aprendizado por reforço. No aprendizado por reforço, um algoritmo interage com o ambiente - um robô navega no mundo real ou um jogador compete em um jogo - e aprende por tentativa e erro quais comportamentos levam aos resultados desejados. O aprendizado profundo por reforço foi usado pelo DeepMind para criar um programa que poderia derrotar os melhores jogadores do mundo no Go, um feito que muitos pensavam estar ainda a anos ou décadas de distância.

Mas o aprendizado por reforço pode ficar preso em uma rotina. Recompensas esparsas ou pouco frequentes não fornecem feedback suficiente aos algoritmos para permitir que eles prossigam em direção à meta. Recompensas enganosas - concedidas por ganhos de curto prazo que impedem o progresso a longo prazo - prendem os algoritmos em becos sem saída. Portanto, embora o aprendizado por reforço possa chicotear os seres humanos em Space Invaders ou Pong - jogos com pontos frequentes e objetivos claros -, eles caíram no chão em outros jogos clássicos que não possuem esses recursos.

No ano passado, a IA com base no princípio da etapa finalmente conseguiu superar uma série de desafios de longa data no campo.

No jogo Vingança de Montezuma, o Panama Joe navega de um cômodo a outro em um labirinto subterrâneo, coletando chaves para abrir portas e evitando inimigos e obstáculos como cobras e fogueiras. Para vencer o jogo, Stanley, Lehman, Jeff Clune, Joost Huizinga e Adrien Ecoffet, todos os cinco trabalhando no Uber AI Labs, desenvolveram um sistema em que o Panama Joe vagueia e tenta aleatoriamente várias ações. Cada vez que ele alcança um novo estado de jogo - um novo local com um novo conjunto de posses - ele o arquiva em sua memória, junto com o conjunto de ações que ele tomou para chegar lá. Se mais tarde ele encontrar um caminho mais rápido para esse estado, ele substituirá a memória antiga. Durante o treinamento, o Panama Joe escolhe repetidamente um desses estados armazenados, explora aleatoriamente um pouco e adiciona à memória quaisquer novos estados que encontrar.

Eventualmente, um desses estados é o estado de ganhar o jogo. E o Panama Joe tem em sua memória todas as ações que tomou para chegar lá. Ele fez isso sem nenhuma rede neural ou aprendizado de reforço - sem recompensas por coletar chaves ou se aproximar do final do labirinto - apenas exploração aleatória e uma maneira inteligente de coletar e conectar degraus. Essa abordagem conseguiu vencer não apenas os melhores algoritmos, mas também o recorde mundial humano para o jogo.

A mesma técnica, que os pesquisadores chamam de Go-Explore, foi usada para derrotar especialistas humanos no Pitfall !, um jogo em que Pitfall Harry navega por uma selva em busca de tesouros, evitando crocodilos e areia movediça. Nenhuma outra IA de aprendizado de máquina obteve pontuação acima de zero.

Agora, mesmo o DeepMind, aquela potência do aprendizado por reforço, revelou seu crescente interesse pela neuroevolução. Em janeiro, a equipe exibiu o AlphaStar, software que pode derrotar os melhores profissionais do complexo videogame StarCraft II, no qual dois oponentes controlam exércitos e constroem colônias para dominar o cenário digital. AlphaStar desenvolveu uma população de jogadores que competiram e aprenderam uns com os outros. No artigo Nature da semana passada, os pesquisadores do DeepMind anunciaram que uma versão atualizada do AlphaStar foi classificada entre os 0,2% melhores jogadores ativos de StarCraft II em uma plataforma popular de jogos, tornando-se a primeira IA a atingir o nível mais alto de um esporte popular sem restrições .

"Durante muito tempo com os agentes AlphaStar, eles estavam melhorando, mas sempre eram exploráveis", disse Max Jaderberg, cientista da computação da DeepMind que trabalhou no projeto. "Você treinaria um agente e, em média, teria um desempenho muito, muito bom, mas você sempre poderia treinar algo contra esse agente e encontrar falhas nesse agente".

Como nas tesouras de pedra-papel-tesoura para crianças, não há uma única melhor estratégia de jogo no StarCraft II. Portanto, o DeepMind incentivou sua população de agentes a desenvolver uma diversidade de estratégias - não como degraus, mas como um fim em si mesmo. Quando o AlphaStar venceu dois profissionais a cada cinco jogos, ele combinou as estratégias de cinco agentes diferentes em sua população. Os cinco agentes foram escolhidos para que nem todos ficassem vulneráveis a qualquer estratégia adversária. A força deles estava na diversidade.

AlphaStar demonstra um dos principais usos dos algoritmos evolutivos: manter uma população de diferentes soluções. Outro projeto recente do DeepMind mostra o outro uso: otimizar uma única solução. Trabalhando com Waymo, projeto de carro autônomo da Alphabet, a equipe desenvolveu algoritmos para identificar pedestres. Para evitar ficar preso a uma abordagem que funciona razoavelmente bem, mas essa não é a melhor estratégia possível, eles mantiveram "nichos" ou subpopulações, para que novas soluções tivessem tempo de se desenvolver antes de serem esmagadas pelos melhores desempenhos estabelecidos.

Os algoritmos baseados em população se tornaram mais populares nos últimos anos, em parte porque "eles são uma boa combinação com o tipo de computação que temos agora", disse Raia Hadsell, cientista pesquisadora e chefe de robótica da DeepMind, usando um setor termo padrão para recursos de computação. Hadsell convidou Clune, Lehman e Stanley para fazer uma apresentação de duas horas de seu trabalho na Conferência Internacional sobre Aprendizado de Máquina, em junho. "Acho que é uma área importante de pesquisa para IA", disse ela, "porque é complementar às abordagens de aprendizado profundo que impulsionaram o campo".

AI That Designs AI

Todos os algoritmos discutidos até agora são limitados em sua criatividade. O AlphaStar só pode criar novas estratégias de StarCraft II. A pesquisa de novidades pode encontrar novidades em apenas um domínio de cada vez - resolvendo um labirinto ou andando com um robô.

A evolução biológica, por outro lado, produz novidades sem fim. Temos bactérias e algas, pássaros e pessoas. Isso ocorre porque as soluções evoluem, mas também os problemas. A girafa é uma resposta ao problema da árvore. A inovação humana prossegue da mesma forma. Criamos problemas para nós mesmos - poderíamos colocar uma pessoa na lua? - e depois resolva-os.

Para espelhar essa conversa aberta entre problemas e soluções, Stanley, Clune, Lehman e outro colega da Uber, Rui Wang, lançaram um algoritmo chamado POET para o Trailblazer emparelhado aberto. Para testar o algoritmo, eles desenvolveram uma população de bots virtuais de duas pernas. Eles também desenvolveram uma população de pistas de obstáculos para os robôs, com colinas, trincheiras e tocos de árvores. Os bots às vezes trocavam de lugar entre si, tentando novos terrenos. Por exemplo, um bot aprendeu a atravessar terreno plano enquanto arrastava o joelho. Foi então mudado aleatoriamente para uma paisagem com tocos curtos, onde teve que aprender a andar de pé. Quando retornou à sua primeira pista de obstáculos, a completou muito mais rapidamente. Um caminho indireto permitiu melhorar, pegando as habilidades aprendidas em um quebra-cabeça e aplicando-as a outro.

O POET poderia potencialmente projetar novas formas de arte ou fazer descobertas científicas inventando novos desafios para si e depois resolvendo-os. Poderia ir ainda mais longe, dependendo de sua capacidade de construir um mundo. Stanley disse que espera criar algoritmos que ainda possam estar fazendo algo interessante depois de um bilhão de anos.

A Evolution "inventou a visão, inventou a fotossíntese, inventou a inteligência no nível humano, inventou tudo e tudo em uma série de algoritmos", disse Stanley. "Para capturar um pouquinho desse processo, acho que poderia ser incrivelmente poderoso."

Em um artigo recente, Clune argumenta que a descoberta em aberto é provavelmente o caminho mais rápido para a inteligência geral artificial - máquinas com quase todas as capacidades humanas. A maior parte do campo da IA é focada no design manual de todos os componentes de uma máquina inteligente, como diferentes tipos de arquiteturas de redes neurais e processos de aprendizado. Mas não está claro como isso pode eventualmente se agrupar em uma inteligência geral.

Também pode ser arrogante exercer muito controle sobre os pesquisadores. Uma ironia doce na história de Stanley é que ele originalmente enviou Picbreeder para a National Science Foundation, que rejeitou seu pedido de subsídio, dizendo que seu objetivo não estava claro. Mas o projeto levou a documentos, palestras, um livro e uma startup - Geometric Intelligence, comprada pela Uber para formar o núcleo do Uber AI Labs. “Para mim”, disse Stanley, “uma das coisas realmente impressionantes e talvez loucas é que a história de como cheguei aqui é basicamente a mesma que a percepção algorítmica que me trouxe até aqui. A coisa que me levou ao insight é realmente explicada pelo próprio insight. ”

Fonte: https://www.quantamagazine.org/

CIÊNCIA E TECNOLOGIA

Computadores desenvolvem um novo caminho para a inteligência humana

Novo, Interessante, Diverso

Evoluiu para ganhar

AI That Designs AI