O chatbot que você usa está apoiado num artigo de tradução de 2017

Me incomoda quando transformam um modelo de linguagem num milagre. Vai ler como ele funciona, está tudo aí. Então um dia eu sentei e percorri os artigos sobre os quais ele se apoia. Não são muitos. A indústria inteira, cada chatbot, cada bugiganga com "IA" colada nela, anda em cima de uma cadeia curta de trabalho, e quase tudo cabe em vinte anos. Dá pra percorrer rápido. E quando você percorre, o milagre evapora, e junto com ele vai embora o medo fora de hora, e também as expectativas infladas.

Aqui está a cadeia, elo por elo.

A ideia é velha: língua é previsão

A ideia de que dá pra prever a língua não é nova. Claude Shannon, lá em 1948, no artigo que deu início à teoria da informação, mediu o quanto uma letra do inglês é previsível quando você conhece as anteriores. Ele mostrou que o texto é cheio de redundância, que sabendo o começo, o próximo caractere é mais fácil de adivinhar do que parece. Aí está a semente de tudo que vem depois. A língua é estatisticamente previsível. A única pergunta era com o que prever.

Por décadas contaram de forma grosseira. Pegavam frequências, com que frequência uma palavra vinha depois das duas ou três anteriores, e chamavam de n-gramas. Funcionava em frases curtas e desmoronava nas longas. A máquina não fazia ideia de que "gato" e "gatinho" ficam pertinho. Pra ela eram dois sinais diferentes, e era só isso.

As palavras ganham uma geometria

A primeira virada veio de Yoshua Bengio e a equipe dele em 2003, o artigo "A Neural Probabilistic Language Model". Ideia simples: representar a palavra não como um sinal, mas como um conjunto de números, coordenadas num espaço. Aí palavras próximas no sentido ficam perto uma da outra, e a máquina, vendo uma, já sabe um pouco sobre a vizinha. Foi assim que as redes neurais entraram nos modelos de linguagem, e que entraram os embeddings, as palavras como vetores.

Em 2013 a equipe de Tomas Mikolov no Google deixou isso visível, o modelo word2vec. Descobriu-se que o sentido mora nesse espaço como geometria. O exemplo clássico deles: pega o vetor da palavra "rei", subtrai "homem", soma "mulher", e você cai quase exatamente em "rainha". As relações entre palavras viraram aritmética sobre números. Isso está na fundação até hoje, dentro de qualquer modelo atual o texto primeiro vira vetores assim.

As máquinas aprendem a ler em ordem

Texto é uma sequência, e a ordem é tudo nele. "Cachorro morde homem" e "homem morde cachorro" são notícias diferentes com as mesmas palavras. Pra segurar a ordem usavam redes recorrentes, em especial a LSTM (Hochreiter e Schmidhuber, 1997, muito antes da moda). Elas liam o texto palavra por palavra e arrastavam consigo uma memória do que tinham lido.

Em 2014 construíram tradução em cima disso. O trabalho da equipe de Ilya Sutskever (seq2seq) mostrou como uma rede podia espremer uma frase de uma língua num vetor, e outra podia desdobrar num texto traduzido. Na mesma época Dzmitry Bahdanau e os coautores acrescentaram a peça chave, o mecanismo de atenção. Conforme o modelo produz cada palavra da tradução, ele aprende a olhar pras palavras do original que mais importam naquele momento. Não arrastar tudo num vetor espremido, mas escolher a cada passo no que olhar.

Guarde a palavra "atenção". Em três anos ela vira o nome de tudo.

A virada: 2017

Em 2017 oito pessoas do Google soltaram um artigo com um título ousado, "Attention Is All You Need", "Atenção é tudo que você precisa". E jogaram fora a recorrência inteira. Ficaram com o único mecanismo de atenção e construíram com ele uma arquitetura nova, o transformer.

Foi isso que fizeram. Em vez de ler o texto palavra por palavra em ordem, o transformer olha todas as palavras de uma vez e, pra cada uma, calcula o quanto ela se relaciona com cada outra. A palavra "ele" numa frase varre todos os substantivos e decide a qual se refere. Isso é a autoatenção, self-attention.

Parece um detalhe pequeno. Na verdade é a fundação da indústria inteira, por dois motivos.

Primeiro, qualidade. O modelo enfim enxerga ligações a qualquer distância, entre o começo e o fim de um parágrafo longo, não só entre vizinhos.

Segundo, e esse pesa mais pra tudo que veio depois, velocidade. Como as palavras não precisam mais ser lidas estritamente em ordem, todo o trabalho pode rodar em paralelo, em milhares de placas de vídeo ao mesmo tempo. As redes recorrentes antigas não conseguiam, ficavam presas na própria sequência. O transformer tirou esse teto. O que significava que dava pra inflar ele até tamanhos de que ninguém estava falando.

Tudo que você chama de "IA" hoje é um transformer. GPT, Claude, Gemini, os modelos abertos, tradutores, geradores de código. O T de GPT é de Transformer. A arquitetura tem quase dez anos, e nada a empurrou pro lado ainda.

Dois ramos

Daquele artigo de 2017 cresceram dois ramos.

Em 2018 o Google fez o BERT, um modelo que lê o texto nas duas direções ao mesmo tempo e entende ele bem, pra busca e classificação. A OpenAI foi pro lado da geração e fez a linha GPT, um modelo que lê da esquerda pra direita e continua o texto. O mesmo autocomplete caro do primeiro texto. GPT-1 em 2018, GPT-2 em 2019, GPT-3 em 2020.

O GPT-3 merece uma parada. No artigo de 2020 (Brown e coautores, com o título "Language Models are Few-Shot Learners") a OpenAI mostrou uma coisa estranha. Faça o modelo grande o suficiente e dê texto suficiente pra ele, e ele começa a resolver tarefas pras quais ninguém o treinou diretamente. Mostre dois ou três exemplos de tradução no pedido, e ele traduz o quarto. Ninguém colocou uma "habilidade de tradução" nele à parte. Ela surgiu sozinha, um subproduto de prever texto em escala enorme. Isso assustou e ao mesmo tempo eletrizou a indústria: parece que a escala, sozinha, te dá alguma coisa.

A lei da escala

O quanto de "alguma coisa" ela te dá, foram lá e mediram. Em 2020 Kaplan e coautores na OpenAI deduziram as leis de escala: a qualidade sobe de forma previsível, ao longo de uma curva suave, conforme você gira três botões, o tamanho do modelo, a quantidade de dados e a computação. Não aos saltos, não por mágica. Por uma fórmula.

Em 2022 a DeepMind afinou isso (o artigo do modelo Chinchilla, Hoffmann e coautores). Descobriu-se que a indústria estava correndo atrás do tamanho do modelo e subalimentando ele de dados. No mesmo orçamento, um modelo menor treinado em mais texto sai mais forte. Isso reescreveu a receita e explica por que os modelos dos últimos anos são treinados em quantidades monstruosas de texto.

Vale dar o nome à coisa aqui. O salto dos últimos anos não é uma ideia nova sobre mente. É a engenharia da escala em cima da arquitetura de 2017. A mesma máquina de previsão de texto, inflada até o limite que o hardware aguenta.

O último elo

Sobrava um problema. A GPT-3 crua continuava o texto, mas não obedecia. Você pedia uma coisa e recebia uma continuação plausível, muitas vezes fora do ponto. Pra uma pessoa comum era difícil de usar.

Fecharam isso com treino sobre avaliações humanas. O método se chama RLHF (aprendizado por reforço com feedback humano), as raízes dele estão no artigo de Christiano e coautores de 2017, e foi levado a produto na OpenAI no artigo do InstructGPT (Ouyang e coautores, 2022). O esquema é simples no fundo: o modelo produz vários candidatos de resposta, pessoas de verdade marcam qual é melhor, e sobre essas avaliações o modelo é ajustado pra produzir mais do que as pessoas acham útil e adequado. Isso não acrescenta inteligência. Coloca modos na máquina de previsão, seguir a instrução, manter o formato, não ser grosseiro.

Esse último elo, o treino na obediência, foi o que virou uma curiosidade de pesquisa em produto. Em novembro de 2022 a OpenAI embrulhou um modelo desses numa janela de chat e lançou como ChatGPT. A arquitetura por dentro tinha cinco anos. A única coisa nova era uma porta de entrada fácil.

Estenda a cadeia

Junte tudo. A ideia velha de que a língua é previsível (Shannon, 1948). Palavras como vetores (Bengio 2003, word2vec 2013). O mecanismo de atenção pra tradução (2014). O transformer, que ficou só com a atenção e deu paralelismo (2017). A escala como alavanca previsível (GPT-3 2020, as leis de escala, Chinchilla 2022). O treino na obediência (InstructGPT 2022). Na ponta da cadeia, o chat no seu navegador.

Nenhum elo precisa de uma mente sentada lá dentro. Cada um é engenharia, botar texto em números, calcular as ligações em paralelo, inflar a escala, pentear a saída pro gosto das pessoas. Conhecer a cadeia vale mais do que curiosidade. Quando você entende do que a máquina é feita, enxerga onde estão as bordas dela. E você para de superestimar ela, e para de temer a coisa errada.