Ronaldo Mota
Diretor Científico da Digital Pages e membro da Academia Brasileira de Educação
***
Humanos são humanos e máquinas são máquinas. Mesmo assim, a história humana pode ser contada a partir do uso de diversas ferramentas, as quais foram, no decorrer do tempo, se incorporando ao cotidiano, interferindo diretamente na evolução da espécie.
As múltiplas maneiras com que os humanos têm feito uso de diversos utensílios, ao longo de sua evolução, talvez seja a principal característica que nos distinga das demais espécies. A habilidade no uso de varetas e pedras remonta há milhões de anos entre os nossos mais distantes ancestrais, mas há um longo e peculiar caminho até os dias atuais, quando é possível, por exemplo, implantarmos chips em nossos corpos. Por sua vez, as máquinas não somente substituem os trabalhos mais simples dos humanos; muitas vezes, tentam reproduzi-los literalmente, a exemplo da robótica e equipamentos inteligentes, incluindo as recentes máquinas que aprendem. Isso ganha uma dimensão especial quando dispomos de uma capacidade quase ilimitada de armazenar dados e utilizá-los via uma gestão inteligente, contemplando elementos de modelagem e simulação sem precedentes.
Mesmo assim, supõe-se, em geral, que há limites claros para as máquinas, entre eles, ir além de uma racionalidade previsível, embutida nas programações e nos algoritmos adotados. Em que medida podemos humanizar máquinas, especialmente no âmbito dos usos contemporâneos de Inteligência Artificial (IA), torna-se, progressivamente, um tema de grande interesse e é o tema central deste texto.
Ou seja, mesmo os maiores entusiastas de IA reconhecem que as máquinas estão restritas a decisões racionalizáveis, ainda que submetidas a sofisticados algoritmos. Nesse sentido, as emoções humanas, especialmente aquelas baseadas no livre arbítrio, são supostas como quase impossíveis de serem reproduzidas por máquinas.
No entanto, explorando essa difusa e complexa região entre racionalidade e emoções ou entre determinismo e livre arbítrio, é possível exemplificar a incorporação de elementos de incertezas que envolvem tomadas de decisões em processos de máquinas que simulam comportamentos humanos.
Com o intuito de exemplificar uma possibilidade, são necessários alguns conceitos básicos de métodos estatísticos, em particular o Método de Monte Carlo (MMC). O MMC é uma abordagem estatística baseada em amostragens aleatórias massivas que permite obter resultados numéricos. A partir de sucessivas simulações, um elevado número de possíveis configurações é gerado, permitindo calcular probabilidades. O MMC tem sido utilizado em diversas áreas (incluindo algumas semelhantes com jogos de dados, decorrendo daí sua denominação) como forma de obter aproximações numéricas de funções complexas, nas quais não é viável, ou mesmo impossível, obter uma solução simples analítica ou determinística.
Um MMC muito utilizado em Física, tendo como objetivo determinar valores esperados de propriedades do sistema simulado, a partir de uma média sobre a amostra, é o chamado Algoritmo de Metropolis (AM). Originalmente apresentado em 1953 por Nicholas Metropolis e outros1, ele foi generalizado em 1970 por W. K. Hastings2 (por isso também conhecido como Algoritmo Metropolis-Hastings).
AM se baseia na observação de que a determinação da probabilidade de uma dada configuração demanda conhecer a chance de ocorrência dela e de todas as outras possíveis configurações. Para variáveis contínuas se faz necessário uma integração da densidade de probabilidade sobre todo o espaço de configurações. Tal procedimento é, em geral, extremamente custoso, muitas vezes simplesmente impossível, quando se utiliza um número de variáveis grande (da ordem de centenas ou milhares), como é bastante comum nos sistemas de maior interesse.
A grande contribuição característica do AM é não levar em conta a probabilidade das configurações em si, mas sim a razão entre elas, dado que a razão entre as probabilidades de duas dadas configurações pode ser determinada independentemente das demais.
Se considerarmos duas configurações m e n quaisquer, é conhecido da estatística que, sendo E(m) a energia da configuração m e E(n) da n e sendo P(m) a probabilidade da configuração m e P(n) da n, a razão entre as probabilidades P(n) e P(m) pode ser descrita como: exp[-(E(n) – E(m))/KT], onde K é a constante de Boltzmann e T a temperatura da amostra. Definida essa abordagem, o AM é implementado via um conjunto de regras razoavelmente simples:
- O primeiro passo é a geração de uma configuração inicial aleatória, denominada m;
- Em seguida, geramos uma nova configuração-tentativa, provocando pequenas alterações na configuração inicial, denominada n;
- Se a nova configuração, n, tiver uma energia menor (maior estabilidade) do que a primeira, m, adota-se esta nova n;
- Caso a energia da nova configuração, n, seja maior do que a original m, refletindo uma perda em estabilidade, em estatísticas convencionais o novo resultado seria descartado. Nesta abordagem, diferentemente, gera-se um número aleatório entre 0 e 1 e se este número for menor do que exp [-(E(n) – E(m))/KT], aceita-se esta configuração na amostra, caso contrário, não;
- Repetem-se os passos (ii) e (iii) até que um certo critério de atendimento seja satisfeito, tal como esquematizado na Fig. 1.
Observar que, no critério adotado acima, se E(n) e E(m) são valores bastante próximos, o resultado do termo exponencial acima se aproxima de 1, portanto, com razoável chance da nova configuração ser aceita. No entanto, se E(n) for muito maior do que E(m), este valor tende para zero, com grandes chances do número gerado, entre 0 e 1 ser maior e, portanto, esta configuração deve ser, provavelmente, desprezada.
Em sistemas físicos, onde se pretende determinar a configuração correspondente ao estado de mínima energia (maior estabilidade), um grande mérito do AM é permitir escapar de mínimos locais de energia. Via múltiplas etapas e a grande quantidade de configurações geradas, ao se aceitarem configurações com energias maiores com probabilidade não nulas, barreiras podem ser superadas e aprisionamentos locais evitados, e mínimos gerais atingidos (ver Fig. 2). Observar que se as configurações com energias maiores fossem liminarmente desprezadas, a possibilidade de aprisionamento em mínimos locais seria difícil de ser evitada.
[caption id="attachment_15586" align="aligncenter" width="400"] Fig. 2. Gráfico genérico ilustrativo mostrando máximo e mínimos, locais e globais. No caso do problema físico, poderíamos ter no eixo vertical a variável energia e no eixo horizontal o espaço de configurações.[/caption]A adoção do AM garante que visitaremos regiões próximas dos mínimos de configurações mais aceitáveis (correspondentes aos de mínimas energias), percorrendo o espaço do domínio das funções envolvidas de maneira sistemática. Dependendo de como é definido o critério probabilístico, os caminhos não se afastarão muito de uma determinada região de confiança com relação ao método adotado.
No caso de máquinas inteligentes, movidas por algoritmos, uma analogia seria possível no tocante à tomada de decisões. No universo de abundância extrema de dados, de facilidades inéditas de gestão dos mesmos e de máquinas inteligentes, um ponto crucial é a tomada de decisões. Suponhamos que em cada encruzilhada, a máquina possa considerar múltiplos caminhos, cabendo contemplar critérios de escolhas e consequentes evoluções. Inspirados no AM, trata-se de garantir que caminhos que seriam normalmente desprezados sejam também considerados, seguindo o conjunto de regras acima descritos.
A partir de uma dada situação, expressa por uma configuração inicial aleatória, exploraríamos diversos caminhos no âmbito de tomada de decisões. Se o caminho simulado, fruto de pequenas alterações na configuração inicial, for, à luz do algoritmo utilizado, mais indicado, adota-se a nova configuração resultante.
Como o algoritmo utilizado, baseado nos dados disponíveis, permite contabilizar os prós e contras de cada nova configuração, podemos definir que a diferença entre eles possa ser expressa por um determinado Delta, a exemplo do caso anterior, sendo definido em cada circunstância.
Assim, dada uma situação original aleatória, quando a nova configuração gerar um Delta negativo, adota-se a nova configuração. Caso a nova situação seja menos indicada do que a original, gera-se um número aleatório entre 0 e 1 e se este número for menor do que exp[-Delta/C], onde C é uma constante, aceita-se o caminho; caso contrário, não.
Observar que, a exemplo do caso anterior, se Delta é muito pequeno, o termo exponencial se aproxima de 1, com grandes chances deste número ser superior ao gerado aleatoriamente entre 0 e 1; portanto, com boa chance de ser adotado o caminho. Contrariamente, se Delta é muito grande o valor tende a zero e torna-se grande a possibilidade de o caminho ser desprezado. Por fim, repetem-se os processos acima até que um certo critério de atendimento seja satisfeito.
A constante C (análoga ao KT de sistemas físicos) permitiria uma associação indireta com um tipo de “excitação térmica”. Ou seja, em alguns processos, com C maior, significaria algo equivalente a menor aversão a risco nas tomadas de decisões, contemplando possibilidades mais radicais ou arriscadas entre configurações mais distantes. Valores menores de C representariam tomadas de decisões mais conservadoras, envolvendo estados mais próximos, sem grandes perturbações no sistema.
A evolução do sistema permitiria, de certa forma, imitar comportamentos humanos que nem sempre seguem, exclusivamente, racionalidades, sendo recheado de etapas guiadas por elementos de emoção, em geral, não contemplados nos algoritmos tradicionais.
Em tese, portanto, podemos imaginar contribuições acerca de como ensinar máquinas a tomarem decisões. No caso, os movimentos sequenciais de uma máquina inteligente qualquer seguiriam os passos inspirados por um AM. Ou seja, introduzindo aleatoriedade, via pequenos passos, podemos, no limite, simular emoções e imprevisibilidades, as quais conjugadas com racionalidades estabelecem alguma semelhança com decisões humanas.
________________________________________
Referências:
- Metropolis e outros, Journal of Chemical Physics 21, 1087 (1953).
- K. Hastings, Biometrika 57 (1), 97 (1970).