Previsão de Erro nos Gânglios Basais

Origem: Wikipédia, a enciclopédia livre.

O processo de aprendizagem pode ser interpretado como a utilização do que foi experienciado no passado pelo animal e a situação decorrente para interpretar o que possa ocorrer no futuro. Em última análise, esta capacidade de integrar diferentes tipos de informação é importante na sobrevivência do organismo: selecionar determinados tipos de comportamentos de forma a otimizar os benefícios que poderão ser retirados do ambiente.[1][2][3]

Atualmente, modelos computacionais são utilizados para perceber a enorme complexidade dos circuitos neuronais. Este tipo de abordagem apresenta elevado interesse na perceção do papel da dopamina e dos circuitos corticoestriatais no controlo de comportamento e dos processos de aprendizagem por parte de um determinado organismo em função das contingências ambientais.[1]

Neurónios dopaminérgicos são considerados fundamentais em modelos de aprendizagem regidos pelo ambiente (reinforcement learning models) uma vez que são responsáveis por interpretar e traduzir erros associados a diferenças entre aquilo que um o animal espera receber do ambiente e do que realmente consegue obter dele.[4]

Aplicação prática da utilização da dopamina como um previsor de erros[editar | editar código-fonte]

Após a experiência sofrida pelo animal em função das contingências do ambiente, o valor para um determinado estado sofre uma atualização. Na presença de um estímulo, o sistema faz uma comparação direta com o valor desse mesmo estímulo em função da experiência do animal. De forma importante, após o animal conseguir a recompensa, o valor desse mesmo estímulo sofrerá uma atualização em função das contingências, alterando o valor para esse estado no sistema.

Partindo da situação hipotética de uma pessoa que se dirige a uma pastelaria para comer o seu bolo favorito. Mesmo estando à espera que o bolo seja incrivelmente delicioso, existe a possibilidade de que o bolo não seja igual ao melhor bolo que já tenha comido (100%), levando a construir a previsão de que o bolo naquela mesma pastelaria seja ligeiramente inferior ao bolo esperado (70%, por exemplo). Como tal, após ter experimentado este bolo, a próxima previsão para a qualidade do mesmo bolo não será mais de 100%, mas passará a ser de 70%. Isto é, este tipo de aprendizagem sofre uma constante atualização entre o padrão criado no circuito corticostriatal e o contexto ambiental, pela ação da dopamina.[5]

Se aplicarmos este tipo de análise a modelos de condicionamento instrumental, a utilização da dopamina como um previsor de erros surge como o sinal indicado para otimizar o comportamento: realizar a melhor previsão possível em função dos eventos atuais (o bolo da pastelaria) e se a previsão não for a correta, fazer a atualização do circuito para que no futuro as previsões sejam mais próximas da realidade.[2][5]

Modelo de Rescorla e Wagner[editar | editar código-fonte]

V é a previsão associada para cada estímulo e n é a “regra de atualização” do sistema aplicada no fim de cada condicionamento em função de um estímulo específico. Mais concretamente, n pode variar entre 0 e 1 e vai determinar quanto cada experiência específica (por exemplo, o bolo da pastelaria) vai afetar as previsões sobre o futuro (a “imagem” do bolo perfeito). Este modelo, apenas permite perceber a diferença entre condições e o resultado das mesmas no final de cada experiência
Diferentes tipos de padrão de ativação em função das contingências do ambiente permitindo uma forma eficiente para a previsão de erros. A) Estímulo que prevê uma recompensa irá levar a um aumento da atividade dopaminérgica. B) Neurónios dopaminérgicos serão ativados por recompensas não previstas. C) Mesmo na presença de um estímulo que prevê a recompensa, na ausência de recompensa ocorrerá uma diminuição da atividade dos neurónios dopaminérgicos. D) Recompensas que correspondem ao que o organismo espera, não irão produzir alteração da atividade dopaminérgica.

De uma forma generalizada, as recompensas são sucedidas por um estímulo que as façam prever e após a presença de comportamentos que as permitam alcançar. As recompensas geram processos de aprendizagem de modo a que ocorra um feedback positivo (incentivando a repetição desse mesmo comportamento), levando à produção de previsões de recompensa através de associações ou condicionamentos.[6]

Os neurónios dopaminérgicos são ativos quando o animal recebe uma recompensa não esperada. Se um animal aprende a associar um reflexo condicionado com a mesma recompensa, os neurónios dopaminérgicos serão ativos para o estímulo e não para a recompensa. Por outro lado, se o estimulo é apresentado e a recompensa é omitida, os neurónios dopaminérgicos diminuirão a sua atividade. É possível então generalizar o papel da dopamina na previsão de erro da seguinte forma:

  • Estímulo que prevê a recompensa (A) ou recompensa não prevista (B): ocorre um aumento da atividade dos neurónios dopaminérgicos;
  • Ausência de recompensas (C): erros de previsão serão negativos, diminuindo assim a atividade dos neurónios dopaminérgicos;
  • Recompensas que correspondem ao que o organismo espera (D): não produzem erros de previsão (neurónios dopaminérgicos não alteram a sua atividade).

Os erros associados com as recompensas vão refletir diretamente as diferenças entre o previsto e o obtido pelo organismo, sendo deste modo a base para a aprendizagem em função das contingências.[3][4][6][7]

Modelo de Aprendizagem em função do tempo[editar | editar código-fonte]

Este modelo de aprendizagem tem em atenção que a vida não pode ser dividida em eventos definidos e que acaba por ser definida como uma sequência de eventos que se sucedem sucessivamente. No decorrer da sequência de eventos, os estímulos que permitem prever uma recompensa e a recompensa em si vão ocorrer em diferentes pontos ao longo do tempo. Neste caso, o objetivo para cada ponto-de-tempo é prever todas as consequências futuras tendo em conta os estímulos das ações presentes e tendo em conta os estímulos que lhe antecederam.[2]

Voltemos novamente ao exemplo do bolo da pastelaria onde seria esperado ter um bolo delicioso tendo em conta a reputação da pastelaria em questão. Contudo, ao pedir o bolo é possível perceber que o bolo não tinha a cor habitual. Este pequeno detalhe, fará com que, mesmo antes de comer o bolo, seja possível utilizar esta nova realidade para alterar a previsão em relação à qualidade do bolo: como o bolo apresenta uma cor diferente do esperado, será de esperar um bolo com uma menor qualidade do que se tivesse a habitual cor. Esta alteração do resultado em função das contingências apenas é possível utilizando este modelo, uma vez que se baseia nas diferenças entre previsões consecutivas.[5]

Modelo do crítico – ator[editar | editar código-fonte]

Modelo utilizado na dedução da previsão de erros que sugere o crítico como responsável por interpretar o estado da relação entre o animal - ambiente e de implementar essa informação (segundo um padrão de atividade específico), de recrutar outras estruturas (amígdala, por exemplo) e de lhe atribuir um determinado valor. Por sua vez, o ator é responsável por perceber e interpretar essas informações e despoletar respostas, processando e distribuindo a informação pelo restante circuito. O crítico é responsável por aprender e armazenar o valor das funções e calcular o erro. Por sua vez, o ator aprende e armazena as preferências para cada estado e seleciona qual a ação a realizar tendo em conta o estado apresentado.[2][1]

Esta divisão de funções envolve diferentes estruturas do estriado e acaba por recorrer ao fluxo de informação codificado pela dopamina, permitindo que o sistema seja constantemente atualizado em função dos estímulos do ambiente. Anatomicamente, o ator vai aprender e implementar determinados hábitos estando por isso diretamente relacionado com o estriado dorsal. Por sua vez, o córtex orbitofrontal, a amígdala e o estriado ventral são responsáveis por implementar o papel do crítico.[2][8]

Plasticidade sináptica induzida pela dopamina: modelo GO/NO GO[editar | editar código-fonte]

Quando uma ação é precedida por um pico de dopamina, as sinapses presentes o circuito direto são fortalecidas num processo de LTP dependente dos recetores dopaminérgicos D1 e as sinapses presentes no circuito indireto serão enfraquecidas numa forma de LTD depende dos recetores dopaminérgicos D2. Erros de previsão positivos estimulam recetores D2 diretamente enquanto que erros de previsão negativos produzem LTD no circuito direto de forma indireta.

O circuito direto do circuito córtex – gânglios basais – tálamo – córtex (CGTC) é responsável por facilitar a seleção de um determinado estado (GO), enquanto que o percurso indireto é responsável por suprimir ações inapropriadas para esse mesmo estado (NO GO). Como tal, a probabilidade de uma determinada ação ocorrer é diretamente proporcional entre a atividade GO / NO GO para essa ação em função das contingências do ambiente.[1]

O modelo Go/NoGO é visto como um processo dinâmico com a capacidade de aprender pela experiência da relação existente entre o animal e o ambiente quais as ações que deve facilitar e suprimir para cada estado em função das contingências, utilizando a previsão de erro pela informação transmitida pela dopamina.[2][1]

Quando uma ação é seguida por um pico de dopamina pelo circuito CGTG, as sinapses do circuito direto (GO) serão fortalecidas por processos de plasticidade sináptica num processo de LTP dependente dos recetores de dopamina D1. Por sua vez, as sinapses envolvidas no circuito indireto (NO GO) serão enfraquecidas num processo de LTD dependente dos recetores de dopamina D2. Por outro lado, quando uma ação é precedida por uma diminuição dos níveis de dopamina, o processo inverso é visto.[2][1][8]

Ao nível do circuito, estas alterações da conectividade entre as diferentes componentes do circuito CGTG serão importantes para a auto-organização e do reajustamento do comportamento pelo animal. Estes mecanismos serão responsáveis por estabelecer previsões, comparar os estímulos apresentados com a experiência passada do animal e emitir uma previsão de erro. Este sinal de erro será o impulso necessário para que ocorre alterações ao nível da plasticidade sináptica no circuito CGTG, alterando por completo os mecanismos de previsão e de resposta comportamental. Na ausência de erros transmitidos pela dopamina em função das contingências impostas pelo ambiente não existirá sinal para modificar a força das sinapses, fazendo com que a conectividade seja inalterada e estável.[4][8]

O processo de plasticidade sináptica é responsável pela formação de hábitos uma vez que a libertação de dopamina após a presença um estímulo que elicie um erro de previsão positivo vai existir um aumento da plasticidade sináptica no circuito CGTG que resultará num aumento da comunicação entre diferentes componentes. O resultado deste processo de aprendizagem será um aumento de associações do tipo Estímulo – Resposta (reflexo condicionado).[2][1]

Dopamina e a previsão de erro no cérebro[editar | editar código-fonte]

A existência da conectividade existente entre as estruturas que compõem o circuito CGTC é extremamente importante na formação de condicionamentos instrumentais. Partindo de ações com uma finalidade específica, é possível passar para um tipo de resposta dependente de uma associação estímulo – resposta, isto é, para um reflexo condicionado.[1][7]

Partindo do reflexo condicionado, para um estímulo específico (E), o animal irá formar uma resposta específica (R) tendo por base a experiência. Se o resultado final for positivo, a relação entre E – R será fortalecida, indicando que esta é a resposta adequada face ao estímulo apresentado. Por outro lado, se o resultado final for negativo, a associação entre E – R será enfraquecida. Tendo por base esta simples associação, o animal garante a escolha da resposta mais indicada em função do estímulo ou obstáculo apresentado pelo ambiente.[2][1]

Através deste processo de aprendizagem por feedback positivo entre a relação entre o estímulo e a resposta e aquilo que o animal espera receber do ambiente e o que efetivamente recebe dele, o animal terá a capacidade de se comportar de modo a otimizar as recompensas e evitando o perigo. Como tal, todas as respostas que levem a fortes associações E – R poderão ser consideradas hábitos uma vez que quando aprendidas irão funcionar como reflexos: um estímulo específico irá originar, de forma automática, uma resposta específica e previamente associada.[2][6]

A formação de hábitos (associações entre E – R) vão depender do estriado dorsal enquanto que o condicionamento instrumental depende diretamente do estriado dorsomedial, envolvendo desta forma o circuito CGTC.[2][1]

Referências

  1. a b c d e f g h i j Maia, T. V & Frank, M. J. From reinforcement learning models to psychiatric and neurological disorders. Nat. Neurosci. 14, 154–62 (2011)
  2. a b c d e f g h i j k Maia, T. V. Reinforcement learning, conditioning, and the brain: Successes and challenges. Cogn. Affect. Behav. Neurosci. 9, 343–64 (2009)
  3. a b Schultz, W. Behavioral dopamine signals. Trends Neurosci. 30, 203–10 (2007)
  4. a b c Hong, S. Dopamine system: manager of neural pathways. Front. Hum. Neurosci. 7, 854 (2013)
  5. a b c Niv, Y. & Schoenbaum, G. Dialogues on prediction errors. Trends Cogn. Sci. 12, 265–72 (2008).
  6. a b c Wickens, J. R., Horvitz, J. C., Costa, R. M. & Killcross, S. Dopaminergic mechanisms in actions and habits. J. Neurosci. 27, 8181–3 (2007)
  7. a b Schultz, W. Dopamine signals for reward value and risk: basic and recent data. Behav. Brain Funct. 6, 24 (2010)
  8. a b c Costa, R. M. Plastic corticostriatal circuits for action learning: what’s dopamine got to do with it? Ann. N. Y. Acad. Sci. 1104, 172–91 (2007)