Szczury wymieniają początkowe nagrody na długoterminowe możliwości uczenia się

Szczury wymieniają początkowe nagrody na długoterminowe możliwości uczenia się

Naukowcy dostarczyli dowodów na kognitywną kontrolę uczenia się u szczurów, pokazując, że potrafią oszacować długoterminową wartość uczenia się i dostosować swoją strategię podejmowania decyzji, aby wykorzystać możliwości uczenia się.

Odkrycia sugerują, że podejmując decyzję dłużej, szczury mogą poświęcić natychmiastowe nagrody, aby poprawić swoje wyniki w nauce i osiągnąć większe nagrody w całym przebiegu zadania. Wyniki opublikowano dzisiaj w eLife.

Ustaloną zasadą neuronauki behawioralnej jest kompromis między szybkością a dokładnością, który obserwuje się u wielu gatunków, od gryzoni po naczelne. Zasada opisuje związek między gotowością jednostki do powolnego reagowania i popełniania mniejszej liczby błędów w porównaniu z gotowością do szybkiego reagowania i ryzyka popełnienia większej liczby błędów.

“Wiele badań w tej dziedzinie koncentrowało się na kompromisie między szybkością a dokładnością, bez brania pod uwagę efektów uczenia się” – mówi główny autor Javier Masís, który w tym czasie był doktorantem na Wydziale Biologii Molekularnej i Komórkowej oraz Center for Brain Science na Uniwersytecie Harvarda w USA, a obecnie jest stypendystą naukowym w Princeton Neuroscience Institute na Uniwersytecie Princeton w USA. „Chcieliśmy zbadać trudny problem wyboru międzyokresowego, który pojawia się, gdy masz możliwość poprawy swojego zachowania poprzez naukę”.

W swoich badaniach Masís i współpracownicy starali się najpierw ustalić, czy szczury były w stanie rozwiązać kompromis między prędkością a dokładnością. Zespół przeprowadził eksperyment, w którym szczury, widząc jeden z dwóch obiektów wizualnych, które mogą różnić się rozmiarem i obrotem, decydowały, czy obiekt wizualny odpowiada lewej, czy prawej reakcji, i polizały odpowiedni dotyk -wrażliwy port, gdy już zdecydowali. Jeśli szczury polizały właściwy port, były nagradzane wodą, a jeśli polizały niewłaściwy port, otrzymywały limit czasu.

Zespół zbadał zależność między wskaźnikiem błędów (ER) a czasem reakcji (RT) podczas tych prób, używając modelu dryfu-dyfuzji (DDM) – standardowego modelu podejmowania decyzji w psychologii i neuronauce, w którym osoba podejmująca decyzję gromadzi dowody poprzez czasu, aż poziom dowodów dla jednej alternatywy osiągnie próg. Poziom progowy podmiotu kontroluje kompromis między szybkością a dokładnością. Użycie niskiego progu daje szybkie, ale podatne na błędy odpowiedzi, podczas gdy wysoki próg daje powolne, ale dokładne odpowiedzi. Jednak dla każdego poziomu trudności istnieje najlepszy próg do ustawienia, który optymalnie równoważy szybkość i dokładność, umożliwiając decydentowi maksymalizację chwilowej stopy nagrody (iRR). Niezależnie od trudności, zachowanie to można podsumować za pomocą relacji między ER i RT, zwanej krzywą optymalnej wydajności (OPC). Po pełnym nauczeniu się zadania ponad połowa wyszkolonych szczurów dotarła do OPC, pokazując, że dobrze wyszkolone szczury rozwiązują problem kompromisu między szybkością a dokładnością.

Jednak na początku treningu wszystkie szczury straciły ponad 20% swojego iRR, podczas gdy pod koniec większość szczurów prawie optymalnie zmaksymalizowała iRR. To zrodziło pytanie: jeśli szczury maksymalizują natychmiastowe nagrody pod koniec nauki, co rządzi ich strategią na początku nauki?

Aby odpowiedzieć na to pytanie, zespół zaadaptował DDM jako rekurencyjną sieć neuronową (RNN), która może się uczyć w czasie, i opracował model dyfuzji uczenia się (LDDM), umożliwiając im zbadanie, w jaki sposób długoterminowe uczenie się percepcyjne w wielu próbach zależy od wybór czasu decyzji w poszczególnych próbach. Model został zaprojektowany z myślą o prostocie, aby podkreślić kluczowe jakościowe kompromisy między szybkością uczenia się a strategią decyzyjną. Analizy tego modelu sugerowały, że szczury przyjmują strategię „niechciwości”, która wymienia początkowe nagrody, aby nadać priorytet nauce, a tym samym zmaksymalizować całkowitą nagrodę w trakcie wykonywania zadania. Wykazali również, że dłuższe początkowe czasy reakcji prowadzą do szybszego uczenia się i wyższej nagrody, zarówno w środowisku eksperymentalnym, jak i symulowanym.

Autorzy wzywają do dalszych badań w celu skonsolidowania tych ustaleń. Obecne badanie jest ograniczone przez użycie DDM do oszacowania poprawy uczenia się. DDM, a zatem LDDM, to prosty model, który jest potężnym narzędziem teoretycznym do zrozumienia określonych typów prostych wyborów, które można badać w laboratorium, ale nie jest w stanie ilościowo opisać bardziej naturalistycznego zachowania decyzyjnego. Ponadto badanie skupia się na jednym wizualnym zadaniu percepcyjnym; dlatego autorzy zachęcają do dalszej pracy nad innymi zadaniami, których można się nauczyć, niezależnie od trudności, modalności sensorycznych i organizmów.

„Nasze wyniki dostarczają nowego spojrzenia na kompromis między szybkością a dokładnością, pokazując, że percepcyjne zachowanie decyzyjne jest silnie kształtowane przez rygorystyczny wymóg szybkiego uczenia się” – twierdzi starszy autor Andrew Saxe, wcześniej pracownik naukowy ze stopniem doktora w Departamencie Psychologii Eksperymentalnej, University of Oxford, UK, a obecnie Sir Henry Dale Fellow i Associate Professor w Gatsby Computational Unit i Sainsbury Wellcome Centre, University College London, UK.

„Kluczową zasadą, którą proponujemy w naszych badaniach” — wyjaśnia Javier Masís — „jest to, że czynniki naturalne biorą pod uwagę fakt, że mogą doskonalić się poprzez uczenie się i że mogą kształtować tempo tej poprawy poprzez swoje wybory. Nie tylko jest to świat, w którym żyjemy, jest niestacjonarny; my również jesteśmy niestacjonarni i bierzemy to pod uwagę, poruszając się po świecie, dokonując wyborów”. „Nie nauczysz się grać na pianinie, grając od czasu do czasu przy klawiszach” — dodaje Saxe. „Decydujesz się ćwiczyć i ćwiczysz kosztem innych, bardziej natychmiastowo satysfakcjonujących zajęć, ponieważ wiesz, że poprawisz się i prawdopodobnie w końcu będzie warto”.

Click to rate this post!
[Total: 0 Average: 0]
science