будут игнорироваться, если они слишком далеки. Если на железнодорожной станции в Нью-Джерси Анжела получит 75 долларов, это все равно не повлияет на ее выбор, когда она будет выходить из дома. Влияние вознаграждения на функцию ценности подобно ряби от камня, упавшего в воду. Сильнее всего она ощущается в близлежащих штатах, но ее сила ослабевает, чем дальше вы удаляетесь.3
Это техническое определение стоимости - с учетом состояний, рекурсии и коэффициентов дисконтирования - может показаться далеким от того, что мы используем в повседневном языке. Но эти разговорные коннотации в значительной степени присутствуют в этом уравнении. Почему мы ценим деньги? Не потому, что бумажка или монета доставляют нам удовольствие, а потому, что мы можем представить себе будущее, когда у нас будет эта бумажка или монета. Деньги стоят только того, что они могут дать нам позже, а то, что мы можем получить позже, заложено в определении стоимости Беллмана.
Работа Беллмана по формулированию последовательных процессов принятия решений таким образом действительно позволила ему стать "современным интеллектуалом", которым он стремился стать, перейдя в RAND. В годы после его первых публикаций, описывающих это решение, бесчисленные компании и правительственные организации начали применять его в мире. К 1970-м годам идеи Беллмана использовались для решения таких разнообразных задач, как проектирование канализационных систем, составление расписания авиаперевозок и даже управление исследовательскими отделами в таких крупных компаниях, как Monsanto. Техника получила название "динамическое программирование" - довольно банальное словосочетание, которое Беллман придумал для того, чтобы отгородиться от некоторых математически фобизированных военных. 1950-е годы были не самыми удачными для математических исследований", - написал Беллман в своей автобиографии. Корпорация RAND работала на ВВС, а начальником ВВС был [Чарльз] Уилсон. Поэтому я чувствовал, что должен сделать что-то, чтобы оградить Уилсона и ВВС от того факта, что я действительно занимаюсь математикой в корпорации RAND. ... Таким образом, я решил, что динамическое программирование - это хорошее название. Это было то, против чего не мог возразить даже конгрессмен. Поэтому я использовал его как зонтик для своей деятельности".
Применяя метод в каждой из этих ситуаций, инженеры должны были найти способ вычислить функцию стоимости. В некоторых случаях, как в примере с метро, приведенном выше, ландшафт проблемы достаточно прост, и расчеты не представляют сложности. Но простые проблемы редко бывают реалистичными. Реальный мир имеет большое количество потенциальных состояний; эти состояния могут соединяться друг с другом сложными и даже неопределенными способами; и они могут делать это посредством множества возможных действий. Много усилий было потрачено на поиск функции стоимости в этих сложных ситуациях. Однако даже при использовании хитроумных методов применение динамического программирования обычно упиралось в предел вычислительных мощностей того времени. Вычисление функции ценности всегда было узким местом в процессе. А без способа нахождения функции стоимости весь потенциал вклада Беллмана оставался бы нераскрытым.
* * *
В наследии Павлова есть своя ирония. Его непосредственным следствием стало возникновение бихевиоризма - религиозного движения, стремящегося игнорировать разум и сосредоточиться только на непосредственно измеряемом поведении. Однако порожденная им линия математических моделей добилась успеха в другом направлении, все больше углубляясь в сознание; чтобы отразить обучение с подкреплением в уравнениях, потребовалось использовать термины, обозначающие скрытые ментальные понятия.
Одно из известных расширений модели Буша-Мостеллера появилось 20 лет спустя, в 1972 году, и было разработано другим дуэтом, психологами из Йельского университета Робертом Рескорлой и Алланом Вагнером. Рескорла и Вагнер обобщили модель Буша-Мостеллера, сделав ее применимой к более широкому кругу экспериментальных условий и способной охватить большее количество результатов. Первое изменение, которое они внесли, касалось самого показателя, который модель пыталась объяснить.
Вероятность реакции" Буша и Мостеллера была слишком конкретной и ограниченной. Рескорла и Вагнер вместо этого стремились зафиксировать более абстрактную величину, которую они назвали "ассоциативной силой". Сила ассоциации между подсказкой и вознаграждением - это то, что существует в сознании участника, что не позволяет измерить ее напрямую, но в разных экспериментах ее можно попытаться определить разными способами. Это может включать измерение вероятности ответа, например, вероятности слюноотделения, а также другие показатели, такие как количество слюны или поведение, например, лай или движение. Таким образом, Рескорла и Вагнер включили модель Буша-Мостеллера в более широкую структуру.
Модель Рескорла-Вагнера также расширилась, включив в себя известную особенность экспериментов по обучению, называемую "блокированием". Блокирование происходит, когда первоначальная подсказка сопряжена с вознаграждением, а затем вместе с первой подсказкой дается вторая, и обе они сопряжены с вознаграждением. Например, после того как собака научилась ассоциировать звук зуммера с едой, экспериментатор одновременно со звуком зуммера включал свет, а затем давал еду. В модели Буша и Мостеллера сигналы рассматривались совершенно отдельно. Таким образом, если свет и зуммер были сопряжены с едой достаточное количество раз, собака должна была ассоциировать свет с едой так же, как она усвоила ассоциацию со зуммером. Тогда можно было бы ожидать, что показ одного только света вызовет у собаки слюноотделение. На самом деле все обстоит иначе: у собак не возникает слюноотделения в ответ на один только свет. Присутствие зуммера блокирует способность света ассоциироваться с едой.
Это служит еще одним доказательством того, что обучение происходит благодаря ошибкам. В частности, ошибки, связанные с прогнозируемым вознаграждением. Когда животное слышит звуковой сигнал, оно знает, что скоро будет еда. Поэтому, когда пища прибывает, нет никакой ошибки в предсказании вознаграждения. Как мы уже видели, это означает, что животное не обновляет свои убеждения относительно зуммера. Но это также означает, что он не обновляет свои убеждения ни о чем другом. Был ли свет включен одновременно со звуковым сигналом или нет, не имеет значения. Свет никак не влияет на предсказанное вознаграждение, полученное вознаграждение или разницу между ними, которая определяет ошибку предсказания - а без ошибки все остается как есть. Ошибка предсказания - это смазка, которая смазывает колеса обучения.
Таким образом, Рескорла и Вагнер сделали так, что обновление ассоциативной силы между одной подсказкой и вознаграждением зависело не только от текущей ассоциативной силы этой подсказки, но и от суммы ассоциативных сил всех присутствующих подсказок. Если одна из этих ассоциаций имеет высокую силу (например, если присутствует зуммер), то присутствие награды не изменит ни одну из них (ассоциация со светом не будет усвоена). Такое суммирование по нескольким сигналам также должно происходить внутри животного, что еще больше отражает отказ от бихевиоризма и переход к разуму.
Но переломный момент в обучении с подкреплением наступил в середине 1980-х годов благодаря работе канадского компьютерщика с хвостиком по имени Ричарди его советника по докторской диссертации Эндрю