Людина довела свою перевагу над комп’ютером в безлімітному покері

Двотижневий турнір з покеру між найкращою комп’ютерною програмою і чотирма професіоналами (з першої десятки рейтингу кращих гравців світу) закінчився перемогою людини. Розроблена в Університеті Карнегі-Меллон програма Claudico програла в безлімітний техаський холдем близько 732 тисяч доларів. Про науково значущий результат турніру повідомляється в прес-релізі університету.

Змагання проходило в Пітсбурзькому казино Rivers. Люди і комп’ютер змагалися щодня з 11 ранку до 10 вечора. Всього пройшло близько 80 тисяч роздач. Три гравці закінчили турнір з виграшем 529, 213 і 70 тисяч доларів, а один – з програшем 80 тисяч.

Однак при всій величині виграшу перевага людей насправді виявилася дуже хитка: 732000 доларів при загальному обсязі ставок в 170 мільйонів. Таким чином, істинним підсумком виявилася статистична нічия (сума виграшу не дотягла до статистично значущою).

«Наша мета – це не перемогти людини. Ми прагнемо створити штучний інтелект, який допоможе людям приймати рішення в ситуаціях з безліччю невідомих фактів – в лікуванні хвороб, в ділових переговорах, при покупці машини », – зазначив головний розробник Claudico Туомас Сандхольм (Tuomas Sandholm).

Стратегія системи спирається на її власні алгоритми, а не на ходи і тактику відомих ігор за участю людини. Claudico вже зіграв сам з собою кілька трильйонів партій. Запускаються ці алгоритми на суперкомп’ютері Blacklight, причому єдиною інформацією на вводі є правила гри в покер. До кінця гри файли зі стратегією Claudico зайняли близько двох терабайт – набагато більше, ніж здатні вивчити дослідники.

Сильною стороною системи виявилася здатність швидко і випадковим чином перемикатися між різними стратегіями, слабкою – повільна настройка на манеру гри індивідуального супротивника.

«Це хороший, але не видатний гравець. Деякі його ставки ставили мене в безвихідь. Навряд чи якийсь чоловік поставить 19 тисяч, щоб зірвати банк 700 доларів. Зате Claudico ніколи не втрачає холоднокровності – навіть величезний програш не впливає на його подальшу гру », – поділився своїми враженнями один з учасників турніру Дуг Полк (Doug Polk).

Покер є найважливішим випробуванням для штучного інтелекту, оскільки це гра з неповною інформацією, де учасники володіють прихованим від інших знанням про свої карти, а також можуть використовувати цю інформацію в свою користь (наприклад, блефувати). Якщо в іграх з повною інформацією (наприклад, шахах, де обидва гравці бачать положення всіх фігур на дошці) штучний інтелект або обігрує людини, або як мінімум домагається паритету з ним, то над покером програмісти безуспішно б’ються з 2006 року (коли пройшов перший щорічний чемпіонат по цій грі серед комп’ютерів).

У січні 2015 канадським вченим вдалося написати комп’ютерну програму, здатну на слабке рішення техаського холдема з лімітованими ставками. Іншими словами, комп’ютер зміг створити стратегію гри, настільки близьку до оптимальної, що ніякої людина не здатна обіграти його (зі статистичними рівнем значущості) за все своє життя.