Легкая кавалерия/Выпуск №5, 2022

Кирилл Молоков

О роботах-критиках, определяющих коммерческий успех книг

В 2016 году бывшая руководительница литературных исследований в Apple Джоди Арчер и доцент кафедры английского языка в Университете Небраски в Линкольне Мэтью Л. Джокерс опубликовали книгу «Код бестселлера», в которой раскрываются рецепты коммерчески успешных книг. Написанный ими алгоритм добился 80–90% точности в определении хитовости произведения. 

Среди прочего, их «бестселлерометр», например, оценил вероятность успеха романа Дэна Брауна «Инферно» в 95.7%, а «Линкольн для адвоката» Майкла Коннели в 99.2%. Обе книги впоследствии стали бестселлерами, притом что авторов произведений намеренно нигде не указывали — тексты неизвестных писателей робот изучал на тех же правах, что и романы завсегдатаев списков самых продаваемых книг.

Подобный алгоритм не единственный в своем роде. Еще ранее, в 2014 году, ученые из

Университета штата Нью-Йорк в Стони-Бруке разработали силометрический алгоритм,

который предсказывал успешность романа с 84% точностью. Проанализировав более

800 произведений, лингвисты, в частности, обнаружили, что в бестселлерах (под бестселлерами здесь и далее будут иметься в виду в первую очередь успешные произведения массовой литературы) гораздо чаще встречаются существительные и прилагательные, нежели глаголы или наречия.

Что еще рассказывают нам роботы о современных хитах? Среди ожидаемых находок, которые определяют коммерческий успех романа, — короткие предложения и абзацы, разговорная речь, изобилие диалогов. Важную роль играют структурность и последовательность повествования. Центральной теме произведения нередко посвящается порядка трети работы — цифры, которые, кстати, во многом коррелируют и с известными произведениями классической литературы; неопытные авторы склонны нагромождать мысли, из-за чего даже у закоренелого читателя часто теряется фокус и сопереживание происходящему.

Куда менее очевидный вывод: секс не продается. Колоссальный коммерческий успех нелюбимого серьезными литераторами романа «50 оттенков серого» Э.Л. Джеймс скорее оказался исключением из правил — такие книги занимают очень маленькую долю среди бестселлеров. Примечательно, что центральная тема этой книги — человеческая, интимная близость (а вовсе не секс) — является краеугольной темой большинства успешных книг в принципе. Отметим также, что роман Э. Л. Джеймс при всех клише оказался умело написан в ритмическом плане. Эмоциональная палитра выстроена так, что это напоминает четкий, танцевальный бит, который постоянно держит в напряжении, — не исключено, что отчасти из-за этого книга завоевала любовь массового читателя.

Роботы-критики могут не только упростить работу издателей и литературных агентов, но и помочь литературоведам лучше понять массовую литературу и чем она так время от времени цепляет даже опытных читателей. Но что отличает Джонатана Франзена от Сьюзен Коллинз? И где вообще эта грань между масслитом и высокой литературой, учитывая, что мы до сих пор помним Эжена Сю и читаем детективы Сидни Шелдона? Коммерческий успех — это здорово; но как понять, что произведение будут читать и изучать через 100, 200, 300 лет?

Проблема подобных программ в том, что они все представляют собой алгоритмы — иными словами, ищут и анализируют в текстах какие-то схожие паттерны. Но многие выдающиеся произведения, напротив, разрушали любые устоявшиеся каноны, привнося новые способы выразительности. А если говорить об экспериментальных романах Фолкнера, Рушди, Джойса, Пинчона или Уоллеса, то не исключено, что их рукописи компьютеры и вовсе оценили бы как «абсолютно неперспективные», в то время как именно они определяли литературу своего времени. И как с этим быть? В конце концов, бестселлер отнюдь не всегда подразумевает качественную, высокую литературу — тот же «Инферно» невероятно плохо написан.

Другие важные моменты, которые, возможно, не учитывают машины (во всяком случае пока), — это эпоха и парадигма культуры, в которых написано литературное произведение. Способны ли компьютеры оценить по достоинству одновременно Пессоа, Достоевского, Аристофана, Маркеса, Чосера, Ширази — совершенно разных писателей и поэтов из совершенно разных эпох и культур и с еще более разными достоинствами и недостатками? 

Есть ощущение, что культуры и эпохи несут в том числе и разные алгоритмы. Скажем, наверняка изобилие пейзажей в романах XIX века имело позитивный отклик у читателя хотя бы потому, что у людей не было доступа к бесконечному медиаконтенту. Сомневаюсь, что «бестселлерометры» современных романов высоко оценивают тургеневские пассажи на тему природы. Возникает вопрос: какие алгоритмы (если они вообще есть) несет наша эпоха и нынешние состояния культур? Можно ли их как-то раскодировать при помощи современных компьютеров и предсказать их направление?

Угадывать коммерческий успех романа — это серьезное достижение. Но код бестселлера не равен коду литературного шедевра. Искусственный интеллект совершенно точно поможет лучше понять текст, литературу и даже культуру в целом. Но вместе с тем кажется, что чем больше мы понимаем, тем больше возникает вопросов — если возможно предсказать успех бестселлера с высокой точностью (то есть в этом нет никакой магии), то почему одни романы, которые идут против правил, в конечном итоге становятся классикой, а другие со временем вызывают испанский стыд даже у самих творцов? Возможно, первые ломают эти так называемые алгоритмы, а вторые, напротив, ломаются об их прочность? Но как они это делают?