Используй Google Clips, чтобы понять, как процесс проектирования, ориентированный на человека, развивает искусственный интеллект

Как и в случае с мобильной революцией, и Интернет революцией до этого, машинное обучение заставит нас переосмыслить, перестроить и пересмотреть возможности практически всего опыта, созданного нами. В сообществе Google UX мы начали работу под названием «машинное обучение, ориентированное на человека», чтобы получить обратную связь на эту тему. Мы рассматриваем продукты с этой точки зрения, чтобы узнать, как машинное обучение (ML) может оставаться обоснованным в потребностях человека при решении его проблем способами, которые возможны только благодаря ML. Наша команда в Google работает, чтобы понять, как наилучшим образом интегрировать машинное обучение в набор UX-инструментов и обеспечить, чтобы пользователи смогли использовать машинное обучение и ИИ инклюзивным способом.

Реальные моменты родителей, детей и домашних животных, пойманные камерой Google Clips
Реальные моменты родителей, детей и домашних животных, пойманные камерой Google Clips
Google Clips — это интеллектуальная камера, предназначенная для непринуждённой съемки знакомых ей людей и домашних животных. Она использует искусственный интеллект, чтобы научиться фокусироваться только на людях, с которыми вы проводите время, а также понимать, как делать красивые и запоминающиеся фотографии. Используя Google Clips в качестве примера, мы рассмотрим результаты трех лет работы по созданию моделей взаимодействия, промышленного дизайна и пользовательского интерфейса. Включая использование подхода, ориентированного на человека, для разработки продукта под управлением ИИ.
Clips позволяет выбрать идеальный кадр (вверху слева) и сохранить его как фотоснимок (вверху, справа).
Clips позволяет выбрать идеальный кадр (вверху слева) и сохранить его как фотоснимок (вверху, справа). В этом случае я закрепил камеру на баскетбольном кольце, чтобы захватить момент, как мой сын закинет мяч в корзину

Если вы не согласовываете продукт с человеческой потребностью, вы просто создадаете очень мощную систему для решения очень маленькой или, возможно, несуществующей проблемы.

Просто добавить больше UX дизайнеров в проекты, использующие машинное обучение, будет недостаточно. Важно, чтобы они поняли его основные концепции, избавились от предубеждений об ИИ и его возможностях, а также согласовали лучшие практики для создания и поддержания доверия. Каждый этап жизненного цикла машинного обучения открыт для инноваций, от определения того, какие модели будут полезны для сбора данных, аннотации, до новых форм прототипирования и тестирования.

Мы разработали следующие принципы в качестве якорей, чтобы показать почему так важно принимать подход, ориентированный на человека, для построения продуктов и систем на базе машинного обучения:

  • Машинное обучение не будет определять, какие проблемы следует решить. Если вы не согласовываете продукт с человеческой потребностью, вы просто создадаете очень мощную систему для решения очень маленькой или, возможно, несуществующей проблемы.
  • Если цели системы ИИ непрозрачны, и понимание пользователем его роли в калибровке этой системы неясны, вы разработаете ментальную модель, которая соответствует народным теориям об ИИ, и это повлияет на доверие пользователей.
  • Чтобы развиваться, машинное обучение должно стать мультидисциплинарным. Это в равной мере проблема социальных систем. Машинное обучение — это наука делать прогнозы на основе шаблонов и отношений, которые автоматически обнаруживаются в данных. Работа модели машинного обучения заключается в том, чтобы выяснить, насколько ошибочной может быть важность этих шаблонов, чтобы быть правильной насколько возможно и максимально часто. Но она не выполняет эту задачу самостоятельно. Каждый аспект машинного обучения подпитывается и связан с человеческим суждением. От идеи разработки модели, в первую очередь, до источников данных, выбранных для обучения, от самих данных выборки и методов, и меток, используемых для ее описания, вплоть до критериев успеха для вышеупомянутой ошибочности и правильности. Достаточно сказать, что UX аксиома «вы не пользователь» важнее, чем когда-либо.

Три варианта дизайна, ориентированного на человека, развивающих ИИ

Принимать во внимание реальные человеческие потребности

В этом году люди сделают около триллиона фотографий, и для многих из нас это означает, что цифровая фотогалерея будет заполнена изображениями, на которых мы фактически не будем смотреть. Это хорошо работает для новоиспеченных родителей, чей ежедневный опыт полон первых моментов. Во время создания моментов, которые ощущаются драгоценными и мимолетными, пользователи обращаются к своим смартфонам в надежде поймать и сохранить воспоминания для себя будущих. В результате они часто смотрят на мир через крошечный экран, а не взаимодействуют, используя все свои чувства.

Если вы новоиспеченный родитель, ваша галерея может сильно походить на мою. Куча удаленных фотографий со смартфонов, сделанных сериями, в попытке поймать идеальное милое выражение
Если вы новоиспеченный родитель, ваша галерея может сильно походить на мою. Куча удаленных фотографий со смартфонов, сделанных сериями, в попытке поймать идеальное милое выражение
Что, если бы мы могли создать продукт, который помог бы нам стать более актуальными с людьми, о которых мы заботимся? Что, если мы действительно можем сами быть на фотографиях, а не по ту сторону камеры? Что, если бы мы могли вернуться в прошлое и снять фотографии, которые мы сняли бы, не останавливаясь и не вытаскивая телефон, не запуская жестом камеру, делая снимок и нарушая момент? И что, если бы рядом с нами был фотограф, чтобы поймать больше моментов нашей жизни, таких как настоящая улыбка моего ребенка? Те моменты, которые часто невозможно поймать, даже если вы всегда находитесь с камерой. Это то, что мы собираемся создать.

Направление исследования

Когда мы начали процесс, самым насущным вопросом было: если люди снимают тонны фотографий, но на самом деле не хотят возвращаться и сортировать их, как мы будем выбирать моменты для съемки? Именно здесь родилось основополагающее «упражнение машинного обучения, ориентированного на человека»: описать способ, которым теоретически человек «эксперт» может выполнить эту задачу. Теория была двоякой. Во-первых, если человек не может выполнить задачу, то и ИИ не cможет. Во-вторых, погрузившись глубоко в методы профессионального фотографа, мы можем найти инсайт для сбора данных, маркировки и компоновки архитектуры модели.

Если человек не может выполнить задачу, то не сможет и искусственный интеллект.

Ближайшее понятие, которое пришло на ум — это свадебный фотограф, поэтому я отправился на собеседование и нанял подрядчиков. Мы закончили поиски путем проб и ошибок и не без удачи. Мы получили огромный опыт в виде документального кинорежиссера, фотожурналиста и фотографа изобразительных искусств. Вместе мы начали собирать отснятый командой материал и пытались ответить на вопрос: «Что делает момент незабываемым?»

Я с гордостью вспоминаю момент, когда смотрю на фото, как мой старший сын катается на велосипеде в парке (крайний правый снимок). Потому что я помню этот день, как поворотный момент, когда он обрел уверенность кататься самостоятельно
Фотографии моего сына
Для нас важно понять количество нюансов, эстетических инстинктов и личной истории, которые мы часто принимаем как должное при оценке качества наших фотографий и видео. Например, я смеюсь каждый раз, когда смотрю, как мой младший сын использует извилистую соломку (крайний левый снимок) или пытается убежать от моих поцелуев (в середине). И я с гордостью вспоминаю момент, когда смотрю на фото, как мой старший сын катается на велосипеде в парке (крайний правый снимок). Потому что я помню этот день, как поворотный момент, когда он обрел уверенность кататься самостоятельно

Создание доверия

Отправной точкой для нашей работы было предположение, что мы могли бы «показать» модель вещи, которые мы считали красивыми и интересными, и, ИИ могла бы научиться находить их. У нас были беседы о глубине поля, правилах третей, драматическом освещении… но я узнал, что мы никогда не должны недооценивать человеческую способность обладать здравым смыслом.

Пра́вило трете́й — это принцип построения композиции, основанный на упрощенном правиле золотого сечения. Правило третей применяется в рисовании, фотографии и дизайне.

Эти ранние эксперименты выявили важные технические и методологические пробелы, которые помогли нам переоценить наши предположения о том, что продукт может реализовать, а также учитывать беспрецедентный характер работы. Мы изменили нашу парадигму, с возведения машинного обучения на пьедестал, до понимания, что оно может учиться эффективно только при довольно упрощенных формулировках. По сути, мы пытались учить английскому языку двухлетнего ребенка, читая ему Шекспира вместо детской книжки «Go, Dog. Go!» Именно здесь миф о «монолите» ИИ развеялся. Идея о том, что существует какой-то особый «интеллект», который понимает все вещи и может обобщать, и передавать знания из контекста в контекст. Неа. Даже не близко.

Возвращаясь к основам

Последовательность — это название игры, когда вы пытаетесь научить чему-либо. Именно поэтому мы ждем как можно дольше, чтобы не кричать на детей, когда мы учим их читать и говорить по-английски. Орфография и произношение таких слов, как cat, bat, и sat, с их предсказуемыми звуками «at», намного более последовательны!

С последовательностью приходит уверенность. Подумайте о том, как быстро и нетерпеливо большинство студентов укажут на несоответствие, если учитель предоставит два примера, один с которых окажется с ошибкой. Алгоритмы не дают такой обратной связи. Что касается алгоритмов, все, что они показывают, имеет равную ценность, если не указано иное. Для Clips это означало, что мы не только нуждались в согласованности между примерами, но и согласованность в каждом примере. Каждый отдельный кадр должен быть репрезентативным для конкретного предсказания, которое мы пытаемся научить ИИ делать. И часто это может прийти в форме обучения тому, что нужно игнорировать.

Захват

Нам нужно было обучать ИИ тому, что плохо выглядело: руки перед камерой, быстрые и шаткие движения, размытость.

Пример снимков, которые камера должна игнорировать
Мы использовали примеры, подобные приведенным выше, для обучения моделям машинного обучения распознаванию, когда камера находилась внутри кармана или чехла (сверху, слева), или, когда перед объективом был палец или рука (вверху, справа). Хотя обучение моделям игнорирования вещей не сразу было интуитивным, со временем это стало важной стратегической частью нашего дизайна. При игнорировании камерой некоторых вещей не нужно было бы тратить энергию на обработку (потому что никто не нашел бы в этом ничего полезного). Общее качество снятых клипов значительно увеличилось

Композиция

Нам нужно было научить модели стабилизации, резкости и синхронизации кадра. Без особого внимания, модель обнаружения лица будет различать лицо на краю кадра, также, как в его центре.

Чтобы обучить модель непрерывности объекта, важно было особо выделить примеры. Сравните момент, когда мой младший сын остается в кадре все время (выше, слева) до момента, когда мой старший сын находится в фокусе и в кадре около пяти процентов момента (выше, справа)
Чтобы обучить модель непрерывности объекта, важно было особо выделить примеры. Сравните момент, когда мой младший сын остается в кадре все время (выше, слева) до момента, когда мой старший сын находится в фокусе и в кадре около пяти процентов момента (выше, справа)

Социальные нормы

Знакомство — камень преткновения создания первых фотографий. Вы указываете камере на кого-то, и люди дают молчаливое согласие, улыбаясь или позируя. Кроме того, вы смотрите через видоискатель и составляете композицию кадра. С помощью автономной камеры мы должны были предельно четко понимать, кто на самом деле человек знаком с вами на основе социальных сигналов, таких как количество времени, проведенного с ними, и как часто они находятся в кадре.

Редактирование

Разнообразие и избыточность — это то, что мы считаем обыденным при съемке фотографии. Ваш внутренний голос говорит: «Сфотографируй. Ты ничего подобного не видел!» Или: «Не стоит. У тебя достаточно снимков своих детей, расслабься». Но наша модель нуждались в помощи.

Мы подошли к разнообразию по трем различным векторам:

  • Время: простое значение времени является важным сигналом для оценки.
  • Визуальный аспект: едва заметные или значительные изменения цвета могут многое рассказать об изменениях в окружающей среде и активности. Попытайтесь поймать моменты, которые имеют различные эстетические отличия.
  • Люди: вы в большой группе или в небольшой группе, или вы один? Понимание того, как много разных знакомых лиц вы встречаете, является важной частью ощущения, что вы не упустили важные моменты.

Избыточность данных
Избыточность данных
Я положил Clips на край книжной полки, направив камеру вниз, что обеспечило классный угол наблюдения за тем, как мои дети играют вместе. Это также означало, что я показывал камере кучу очень похожего контента в течение длительного времени. Избежать ненужной избыточности, не упуская слишком много моментов, было — и продолжает быть — удивительно сложной UX задачей

Доверие и самоэффективность

Одна из причин, по которой мы инвестировали время и силы в Clips, объяснялась тем, что нужно было продемонстрировать миру важность машинного обучения устройств и сохранения конфиденциальности, не говоря уже о его замечательных возможностях. Например, оно использует меньше энергии, это означает, что устройства не так сильно нагреваются, и обработка пройдет быстро и надежно, без подключения к Интернету. Камера — очень личный объект, и мы много работали над тем, чтобы убедиться, что аппаратное обеспечение, интеллект и контент — в конечном счете принадлежит вам и только вам. Вот почему всё — и я имею в виду действительно всё — остается у вас, пока пользователь не скажет иначе.

Концептуальное бюджетирование

Ради доверия и самоэффективности мы также были очень преднамеренными в подходе к дизайну интерфейса. В начале проекта это означало, что мы работали над несколькими смешными предположениями о том, насколько «чокнутым» должен быть продукт под управлением ИИ.

Когда мы задумываемся об ориентирах технологий будущего, многие дизайнеры перейдут к опыту погружения в виртуальную среду, которую можно увидеть в таких фильмах, как «Особое мнение» (2002) и «Бегущий по лезвию» (1982). Но представьте себе, насколько сумасшедшим было бы объяснение пользователям интерфейса из фильма «Особое мнение». Просто вытяните руку, подождите две секунды, схватите ею воздух, а затем дернитесь вправо, поворачивая руку против часовой стрелки. Это просто! Почти каждый научно-фантастический интерфейс виноват в чем-то подобном. Как будто сложность модели взаимодействия должна соответствовать сложности системы, которой она управляет. Но это то место, где мы находились на ранней стадии проектирования, и мы ушли с него в значительной степени по трем причинам:

  • Мы показывали людям поддельный контент в явно моделируемой среде, где у них не было реальной связи с изображениями. Обратите внимание, что эта проблема не уникальна для ИИ. Это часто один из факторов, вызывающих искажение, когда вы привлекаете людей в лабораторию юзабилити.
  • Мы каждый день были окружены людьми, говорящими на одном языке и думающими о товарах под управлением ИИ. Мы делали ошибку, теряя контакт с контрольными ориентирами.
  • Мы думали, что наши новые дизайны были супер крутыми, поэтому мы отнеслись со снисхождением, когда люди не сразу поняли их.

Графики обучаемости пользователей
Графики обучаемости пользователей
Большинство продуктов имеют, по крайней мере, некоторую кривую обучения, но с дополнительными расходами на раскрутку ИИ. Особенно важна разумная когнитивная нагрузка вашего пользователя. Когда контекст использования является новым для пользователя [рисунок A], происходит смещение надежности. Когда нужно выучить много новых функций интерфейса [рисунок B], убедитесь, что основные случаи использования суперсовместимы. И когда функциональность продукта особенно динамична [рисунок C], ваш пользовательский интерфейс должен соответствовать привычным шаблонам

Мы начали быстро уменьшать сложность интерфейса, а также сделали проще управление и знакомство с нашим экспериментальным фреймворком. Мы добавили в камеру программный видоискатель и кнопку захвата. Мы убедились, чтобы последнее слово было за пользователем. Он выбирает лучший неподвижный кадр в клипе и его идеальную продолжительность. И мы показывали пользователям больше моментов, чем считали нужным. Потому что, позволяя им немного подходить к «ватерлинии» и удалять ненужные снимки, они лучше понимали, что именно ищет камера, а также понимали, что будет снимать в будущем.

Аппаратное обеспечение, интеллект и контент в конечном счете принадлежат вам и только вам.

Благодаря этому процессу мы сделали еще один критически важный вывод для тестирования продукта под управлением ИИ: притворяйся, пока это не станет правдой. Если вы можете выбирать, то прототипирование вашего UX более эффективно с реальным контентом пользователя, чем тестирование с реальными моделями машинного обучения. Последнее занимает невероятно много времени для создания (и гораздо менее подвижно или адаптивно, чем традиционная разработка программного обеспечения, поэтому ошибки обходятся дороже), в то время, как первый вариант дает вам подлинное понимание того, как люди извлекут ценность и полезность из вашего (теоретического) продукта.

Интерфейс выбора и сохранение фотографий
Пользователи просматривают свои клипы, передавая их с камеры. В крайнем левом углу пользователи выбирают, какие клипы они хотят сохранить на своем телефоне. В середине пользователи могут переключаться на «предлагаемый» вид. Справа пользователи могут определить точный кадр, который они хотят сохранить в качестве неподвижной фотографии

В контексте субъективности и персонализации совершенство просто невозможно, и оно действительно не должно быть целью. В отличие от традиционной разработки программного обеспечения, системы машинного обучения никогда не будут «без ошибок», потому что предсказание — это по определению неточная наука. Но именно эта неточность делает машинное обучение настолько полезным! Это то, что помогает нам разрабатывать значительно более надежные и динамичные утверждения «если», где мы можем спроектировать что-то вроде следствия «когда что-то похоже на x, делай y». И в этом отклонении от жестких логических правил нам также нужен был отход от традиционных форм измерения. Успех Clips — это не только сохранение, удаление, клики и редактирование (хотя это важно), это касается авторства, совместного обучения и адаптации в течении времени. Мы очень надеемся, что пользователи попробуют поиграть с Clips.

Проектируя с целью

Переориентировав традиционную парадигму искусственного интеллекта с поиска способов сделать машину умнее, на изучение способов увеличения возможностей человека, мы можем разблокировать гораздо больший потенциал машинного обучения. Оно может стать инструментом для беспрецедентных исследований и инноваций. Инструментом, помогающим нам искать шаблоны в себе и окружающем нас мире. Как практики, ориентированные на человека, мы имеем колоссальную возможность сформировать более гуманный и инклюзивный мир совместно с ИИ, и он начинается с напоминания нам наших корней: поиск и удовлетворение реальных потребностей человека, поддержание человеческих ценностей и проектирование для улучшения, а не автоматизации.

Роль ИИ не должна заключаться в том, чтобы найти иглу в стоге сена за нас, но, чтобы показать нам, сколько сена он может очистить, чтобы мы могли лучше видеть иглу.

Чтобы подробнее узнать о подходе Google к UX для ИИ, ознакомьтесь с нашей полной коллекцией статей [En].