За последние несколько лет 3D-контент, созданный с помощью искусственного интеллекта, превратился из экспериментальных демонстраций в практические инструменты, которые всё чаще используются в разработке игр, VFX, XR, визуализации продуктов и рабочих процессах в реальном времени. Однако, несмотря на значительное улучшение качества и скорости генерации, многие художники и студии всё ещё сталкиваются с трудностями при интеграции активов, созданных с помощью ИИ, в реальные производственные конвейеры, где топология, управляемость, оптимизация и совместимость на последующих этапах имеют такое же значение, как и визуальная точность.

Именно для преодоления этого разрыва в производственном процессе Hyper3D представляет своё последнее обновление для Rodin Gen-2.5. Вместо того чтобы рассматривать ИИ исключительно как инструмент для генерации одним кликом, компания описывает Rodin как управляемую систему рабочих процессов AI-to-3D, предназначенную для совместной работы с художниками на разных этапах производства.

В этом интервью QX Zhang, технический директор Hyper3D, обсуждает, почему «управляемость» стала одной из самых важных задач, стоящих перед рабочими процессами 3D-графики с использованием ИИ, технические барьеры, разделяющие созданные по запросу активы и готовый к производству контент, и как новая система Adaptive Thinking Effort в Rodin Gen-2.5 позволяет художникам балансировать скорость генерации и точность в зависимости от их конкретных потребностей в рабочем процессе.

Для начала, не могли бы вы кратко представить Hyper3D и Rodin Gen-2.5, а также рассказать, как Hyper3D Rodin превратился в одну из ведущих платформ для генерации 3D-контента с помощью ИИ, используемых создателями и корпоративными командами?

Hyper3D — это платформа для создания 3D-контента, которую мы запустили в 2023 году специально для разработчиков игр и создателей 3D-контента. Она предлагает генерацию 3D-активов на основе изображений и текста с помощью Rodin, создание персонажей через ChatAvatar и набор часто используемых 3D-инструментов в рамках OmniCraft. Недавно мы также интегрировали в платформу новые базовые модели для изображений и видео, чтобы расширить её творческие возможности.

В основе платформы лежит Rodin — наша генеративная базовая модель 3D, названная в честь известного скульптора Огюста Родена, — которая теперь превратилась в Rodin Gen-2.5. Rodin был одной из первых систем, которая внедрила в индустрию по-настоящему нативную генерацию 3D.

С самого начала мы представляли Rodin как инструмент, который сотрудничает с художниками, а не заменяет их. «Управляемость» всегда была в центре нашей философии дизайна. Помимо базовой генерации Image/Text-to-3D, Rodin также предоставляет уникальные творческие возможности, такие как 3D ControlNet, локализованное редактирование 3D, уточнение на уровне деталей и удобные для производства варианты топологии.

В версии Gen-2.5 даже скорость генерации и плотность геометрических деталей стали управляемыми параметрами, что делает Rodin более адаптируемым для различных рабочих процессов: от быстрой проработки игровых ассетов до высокодетализированных VFX и использования в 3D-печати.

Именно поэтому Rodin нашёл такой сильный отклик у создателей и художников по всему миру.

Вы можете сами изучить Rodin Gen-2.5, воспользовавшись 14-дневной бесплатной пробной версией, доступной исключительно для читателей 80 Level — используйте код 80lvRodinGen25.

Многие инструменты для создания 3D-контента с помощью ИИ сегодня ориентированы в первую очередь на быструю генерацию. С вашей точки зрения, что на самом деле означает «управляемость» в 3D-графике с использованием ИИ и почему это становится всё более важным для производственных команд?

Долгое время генеративный ИИ рассматривался как игровой автомат — иногда вы мгновенно получаете идеальный результат, а иногда тратите весь день на переигрывание выходных данных.

Эта случайность затрудняла интеграцию ИИ в реальные производственные рабочие процессы, особенно в разработке игр, VFX, рендеринге в реальном времени и техническом искусстве, где форма, топология, качество текстур и контроль итераций имеют большое значение. Это также создавало ощущение противостояния художников и ИИ — потому что ни один художник не хочет иметь неконтролируемый инструмент.

С первого дня «управляемость» была основной философией Rodin. Мы рассматриваем Rodin не как генератор одним кликом, а как творческий инструмент, который сотрудничает с художниками.

В ранних версиях Rodin мы представили 3D ControlNet, позволяя пользователям управлять генерацией с помощью ограничивающих рамок, вокселей и облаков точек для точного контроля формы и пропорций. В версии Gen-2 мы представили декомпозицию деталей на основе BANG для гибкой доработки на уровне деталей. В версии Gen-2 Edit художники могли загружать существующие сетки и использовать естественный язык для локализованного редактирования. А в версии Gen-2.5 управляемыми стали даже скорость генерации и геометрия деталей.

Мы не считаем, что скорость и управляемость должны противоречить друг другу. Хороший инструмент ИИ должен позволять художникам решать, когда они хотят быстрой итерации, а когда они хотят потратить больше времени на достижение более высокой точности и детализации.

Одним из самых больших критических замечаний разработчиков в отношении активов, созданных с помощью ИИ, является то, что они могут выглядеть впечатляюще изолированно, но ломаются, как только их внедряют в реальный производственный процесс. Каковы основные технические барьеры между созданием «от промпта до 3D» и действительно готовыми к производству активами?

В отличие от текста, изображений, видео или аудио, которые в основном ориентированы на потребителя и уже имеют относительно стандартизированные форматы, 3D — это целая индустрия, и разные отрасли предъявляют совершенно разные требования к 3D-активам.

Активы, готовые для игр, модель для 3D-печати, ключевой актив VFX, объект в реальном времени для XR и модель продукта для электронной коммерции могут требовать разной плотности геометрии, топологии, UV-развёрток, текстурных карт, форматов файлов и стандартов оптимизации.

Из-за этого не существует единого «общего» 3D-представления, которое работало бы для всех.

Вот почему генерацию 3D с помощью ИИ сегодня лучше всего рассматривать как часть рабочего процесса: она снижает нагрузку на работу, а не заменяет весь конвейер. Чтобы созданные с помощью ИИ 3D-активы стали действительно готовыми к производству, они должны работать с существующими инструментами и конвейерами художников, включая программное обеспечение DCC, движки в реальном времени, оптимизацию сетки, текстурирование PBR и последующее редактирование.

Rodin Gen-2.5 представляет то, что вы описываете как «Адаптивное мышление», позволяя использовать режимы генерации от сверхбыстрых выходных данных до высокодетализированных ключевых активов. Как эта система работает изнутри, и как художники должны балансировать скорость и точность?

Она работает в том же духе, что и «механизм мышления» в больших языковых моделях, где система выделяет разные уровни вычислений в зависимости от требуемого качества выходных данных.

В Rodin Gen-2.5 быстрый режим ориентирован на эффективность и низкую стоимость. Он поддерживает пакетную генерацию, позволяя пользователям создавать несколько кандидатов одновременно и платить только при загрузке. Это особенно полезно для быстрого изучения концепций, прототипирования игровых ассетов и использования в реальном времени, например, для встраивания 3D-генерации в игры — например, в нашем сотрудничестве с NetEase's Eggy Party, у которого более 500 миллионов зарегистрированных игроков по всему миру и более 100 миллионов активных пользователей в месяц.

Режим высокой детализации предназначен для большинства творческих сценариев, особенно для сложных или ключевых активов. Он использует больше вычислений для уточнения геометрии и деталей — предоставляя модели больше «времени на размышления», пока художник может сделать перерыв на кофе, пока она работает.

Обновление вводит генерацию с более чем 10 миллионами полигонов для высокодетализированных поверхностей и персонажей. Какие технические достижения сделали это возможным, и где, по вашему мнению, этот уровень детализации станет наиболее полезным в производстве?

Мы думаем о генерации с более чем 10 миллионами полигонов как о «RAW-файле» в фотографии — он сохраняет максимальную геометрическую информацию до любого сжатия.

В производстве это даёт художникам больше гибкости в дальнейшем. Высокоплотная 3D-модель может использоваться в качестве источника для создания высококачественных карт нормалей, создания готовых к игре низкополигональных ассетов, подготовки моделей для 3D-печати, поддержки обработки фильмов и VFX-активов или продолжения скульптинга в таких инструментах, как ZBrush и Blender.

Это не предназначено для использования везде напрямую, а для того, чтобы служить источником высокой точности, который можно адаптировать к различным потребностям конвейера.

Конечно, всё это работает только в том случае, если у вас на самом деле есть модель, способная достоверно воссоздать такой уровень детализации.

Для разработчиков игр, в частности, высокополигональный вывод часто является лишь одним этапом рабочего процесса. Как Rodin подходит к топологии, оптимизации и последующим вариантам использования для таких движков, как Unreal Engine или Unity?

Для разработчиков игр высокополигональный вывод не всегда является необходимым этапом рабочего процесса — особенно для более простых игр.

Вот почему одним из самых интересных обновлений в Gen-2.5 является Smart Low-poly, который мы выделили в конце нашей демонстрации.

Он использует GPT-подобный авторегрессионный подход для реконструкции сеток лицо за лицом, создавая геометрию в стиле художника с треугольниками и четырёхугольниками, которая хорошо подходит для использования в реальном времени.

Эта функция всё ещё находится в стадии бета-тестирования, и мы активно улучшаем её производительность.

Ещё до этого Rodin уже поддерживает стандартные низкополигональные выходные данные (несколько тысяч полигонов), полностью совместимые с Unity и Unreal, с плагинами для прямого использования в движке.

Наш DCC Bridge также интегрируется с такими основными инструментами, как Blender, Maya, Godot и Cinema 4D, чтобы художники могли беспрепятственно внедрить рабочий процесс по созданию 3D с помощью ИИ в программное обеспечение, которое они уже используют.

Генерация текстур с помощью ИИ часто сталкивается с проблемами швов, размытых задних сторон или несогласованных деталей в невидимых областях. Что отличает подход Rodin Gen-2.5 к генерации «родных» для 3D текстур по сравнению с более традиционными рабочими процессами с использованием ИИ?

Rodin Gen-1 был первым, кто привнёс по-настоящему нативную генерацию геометрии 3D в производственный продукт — направление, которое с тех пор стало мейнстримом, и многие конкуренты последовали этой парадигме.

Однако вплоть до версии Gen-2.5 генерация текстур в большинстве систем всё ещё основывалась на 2D-решении: использовались модели генерации изображений для создания рендеров с нескольких ракурсов, которые затем проецировались обратно на 3D-полигон для формирования текстур. Это часто приводило к таким проблемам, как несоответствие рендеров с разных ракурсов, швы и артефакты проекции в скрытых областях. Основная причина такого подхода заключается в том, что нативное 3D-моделирование текстур значительно сложнее и ограничено ограниченными обучающими данными.

С Gen-2.5 мы перешли к действительно нативной 3D-парадигме, где цвета и материалы создаются непосредственно на поверхности самой 3D-модели. Это обеспечивает полноугловую согласованность, лучшую управляемость и значительно улучшает качество PBR.

Мы опубликуем технический отчёт об этом прорыве позже в этом году.

Rodin включает в себя как «верный», так и «творческий» режимы генерации. Как вы определяете разницу между этими подходами, и какие художники или сценарии производства больше всего выигрывают от каждого из них?

Во время Rodin Gen-2 мы обнаружили, что многие пользователи вводят изображения, созданные с помощью искусственного интеллекта, которые часто содержат едва заметные несоответствия перспективы, которые трудно заметить, но которые могут сильно повлиять на 3D-реконструкцию.

Вот почему мы ввели «творческий» режим, который более устойчив к несовершенным исходным данным. Режим «верный» лучше подходит для физически согласованных изображений реального мира.

В большинстве современных рабочих процессов, основанных на искусственном интеллекте, мы обычно рекомендуем «Творческий» режим по умолчанию.

Пакетная генерация, по-видимому, является основным направлением в Gen-2.5. Как вы видите, параллельная генерация меняет подход концепт-художников, технических художников и команд по созданию окружения к исследованию вариаций или созданию библиотек ассетов?

Случайность — ключевое преимущество генеративного искусственного интеллекта, но она также заставляет художников тратить время на итерации и выбор результатов. Параллельная генерация помогает решить эту проблему за счёт повышения эффективности.

В Rodin Gen-2.5 пользователи могут генерировать до 10 вариаций за один прогон, каждая из которых имеет незначительные отличия — вместо выполнения 10 отдельных итераций. Это особенно полезно для концепт-художников, художников по окружению, игровых команд и технических художников, которым необходимо быстро сравнить формы, силуэты, реквизит или вариации ассетов.

В будущем мы стремимся со временем изучить предпочтения пользователей, чтобы система могла лучше адаптироваться к стилю каждого создателя.

Одним из наиболее интересных дополнений является «Manual BANG to Parts», который позволяет создателям намеренно разделять сгенерированные модели на управляемые компоненты. Почему разделение на уровне деталей является таким важным шагом на пути к готовому к производству ИИ 3D?

В большинстве 3D-рабочих процессов ожидается, что ассеты будут правильно разделены на части, а не храниться в виде единой полигональной сетки. Например, игровым персонажам часто нужны отдельные элементы брони, одежды, оружия, аксессуаров или волос, в то время как для 3D-печати модели часто необходимо разделить для сборки, выбора материалов или производственных ограничений.

В Gen-2 автоматическая декомпозиция на части на основе BANG широко использовалась, но пользователи также хотели большего контроля над тем, как модели сегментируются, что повысило планку управляемости.

Manual BANG to Parts даёт художникам более целенаправленный контроль над разделением деталей. В сочетании с Part Refine это позволяет пользователям очищать или улучшать определённые локальные области без регенерации всей модели.

Поскольку 3D охватывает множество отраслей, возможность ручного, управляемого разделения на части делает ассеты, созданные с помощью ИИ, гораздо более подходящими для реальных производственных конвейеров, включая 3D-печать, анимацию, разработку игр и рабочие процессы технического искусства.

В настоящее время ведётся много дискуссий о том, что искусственный интеллект заменит художников, но ваша позиция, похоже, больше сосредоточена на ускорении рабочих процессов и повышении скорости итераций. Как вы лично видите взаимосвязь между инструментами искусственного интеллекта и профессиональными художниками?

Что отличает нашу команду от многих других компаний, занимающихся искусственным интеллектом, так это то, что все наши соучредители являются одновременно исследователями генеративного искусственного интеллекта и 3D-художниками. Все мы работали над кино- и игровыми проектами, и все мы сами являемся пользователями Blender — поэтому отношения между искусственным интеллектом и художниками нас очень волнуют.

Как вы упомянули, искусственный интеллект должен ускорять рабочие процессы и повышать эффективность, а не заменять художников. Это должен быть инструмент для художников, и именно поэтому мы уделяем столько внимания управляемости.

Мы считаем, что компании, занимающиеся искусственным интеллектом, должны активно поддерживать рост 3D-индустрии и уважать работу художников. Именно поэтому мы являемся золотым спонсором Blender и почему все наши обучающие данные имеют надлежащие лицензии — включая наборы данных, приобретённые в больших масштабах на таких платформах, как Shutterstock.

How Hyper3D Rodin Gen-2.5 Is Bringing Production-Level Control to AI 3D Generation - изображение 2

Для профессиональных художников реальная ценность генерации 3D с помощью искусственного интеллекта заключается не в устранении творческого суждения, а в сокращении повторяющейся работы, ускорении раннего исследования и предоставлении художникам больше времени для направления, доработки и окончательного контроля качества.

Только искусственный интеллект, созданный в рамках такой здоровой творческой экосистемы, может стать действительно пригодным к использованию инструментом производственного уровня, который художники захотят внедрить.

Что искусственный интеллект может делать в 3D-генерации сегодня на самом деле хорошо, и где, по вашему мнению, художникам и студиям всё ещё следует сохранять осторожность или скептицизм?

Сегодня технологии генерации 3D с помощью ИИ уже отлично справляются с быстрой генерацией идей, созданием начальных ассетов, исследованием вариаций и ускорением рабочих процессов на ранних этапах. Они могут быстро превращать концепции, эскизы, текстовые запросы или справочные изображения в пригодные для использования 3D-начальные точки и значительно снижать стоимость итераций.

Однако художникам и студиям всё равно следует проявлять осторожность, когда дело доходит до финального качества продукции, особенно в сложных случаях, требующих строгой топологии, анимационно-готового потока рёбер или высокоспецифичного художественного направления. Результаты работы ИИ всё ещё могут быть непоследовательными, и им часто требуется доработка человеком, чтобы соответствовать производственным стандартам.

Короче говоря, ИИ отлично подходит для ускорения творческого процесса, но лучше всего работает в качестве помощника художников, а не замены профессиональной художественной оценке или контролю на уровне конвейера.

Заглядывая вперёд, как вы думаете, будущее ИИ в 3D заключается в основном в улучшении качества генерации или более широкие возможности связаны с более глубокой интеграцией в существующие производственные конвейеры и творческие рабочие процессы?

Я думаю, что качество генерации будет продолжать улучшаться, но это уже не является основным препятствием.

Более широкие возможности связаны с более глубокой интеграцией в реальные производственные конвейеры и творческие рабочие процессы — сделать так, чтобы ИИ действительно можно было использовать внутри того, как студии уже работают, а не как отдельный «инструмент генерации».

Это включает в себя лучшую управляемость, совместимость с движками и инструментами DCC, а также возможность поддержки итеративных, управляемых художниками процессов в масштабе.

Для Hyper3D Rodin будущее ИИ в 3D заключается не только в создании лучшей модели по запросу. Речь идёт о создании контролируемого рабочего процесса «ИИ в 3D», который может соединяться с разработкой игр, VFX, рендерингом в реальном времени, 3D-печатью и корпоративными производственными конвейерами.

Наконец, для читателей 80 Level, работающих в играх, VFX, рендеринге в реальном времени или техническом искусстве, какой рабочий процесс вы бы порекомендовали сначала поэкспериментировать при работе с Rodin Gen-2.5?

Rodin Gen-2.5 предназначен для того, чтобы обеспечить больший контроль над полным производственным конвейером «ИИ в 3D», от скорости генерации и сложности геометрии до качества текстур, локальных деталей, редактирования на уровне деталей, топологии и последующей оптимизации.

Для команд, работающих над более простыми игровыми активами или быстрой концепт-итерацией, я бы порекомендовал начать с режимов Low или Extreme-Low, требующих минимальных усилий, в сочетании с пакетной генерацией 5x или 10x. Эти режимы могут генерировать несколько вариантов всего за несколько секунд: около 4 секунд для Extreme-Low и 9 секунд для Low, что значительно упрощает быстрый поиск вариаций. Затем пользователи могут применить Smart Low-Poly, чтобы получить более чистую, удобную для производства сетку для использования в реальном времени в таких движках, как Unity или Unreal Engine.

Для более сложных персонажей, существ или ассетов героев режим Extreme-High работает очень хорошо. Он может захватывать гораздо более богатую геометрию и детали поверхности, особенно в сочетании с подробными или микропресетами. Это полезно для высокодетализированных скульптурных референсов, VFX-активов, 3D-печати и высокоточных исходных моделей, которые позже можно оптимизировать или преобразовать в версии с более низкой полигоностью.

Помимо веб-платформы, мы также предлагаем доступ к API, групповые учётные записи, выделенные кластеры и варианты частного развёртывания, чтобы студии могли масштабировать Rodin Gen-2.5 во внутренние рабочие процессы в зависимости от их производственных потребностей.

Готовы попробовать? Читатели 80 Level могут бесплатно опробовать Rodin Gen-2.5 в течение 14 дней, используя код 80lvRodinGen25.

QX Zhang, технический директор Hyper3D

Интервью проведено командой 80 Level Editorial Team

Как Hyper3D Rodin Gen-2.5 выводит управление созданием 3D-объектов на уровень производства в сфере искусственного интеллекта

QX Zhang, технический директор Hyper3D