Новый искусственный интеллект Google превращает текст в музыку

30.01.2023

2 013

После успехов в области изображений (Dall-E, Stable Diffusion) или текста ("GPT Chat") ИИ демонстрирует свои творческие возможности в области музыки с помощью программы Google MusicLM. Однако Google продолжает осторожничать и не предоставляет доступ к своему инструменту широкой публике. Из-за страха открыть ящик Пандоры?

Изображения, затем текст и разговор, а теперь музыка! Демонстрации моделей ИИ следуют одна за другой и становятся все сложнее, и сегодня в центре внимания модель MusicLM от Google. ИИ, который, подобно своим братьям Dall-E и Stable Diffusion для изображения, на основе запроса в виде текста сочиняет для вас музыку. Хотя такие модели разрабатывались и раньше, здесь качество "высокой достоверности" делает скачок вперед в плане визуализации. И с точки зрения доверия и разнообразия. На этой странице, посвященной MusicLM, исследователи Google делятся многочисленными музыкальными отрывками с соответствующими запросами. Помимо разнообразия стилей, следует выделить характер запросов: короткие фрагменты, длинные фрагменты, разделенные на жанры или вариации на известные мелодии или композиции, вдохновленные описаниями известных картин.

Потратив немного времени на то, чтобы послушать некоторые из этих "творений", некоторые выводы кажутся очевидными. С одной стороны, некоторые произведения, особенно электронные, явно находятся на уровне человеческого производства. Затем, если ИИ все еще способен выполнять "упражнения" на фортепиано (см. "Text and Melody Conditioning", колонка "bella ciao – humming", строка "piano solo"), был достигнут большой прогресс в построении и создании голоса (тембр голоса в частности). Если модель делает все возможное, чтобы не придерживаться какого-либо языка, пример "Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive." в разделе "Audio Generation From Rich Captions" весьма впечатляет. Из длинного и точного описания ИИ способен создать настоящую достоверную песню с человеческим вокалом. Пример, который, по нашему мнению, иллюстрирует одну из причин, почему, в отличие от уже упомянутых нами ИИ, в настоящее время нет возможности "играть" с этим ИИ.

Поле возможностей и, следовательно, потенциальных злоупотреблений в музыкальной сфере потенциально так же огромно, как и в сфере изображений. Помимо ослабления (или даже уничтожения) рынков для создания звуковых образов, музыкальных фонов, фоновой музыки и т.д., риск плагиата, которое вызовет гнев одного или нескольких артистов, также очень реален. И если OpenAI был готов "разрушить рынок" с помощью Dall-E и Chat-GPT, чтобы привлечь инвесторов (например, Microsoft), то на плечи такого гиганта, как Google, ложится гораздо больше ответственности и давления. Ответственность четко понимается и объясняется в исследовательской работе "Music LM: Generating music from text": "Мы настоятельно подчеркиваем необходимость дальнейшей работы для устранения (рисков), связанных с генерацией музыки - на данном этапе мы не намерены публиковать какие-либо модели". Короче говоря: Google не хочет открывать ящик Пандоры. Только более мелкий игрок с меньшими корпоративными рисками мог себе это позволить...

И кто-то обязательно это сделает! Благодаря массе публикаций таких компаний, как Google, многие музыкальные модели стали предметом интенсивных исследований. Хотя для музыкальной экосистемы угрозы велики, для остального мира они обещают много хорошего. Будь то возможность для компании создавать уникальную, безвозмездную музыку на вызовах, быстрая и легкая генерация звуков и музыки для инди-видеоигр и т.д., ИИ, очевидно, станет следующей большой частью решения. Очевидно, что ИИ в конечном итоге нарушит рынок создания музыки. Вопрос в том, сможет ли правовая база контролировать его появление или он будет действовать как новая приливная волна.

30.01.2023

2 013