Новини

Необхідно прочитати статті про семантичну сегментацію AI [оновлення 2023]

Arie Zilberman

11 Oct 2023 • 3 min read

У 2023 році дослідники блискавично підготували статті зі штучним інтелектом про методи сегментації. Читати їх без Neuralink Ілона Маска неможливо, тому ми виділимо кілька гідних статей. У цих документах згадується сегментація обличчя ШІ, виявлення об’єктів і сегментація екземплярів.

Сегментація — це процес поділу зображення на певні мітки. Для фото вулиці міста, наприклад, потрібно позначити кожен піксель. Це важливий крок для машинного зору, якого ми вимагаємо для автономного водіння. Без точних даних сегментації штучного інтелекту ми не можемо очікувати безпеки від безпілотних автомобілів. Нам також потрібна сегментація для генерації зображень штучного інтелекту та інших програм.

Звичайне використання сегментації в реальному світі

Інтерпретація даних з автономних транспортних засобів

Розуміння просторової інформації є ключовим для програмного забезпечення для самостійного водіння. Також необхідно використовувати сегментацію для визначення кожного пікселя. З різних причин методи сегментації штучного інтелекту повинні визначати та надавати значення об’єктам у полі зору.

Діагностика за допомогою медичних зображень

Визначення частин тіла є цінним, особливо для тих, хто потребує медичної допомоги. Завдяки сегментації ШІ покращується медична допомога та рання діагностика.

Швидко подивіться на ці обов’язкові для прочитання документи про AI 2023 року про сегментацію.

Автономне водіння: 4D-Net для навченого мультимодального вирівнювання

Ходити без зору може бути небезпечно. Автономне водіння без машинного зору ще небезпечніше. Waymo та Google Research підготували цю статтю про 4D-net. Програма поєднує точки даних з 3D LiDAR і звичайних камер. Ця інформація покращує технологію автономного водіння.

Більшість безпілотних автомобілів використовують комбінацію LiDAR і камер. Tesla використовує лише дані з камер. Вони роблять це, використовуючи дані з камер автопілота, надані клієнтами. Інші виробники вірять у дві форми машинного зору, а не в одну. Вони віддають перевагу сприйняттю глибини від LiDAR із виявленням об’єктів і сегментацією примірників.

Турецьке опитування щодо глибокого навчання для семантичної сегментації

Ця стаття присвячена поточному стану сегментації штучного інтелекту двовимірного зображення. Це гідна відправна точка для тих, хто хоче бути в курсі відповідних досягнень. Семантична сегментація зображення – це процес визначення зображення до останнього пікселя. Неточний машинний зір підриває весь процес глибокого навчання, тому ця сфера життєво важлива. Мета автора — допомогти майбутнім директивам, розуміючи минулі методи.

Ця стаття підсумовує досягнення семантичної сегментації за останнє десятиліття. Крім того, для порівняння автор включив останні розробки. Ось що робить його таким вартим уваги; це багато паперів, стиснутих в один. По-перше, ви зможете побачити еволюцію моделей семантичної сегментації двовимірних зображень. Потім автор порівнює їх із сучасними додатками. Нарешті, корисні візуальні матеріали та таблиці відображають інформацію разом із порівнянням поточних і попередніх методів.

Персоналізований генеративний пріоритет для Photoshop обличчя в реальному часі

MyStyle — це геніальна програма, яка використовує AI сегментацію обличчя для зміни рис обличчя. Програмне забезпечення створює вирази на рівні, якого ми раніше не бачили. Творці кажуть, що їхня програма перевершує нинішніх лідерів у цій програмній ніші. Вони кажуть, що це дає якісніші результати за менший час.

Подумайте про MyStyle як про програму deepfake із настроюваними параметрами. По-перше, він працює шляхом створення еталонного набору даних про пропорції обличчя суб’єкта. Для формування цієї моделі використовується близько 100 портретних зображень. Потім попередньо навчена програма під назвою StyleGAN збирає дані. З його допомогою програмне забезпечення будує точну низько розмірну модель. Створюючи точне посилання, MyStyle може реалістично змінювати деталі обличчя суб’єкта.

Стаття Google Research і Тель-Авівського університету доступна тут .

Навчання постійному перегляду генерації сцен з окремих зображень

InfiniteNature використовує методи сегментації зображень, щоб перенести нас у світи. Авторами є Google Research, Cornell Tech, Cornell University та UC Berkeley.

Ми всі збільшували масштаб за допомогою Google Планета Земля, але рівень деталізації цього програмного забезпечення не по межах випереджає. Уявіть, що ви летите на фотографію. Ви матимете контроль над своєю перспективою, масштабуючи її з великою деталізацією. Для створення цього досвіду InfiniteNature потрібне одне еталонне зображення, а не сотні.

InfiniteNature відправляє віртуальну камеру на кілька траєкторій. Під час руху він вимірює кути перспективи, будуючи видиму модель. Використовуючи сегментацію штучного інтелекту, ми можемо наносити на карту такі об’єкти, як гори та горизонти, і коригувати траєкторію камери. Оскільки воно швидко рухається, створити небо може бути важко. InfiniteNature пояснює це за допомогою методів сегментації та динамічного змішування зображень.