Panjaya, vadovaujama įkūrėjo, pardavusio vaizdo įrašų startuolį „Apple“, naudoja „deepfake“ metodus, kad įsitrauktų į vaizdo įrašų dubliavimą.
Vertimo pasaulyje yra didžiulė generatyvaus dirbtinio intelekto galimybė, o startuolis, pavadintas Panjaya, perkelia šią koncepciją į kitą lygmenį: hiperrealistinis, DI pagrindu sukurtas vaizdo įrašų dubliavimo įrankis, atkuriantis originalų žmogaus balsą, kalbantį nauja kalba. , kai vaizdo įrašas ir kalbėtojo fiziniai judesiai automatiškai keičiasi, kad natūraliai atitiktų naujus kalbos modelius.
Pastaruosius trejus metus slapstantis startuolis pristato pirmąją savo produkto versiją „BodyTalk“ ir pirmąjį išorinį finansavimą – 9,5 mln.
Panjaya yra dviejų gilaus mokymosi specialistų Hilik Shani ir Ariel Shalom, kurie didžiąją savo profesinio gyvenimo dalį praleido tyliai dirbdami su Izraelio vyriausybės gilaus mokymosi technologijomis, o dabar yra atitinkamai startuolio generalinis direktorius ir CTO, idėja. 2021 m. jie pakabino savo „G-man“ skrybėles, kai pradėjo nerimauti, o prieš 1,5 metų prie jų prisijungė Guy Piekarz, kaip generalinis direktorius.
Piekarzas nėra „Panjaya“ įkūrėjas, tačiau jis yra žinomas vardas, kurį reikia turėti: 2013 m. jis pardavė startuolį, kurį jis padarė rado Apple. „Matcha“, kaip buvo vadinamas startuolis, buvo ankstyvas, aktyvus žaidėjas, ieškodamas vaizdo įrašų srautinio perdavimo ir teikdamas rekomendacijas, ir jis buvo įsigytas pačioje „Apple“ televizijos ir srautinio perdavimo strategijos pradžioje, kai tai buvo daugiau gandai nei tikri produktai. „Matcha“ buvo užgrobta ir parduota už dainą: nuo 10 iki 15 mln. USD – kukli, atsižvelgiant į tai, kad „Apple“ galiausiai padarė srautinę mediją.
„Piekarz“ beveik dešimtmetį pasiliko „Apple“, kurdamas „Apple TV“, o vėliau ir jos sporto vertikalę. Tada jis buvo supažindintas su Panjaya per Viola Ventures, vieną iš jos rėmėjų (kiti yra R-Squared Ventures, JFrog įkūrėjas ir generalinis direktorius Shlomi Ben Haim, Chrisas Rice'as, Guy'us Schory, Ryanas Floydas iš Storm Ventures, Ali Behnamas iš Riviera Partners. ir Odedas Vardis.
„Tuo metu buvau palikęs „Apple“ ir planavau padaryti kažką visiškai kitokio“, – sakė Piekarzas. „Tačiau pamačiusi technikos demonstracinę versiją mane sukrėtė, o visa kita yra istorija.
„BodyTalk“ yra įdomus tuo, kaip vienu metu į kadrą įtraukiamas kelias technologijas, kurios veikia skirtingais sintetinės laikmenos aspektais.
Pradedama nuo garso vertimo, kuris šiuo metu gali pasiūlyti vertimus į 29 kalbas. Tada vertimas ištariamas balsu, imituojančiu pradinį kalbėtoją, kuris savo ruožtu nustatomas į originalaus vaizdo įrašo versiją, kurioje kalbėtojo lūpos ir kiti judesiai pakeičiami, kad atitiktų naujus žodžius ir frazę. Visa tai sukuriama automatiškai vaizdo įrašuose, kai naudotojai juos įkelia į platformą, kurioje taip pat yra prietaisų skydelis, kuriame yra papildomų redagavimo įrankių. Ateities planuose yra API, taip pat priartėjimas prie apdorojimo realiuoju laiku. (Šiuo metu „BodyTalk“ veikia „beveik realiuoju laiku“, vaizdo įrašams apdoroti reikia minučių, sakė Piekarzas.)
„Mes naudojame geriausius produktus ten, kur reikia“, – sakė Piekarzas apie bendrovės naudojamus trečiųjų šalių didelių kalbų modelius ir kitus įrankius. „Ir mes kuriame savo AI modelius ten, kur rinka iš tikrųjų neturi sprendimo.
To pavyzdys yra bendrovės lūpų sinchronizavimas, tęsė jis. „Visą mūsų lūpų sinchronizavimo variklį sukūrė mūsų AI tyrimų komanda, nes neradome nieko, kas pasiektų tokį kelių garsiakalbių, kampų ir visų verslo naudojimo atvejų, kuriuos norime palaikyti, lygį ir kokybę.
Šiuo metu jos dėmesys sutelktas tik į B2B; klientų yra JFrog ir TED žiniasklaidos organizacija. Bendrovė planuoja toliau plėstis žiniasklaidoje, ypač tokiose srityse kaip sportas, švietimas, rinkodara, sveikatos priežiūra ir medicina.
Gauti vertimo vaizdo įrašai yra labai nepakartojami, nepanašūs į tai, ką gaunate su giliomis klastotėmis, nors Piekarz susijaudina dėl šio termino, kuris bėgant metams įgavo neigiamų konotacijų, visiškai priešingų rinkai, į kurią orientuojasi startuolis.
„Deepfake“ nėra kažkas, kas mus domina“, – sakė jis. „Siekiame išvengti viso to vardo“. Vietoj to, jis sakė, galvokite apie Panjaya kaip „giliosios tikrosios kategorijos“ dalį.
Jis pridūrė, kad siekdama tik B2B rinkos ir kontroliuodama, kas gali pasiekti jos įrankius, bendrovė sukuria „apsauginius turėklus“ aplink technologiją, kad apsaugotų nuo netinkamo naudojimo. Jis taip pat mano, kad ilgalaikėje perspektyvoje bus sukurta daugiau įrankių, įskaitant vandenženklį, padėsiantį nustatyti, kada vaizdo įrašai buvo modifikuoti ir sukurti sintetinę laikmeną – tiek teisėtą, tiek niekšišką. „Mes tikrai norime būti to dalimi ir neleisti dezinformacijos“, – sakė jis.
Ne itin smulkus spaudinys
Yra daug naujų įmonių, kurios konkuruoja su Panjaya platesnėje AI pagrįsto vaizdo įrašų vertimo srityje, įskaitant tokius didelius pavadinimus kaip Vimeo ir Eleven Labs, taip pat mažesnius žaidėjus, tokius kaip Speechify ir Synthesis. Visiems jiems kurti būdus, kaip pagerinti dubliavimo veikimą, atrodo tarsi plaukimas prieš stiprią potvynį. Taip yra todėl, kad šiais laikais antraštės tapo labai įprasta vaizdo įrašų naudojimo dalimi.
Televizijoje taip yra dėl daugybės priežasčių, tokių kaip prasti garsiakalbiai, foninis triukšmas mūsų užimtame gyvenime, murmėti aktoriai, riboti gamybos biudžetai ir daugiau garso efektų. CBS, atlikusi Amerikos televizijos žiūrovų apklausą, nustatė, kad daugiau nei pusė jų subtitrus laikė „kai kuriuos (21 %) arba visą (34 %) laiko.
Tačiau kai kurie subtitrai patinka vien todėl, kad juos smagu skaityti, ir aplink tai buvo sukurtas visas kultas.
Socialinėje žiniasklaidoje ir kitose programose subtitrai tiesiog įtraukiami į patirtį. „TikTok“, kaip vienas iš pavyzdžių, pradėjo veikti 2023 m. lapkričio mėn., kad pagal numatytuosius nustatymus būtų įjungtas subtitrai visuose vaizdo įrašuose.
Nepaisant to, tarptautiniu mastu tebėra didžiulė įgarsinto turinio rinka ir net jei anglų kalba dažnai laikoma interneto lingua franca, yra įrodymų iš tyrimų grupių, tokių kaip CSA, kad turinys, pateikiamas gimtąja kalba, sulaukia geresnio susidomėjimo, ypač B2B kontekste. Panjaya pasiūlymas yra tas, kad natūralesnis turinys gimtąja kalba galėtų būti dar geresnis.
Atrodo, kad kai kurie jos klientai palaiko šią teoriją. TED teigia, kad „Panjaya“ įrankiu dubliuotų pokalbių peržiūrų skaičius padidėjo 115%, o išverstų vaizdo įrašų užbaigimo rodiklis padvigubėjo.