حداقل در ظاهر، آخرین پیشرفت هوش مصنوعی متا قدم مهمی به نظر نمی رسد.
امروز، متا یک نمای کلی از سیستم هوش مصنوعی جدید «جعبه صوتی» خود را منتشر کرده است که کاربران را قادر میسازد تا متن را با طیف وسیعی از سبکها و صداها به صدا ترجمه کنند.
معرفی Voicebox، یک سیستم گفتار مولد جدید بر اساس Flow Matching، روش جدیدی که توسط Meta AI ارائه شده است. این می تواند گفتار را در شش زبان ترکیب کند، حذف نویز را انجام دهد، محتوا را ویرایش کند، سبک صوتی را منتقل کند و موارد دیگر.
توضیحات بیشتر در مورد این کار و نمونه ⬇️
– هوش مصنوعی متا (@MetaAI) 16 ژوئن 2023
همانطور که در این کلیپ مروری ارائه شد، سیستم Voicebox میتواند ورودیهای متن را بگیرد و آنها را به صدا ترجمه کند، با گزینههای صوتی مختلف، امکان ترجمه پیشرفتهتر متن به صدا را فراهم میکند، اما با کاهش نیازهای یادگیری و پردازش نسبت به سایر پیشنهادات مشابه.
اگرچه، حداقل در ظاهر، این ابزار با ابزارهای تبدیل متن به صوتی که ما اکنون به آنها عادت کردهایم – چه بخواهیم چه نخواهیم – در TikTok و سایر برنامهها، تفاوت چندانی ندارد.
ترجمههای Voicebox بسیار شبیه به نظر میآیند – و من حاضرم شرط ببندم متا به من اجازه نمیدهد از صدای Rocket Raccoon یا Transformer در این ترجمههای جدید استفاده کنم.
اما سیستم Voicebox نیز چیزی بیش از یک ابزار ترجمه مستقیم متن به گفتار است.
همانطور که متا توضیح داد:
“Voicebox میتواند کلیپهای صوتی با کیفیت بالا تولید کند و صدای از پیش ضبطشده را ویرایش کند – مانند حذف بوق ماشین یا پارس کردن سگ – همه اینها در عین حفظ محتوا و سبک صدا. این مدل همچنین چند زبانه است و می تواند به شش زبان گفتار تولید کند. در آینده، مدلهای چندمنظوره هوش مصنوعی مانند Voicebox میتوانند صداهایی با صدای طبیعی به دستیاران مجازی و شخصیتهای غیربازیکن در متاورس بدهند. آنها میتوانند به افراد کمبینا اجازه دهند پیامهای نوشتاری دوستان را که توسط هوش مصنوعی در صدایشان خوانده میشود بشنوند، به سازندگان ابزارهای جدیدی برای ایجاد و ویرایش آهنگهای صوتی برای ویدیوها و بسیاری موارد دیگر بدهند.
همانطور که متا اشاره میکند، Voicebox همچنین به شما امکان میدهد از مدلهای صدا برای ترجمه استفاده کنید، بنابراین میتوانید از یک کلیپ صوتی شخص دیگری استفاده کنید تا ترجمه متن به گفتار خود را مانند آن شخص در حال صحبت کردن، تنها از طریق چند ثانیه ورودی صوتی استفاده کنید. .
که بدون شک منجر به مجموعه جدیدی از دیپفیکها میشود – اگرچه باز هم، ابزارهای مشابه در حال حاضر وجود دارند. آنها فقط یکسان نیستند، و متا می گوید که به خوبی این روند جدید نیست.
مزیت واقعی Voicebox، به معنای گسترده، در ترجمه و فعال کردن تغییرات ساده و بومی ورودیهای متن شما در زبانهای مختلف خواهد بود. این میتواند فرصتهای جدید و بین بازاری را باز کند، در حالی که مدلسازی پیشرفته سیستم موارد و فرآیند استفاده گستردهتری را نیز تسهیل میکند، که میتواند مزایای کلیدی دیگری را ارائه دهد.
اما متا از خطرات آن نیز آگاه است.
در این مرحله، متا این را منتشر نمی کند کد منبع یا برنامه برای عموم، با ذکر «خطرات احتمالی سوء استفاده». امیدوار است در طول زمان موارد کاربردی و ارزشمندتری را برای این فناوری بیابد – بنابراین اعلام امروز آن بیشتر یک FYI است تا یک راهاندازی.
در اینجا می توانید اطلاعات بیشتری در مورد پروژه Voicebox Meta بخوانید.