-
17:14
-
16:38
-
16:23
-
16:10
-
15:52
-
15:25
-
15:25
-
14:43
-
14:00
-
13:18
-
13:00
-
12:15
-
11:30
-
11:03
-
10:44
-
10:00
-
09:49
-
09:15
-
09:03
-
08:28
-
08:07
-
07:45
متا مدل هوش مصنوعی Spirit LM را برای تقلید صدای انسان راه اندازی کرد
متا مدل منبع باز جدید خود را با نام "Spirit LM" راه اندازی کرده است که به چالش های مربوط به مدل های چندوجهی در هوش مصنوعی در تولید صدا می پردازد.
هدف مدل جدید ارائه یک تجربه صوتی طبیعی تر و گویاتر است که گامی پیشرفته در توسعه ربات های هوشمندی است که قادر به برقراری ارتباط صوتی به روش های پیچیده تر و واقعی تر هستند.
مدل «Spirit LM» مبتنی بر یک مدل زبان از پیش آموزشدیدهشده حاوی 7 میلیارد پارامتر است و با توانایی آن در پردازش صدا متفاوت از مدلهای سنتی که بر فناوریهای تشخیص خودکار گفتار (ASR) متکی هستند، متمایز میشود.
متا اشاره می کند که رویکرد سنتی منجر به از بین رفتن بسیاری از بیان های طبیعی صدا می شود. بنابراین، Spirit LM برای غلبه بر این محدودیتها بر استفاده از واجها، آهنگها و زیر و بم تکیه میکند و به آن اجازه میدهد صداهای طبیعی تولید کند و کارهای جدیدی از جمله تشخیص گفتار، تبدیل متن به متن و طبقهبندی صدا را بیاموزد.
متا این مدل را در یک مقاله تحقیقاتی فاش کرد و همچنین جزئیات تحقیقاتی را که منجر به توسعه "Spirit LM" شد، علاوه بر نمونه هایی از عملکرد صوتی این مدل، ذکر کرد و ایده روشنی از قابلیت های آینده آن ارائه داد.
این مدل اکنون بهعنوان یک پروژه منبع باز برای توسعهدهندگان و محققان در دسترس است تا از آن استفاده کنند و توسعه دهند و انتظار میرود در آینده در برنامههای متا مانند WhatsApp، Instagram و Facebook مورد استفاده قرار گیرد و به کاربران امکان تعامل با هوش مصنوعی از طریق صدای طبیعی را بدهد. . مکالمات پر از عبارات مشابه حالت صوتی پیشرفته که اخیرا توسط OpenAI معرفی شده است.