گوگل از قابلیت صوتی زنده Gemini 2.5 رونمایی کرد

شرکت گوگل در تازه‌ترین اطلاعیه رسمی خود از ارتقای گسترده مدل‌های جمینی خبر داد. نسخه جدید تحت عنوان «Gemini 2.5 Flash Native Audio» با قابلیت صوتی زنده Gemini 2.5 معرفی شده و اکنون در سرویس‌های مختلف گوگل از جمله AI Studio، Vertex AI و بخش جست‌وجوی زنده در دسترس قرار دارد. این تغییر، امکان مکالمه طبیعی‌تر، اجرای دستورات پیچیده و ترجمه زنده گفتار را فراهم کرده است؛ قابلیتی که می‌تواند تجربه کاربران در ارتباطات روزمره و خدمات تجاری را دگرگون کند.

براساس داده‌های منتشرشده توسط تحریریه هوش‌نیوز، قابلیت صوتی زنده Gemini 2.5 در سه حوزه کلیدی ارتقا یافته است.

نخست، دقت بالاتر در فراخوانی توابع بیرونی که به مدل اجازه می‌دهد اطلاعات لحظه‌ای را در جریان مکالمه وارد کند.
دوم، توانایی بیشتر در پیروی از دستورالعمل‌های پیچیده با نرخ موفقیت ۹۰ درصدی (افزایش از ۸۴ درصد در نسخه پیشین).
سوم، بهبود چشمگیر در کیفیت مکالمات چندمرحله‌ای که موجب انسجام بیشتر گفتگوها شده است.

این دستاوردها در ارزیابی «ComplexFuncBench Audio» با امتیاز ۷۱.۵ درصد ثبت شده است.

آنچه خواهید خواند:

دسترسی برای شرکت‌های بزرگ فناوری

سایت جامع هوش مصنوعی گزارش می‌دهد که مشتریان بزرگ گوگل نیز از قابلیت صوتی زنده Gemini 2.5 بهره‌مند شده‌اند. شرکت Shopify اعلام کرده کاربران در تعامل با دستیارهای مجهز به جمینی، پس از چند دقیقه فراموش می‌کنند با یک سیستم خودکار صحبت می‌کنند. همچنین شرکت United Wholesale Mortgage توانسته با استفاده از این مدل بیش از ۱۴ هزار وام را برای شرکای خود پردازش کند. این نمونه‌ها نشان می‌دهد که ارتقای جمینی تنها یک تغییر فنی نیست، بلکه اثرات مستقیم اقتصادی و تجاری نیز دارد.

ترجمه زنده

یکی از جذاب‌ترین قابلیت صوتی زنده Gemini 2.5، «ترجمه زنده گفتار به گفتار» است که اکنون در اپلیکیشن Google Translate به‌صورت آزمایشی عرضه شده است. این ویژگی امکان شنیدن ترجمه همزمان در هدفون را فراهم می‌کند و علاوه بر انتقال معنا، لحن، سرعت و زیر و بمی صدا را نیز حفظ می‌کند. پوشش بیش از ۷۰ زبان و ۲۰۰۰ جفت زبانی، تشخیص خودکار زبان، مقاومت در برابر نویز محیطی و توانایی مدیریت مکالمات چندزبانه از جمله ویژگی‌های کلیدی این سرویس است. براساس داده‌های تحریریه هوش‌نیوز، این قابلیت ابتدا در ایالات متحده، مکزیک و هند فعال شده و به‌زودی به مناطق دیگر نیز گسترش خواهد یافت.

سایت خبری هوش مصنوعی ایران تأکید می‌کند که این تغییرات می‌تواند مسیر تازه‌ای برای خدمات آنلاین و ارتباطات جهانی باز کند. در شرایطی که رقابت میان شرکت‌های بزرگ فناوری برای ارائه خدمات هوشمند شدت گرفته، گوگل با جمینی ۲.۵ نشان داده که تمرکز ویژه‌ای بر تجربه صوتی و ترجمه زنده دارد. قابلیت صوتی زنده Gemini 2.5 نه‌تنها برای کاربران عادی جذاب است، بلکه برای کسب‌وکارها و سازمان‌ها نیز فرصت‌های تازه‌ای ایجاد می‌کند؛ از خدمات مشتریان گرفته تا آموزش، تجارت و حتی ارتباطات بین‌المللی.

گوگل که در روزهای اخیر “قابلیت ترجمه جمینی برای گوگل ترنسلیت” را ارائه کرده بود، اکنون اعلام کرده است که قابلیت صوتی زنده Gemini 2.5 به‌صورت تدریجی در مناطق مختلف جهان فعال خواهد شد و کاربران می‌توانند انتظار داشته باشند که در آینده نزدیک، تجربه‌ای کاملاً متفاوت از مکالمات آنلاین و ترجمه زنده داشته باشند.

جمع‌بندی کوتاه هوش‌نیوز:

ارتقای جمینی ۲.۵ نشان‌دهنده تمرکز گوگل بر توسعه ابزارهای صوتی زنده و ترجمه همزمان است. این تغییرات نه‌تنها تجربه کاربران را در مکالمات روزمره بهبود می‌بخشد، بلکه فرصت‌های تازه‌ای برای کسب‌وکارها و ارتباطات جهانی ایجاد می‌کند. سایت خبری هوش مصنوعی ایران همچنان این تحولات را دنبال کرده و تازه‌ترین اخبار هوش مصنوعی را در اختیار مخاطبان قرار خواهد داد.