
شرکت گوگل در تازهترین اطلاعیه رسمی خود از ارتقای گسترده مدلهای جمینی خبر داد. نسخه جدید تحت عنوان «Gemini 2.5 Flash Native Audio» با قابلیت صوتی زنده Gemini 2.5 معرفی شده و اکنون در سرویسهای مختلف گوگل از جمله AI Studio، Vertex AI و بخش جستوجوی زنده در دسترس قرار دارد. این تغییر، امکان مکالمه طبیعیتر، اجرای دستورات پیچیده و ترجمه زنده گفتار را فراهم کرده است؛ قابلیتی که میتواند تجربه کاربران در ارتباطات روزمره و خدمات تجاری را دگرگون کند.
براساس دادههای منتشرشده توسط تحریریه هوشنیوز، قابلیت صوتی زنده Gemini 2.5 در سه حوزه کلیدی ارتقا یافته است.
- نخست، دقت بالاتر در فراخوانی توابع بیرونی که به مدل اجازه میدهد اطلاعات لحظهای را در جریان مکالمه وارد کند.
- دوم، توانایی بیشتر در پیروی از دستورالعملهای پیچیده با نرخ موفقیت ۹۰ درصدی (افزایش از ۸۴ درصد در نسخه پیشین).
- سوم، بهبود چشمگیر در کیفیت مکالمات چندمرحلهای که موجب انسجام بیشتر گفتگوها شده است.
این دستاوردها در ارزیابی «ComplexFuncBench Audio» با امتیاز ۷۱.۵ درصد ثبت شده است.

آنچه خواهید خواند:
Toggleدسترسی برای شرکتهای بزرگ فناوری
سایت جامع هوش مصنوعی گزارش میدهد که مشتریان بزرگ گوگل نیز از قابلیت صوتی زنده Gemini 2.5 بهرهمند شدهاند. شرکت Shopify اعلام کرده کاربران در تعامل با دستیارهای مجهز به جمینی، پس از چند دقیقه فراموش میکنند با یک سیستم خودکار صحبت میکنند. همچنین شرکت United Wholesale Mortgage توانسته با استفاده از این مدل بیش از ۱۴ هزار وام را برای شرکای خود پردازش کند. این نمونهها نشان میدهد که ارتقای جمینی تنها یک تغییر فنی نیست، بلکه اثرات مستقیم اقتصادی و تجاری نیز دارد.
ترجمه زنده
یکی از جذابترین قابلیت صوتی زنده Gemini 2.5، «ترجمه زنده گفتار به گفتار» است که اکنون در اپلیکیشن Google Translate بهصورت آزمایشی عرضه شده است. این ویژگی امکان شنیدن ترجمه همزمان در هدفون را فراهم میکند و علاوه بر انتقال معنا، لحن، سرعت و زیر و بمی صدا را نیز حفظ میکند. پوشش بیش از ۷۰ زبان و ۲۰۰۰ جفت زبانی، تشخیص خودکار زبان، مقاومت در برابر نویز محیطی و توانایی مدیریت مکالمات چندزبانه از جمله ویژگیهای کلیدی این سرویس است. براساس دادههای تحریریه هوشنیوز، این قابلیت ابتدا در ایالات متحده، مکزیک و هند فعال شده و بهزودی به مناطق دیگر نیز گسترش خواهد یافت.
سایت خبری هوش مصنوعی ایران تأکید میکند که این تغییرات میتواند مسیر تازهای برای خدمات آنلاین و ارتباطات جهانی باز کند. در شرایطی که رقابت میان شرکتهای بزرگ فناوری برای ارائه خدمات هوشمند شدت گرفته، گوگل با جمینی ۲.۵ نشان داده که تمرکز ویژهای بر تجربه صوتی و ترجمه زنده دارد. قابلیت صوتی زنده Gemini 2.5 نهتنها برای کاربران عادی جذاب است، بلکه برای کسبوکارها و سازمانها نیز فرصتهای تازهای ایجاد میکند؛ از خدمات مشتریان گرفته تا آموزش، تجارت و حتی ارتباطات بینالمللی.
گوگل که در روزهای اخیر “قابلیت ترجمه جمینی برای گوگل ترنسلیت” را ارائه کرده بود، اکنون اعلام کرده است که قابلیت صوتی زنده Gemini 2.5 بهصورت تدریجی در مناطق مختلف جهان فعال خواهد شد و کاربران میتوانند انتظار داشته باشند که در آینده نزدیک، تجربهای کاملاً متفاوت از مکالمات آنلاین و ترجمه زنده داشته باشند.
جمعبندی کوتاه هوشنیوز:
ارتقای جمینی ۲.۵ نشاندهنده تمرکز گوگل بر توسعه ابزارهای صوتی زنده و ترجمه همزمان است. این تغییرات نهتنها تجربه کاربران را در مکالمات روزمره بهبود میبخشد، بلکه فرصتهای تازهای برای کسبوکارها و ارتباطات جهانی ایجاد میکند. سایت خبری هوش مصنوعی ایران همچنان این تحولات را دنبال کرده و تازهترین اخبار هوش مصنوعی را در اختیار مخاطبان قرار خواهد داد.

