গুগল তার ভয়েস অনুসন্ধানকে পাওয়ার জন্য একটি নতুন প্রযুক্তি তৈরি করেছে, যা সংস্থাটি বলেছে এটি এটিকে আরও দ্রুত এবং আরও নির্ভুল করে তুলবে। নতুন প্রযুক্তিটিতে সংযোগবাদী টেম্পোরাল শ্রেণিবিন্যাস (সিসিটি) এবং সিকোয়েন্স ডিস্টরোনালিটিভ ট্রেনিং কৌশল ব্যবহার করা হয়েছে। ২০১২ সালে গুগল গাউসিয়ান মিশ্রণ মডেল (জিএমএম) থেকে ডিপ নিউরাল নেটওয়ার্কস (ডিএনএন) এ সরিয়ে নিয়েছে, যা এই সময়ে কোন ব্যবহারকারী কোন শব্দটি উত্পাদন করছে তা সংস্থাকে আরও ভালভাবে মূল্যায়ন করার অনুমতি দেয় এবং বর্ধিত স্পিচ স্বীকৃতির যথার্থতা সরবরাহ করে।
আমাদের উন্নত অ্যাকোস্টিক মডেলগুলি পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলিতে (আরএনএন) নির্ভর করে। আরএনএনগুলির টপোলজিতে ফিডব্যাক লুপ রয়েছে, এগুলি তাদের সাময়িক নির্ভরতা মডেল করার সুযোগ দেয়: ব্যবহারকারী যখন / u / পূর্ববর্তী উদাহরণে কথা বলেন, তখন তাদের আর্টিকুলেটরি যন্ত্রপাতিটি একটি / জে / শব্দ থেকে এবং আগে / এম / শব্দ থেকে আসে। এটি উচ্চস্বরে বলার চেষ্টা করুন - "যাদুঘর" - এটি খুব স্বাভাবিকভাবেই একটি নিঃশ্বাসে প্রবাহিত হয় এবং আরএনএনগুলি এটি ক্যাপচার করতে পারে। এখানে যে ধরণের আরএনএন ব্যবহৃত হয় তা হ'ল একটি দীর্ঘ স্বল্প-মেয়াদী মেমরি (এলএসটিএম) আরএনএন যা মেমরি কোষ এবং একটি পরিশীলিত গ্যাটিং মেকানিজমের মাধ্যমে অন্যান্য আরএনএনগুলির চেয়ে তথ্যকে ভাল করে মুখস্থ করে। এই জাতীয় মডেল গ্রহণ করা ইতিমধ্যে আমাদের শনাক্তকারীর মান উল্লেখযোগ্যভাবে উন্নত করেছে।
প্রযুক্তির পরিবর্তনটি গুগল তৈরি করেছে, এবং এখন আইওএস এবং অ্যান্ড্রয়েড উভয়ই গুগল অ্যাপে ভয়েস অনুসন্ধানগুলি পাওয়ার পাশাপাশি অ্যান্ড্রয়েড ডিভাইসগুলিতে ডিক্টেশন ব্যবহার করতে ব্যবহৃত হচ্ছে।
সূত্র: গুগল রিসার্চ ব্লগ