یادگیری ماشینی قابلیت‌های رونویسی گفتار عربی را بهبود می‌بخشد


به لطف پیشرفت در پردازش گفتار و زبان طبیعی، امید این است که روزی بتوانید از دستیار مجازی خود بپرسید بهترین مواد تشکیل دهنده سالاد چیست. در حال حاضر، می‌توانید از ابزار خانگی خود بخواهید موسیقی پخش کند یا آن را با فرمان صوتی باز کنید، که این ویژگی قبلاً در برخی از دستگاه‌ها یافت شده است.

اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر گویش دیگری از عربی صحبت می کنید که از منطقه ای به منطقه دیگر بسیار متفاوت است، جایی که برخی از آنها متقابل قابل درک نیستند، داستان متفاوت است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که از این زبان کنار گذاشته شده‌اید.

این ساختارهای پیچیده به احمد علی الهام بخشید تا راه حلی بیابد. او یک مهندس اصلی در گروه فناوری زبان عربی در موسسه تحقیقات محاسباتی قطر (QCRI) است – بخشی از بنیاد دانشگاه حمد بن خلیفه قطر و بنیانگذار گفتار عربی، “جامعه ای که برای بهره مندی از علم گفتار و گفتار عربی وجود دارد. فن آوری های گفتار”. آیا. .”

دفتر مرکزی بنیاد قطر

علی سال‌ها پیش زمانی که در IBM کار می‌کرد، مجذوب ایده ماشین‌ها، وسایل و ابزارهای سخنگو بود. “آیا می‌توانیم ماشینی بسازیم که قادر به رمزگشایی گویش‌های مختلف باشد – یک پزشک اطفال مصری برای خودکار کردن نسخه، یک معلم سوری برای کمک به بچه‌ها برای دریافت بخش‌های کلیدی درسشان؟، یا چگونه یک آشپز مراکشی دستور پخت کوسکوس را به بهترین شکل توصیف می‌کند؟” او بیان می کند. با این حال، الگوریتم‌هایی که این ماشین‌ها را نیرو می‌دهند، نمی‌توانند از 30 نوع زبان عربی استفاده کنند، چه رسد به درک آنها. امروزه اکثر ابزارهای تشخیص گفتار فقط به زبان انگلیسی و برخی از زبان های دیگر کار می کنند.

همه‌گیری ویروس کرونا به اتکای شدید به فناوری‌های صوتی افزوده است، زیرا فناوری‌های پردازش زبان طبیعی به مردم کمک می‌کند تا دستورالعمل‌های ماندن در خانه و اقدامات فاصله‌گذاری فیزیکی را رعایت کنند. با این حال، هنگامی که از دستورات صوتی برای کمک به خرید تجارت الکترونیک و مدیریت خانه‌هایمان استفاده می‌کنیم، در آینده برنامه‌های بیشتری وجود خواهد داشت.

میلیون‌ها نفر در سراسر جهان از دوره‌های آنلاین باز گسترده (MOOCs) برای دسترسی آزاد و مشارکت نامحدود آن استفاده می‌کنند. تشخیص گفتار یکی از ویژگی‌های اصلی در MOOC است که در آن دانش‌آموزان می‌توانند حوزه‌های خاصی را در محتوای گفتاری دوره‌ها جستجو کنند و ترجمه را از طریق زیرنویس فعال کنند. دانشگاه فناوری گفتار اساتید را قادر می سازد تا برای نمایش کلمات گفتاری به عنوان متن در کلاس های درس دیجیتالی شوند.

احمد علی، دانشگاه حمد بن کهلیفه

بر اساس مقاله اخیر در مجله Speech Technology، پیش‌بینی می‌شود که بازار تشخیص صدا و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیون‌ها مصرف‌کننده و شرکت در سراسر جهان برای تعامل نه تنها با دستگاه‌ها یا ماشین‌های خود به ربات‌های صوتی متکی هستند. برای بهبود خدمات مشتری، هدایت نوآوری های مراقبت های بهداشتی، و بهبود دسترسی و فراگیری برای افرادی که دارای اختلالات شنوایی، گفتاری یا حرکتی هستند.

در یک نظرسنجی در سال 2019، Capgemini پیش‌بینی کرد که تا سال 2022، بیش از دو نفر از هر سه مصرف‌کننده به جای مراجعه به فروشگاه‌ها یا شعب بانک، دستیار صوتی را انتخاب خواهند کرد. بخشی که می تواند به طور موجهی رشد کند، با توجه به زندگی و تجارت در خانه و از نظر فیزیکی دور که این بیماری همه گیر جهان را برای بیش از یک سال و نیم مجبور به آن کرده است.

با این حال، این دستگاه ها نتوانسته اند در مناطق وسیعی از جهان توزیع شوند. برای آن 30 نوع عرب و میلیون ها نفر دیگر، این یک فرصت تا حد زیادی از دست رفته است.

عربی برای ماشین آلات

ربات‌های صوتی انگلیسی یا فرانسوی زبان بسیار عالی هستند. با این وجود، آموزش ماشین‌ها برای درک زبان عربی به دلایل مختلفی دشوار است. این سه چالش به طور کلی شناخته شده است:

  1. نداشتن نمرات خاص گویش‌های عربی زبان‌های محلی هستند، همانطور که عمدتاً صحبت می‌شود. اکثر متن های موجود بدون تشریح هستند، به این معنی که فاقد لهجه هایی مانند حاد (´) یا سنگین (`) هستند که مقادیر صوتی حروف را نشان می دهد. بنابراین، تعیین محل رفتن حروف صدادار دشوار است.
  2. کمبود منابع. تعداد کمی از داده های برچسب گذاری شده برای گویش های مختلف عربی وجود دارد. در مجموع، آنها فاقد قوانین واژگان استاندارد شده ای هستند که نحوه نوشتن یک زبان را تعیین می کند، از جمله هنجارها یا املا، خط فاصله، شکستن کلمات و تاکید. این منابع برای آموزش مدل‌های رایانه‌ای حیاتی هستند، و این واقعیت که تعداد بسیار کمی از آنها وجود دارد، توسعه تشخیص گفتار عربی را متوقف کرده است.
  3. پیچیدگی مورفولوژیکی عربی زبانان در بسیاری از جابجایی کد شرکت می کنند. به عنوان مثال، در مناطق تحت استعمار فرانسه – شمال آفریقا، مراکش، الجزایر، و تونس – گویش ها شامل بسیاری از واژه های فرانسوی وام گرفته شده هستند. در نتیجه، تعداد زیادی واژه به نام واژه‌های خارج از واژگان وجود دارد که فناوری‌های تشخیص گفتار نمی‌توانند آن‌ها را درک کنند، زیرا این کلمات عربی نیستند.

علی می گوید: «اما میدان با سرعت برق در حال حرکت است. این یک تلاش مشترک بین چندین محقق برای پیشبرد سریعتر این امر است. آزمایشگاه فناوری زبان عربی علی، پروژه گفتار عربی را برای گردآوری ترجمه های عربی با گویش های بومی هر منطقه رهبری می کند. به عنوان مثال، گویش های عربی را می توان به چهار گویش منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، با توجه به اینکه پیشنهادها به مرزها پایبند نیستند، ممکن است به عنوان یک پیشنهاد در هر شهر خوب باشد. به عنوان مثال، یک گویشور بومی مصر می تواند بین لهجه اسکندریه از همشهری خود اهل اسوان (1000 کیلومتر روی نقشه) تفاوت قائل شود.

ساختن آینده ای هوشمندانه فناوری برای همه

در این مرحله، ماشین‌ها به لطف پیشرفت در شبکه‌های عصبی عمیق، زیرشاخه‌ای از یادگیری ماشین در هوش مصنوعی که بر الگوریتم‌های الهام‌گرفته شده از بیولوژیکی و عملکردی برای نحوه عملکرد مغز انسان متکی است، به اندازه رونویسی انسان دقیق هستند. با این حال، تا همین اواخر، تشخیص گفتار با هم کمی هک شده بود. این فناوری سابقه تکیه بر ماژول های مختلف برای مدل سازی آکوستیک، ساخت واژگان تلفظ و مدل سازی زبان را دارد. همه ماژول هایی که نیاز به آموزش جداگانه دارند. اخیراً، محققان مدل‌هایی را آموزش داده‌اند که ویژگی‌های صوتی را مستقیماً به رونویسی متنی تبدیل می‌کنند و به طور بالقوه همه بخش‌ها را برای کار نهایی بهینه می‌کنند.

علیرغم این پیشرفت ها، علی هنوز نمی تواند به اکثر سازها به زبان عربی مادری خود دستورات صوتی بدهد. او می‌گوید: «سال 2021 است و من هنوز نمی‌توانم با بسیاری از ماشین‌های پیشنهادی خود صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما تشخیص ماشینی گفتار چند گفتاری عربی هنوز وجود ندارد.

انجام این کار محور کار علی است، که در اولین تبدیل کننده ها برای تشخیص گفتار عربی و گویش های آن به اوج خود رسید. که تاکنون به عملکرد بی نظیری دست یافته است. این فناوری که «سیستم رونویسی پیشرفته QCRI» نامیده می‌شود، در حال حاضر توسط شبکه‌های تلویزیونی الجزیره، DW و BBC برای رونویسی محتوای آنلاین استفاده می‌شود.

چند دلیل وجود دارد که علی و تیمش در حال حاضر توانسته اند این موتورهای گفتار را ایجاد کنند. او می‌گوید در درجه اول، «نیاز به وجود منابع در همه لهجه‌ها است. ما باید منابعی بسازیم تا بتوانیم مدل را آموزش دهیم.” پیشرفت در پردازش کامپیوتری به این معنی است که یادگیری ماشین فشرده محاسباتی اکنون روی یک واحد پردازش گرافیکی واحد انجام می شود که گرافیک های پیچیده تر را پردازش و پردازش می کند. همانطور که علی می گوید: “ما داریم یک معماری عالی، ماژول های خوب، و ما داده هایی داریم که واقعیت را نشان می دهد.”

محققان QCRI و Canary AI اخیراً مدل‌هایی ایجاد کرده‌اند که می‌توانند به برابری انسان در اخبار پخش عربی دست یابند. این سیستم تأثیر گزارش‌های روزانه الجزیره را نشان می‌دهد. در حالی که میزان خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، تحقیقات نشان داده است که HER عربی به طور قابل توجهی بالاتر است و به دلیل پیچیدگی صرفی زبان و فقدان قوانین واژگان استاندارد در عربی دوزبانه می تواند به 10 درصد برسد. به لطف پیشرفت‌های اخیر در یادگیری عمیق و معماری پایان به انتها، موتور تشخیص گفتار عربی موفق می‌شود در اخبار پخش از سخنرانان بومی پیشی بگیرد.

در حالی که به نظر می رسد تشخیص گفتار استاندارد عربی مدرن به خوبی کار می کند، محققان QCRI و Canari AI غرق در آزمایش محدودیت های پردازش دیالکتیکی و دستیابی به نتایج عالی هستند. از آنجایی که هیچ‌کس در خانه عربی استاندارد مدرن صحبت نمی‌کند، باید روی گویش تمرکز کنیم تا بتوانیم دستیارهای صوتی خود را بفهمیم.

این مطلب توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط تحریریه MIT Technology Review نوشته نشده است.


تمامی اخبار به صورت تصادفی و رندومایز شده پس از بازنویسی رباتیک در این سایت منتشر شده و هیچ مسئولتی در قبال صحت آنها نداریم