[ad_1]
به لطف پیشرفت در پردازش گفتار و زبان طبیعی، امید این است که روزی بتوانید از دستیار مجازی خود بپرسید بهترین مواد تشکیل دهنده سالاد چیست. در حال حاضر، میتوانید از ابزار خانگی خود بخواهید موسیقی پخش کند یا آن را با فرمان صوتی باز کنید، که این ویژگی قبلاً در برخی از دستگاهها یافت شده است.
اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر گویش دیگری از عربی صحبت می کنید که از منطقه ای به منطقه دیگر بسیار متفاوت است، جایی که برخی از آنها متقابل قابل درک نیستند، داستان متفاوت است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که از این زبان کنار گذاشته شدهاید.
این ساختارهای پیچیده به احمد علی الهام بخشید تا راه حلی بیابد. او یک مهندس اصلی در گروه فناوری زبان عربی در موسسه تحقیقات محاسباتی قطر (QCRI) است – بخشی از بنیاد دانشگاه حمد بن خلیفه قطر و بنیانگذار گفتار عربی، “جامعه ای که برای بهره مندی از علم گفتار و گفتار عربی وجود دارد. فن آوری های گفتار”. آیا. .”
علی سالها پیش زمانی که در IBM کار میکرد، مجذوب ایده ماشینها، وسایل و ابزارهای سخنگو بود. “آیا میتوانیم ماشینی بسازیم که قادر به رمزگشایی گویشهای مختلف باشد – یک پزشک اطفال مصری برای خودکار کردن نسخه، یک معلم سوری برای کمک به بچهها برای دریافت بخشهای کلیدی درسشان؟، یا چگونه یک آشپز مراکشی دستور پخت کوسکوس را به بهترین شکل توصیف میکند؟” او بیان می کند. با این حال، الگوریتمهایی که این ماشینها را نیرو میدهند، نمیتوانند از 30 نوع زبان عربی استفاده کنند، چه رسد به درک آنها. امروزه اکثر ابزارهای تشخیص گفتار فقط به زبان انگلیسی و برخی از زبان های دیگر کار می کنند.
همهگیری ویروس کرونا به اتکای شدید به فناوریهای صوتی افزوده است، زیرا فناوریهای پردازش زبان طبیعی به مردم کمک میکند تا دستورالعملهای ماندن در خانه و اقدامات فاصلهگذاری فیزیکی را رعایت کنند. با این حال، هنگامی که از دستورات صوتی برای کمک به خرید تجارت الکترونیک و مدیریت خانههایمان استفاده میکنیم، در آینده برنامههای بیشتری وجود خواهد داشت.
میلیونها نفر در سراسر جهان از دورههای آنلاین باز گسترده (MOOCs) برای دسترسی آزاد و مشارکت نامحدود آن استفاده میکنند. تشخیص گفتار یکی از ویژگیهای اصلی در MOOC است که در آن دانشآموزان میتوانند حوزههای خاصی را در محتوای گفتاری دورهها جستجو کنند و ترجمه را از طریق زیرنویس فعال کنند. دانشگاه فناوری گفتار اساتید را قادر می سازد تا برای نمایش کلمات گفتاری به عنوان متن در کلاس های درس دیجیتالی شوند.
بر اساس مقاله اخیر در مجله Speech Technology، پیشبینی میشود که بازار تشخیص صدا و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیونها مصرفکننده و شرکت در سراسر جهان برای تعامل نه تنها با دستگاهها یا ماشینهای خود به رباتهای صوتی متکی هستند. برای بهبود خدمات مشتری، هدایت نوآوری های مراقبت های بهداشتی، و بهبود دسترسی و فراگیری برای افرادی که دارای اختلالات شنوایی، گفتاری یا حرکتی هستند.
در یک نظرسنجی در سال 2019، Capgemini پیشبینی کرد که تا سال 2022، بیش از دو نفر از هر سه مصرفکننده به جای مراجعه به فروشگاهها یا شعب بانک، دستیار صوتی را انتخاب خواهند کرد. بخشی که می تواند به طور موجهی رشد کند، با توجه به زندگی و تجارت در خانه و از نظر فیزیکی دور که این بیماری همه گیر جهان را برای بیش از یک سال و نیم مجبور به آن کرده است.
با این حال، این دستگاه ها نتوانسته اند در مناطق وسیعی از جهان توزیع شوند. برای آن 30 نوع عرب و میلیون ها نفر دیگر، این یک فرصت تا حد زیادی از دست رفته است.
عربی برای ماشین آلات
رباتهای صوتی انگلیسی یا فرانسوی زبان بسیار عالی هستند. با این وجود، آموزش ماشینها برای درک زبان عربی به دلایل مختلفی دشوار است. این سه چالش به طور کلی شناخته شده است:
- نداشتن نمرات خاص گویشهای عربی زبانهای محلی هستند، همانطور که عمدتاً صحبت میشود. اکثر متن های موجود بدون تشریح هستند، به این معنی که فاقد لهجه هایی مانند حاد (´) یا سنگین (`) هستند که مقادیر صوتی حروف را نشان می دهد. بنابراین، تعیین محل رفتن حروف صدادار دشوار است.
- کمبود منابع. تعداد کمی از داده های برچسب گذاری شده برای گویش های مختلف عربی وجود دارد. در مجموع، آنها فاقد قوانین واژگان استاندارد شده ای هستند که نحوه نوشتن یک زبان را تعیین می کند، از جمله هنجارها یا املا، خط فاصله، شکستن کلمات و تاکید. این منابع برای آموزش مدلهای رایانهای حیاتی هستند، و این واقعیت که تعداد بسیار کمی از آنها وجود دارد، توسعه تشخیص گفتار عربی را متوقف کرده است.
- پیچیدگی مورفولوژیکی عربی زبانان در بسیاری از جابجایی کد شرکت می کنند. به عنوان مثال، در مناطق تحت استعمار فرانسه – شمال آفریقا، مراکش، الجزایر، و تونس – گویش ها شامل بسیاری از واژه های فرانسوی وام گرفته شده هستند. در نتیجه، تعداد زیادی واژه به نام واژههای خارج از واژگان وجود دارد که فناوریهای تشخیص گفتار نمیتوانند آنها را درک کنند، زیرا این کلمات عربی نیستند.
علی می گوید: «اما میدان با سرعت برق در حال حرکت است. این یک تلاش مشترک بین چندین محقق برای پیشبرد سریعتر این امر است. آزمایشگاه فناوری زبان عربی علی، پروژه گفتار عربی را برای گردآوری ترجمه های عربی با گویش های بومی هر منطقه رهبری می کند. به عنوان مثال، گویش های عربی را می توان به چهار گویش منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، با توجه به اینکه پیشنهادها به مرزها پایبند نیستند، ممکن است به عنوان یک پیشنهاد در هر شهر خوب باشد. به عنوان مثال، یک گویشور بومی مصر می تواند بین لهجه اسکندریه از همشهری خود اهل اسوان (1000 کیلومتر روی نقشه) تفاوت قائل شود.
ساختن آینده ای هوشمندانه فناوری برای همه
در این مرحله، ماشینها به لطف پیشرفت در شبکههای عصبی عمیق، زیرشاخهای از یادگیری ماشین در هوش مصنوعی که بر الگوریتمهای الهامگرفته شده از بیولوژیکی و عملکردی برای نحوه عملکرد مغز انسان متکی است، به اندازه رونویسی انسان دقیق هستند. با این حال، تا همین اواخر، تشخیص گفتار با هم کمی هک شده بود. این فناوری سابقه تکیه بر ماژول های مختلف برای مدل سازی آکوستیک، ساخت واژگان تلفظ و مدل سازی زبان را دارد. همه ماژول هایی که نیاز به آموزش جداگانه دارند. اخیراً، محققان مدلهایی را آموزش دادهاند که ویژگیهای صوتی را مستقیماً به رونویسی متنی تبدیل میکنند و به طور بالقوه همه بخشها را برای کار نهایی بهینه میکنند.
علیرغم این پیشرفت ها، علی هنوز نمی تواند به اکثر سازها به زبان عربی مادری خود دستورات صوتی بدهد. او میگوید: «سال 2021 است و من هنوز نمیتوانم با بسیاری از ماشینهای پیشنهادی خود صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما تشخیص ماشینی گفتار چند گفتاری عربی هنوز وجود ندارد.
انجام این کار محور کار علی است، که در اولین تبدیل کننده ها برای تشخیص گفتار عربی و گویش های آن به اوج خود رسید. که تاکنون به عملکرد بی نظیری دست یافته است. این فناوری که «سیستم رونویسی پیشرفته QCRI» نامیده میشود، در حال حاضر توسط شبکههای تلویزیونی الجزیره، DW و BBC برای رونویسی محتوای آنلاین استفاده میشود.
چند دلیل وجود دارد که علی و تیمش در حال حاضر توانسته اند این موتورهای گفتار را ایجاد کنند. او میگوید در درجه اول، «نیاز به وجود منابع در همه لهجهها است. ما باید منابعی بسازیم تا بتوانیم مدل را آموزش دهیم.” پیشرفت در پردازش کامپیوتری به این معنی است که یادگیری ماشین فشرده محاسباتی اکنون روی یک واحد پردازش گرافیکی واحد انجام می شود که گرافیک های پیچیده تر را پردازش و پردازش می کند. همانطور که علی می گوید: “ما داریم یک معماری عالی، ماژول های خوب، و ما داده هایی داریم که واقعیت را نشان می دهد.”
محققان QCRI و Canary AI اخیراً مدلهایی ایجاد کردهاند که میتوانند به برابری انسان در اخبار پخش عربی دست یابند. این سیستم تأثیر گزارشهای روزانه الجزیره را نشان میدهد. در حالی که میزان خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، تحقیقات نشان داده است که HER عربی به طور قابل توجهی بالاتر است و به دلیل پیچیدگی صرفی زبان و فقدان قوانین واژگان استاندارد در عربی دوزبانه می تواند به 10 درصد برسد. به لطف پیشرفتهای اخیر در یادگیری عمیق و معماری پایان به انتها، موتور تشخیص گفتار عربی موفق میشود در اخبار پخش از سخنرانان بومی پیشی بگیرد.
در حالی که به نظر می رسد تشخیص گفتار استاندارد عربی مدرن به خوبی کار می کند، محققان QCRI و Canari AI غرق در آزمایش محدودیت های پردازش دیالکتیکی و دستیابی به نتایج عالی هستند. از آنجایی که هیچکس در خانه عربی استاندارد مدرن صحبت نمیکند، باید روی گویش تمرکز کنیم تا بتوانیم دستیارهای صوتی خود را بفهمیم.
این مطلب توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط تحریریه MIT Technology Review نوشته نشده است.
[ad_2]