تعلّم الكلمات من الصور

نظام يربط مُسجل الكلام مع الصور، يمكن أن يؤدي إلى التعرّف على الصوت بشكل آلي كليًا.

أنظمة التعرف على الصوت، مثل تِلك التي تقوم بتحويل الكلام إلى نص في الهواتف المحمولة، تُعتبر بشكل عام النتيجة لتعلم الآلة Machine Learning.

بواسطة ثقوب الحاسب الدقيقة الآلاف أو حتى الملايين من ملفات الصوت ونُسخِها، تتعلم أَي المميزات الصوتية التي تتطابق مع الكلمات المكتوبة.  إلا أن نَسخ التسجيلات يُعتبر مكّلف، ويستغرق وقتًا، إضافةً إلى ذلك، محدودية التعرّف على الصوت لمجموعة صغيرة فرعية من اللغات المنطوقة في الدول الغنيّة.  في مؤتمر أنظمة معالجة المعلومات العصبية لهذا الأسبوع،  باحثون من ماساتشوستس MIT’s مختبر الذكاء الاصطناعي وعلوم الحاسب Computer Science and Artificial Intelligence Laboratory (CSAIL( قاموا بتقديم نهج جديد لتدريب أنظمة التعرف على الصوت والتي لا تعتمد على النسخ.   بدلًا من ذلك يقوم نظامهم بتحليل التطابق بين الصور ووصف الكلام المنطوق لهذه الصور، كَتِلكَ الصورة المُلتقطة في مجموعة كبيرة من التسجيلات الصوتية.  هُنا النظام يوُجد المميزات الصوتية للتسجيلات التي ترتبط مع خصائص الصورة.

“الهدف من هذا العمل هو من أجل محاولة الآلة للحصول على تعلّم اللغة بشكل أكبر مثل ما يفعل الإنسان”،  يقول جيم جلاس Jim Glass ،  وهو عالم أبحاث ذو مكانة بارزة في CSAIL وكاتب مشارك في الورقة العلمية التي تصف النظام الجديد”.  “الطرق الحالية التي يستخدمها الناس لتدريب التعرّف على الصوت تُعتبر من الطرق الخاضعة للإشراف بشدة . إذ أنك أنت الذي قمت بالنطق وقد قُلت ما أردت قَوله لمجموعة كبيرة من البيانات.

“تم تحقيق تقدم كبير- سيريSiri ، قوقلGoogle – لكن الحصول على تلك التعليقات التوضيحية Annotations يُعتبر مكلفًا وبالتالي الناس ركزوا حقاً على اللغات الأساسية في العالم.  حيث يوجدهنالك 7000 لغة أعتقد أن أقل من 2 في المئة منها تَملك القدرة على التعرف  التلقائي على الكلام (Automatic Speech Recognition (ASR وربما لا شيء قد يحدث لمُعالجة الأمر  مع باقي اللغات.  لذا إذا حاولت أن تُفكر بشأن التكنولوجيا وكيف لها أن تكون ذات نفع للمجتمع أجّمع،  إذ إنها ممتعة للتفكير عن ماذا نحتاج لنُغير وضعنا الحالي.  بينما النهج الذي قمنا باتخاذه عبر السنوات، هو البحث عن ماذا يمكننا أن نعلّم مع رقابة أقل”. ينضم جلاس في الورقة العلمية للكاتب الأول ديفيد هيروث David Harwath، وهو طالب خريج في الهندسة الكهربائية وعلوم الحاسب(إي إي سي)(EECSفي ماساتشوستس بالإضافة إلى أنطونيو تورالباTorralba وهو أستاذ إي إي سي أس.

الدلالات البصرية

النسخة للنظام الذي أُعلن عنه في الورقة العلمية لا يرتبط مُسجل الكلام مع النص المكتوب؛ بدلًا من ذلك، يقوم بربط الكلام مع مجموعة من الصور المرتبطة بشكل موضوعي.  ولكن هذا الارتباط يمكن أن يكون بمثابة الأساس للآخرين. إذا، فعلى سبيل المثال، يكون الكلام مرتبطًا مع فئة معينة من الصور والصور لها مفردات نصية مرتبطة بها، إذ أنه يجب أن يكون من الممكن الحصول على نُسخ واعدة من الكلام على أن يتم كل ذلك دون التدخل البشري.  على نحو مشابه، فئة من الصور مرتبطة مع مفردات نصية في عدة لغات مختلفة يُمكن أن توفر طريقة للقيام بالترجمة الآلية.

عكس ذلك، بالنسبة للمفردات النصية إذ  أنها مُرتبطة مع مجموعات مُتشابهة من الصور،  فمثلًا، قَول، “عاصفة و غيوم” يمكن الاستدلال بأن هاتين الكلمتين لها معاني مُرتبطة.  وذلك بسبب أن النظام يَتعلم إدراك بعض معاني الكلمات – الصور مُرتبطة مع بعضها – وليس فقط مجرد أصواتها، إذ أنها تمتلك نطاق واسع من التطبيقات المُحتملة من نظام التعرّف على الكلام القياسي.

لاختبار نظامهم، استخدم الباحثون قاعدة بيانات لـ 1000 صورة، بحيث أن كل صورة لديها تسجيلًا لوصف لفظي ذو شكل  Free-Form مرتبط معها.  سيقوم الباحثون بتزويد نظامهم بواحد من المُسجلات ثم بعد ذلك يطلبون من قاعدة البيانات استرجاع الـ10 صور الأفضل تطابقًا. مجموعة الـ10 صور ستتضمن واحدة صحيحة خلال 31 في المئة من الوقت.

“أنا دائمًا ما أُأَكد أننا مازلنا في المراحل الأولى في هذا الموضوع إذ أنه يوجد طريق طويل أمامنا لنقطعه، ” جلاس قائلًا.” لكنها تُعتبر بداية مشجعة”.  الباحثون قاموا بتدريب نظامهم على صور من قاعدة بيانات كبيرة الحجم بناها تورالبا، أود أوليفا Aude Oliva، وهو عالم أبحاث في CSAIL و طلابه. من خلال أمازون ميكانيكال ترك Amazon’s Mechanical Turk  وهو موقع تعهيد جماعي Crowdsourcing،إذ أنهم يقومون باستئجار أشخاص لِوصف الصور شفهيًا، باستخدام أي صياغة قد تتبادر إلى أذهانهم، بما يتراوح من 10 إلى20 ثانية.

بالنسبة للإثبات الأولي لنهج الباحثين، هذا النوع من البيانات المُوصى به ضروري لضمان نتائج جيدة.  لكن الهدف النهائي يَكمن في تدريب النظام باستخدام الفيديو الرقمي. ” أعتقد أن هذا سوف يكون استقرائيًا بطبيعة الحال للفيديو،” جلاس قائلًا.

دمج الطرائق

لكي يبنوا نظامهم، استخدم الباحثون الشبكات العصبية وأنظمة تعلّم الآلة التي تُحاكي بشكل تقريبي بنية الدماغ. حيث أن الشبكات العصبية مكونة من العُقد المعالجة والتي تشبه الخلايا العصبية،  ولها القدرة على إجراء الحسابات البسيطة لكنها تكون مرتبطة مع بعضها البعض في شبكات كثيفة.  البيانات تقوم بتغذية مُدخلات عُقد الشبكة، والتي تقوم بالتعديل على البيانات والتي تغذّي العُقد الأخرى ومن ثم، تقوم بالتعديل على البيانات وتقوم بتغذّية العقد المُتبقية الأخرى وهكذا.  عندما يبدأ تدريب الشبكات العصبية،  فأنه يتم التعديل باستمرارعلى العمليات المنُفذة عن طريق عُقدها بالترتيب وذلك لتحسين أدائها في المهمة المحددة.

بالنسبة لشبكة الباحثين، فهي في الواقع عبارة عن شبكتين منفصلتين: الأولى تأخذ الصور على شكل مُدخلات أما الأخرى فتأخذ الصور الطيفية،  والتي تُمثل الإشارات الصوتية على شكل تغيّرات في السعة،  تكون مع مرور الوقت، في ترددات مكوناتها.   أما بالنسبة لمُخرجات الطبقة العليا لكل شبكة فهي 1024- متجه بُعديDimensional Vector – وهو سلسلة من أرقام 1024.

آخر عُقدة في الشبكة تُقوم بالضرب الداخليDot Product لمُتجهين. حيث يتم ضرب الحدود المتطابقة في المتجهات  مع بعضها البعض بعدئذٍ يتم إضافتهم لينتج لدينا رقم واحد.  في أثناء التدريب، الشبكات تحاول تحقيق الحد الأقصى من الضرب الداخلي عندما تكون إشارات الصوت مُتطابقة في الصورة بينما تقوم بتحقيق الحد الأدنى عندما لا تكون كذلك.

لكل صورة طيفية يقوم بتحليلها نظام الباحثين، يُمكن لهذا النظام تحديد نقاط قمم الضرب الداخلي.  في التجارب، هذه القمم بطريقة مؤكدة تأخذ الكلمات المُزودة بتسميات دقيقة -“كرة القاعدةBaseball” على سبيل المثال، في الصورة التي يوجد بها لاعب يرمي كرة القاعدة أو “عشب” و “حقل” للصورة ذات الحقل العشبي.

في العمل القائم، قام الباحثون بتنقيح النظام، إذ يُمكنه اختيار الصور الطيفية للصور الفردية و تحديد تلك المناطق تتطابق معها فقط.

من الممكن، لطفلٍ أن يتعلم الكلام من إدراكه للبيئة، وجزء كبير منها ربما يكون بصريًا”، لين شان لي Lin Shan Lee قائلًا، وهو أستاذ هندسة كهربائية وعلوم حاسب في جامعة تايوان الوطنية. ” اليوم، الآلات بدأت تُحاكي على سبيل المثال عملية التعلّم. إذ أن هذا العمل واحد من أوائل المحاولات في هذا الاتجاه وأنا متأثر جدًا عندما تعلّمته لأول مرة.

“لعل أكثر الحماس هو فقط السؤال عن كيف يُمكننا أن نتعلّم مع الشبكات العصبية العميقة، ” يُضيف كارين لايفسكو Karen Livescu،  وهو أستاذ مساعد في معهد تويوتا التكنولوجي فيجامعة شيكاغو.”  أغلب مُجتمع البحوث يحدث معهم ذلك، إذ أن أغلبنا يدرك بأنه يُمكنهم تعلم الكثير من أكوام البيانات الضخمة. لكن من الصعب جدًا  تسمية هذه الأكوام من البيانات، لذا من المُثير حقًا كون ذلك في هذا العمل،  هاروث Harwath وآخرون قادرون على التعلّم من البيانات الغير مسماة. في الواقع أنا متشوق لرؤية إلى أي مدى سيصلون مع ذلك.”

الملخص: العمل على جعل الآلة تتمتع بذكاء اصطناعي أكثر لتشابه البشر بجعلها تفهم الصور وتربطها بالكلام والاشخاص

 

المصدر الأساسي:

MITnews

الترجمة:وفاء الداود

تويتر: w_1992@

المراجعة: منيرة السهلي.

 

 

شارك هذه المقالة!

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *