कंप्यूटर पढ़ना सीख रहे हैं — लेकिन वे फिर भी इतने स्मार्ट नहीं हैं


बीईईआरटी द्वारा उपयोग किए जाने वाले मैड-लिब-एस्क प्रेट्रिंग कार्य – जिसे नकाबपोश-भाषा मॉडलिंग कहा जाता है – नया नहीं है। वास्तव में, इसका उपयोग दशकों से मनुष्यों में भाषा की समझ का आकलन करने के लिए एक उपकरण के रूप में किया जाता है। Google के लिए, इसने तंत्रिका नेटवर्क में द्विदिशता को सक्षम करने का एक व्यावहारिक तरीका भी पेश किया, क्योंकि पहले से ही इस क्षेत्र पर हावी होने वाले अप्रत्यक्ष ढोंग के तरीकों का विरोध किया गया था। Google के एक शोध वैज्ञानिक केंटन ली ने कहा, "BERT से पहले, यूनिडायरेक्शनल लैंग्वेज मॉडलिंग मानक था, भले ही यह एक अनावश्यक रूप से प्रतिबंधात्मक बाधा है।"

इन तीन अवयवों में से प्रत्येक – एक गहरी दिखावा भाषा मॉडल, ध्यान और द्विदिशता – BERT से पहले स्वतंत्र रूप से मौजूद था। लेकिन जब तक Google ने 2018 के अंत में अपना नुस्खा जारी नहीं किया, तब तक किसी ने उन्हें इतने शक्तिशाली तरीके से संयोजित नहीं किया।

पकाने की विधि

किसी भी अच्छी रेसिपी की तरह, बीईआरटी को जल्द ही रसोइयों द्वारा अपने स्वाद के अनुकूल बनाया गया। बोमन ने कहा, "2019 के वसंत में," जब माइक्रोसॉफ्ट और अलीबाबा एक-दूसरे को सप्ताह-दर-सप्ताह उछाल रहे थे, तो अपने मॉडल और व्यापार स्थानों को लीडरबोर्ड पर नंबर एक स्थान पर रखने के लिए जारी रखा गया था। " जब बीईआरटी का एक उन्नत संस्करण रोबर्टा पहली बार अगस्त में सामने आया, तो दीपमिन्द शोधकर्ता सेबेस्टियन रूडर ने इस अवसर पर अपने व्यापक रूप से पढ़े गए एनएलपी समाचार पत्र में उल्लेख किया: "एक और महीना, एक और अत्याधुनिक भाषा मॉडल।"

BERT के "पाई क्रस्ट" में कई संरचनात्मक डिज़ाइन निर्णय शामिल होते हैं जो प्रभावित करते हैं कि यह कितना अच्छा काम करता है। इनमें तंत्रिका नेटवर्क का आकार बेक किया जाना है, प्रीट्रेनिंग डेटा की मात्रा, उस प्रीट्रेनिंग डेटा को कैसे मुखौटा किया जाता है और तंत्रिका नेटवर्क को उस पर प्रशिक्षित करने के लिए कितनी देर मिलती है। RoberTa जैसी बाद की रेसिपीज़ में इन डिज़ाइन निर्णयों को टालने से नतीजे मिलते हैं, बहुत कुछ रसोइये की तरह एक डिश को परिष्कृत करते हुए।

RoBERTa के मामले में, फेसबुक और वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने कुछ अवयवों को बढ़ाया (अधिक दिखावा करने वाले डेटा, लंबे इनपुट अनुक्रम, अधिक प्रशिक्षण समय), एक को दूर किया ("अगले वाक्य भविष्यवाणी" कार्य, मूल रूप से BERT में शामिल था, जो वास्तव में प्रदर्शन में गिरावट आई थी) ) और एक और संशोधित (वे नकाबपोश-भाषा दिखावा कार्य को कठिन बना दिया)। परिणाम? GLUE पर पहला स्थान – संक्षेप में। छह हफ्ते बाद, Microsoft और मैरीलैंड विश्वविद्यालय के शोधकर्ताओं ने RoBERTa में अपनी खुद की ट्विकट्स को जोड़ा और एक नई जीत हासिल की। इस लेखन के अनुसार, अभी तक ALBERT नामक एक अन्य मॉडल, "A लाइट BERT" के लिए संक्षिप्त है, जिसने BERT के मूल डिज़ाइन को और अधिक समायोजित करके GLUE का शीर्ष स्थान ले लिया है।

"हम अभी भी यह पता लगा रहे हैं कि कौन से व्यंजन काम करते हैं और कौन से नहीं करते हैं," फेसबुक के ओट ने कहा, जिन्होंने रॉबर्टा पर काम किया था।

फिर भी, अपनी पाई-बेकिंग तकनीक को पूरा करने के रूप में, आपको रसायन विज्ञान के सिद्धांतों को पढ़ाने की संभावना नहीं है, एनईआरटी को आगे बढ़ाने के बारे में BERT के लिए अनिवार्य रूप से अनुकूलन करना आवश्यक नहीं है। जॉन्स हॉपकिन्स के कम्प्यूटेशनल भाषाविद् लिनजेन ने कहा, "मैं आपके साथ पूरी तरह से ईमानदार रहूंगा: मैं इन पत्रों का पालन नहीं करता, क्योंकि वे मेरे लिए बहुत उबाऊ हैं।" "वहाँ एक वैज्ञानिक पहेली है," वह अनुदान देता है, लेकिन यह पता लगाने में झूठ नहीं बोलता कि कैसे बीईआरटी और उसके सभी स्पॉन को बेहतर बनाया जाए, या यह भी पता लगाया जाए कि वे पहली बार में कैसे स्मार्ट हो गए। इसके बजाय, "हम यह समझने की कोशिश कर रहे हैं कि ये मॉडल वास्तव में भाषा को किस हद तक समझ रहे हैं," उन्होंने कहा, न कि "अजीब चालें उठाते हुए जो डेटा सेट पर काम करने के लिए होती हैं जो हम आमतौर पर अपने मॉडल का मूल्यांकन करते हैं।"

दूसरे शब्दों में: BERT कुछ सही कर रहा है। लेकिन क्या अगर यह गलत कारणों के लिए है?

चतुर लेकिन स्मार्ट नहीं

जुलाई 2019 में, ताइवान के नेशनल चेंग कुंग विश्वविद्यालय के दो शोधकर्ताओं ने BERT का उपयोग अपेक्षाकृत अस्पष्ट प्राकृतिक भाषा समझ बेंचमार्क पर एक प्रभावशाली परिणाम प्राप्त करने के लिए किया, जिसे तर्क तर्क समझ कार्य कहा जाता है। कार्य निष्पादित करने के लिए उपयुक्त अंतर्निहित आधार (जिसे एक वारंट कहा जाता है) का चयन करना आवश्यक है जो कुछ दावे पर बहस करने के लिए एक कारण होगा। उदाहरण के लिए, यह तर्क देने के लिए कि "धूम्रपान कैंसर का कारण बनता है" (दावा) क्योंकि "वैज्ञानिक अध्ययनों ने धूम्रपान और कैंसर के बीच एक कड़ी दिखाई है" (कारण), आपको यह मानने की आवश्यकता है कि "वैज्ञानिक अध्ययन विश्वसनीय हैं" (वारंट), "वैज्ञानिक अध्ययन महंगे हैं" (जो सच हो सकता है, लेकिन तर्क के संदर्भ में कोई मतलब नहीं है)। सब मिल गया?