सो-कॉल्ड अनबाइस्ड डेटा माइनिंग का अतिरंजित वादा


नोबेल विजेता रिचर्ड फेनमैन ने एक बार अपने कैलटेक छात्रों से इस संभावना की गणना करने के लिए कहा था कि अगर वह कक्षा से बाहर चले गए, तो पार्किंग में पहली कार में एक विशिष्ट लाइसेंस प्लेट होगी, 6ZNA74 का कहना है। प्रत्येक संख्या और अक्षर को समान रूप से संभावना और स्वतंत्र रूप से निर्धारित किए जाने पर, छात्रों ने अनुमान लगाया कि 17 मिलियन में 1 से कम होने की संभावना है। जब छात्रों ने अपनी गणना समाप्त की, तो फेनमैन ने बताया कि सही संभावना 1 थी: उन्होंने इस लाइसेंस प्लेट को कक्षा में अपने रास्ते पर देखा था। कुछ बेहद कम संभावना नहीं है अगर यह पहले से ही हुआ है।

फेनमैन ट्रैप-पैटर्न को डेटा को बिना किसी पूर्व-निर्धारित विचार के तोड़-मरोड़ कर देखा जा रहा है – डेटा माइनिंग पर आधारित अध्ययनों की एच्लीस हील है। पहले से कुछ असामान्य या आश्चर्यजनक होने के बाद न तो असामान्य है और न ही आश्चर्यजनक है। पैटर्न निश्चित रूप से पाए जाते हैं, और भ्रामक, बेतुका या बदतर होने की संभावना है।

उनकी सबसे ज्यादा बिकने वाली 2001 की किताब में अच्छे से महान, जिम कॉलिंस ने उन 11 कंपनियों की तुलना की, जिन्होंने पिछले 40 वर्षों में कुल 11 कंपनियों की तुलना में कुल शेयर बाजार को मात दी थी। उन्होंने पांच विशिष्ट लक्षणों की पहचान की जो सफल कंपनियों के पास आम थे। "हमने परीक्षण या साबित करने के लिए एक सिद्धांत के साथ इस परियोजना को शुरू नहीं किया," कोलिन्स ने दावा किया। "हमने जमीन से एक सिद्धांत बनाने की मांग की, जो प्रत्यक्ष रूप से सबूतों से लिया गया है।"

उन्होंने फेनमैन जाल में कदम रखा। जब हम किसी भी समूह की कंपनियों, सबसे अच्छे या सबसे खराब समय में पीछे मुड़कर देखते हैं, तो हम हमेशा कुछ सामान्य विशेषताओं को पा सकते हैं, इसलिए उन्हें ढूंढना कुछ भी साबित नहीं करता है। के प्रकाशन के बाद अच्छे से महानकोलिन्स के शानदार 11 शेयरों का प्रदर्शन विशिष्ट रूप से औसत रहा है: पांच शेयरों ने समग्र शेयर बाजार की तुलना में बेहतर प्रदर्शन किया है, जबकि छह ने खराब प्रदर्शन किया है।

2011 में, Google ने Google फ़्लू नामक एक कृत्रिम बुद्धिमत्ता कार्यक्रम बनाया जिसमें फ़्लू के प्रकोप की भविष्यवाणी करने के लिए खोज प्रश्नों का उपयोग किया गया था। Google के डेटा-माइनिंग प्रोग्राम ने 50 मिलियन खोज प्रश्नों को देखा और उन 45 की पहचान की जो फ्लू की घटनाओं के साथ सबसे अधिक निकट संबंध थे। यह डेटा-माइनिंग ट्रैप का एक और उदाहरण है: एक मान्य अध्ययन कीवर्ड को पहले से निर्दिष्ट करेगा। अपनी रिपोर्ट जारी करने के बाद, Google फ़्लू ने लगभग 108 प्रतिशत के औसत से अगले 108 हफ्तों में फ्लू के मामलों की संख्या को कम कर दिया। Google फ़्लू अब फ़्लू भविष्यवाणियाँ नहीं करता है।

एक इंटरनेट मार्केटर ने सोचा कि यह अपने पारंपरिक नीले वेबपेज के रंग को एक अलग रंग में बदलकर अपने राजस्व को बढ़ा सकता है। कई हफ्तों के परीक्षण के बाद, कंपनी को एक सांख्यिकीय महत्वपूर्ण परिणाम मिला: जाहिर है कि इंग्लैंड को चैती पसंद है। सौ या तो देशों के लिए कई वैकल्पिक रंगों को देखकर, उन्होंने गारंटी दी कि वे कुछ देशों के लिए कुछ रंग के लिए राजस्व में वृद्धि पाएंगे, लेकिन उन्हें समय से पहले पता नहीं था कि क्या इंग्लैंड में चाय अधिक बिकेगी। जैसा कि यह निकला, जब इंग्लैंड के वेबपेज का रंग बदलने के लिए, राजस्व गिर गया।

एक मानक तंत्रिका विज्ञान प्रयोग में एक एमआरआई मशीन में एक स्वयंसेवक को विभिन्न चित्रों को दिखाना और छवियों के बारे में प्रश्न पूछना शामिल है। माप शोर हैं, पर्यावरण से चुंबकीय संकेतों को उठाते हुए और मस्तिष्क के विभिन्न हिस्सों में फैटी टिशू के घनत्व में भिन्नता से। कभी-कभी वे मस्तिष्क की गतिविधि को याद करते हैं; कभी-कभी वे गतिविधि का सुझाव देते हैं जहां कोई नहीं होता है।

डार्टमाउथ स्नातक के एक छात्र ने एक सामन की मस्तिष्क गतिविधि का अध्ययन करने के लिए एक एमआरआई मशीन का इस्तेमाल किया क्योंकि इसमें तस्वीरें दिखाई गईं और सवाल पूछे गए। अध्ययन के बारे में सबसे दिलचस्प बात यह नहीं थी कि एक सामन का अध्ययन किया गया था, बल्कि यह कि सामन मृत था। हां, एक स्थानीय बाजार में खरीदा गया एक मृत सामन एमआरआई मशीन में डाल दिया गया था, और कुछ पैटर्न की खोज की गई थी। अनिवार्य रूप से पैटर्न थे- और वे हमेशा निरर्थक थे।

2018 में, एक येल अर्थशास्त्र के प्रोफेसर और एक स्नातक छात्र ने बिटकॉइन की कीमतों में दैनिक परिवर्तन और सैकड़ों अन्य वित्तीय चर के बीच सहसंबंधों की गणना की। उन्होंने पाया कि उपभोक्ता वस्तुओं और स्वास्थ्य देखभाल उद्योगों में स्टॉक रिटर्न के साथ बिटकॉइन की कीमतों को सकारात्मक रूप से सहसंबद्ध किया गया था, और यह कि वे गढ़े हुए उत्पादों और धातु खनन उद्योगों में स्टॉक रिटर्न के साथ नकारात्मक रूप से सहसंबद्ध थे। प्रोफेसर ने कहा, "हम केवल स्पष्टीकरण नहीं देते हैं," हम इस व्यवहार का दस्तावेजीकरण करते हैं। "दूसरे शब्दों में, उन्होंने बिटकॉइन की कीमतों के संबंध में सैकड़ों टेलीफोन नंबरों की सूची के साथ देखा और उच्चतम सहसंबंधों की रिपोर्ट की।

कॉर्नेल विश्वविद्यालय के खाद्य और ब्रांड लैब के निदेशक ने 200 से अधिक सहकर्मी-समीक्षा पत्रों को लेखक (या सह-लेखक) लिखा और दो लोकप्रिय पुस्तकों को लिखा, जिनका 25 से अधिक भाषाओं में अनुवाद किया गया।

2016 के एक ब्लॉग पोस्ट में, "द ग्रैड स्टूडेंट हू नेवर सेड न" शीर्षक से लिखा, उन्होंने एक पीएचडी छात्र के बारे में लिखा था, जिसे एक ऑल-कैन-ईट-इट इटियन बुफे में संग्रहित डेटा दिया गया था।

ईमेल पत्राचार सामने आया, जिसमें प्रोफेसर ने स्नातक छात्र को "पुरुषों, महिलाओं, दोपहर के भोजन के खाने वालों, खाने के लिए जाने वालों, अकेले बैठे लोगों, 2 के समूहों के साथ खाने वाले लोगों, 2+ के समूहों में खाने वाले लोगों, शराब का ऑर्डर करने वाले लोगों को अलग करने की सलाह दी , जो लोग शीतल पेय का आदेश देते हैं, जो लोग बुफे के करीब बैठते हैं, वे लोग जो बहुत दूर बैठते हैं, इत्यादि … "तो वह अलग-अलग तरीकों से देख सकती हैं जिनमें ये उपसमूह अलग-अलग हो सकते हैं:" # पिज्जा के टुकड़े, # यात्राएं, स्तर भरें प्लेट की, क्या उन्हें मिष्ठान मिला, क्या उन्होंने ड्रिंक का ऑर्डर दिया, इत्यादि… ”

उन्होंने निष्कर्ष निकाला कि वह, "कड़ी मेहनत करें, इस चट्टान से कुछ रक्त निचोड़ें।" कभी नहीं कहने से, छात्र को सह-लेखक के रूप में कॉर्नेल प्रोफेसर के साथ प्रकाशित चार पेपर (अब "पिज्जा पेपर" के रूप में जाना जाता है) मिला। सबसे प्रसिद्ध पेपर ने बताया कि पुरुष महिलाओं के साथ खाने पर 93 प्रतिशत अधिक पिज्जा खाते हैं। यह अच्छी तरह से समाप्त नहीं हुआ। सितंबर 2018 में, एक कॉर्नेल संकाय समिति ने निष्कर्ष निकाला कि उन्होंने अपने शोध में "अकादमिक कदाचार किया था।"

अच्छा शोध एक स्पष्ट विचार के साथ शुरू होता है कि कोई क्या ढूंढ रहा है और खोजने की उम्मीद करता है। डेटा माइनिंग सिर्फ पैटर्न के लिए दिखता है और अनिवार्य रूप से कुछ पाता है।

समस्या आजकल स्थानिक हो गई है क्योंकि शक्तिशाली कंप्यूटर बिग डेटा को लूटने में बहुत अच्छे हैं। डेटा खनिकों ने ट्विटर शब्दों या Google खोज क्वेरी और आपराधिक गतिविधि, दिल का दौरा, स्टॉक की कीमतें, चुनाव परिणाम, बिटकॉइन की कीमतें और फ़ुटबॉल मैचों के बीच संबंध पाया है। आप सोच सकते हैं कि मैं इन उदाहरणों को बना रहा हूं। मैं नहीं हूँ।

विशुद्ध रूप से यादृच्छिक संख्याओं के साथ और भी मजबूत सहसंबंध हैं। यह सोचना बिग डाटा हब्रीस है कि डेटा-माइन किए गए सहसंबंध सार्थक होने चाहिए। फेनमैन की कक्षा के बाहर एक असामान्य लाइसेंस प्लेट को खोजने की तुलना में बिग डेटा में एक असामान्य पैटर्न ढूंढना अधिक ठोस (या उपयोगी) नहीं है।

वायर्ड राय बाहरी योगदानकर्ताओं द्वारा लिखे गए टुकड़ों को प्रकाशित करता है और व्यापक दृष्टिकोण का प्रतिनिधित्व करता है। अधिक राय यहां पढ़ें Op@wired.com पर एक ऑप-एड जमा करें


अधिक महान WIRED कहानियां