हेटबेस दुनिया के अभद्र भाषण को वास्तविक समय में सूचीबद्ध करता है, इसलिए आपको – TechCrunch पर नहीं आना चाहिए


नफरत फैलाने वाला भाषण लगभग हर ऑनलाइन संचार मंच संघर्ष के साथ कुछ है। क्योंकि इसे पुलिस करने के लिए, आपको इसका पता लगाना चाहिए; और इसका पता लगाने के लिए, आपको इसे समझना चाहिए। हेटबेस एक ऐसी कंपनी है जिसने नफरत फैलाने वाले भाषण को अपना प्राथमिक मिशन बना लिया है, और यह उस समझ को एक सेवा के रूप में प्रदान करता है – एक तेजी से मूल्यवान।

अनिवार्य रूप से हेटबेस वेब पर भाषा के उपयोग का विश्लेषण करता है, जिसके परिणामस्वरूप डेटा को संरचना और संदर्भ देता है, और कंपनियों और शोधकर्ताओं को परिणामस्वरूप डेटाबेस बेचता है (या प्रदान करता है) जो स्वयं ऐसा करने की विशेषज्ञता नहीं रखते हैं।

कनाडाई कंपनी, एक छोटा लेकिन बढ़ता हुआ ऑपरेशन, सेंटिनल प्रोजेक्ट में एक संघर्ष-ग्रस्त क्षेत्र में इस्तेमाल की जाने वाली भाषा के विश्लेषण के आधार पर भविष्यवाणी करने और अत्याचार को रोकने के लिए अनुसंधान से बाहर निकला।

हेटबेस के संस्थापक और मुख्य कार्यकारी अधिकारी टिमोथी क्विन ने कहा, "प्रहरी ने जो पता लगाया वह यह था कि अभद्र भाषा इन संघर्षों को आगे बढ़ाती है।" “मैंने हेटबेस को एक पायलट प्रोजेक्ट के रूप में बनाने के लिए उनके साथ भागीदारी की – मूल रूप से बहुभाषी अभद्र भाषा का एक शब्दकोष। हमें आश्चर्य हुआ कि बहुत सारे अन्य एन.जी.ओ. [non-governmental organizations] उसी उद्देश्य के लिए हमारे डेटा का उपयोग करना शुरू कर दिया। फिर हमें अपने डेटा का उपयोग करके बहुत सी व्यावसायिक इकाइयाँ मिलनी शुरू हुईं। इसलिए पिछले साल हमने इसे एक स्टार्टअप के रूप में बदलने का फैसला किया। ”

आप सोच रहे होंगे, "एक मुट्ठी भर जातीय कातिलों और घृणित वाक्यांशों का पता लगाने में क्या मुश्किल है?" और निश्चित रूप से, कोई भी आपको (शायद अनिच्छा से) सबसे आम slurs और अपमानजनक बातें कह सकता है – उनकी भाषा में … जो आपको पता नहीं है। सिर्फ एक बदसूरत शब्दों की तुलना में अभद्र भाषा से बहुत कुछ है। यह एक पूरी शैली की कठबोली है, और एक भाषा के कठबोली एक शब्दकोष भर जाएगा। सभी भाषाओं के स्लैंग के बारे में क्या?

एक स्थानांतरण लेक्सिकॉन

जैसा कि विक्टर ह्यूगो ने लेस मिजरेबल्स में बताया, स्लैंग (या फ्रेंच में "अरगो") किसी भी भाषा का सबसे अधिक परिवर्तनशील हिस्सा है। ये शब्द "एकान्त, बर्बर, कभी-कभी घृणित शब्द हो सकते हैं … माना जाता है कि भ्रष्टाचार का मुहावरा होने के कारण यह आसानी से भ्रष्ट हो जाता है। इसके अलावा, चूंकि यह हमेशा भटकाव की तलाश करता है, जैसे ही यह समझता है कि इसे समझा गया है, यह खुद को बदल देता है। "

न केवल गाली-गलौज और अभद्र भाषा का बोलबाला है, बल्कि यह कभी भी हिलने वाला है। इसलिए इसे सूचीबद्ध करने का कार्य एक निरंतर है।

हेटबेस, घृणा से संबंधित शब्दों के उपयोग के लिए सार्वजनिक वेब को परिमार्जन करने के लिए मानव और स्वचालित प्रक्रियाओं के संयोजन का उपयोग करता है। "हम सूत्रों के एक समूह के लिए बाहर जाते हैं – सबसे बड़ा, जैसा कि आप कल्पना कर सकते हैं, ट्विटर है – और हम इसे सभी में खींचते हैं और इसे हेटब्रेन पर बदल देते हैं। यह एक प्राकृतिक भाषा कार्यक्रम है जो पोस्ट के माध्यम से जाता है और सही, गलत या अज्ञात रिटर्न देता है। "

यह सच है कि यह बहुत ही यकीन है कि यह अभद्र भाषा है – जैसा कि आप कल्पना कर सकते हैं, इसके बहुत सारे उदाहरण हैं। असत्य का अर्थ है, नहीं। और अज्ञात का मतलब यह सुनिश्चित नहीं हो सकता है; शायद यह एक वाक्यांश के बारे में व्यंग्य, या अकादमिक बकवास है, या कोई ऐसा शब्द है जो समूह से संबंधित है और इसका उपयोग करने वाले या इसे उपयोग करने वाले अन्य लोगों को फटकार लगाने का प्रयास कर रहा है। वे मूल्य हैं जो एपीआई के माध्यम से बाहर जाते हैं, और उपयोगकर्ता बड़े डेटाबेस में अधिक जानकारी या संदर्भ देखने के लिए चुन सकते हैं, जिसमें स्थान, आवृत्ति, ऑफेंसेंस का स्तर, और इसी तरह शामिल हैं। उस तरह के डेटा से आप वैश्विक रुझानों को समझ सकते हैं, अन्य घटनाओं के साथ गतिविधि को सहसंबंधित कर सकते हैं, या बस जातीय ढलानों की तेजी से बढ़ती दुनिया के बीच रख सकते हैं।

नफरत भरे भाषण पूरे विश्व में झंडे गाड़े जा रहे हैं – ये आज एक मुट्ठी भर पाए गए, साथ ही आईपी के अक्षांश और देशांतर से भी आए।

हालांकि, प्रक्रिया के जादुई या परिपूर्ण होने का दावा नहीं करता है "वहाँ बहुत कम 100 हेटब्रेन से बाहर आने वाले हैं," उन्होंने समझाया। “यह मशीन सीखने के दृष्टिकोण से थोड़ा भिन्न होता है जो अन्य उपयोग करते हैं। एमएल महान है जब आपके पास एक अस्पष्ट प्रशिक्षण सेट है, लेकिन मानव भाषण के साथ, और अभद्र भाषा, जो इतनी बारीक हो सकती है, कि जब आप पूर्वाग्रह में तैरते हुए मिलते हैं। हमारे पास नफरत भाषण का एक विशाल कोष नहीं है, क्योंकि कोई भी नहीं है। नफरत वाले भाषण पर सहमत हो सकते हैं।

Google, Twitter और Facebook जैसी कंपनियों द्वारा सामना की गई समस्या का वह हिस्सा है – जिसे आप स्वचालित रूप से नहीं समझ सकते हैं।

सौभाग्य से हेटब्रेन मानवीय बुद्धि को भी रोजगार देता है, स्वयंसेवकों और भागीदारों के एक समूह के रूप में जो अधिक अस्पष्ट डेटा बिंदुओं को प्रमाणित, स्थगित और एकत्र करते हैं।

“हमारे पास दुनिया भर के भाषाई रूप से विविध क्षेत्रों में हमारे साथ गैर-सरकारी संगठनों का एक समूह है, और हमने अभी-अभी अपने 'नागरिक भाषाविदों’ कार्यक्रम को लॉन्च किया है, जो हमारी कंपनी का स्वयंसेवक है, और वे लगातार अपडेट और अनुमोदन और सफाई कर रहे हैं परिभाषाएँ, "क्विन ने कहा। "हम उन्हें प्रदान किए जाने वाले डेटा पर उच्च स्तर की प्रामाणिकता रखते हैं।"

किसी शब्द के संदर्भ को समझने के लिए स्थानीय परिप्रेक्ष्य महत्वपूर्ण हो सकता है। उन्होंने नाइजीरिया में एक शब्द का उदाहरण दिया, जिसका उपयोग एक समूह के सदस्यों के बीच दोस्त के रूप में किया जाता है, लेकिन जब उस समूह द्वारा किसी और को संदर्भित करने का मतलब अशिक्षित होता है। यह किसी की संभावना नहीं है लेकिन एक नाइजीरियाई आपको यह बताने में सक्षम होगा। वर्तमान में हेटबेस ने 200 देशों में 95 भाषाओं को शामिल किया है, और वे हर समय इसे जोड़ रहे हैं।

इसके अलावा वहाँ "intensifiers," शब्द या वाक्यांश हैं जो अपने आप में आक्रामक नहीं हैं लेकिन यह इंगित करने के लिए सेवा करते हैं कि क्या कोई व्यक्ति गंदी या वाक्यांश पर जोर दे रहा है। अन्य कारक भी इसमें प्रवेश करते हैं, जिनमें से कुछ एक प्राकृतिक भाषा इंजन को पहचानने में सक्षम नहीं हो सकते हैं क्योंकि उनके पास इतना कम डेटा है। इसलिए, परिभाषाओं को अद्यतित रखने के अलावा, टीम लगातार भाषण हेटब्रेन मुठभेड़ों को वर्गीकृत करने के लिए उपयोग किए जाने वाले मापदंडों में सुधार पर भी काम कर रही है।

विज्ञान और लाभ के लिए एक बेहतर डेटाबेस का निर्माण

सिस्टम ने अपने मिलियन हेट स्पीच स्पीकिंग (शायद दसियों बार किए गए कई वाक्यांशों में से) को निगला, जो एक साथ बहुत कुछ और थोड़ा सा लगता है। यह एक छोटा सा है क्योंकि इंटरनेट पर भाषण की मात्रा इतनी विशाल है कि कोई इसके बारे में भी उम्मीद करता है कि इसमें हेट स्पीच बनाने के लिए लाखों और लाखों लोगों को जोड़ा जा सकता है।

लेकिन यह बहुत है क्योंकि किसी और ने इस आकार और गुणवत्ता के डेटाबेस को एक साथ नहीं रखा है। घृणित भाषण या अभद्र भाषा के रूप में वर्गीकृत शब्दों और वाक्यांशों का एक वेटेड, मिलियन-डेटा-पॉइंट सेट अपने आप में एक मूल्यवान वस्तु है। यही कारण है कि हेटबेस इसे शोधकर्ताओं या संस्थानों को मानवतावादी या वैज्ञानिक उद्देश्यों के लिए मुफ्त में प्रदान करता है।

लेकिन मॉडरेशन उद्देश्यों के लिए अभद्र भाषा का पता लगाने की आउटसोर्सिंग करने वाली कंपनियों और बड़े संगठनों को लाइसेंस शुल्क का भुगतान करना पड़ता है, जो कि रोशनी को बनाए रखता है और फ्री टियर को अस्तित्व में रखता है।

"हमें मिल गया है, मुझे लगता है, दुनिया के दस सबसे बड़े सामाजिक नेटवर्क में से चार हमारे डेटा को खींच रहे हैं। हमें यूएन पुलिंग डेटा, एनजीओ, संघर्ष क्षेत्रों में काम करने वाले हाइपर लोकल लोग मिल गए हैं। हम पिछले कुछ वर्षों से LAPD के लिए डेटा खींच रहे हैं। हम सरकारी विभागों से बात कर रहे हैं, "क्विन ने कहा।

उनके पास कई वाणिज्यिक ग्राहक हैं, जिनमें से कई एनडीए के अंतर्गत हैं, क्विन ने उल्लेख किया है, लेकिन इसमें शामिल होने के लिए सबसे हाल ही में सार्वजनिक रूप से किया गया था, और वह टिकटॉक है। जैसा कि आप कल्पना कर सकते हैं, जैसे एक लोकप्रिय मंच को त्वरित, सटीक मॉडरेशन की बहुत आवश्यकता है।

वास्तव में यह एक संकट की बात है, क्योंकि वहाँ कानून चल रहे हैं जो कंपनियों को भारी मात्रा में दंडित करते हैं अगर वे तुरंत अपमानजनक सामग्री को नहीं हटाते हैं। इस तरह का खतरा वास्तव में पर्स के तार को ढीला करता है; यदि कोई जुर्माना लाखों डॉलर में हो सकता है, तो हेटबेस जैसी सेवा के लिए एक महत्वपूर्ण अंश का भुगतान करना एक अच्छा निवेश है।

"इन बड़े ऑनलाइन इकोसिस्टम को अपने प्लेटफ़ॉर्म से इस सामान को प्राप्त करने की आवश्यकता है, और उन्हें अपने सामग्री मॉडरेशन का एक निश्चित प्रतिशत स्वचालित करने की आवश्यकता है," क्विन ने कहा। "हम कभी नहीं सोचते हैं कि हम मानव संयम से छुटकारा पाने में सक्षम होंगे, यह एक हास्यास्पद और अस्वीकार्य लक्ष्य है; हम जो करना चाहते हैं वह स्वचालन में मदद करता है जो पहले से ही है। यह तेजी से अवास्तविक है कि सूर्य के तहत हर ऑनलाइन समुदाय बहुभाषी अभद्र भाषा, अपने स्वयं के एआई के अपने विशाल डेटाबेस का निर्माण करने जा रहा है। जिस तरह से कंपनियों के पास अपना मेल सर्वर नहीं होता है, वे Gmail का उपयोग करते हैं, या उनके पास सर्वर रूम नहीं होता है, वे AWS का उपयोग करते हैं – जो कि हमारा मॉडल है, हम खुद को सेवा के रूप में अभद्र भाषा कहते हैं। हममें से लगभग आधे लोग उस शब्द से प्यार करते हैं, जो आधा नहीं है, लेकिन यह वास्तव में हमारा मॉडल है। "

हेटबेस के वाणिज्यिक ग्राहकों ने कंपनी को पहले ही दिन से लाभदायक बना दिया है, लेकिन वे "किसी भी तरह से नकदी में रोल नहीं कर रहे हैं।"

"हम गैर-लाभकारी थे जब तक हम बाहर नहीं निकलते, और हम उससे दूर नहीं चल रहे हैं, लेकिन हम आत्म-वित्त पोषण करना चाहते थे," क्विन ने कहा। अमीर अजनबियों की दया पर भरोसा करना व्यवसाय में रहने का कोई रास्ता नहीं है, सब के बाद। कंपनी अपने इन्फ्रास्ट्रक्चर में काम पर रख रही है और निवेश कर रही है, लेकिन क्विन ने संकेत दिया कि वे जूस ग्रोथ या कुछ भी नहीं देख रहे हैं – बस यह सुनिश्चित करें कि उन नौकरियों को करने की ज़रूरत है जो उन्हें करने के लिए किसी के पास हैं।

इस बीच, यह क्विन और बाकी सभी को स्पष्ट लगता है कि इस तरह की जानकारी का वास्तविक मूल्य है, हालांकि यह शायद ही कभी सरल है।

"यह वास्तव में एक जटिल समस्या है। हम हमेशा इसके साथ जूझते हैं, आप जानते हैं, के संदर्भ में, अच्छी तरह से, घृणास्पद भाषण क्या भूमिका निभाते हैं? गलत भूमिका क्या भूमिका निभाती है? सामाजिक भूमिका क्या निभाते हैं? ”उन्होंने कहा। “वारविक विश्वविद्यालय से एक शानदार पेपर निकला, उन्होंने जर्मनी में प्रवासियों के खिलाफ अभद्र भाषा और हिंसा के बीच संबंध का अध्ययन किया, मैं 2015 से 2017 तक कहना चाहता हूं। वे इसे बाहर निकालते हैं। और चोटी के लिए इसकी चोटी, आप जानते हैं, घाटी के लिए मान्य है। यह आश्चर्यजनक है। हम बहुत से विश्लेषण का नरक नहीं करते – हम एक डेटा प्रदाता हैं। "

"लेकिन अब की तरह, लगभग 300 विश्वविद्यालयों डेटा खींच रहे हैं, और वे उन प्रकार के विश्लेषण करते हैं। इसलिए यह हमारे लिए बहुत मान्य है। ”

आप हेटबेस के बारे में अधिक जान सकते हैं, नागरिक भाषाविदों या अनुसंधान साझेदारी में शामिल हो सकते हैं, या कंपनी की वेबसाइट पर डेटाबेस के लिए हाल ही में देखे और अपडेट देख सकते हैं।