हमने चैटजीपीटी नामक एक मॉडल को प्रशिक्षित किया है जो संवादात्मक तरीके से इंटरैक्ट करता है। संवाद प्रारूप चैटजीपीटी के लिए अनुवर्ती प्रश्नों का उत्तर देना, अपनी गलतियों को स्वीकार करना, गलत परिसरों को चुनौती देना और अनुचित अनुरोधों को अस्वीकार करना संभव बनाता है। ChatGPT InstructGPT का एक सहोदर मॉडल है, जिसे एक संकेत में एक निर्देश का पालन करने और एक विस्तृत प्रतिक्रिया प्रदान करने के लिए प्रशिक्षित किया जाता है।
हम उपयोगकर्ताओं की प्रतिक्रिया प्राप्त करने और इसकी ताकत और कमजोरियों के बारे में जानने के लिए चैटजीपीटी पेश करने के लिए उत्साहित हैं। रिसर्च प्रीव्यू के दौरान चैटजीपीटी का इस्तेमाल मुफ्त है। इसे अभी chat.openai.com पर आजमाएं।
नमूने निम्नलिखित नमूने में, चैटजीपीटी डिबग कोड को स्पष्ट करने वाले प्रश्न पूछता है।
तरीकों
हमने इस मॉडल को ह्यूमन फीडबैक (आरएलएचएफ) से रेनफोर्समेंट लर्निंग का उपयोग करते हुए प्रशिक्षित किया, जिसमें इंस्ट्रक्टजीपीटी के समान तरीके का उपयोग किया गया था, लेकिन डेटा संग्रह सेटअप में मामूली अंतर के साथ। हमने पर्यवेक्षित फाइन-ट्यूनिंग का उपयोग करके एक प्रारंभिक मॉडल को प्रशिक्षित किया: मानव एआई प्रशिक्षकों ने बातचीत प्रदान की जिसमें उन्होंने दोनों पक्षों-उपयोगकर्ता और एक एआई सहायक की भूमिका निभाई। हमने प्रशिक्षकों को उनकी प्रतिक्रियाओं को लिखने में मदद करने के लिए मॉडल-लिखित सुझावों तक पहुंच प्रदान की। हमने इस नए डायलॉग डेटासेट को इंस्ट्रक्शनजीपीटी डेटासेट के साथ मिलाया, जिसे हमने एक डायलॉग फॉर्मेट में बदल दिया।
सुदृढीकरण सीखने के लिए एक इनाम मॉडल बनाने के लिए, हमें तुलना डेटा एकत्र करने की आवश्यकता थी, जिसमें दो या दो से अधिक मॉडल प्रतिक्रियाएं शामिल थीं, जिन्हें गुणवत्ता द्वारा क्रमबद्ध किया गया था। इस डेटा को एकत्र करने के लिए, हमने चैटबॉट के साथ एआई प्रशिक्षकों की बातचीत की। हमने बेतरतीब ढंग से एक मॉडल-लिखित संदेश का चयन किया, कई वैकल्पिक पूर्णता का नमूना लिया, और एआई प्रशिक्षकों ने उन्हें रैंक दिया। इन इनाम मॉडलों का उपयोग करके, हम समीपस्थ नीति अनुकूलन का उपयोग करके मॉडल को बेहतर बना सकते हैं। हमने इस प्रक्रिया के कई पुनरावृत्तियों का प्रदर्शन किया।
सीमाएँ
ChatGPT कभी-कभी विश्वसनीय लगने वाले लेकिन गलत या निरर्थक उत्तर लिखता है। इस समस्या को ठीक करना चुनौतीपूर्ण है, क्योंकि: (1) आरएल प्रशिक्षण के दौरान, वर्तमान में सच्चाई का कोई स्रोत नहीं है; (2) मॉडल को अधिक सतर्क रहने के लिए प्रशिक्षित करने से यह उन प्रश्नों को अस्वीकार कर देता है जिनका यह सही उत्तर दे सकता है; और (3) पर्यवेक्षित प्रशिक्षण मॉडल को गुमराह करता है क्योंकि आदर्श उत्तर इस बात पर निर्भर करता है कि मॉडल क्या जानता है, बजाय इसके कि मानव प्रदर्शनकारी क्या जानता है। चैटजीपीटी इनपुट वाक्यांशों में बदलाव या एक ही संकेत को कई बार प्रयास करने के प्रति संवेदनशील है। उदाहरण के लिए, किसी प्रश्न का एक वाक्यांश दिए जाने पर, मॉडल उत्तर नहीं जानने का दावा कर सकता है, लेकिन थोड़ा सा वाक्यांश दिए जाने पर, सही उत्तर दे सकता है। मॉडल अक्सर अत्यधिक वर्बोज़ होता है और कुछ वाक्यांशों का अत्यधिक उपयोग करता है, जैसे कि यह दोहराना कि यह OpenAI द्वारा प्रशिक्षित एक भाषा मॉडल है। ये मुद्दे प्रशिक्षण डेटा में पक्षपात से उत्पन्न होते हैं (प्रशिक्षक लंबे उत्तर पसंद करते हैं जो अधिक व्यापक दिखते हैं) और जाने-माने अति-अनुकूलन मुद्दे। आदर्श रूप से, जब उपयोगकर्ता अस्पष्ट प्रश्न प्रदान करता है तो मॉडल स्पष्ट प्रश्न पूछेगा। इसके बजाय, हमारे वर्तमान मॉडल आमतौर पर अनुमान लगाते हैं कि उपयोगकर्ता क्या चाहता है। जबकि हमने मॉडल को अनुचित अनुरोधों को अस्वीकार करने के लिए प्रयास किए हैं, यह कभी-कभी हानिकारक निर्देशों का जवाब देगी या पक्षपातपूर्ण व्यवहार प्रदर्शित करेगी। हम कुछ प्रकार की असुरक्षित सामग्री को चेतावनी देने या ब्लॉक करने के लिए मॉडरेशन एपीआई का उपयोग कर रहे हैं, लेकिन हम उम्मीद करते हैं कि इसमें कुछ गलत नकारात्मक और सकारात्मक चीजें होंगी। हम इस प्रणाली को बेहतर बनाने के लिए चल रहे हमारे काम में सहायता के लिए उपयोगकर्ता फ़ीडबैक एकत्र करने के लिए उत्सुक हैं।
पुनरावृत्त परिनियोजन
चैटजीपीटी की आज की शोध रिलीज ओपनएआई की तेजी से सुरक्षित और उपयोगी एआई प्रणालियों की पुनरावृत्त तैनाती में नवीनतम कदम है। GPT-3 और कोडेक्स जैसे पहले के मॉडलों की तैनाती से कई सबक इस रिलीज के लिए जगह में सुरक्षा न्यूनीकरण की जानकारी देते हैं, जिसमें मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखने के उपयोग से प्राप्त हानिकारक और असत्य आउटपुट में पर्याप्त कमी शामिल है। निम्नलिखित नमूने ChatGPT की तुलना InstructGPT से करते हैं और ChatGPT के लिए सुरक्षा न्यूनीकरण प्रदर्शित करते हैं।
About The Author














