पायथन में स्ट्रिंग्स की सूची के आधार पर पांडा डेटाफ़्रेम पंक्तियों को फ़िल्टर करें - चरण-दर-चरण मार्गदर्शिका

समस्याओं को खत्म करने के लिए हमारे साधन का प्रयास करें

ए में डेटा का विश्लेषण करते समय पांडा डेटाफ़्रेम पायथन में, आप अक्सर केवल विशिष्ट मान वाली पंक्तियों को बनाए रखने के लिए डेटाफ़्रेम को फ़िल्टर करना चाहेंगे। एक सामान्य फ़िल्टरिंग कार्य आपके द्वारा निर्दिष्ट स्ट्रिंग्स की सूची के आधार पर पंक्तियों को फ़िल्टर करना है, केवल उन पंक्तियों को बनाए रखना जिनमें आपकी सूची से एक या अधिक स्ट्रिंग्स हैं।

इस व्यापक मार्गदर्शिका में, आप स्ट्रिंग्स की सूची के आधार पर पांडा डेटाफ़्रेम को फ़िल्टर करने के कई तरीके सीखेंगे, जिनमें शामिल हैं:

  • सटीक स्ट्रिंग मेल खाती है
  • आंशिक स्ट्रिंग मिलान
  • केस असंवेदनशील मिलान
  • एकाधिक स्तंभों का मिलान

आपको प्रत्येक विधि के लिए पायथन कोड उदाहरण मिलेंगे, साथ ही हुड के नीचे फ़िल्टरिंग ऑपरेशन कैसे काम करते हैं, इसका विवरण भी मिलेगा। आएँ शुरू करें!

स्थापित करना

हम पहले पांडा आयात करेंगे और फ़िल्टरिंग तकनीकों को प्रदर्शित करने के लिए एक सरल डेटाफ़्रेम बनाएंगे:

|_+_|

यह प्रिंट करता है:

|_+_|

आइए अब स्ट्रिंग्स की सूची के आधार पर पंक्तियों को फ़िल्टर करने के विभिन्न तरीकों को देखें।

सटीक स्ट्रिंग मिलान

डेटाफ़्रेम को केवल उन पंक्तियों में फ़िल्टर करने के लिए जिनमें शामिल हैं सटीक मिलान किसी सूची से स्ट्रिंग्स के लिए, आप |_+_| का उपयोग कर सकते हैं तरीका।

उदाहरण के लिए, उन पंक्तियों को फ़िल्टर करने के लिए जिनमें 'सफ़ेद' या 'ग्रे' रंग हैं:

|_+_|

यह पंक्तियों को केवल 'सफ़ेद' और 'ग्रे' रंगों के साथ प्रिंट करता है:

|_+_|

|_+_| विधि सूची के विरुद्ध 'रंग' कॉलम में प्रत्येक मान की जांच करती है, यदि मान सूची में है तो सही लौटाता है, और अन्यथा गलत लौटाता है। लौटाई गई बूलियन श्रृंखला का उपयोग डेटाफ़्रेम को स्लाइस करने और केवल उन पंक्तियों को बनाए रखने के लिए किया जाता है जहां |_+_| सत्य लौटाया।

एक सेट का उपयोग करके सटीक मिलान

एक वैकल्पिक तरीका ऐसे सेट का उपयोग करना है जिसमें O(1) लुकअप समय हो:

|_+_|

यह बहुत बड़ी सूचियों के लिए तेज़ हो सकता है।

आंशिक स्ट्रिंग मिलान

आंशिक या 'फ़ज़ी' स्ट्रिंग मिलान के लिए, आप |_+_| का उपयोग कर सकते हैं |_+_| के साथ विधि (ओआर) ऑपरेटर।

उदाहरण के लिए, उन पंक्तियों का मिलान करने के लिए जिनमें या तो 'सफ़ेद' या 'काला' है:

|_+_|

आउटपुट:

|_+_|

यहां हम स्ट्रिंग्स की सूची को '|' से जोड़ते हैं। एक रेगुलर एक्सप्रेशन बनाने के लिए |_+_| को पास किया गया उन पंक्तियों का मिलान करने के लिए जिनमें या तो 'सफ़ेद' या 'काला' है, केस संवेदनशीलता से।

केस असंवेदनशील आंशिक मिलान

आंशिक मिलान केस को असंवेदनशील बनाने के लिए |_+_| का उपयोग करें मामले को नज़रअंदाज़ करना:

|_+_|

यह पिछले उदाहरण की तरह ही पंक्तियाँ लौटाता है, यह दर्शाता है कि मामला अब अनदेखा कर दिया गया है।

एकाधिक कॉलमों में सूची के अनुसार फ़िल्टर करें

आप स्ट्रिंग्स की सूची के साथ कई कॉलमों को फ़िल्टर भी कर सकते हैं। उदाहरण के लिए, 'सफ़ेद' या 'टी-शर्ट' से मेल खाना दोनों में से एक 'रंग' या 'उत्पाद' कॉलम:

|_+_|

रिटर्न:

|_+_|

यहां |_+_| का उपयोग करके (या) |_+_| के बीच कॉल, यह उन पंक्तियों से मेल खाएगा जो किसी भी शर्त को पूरा करती हैं।

किसी सूची में कॉलम मानों के अनुसार फ़िल्टर करें

कुछ मामलों में आप डेटाफ़्रेम कॉलम में से किसी एक से सटीक मानों का मिलान करना चाह सकते हैं, यदि वे किसी सूची में दिखाई देते हैं।

इस प्रकार के फ़िल्टरिंग के लिए सबसे अच्छी विधि |_+_| का उपयोग करना है दोबारा:

|_+_|

यह प्रिंट करता है:

|_+_|

निष्कर्ष

हमने फ़िल्टर स्ट्रिंग्स की सूची के आधार पर पांडा डेटाफ़्रेम पंक्तियों को फ़िल्टर करने के लिए कई उपयोगी तरीकों की खोज की है, जिनमें शामिल हैं:

  • |_+_| का उपयोग करना सटीक मिलान के लिए
  • आवेदन करना |_+_| आंशिक मिलान के लिए
  • '|' के साथ रेगेक्स में शामिल होना या तर्क के लिए
  • अनेक स्तंभों में फ़िल्टर करना

ये फ़िल्टरिंग उपकरण तेज़ लेकिन जटिल विश्लेषण वर्कफ़्लो के लिए पांडा डेटाफ़्रेम को स्लाइस और फ़िल्टर करने के शक्तिशाली, लचीले तरीके प्रदान करते हैं।

अब आपके पास अपने पायथन डेटा विज्ञान प्रोजेक्ट्स में डेटा के सबसेट को तेज़ी से फ़िल्टर करने के लिए स्ट्रिंग्स की सूचियों का उपयोग करने का तरीका पता है!

यह सभी देखें: