Skip to content

Latest commit

 

History

History
50 lines (32 loc) · 12.8 KB

File metadata and controls

50 lines (32 loc) · 12.8 KB

डाटा साइन्स जीवनचक्र: विश्लेषण

 Sketchnote by (@sketchthedocs)
डाटा साइन्स जीवनचक्र: विश्लेषण - Sketchnote by @nitya

डाटा जीवनचक्रको विश्लेषण चरणले यो सुनिश्चित गर्दछ कि डाटाले प्रस्तावित प्रश्नहरूको उत्तर दिन सक्छ वा कुनै विशेष समस्या समाधान गर्न सक्छ। यो चरणले यो पनि सुनिश्चित गर्न ध्यान दिन सक्छ कि कुनै मोडेलले यी प्रश्नहरू र समस्याहरूलाई सही रूपमा सम्बोधन गरिरहेको छ। यो पाठ अन्वेषणात्मक डाटा विश्लेषण (EDA) मा केन्द्रित छ, जुन डाटाभित्रका विशेषताहरू र सम्बन्धहरू परिभाषित गर्नका लागि प्रयोग गरिने प्रविधिहरू हुन् र डाटालाई मोडेलिङको लागि तयार गर्न प्रयोग गर्न सकिन्छ।

हामी Kaggle बाट एउटा उदाहरण डाटासेट प्रयोग गर्नेछौं, जसले कसरी Python र Pandas लाइब्रेरीको साथमा यो लागू गर्न सकिन्छ भनेर देखाउँछ। यो डाटासेटमा इमेलहरूमा पाइने केही सामान्य शब्दहरूको गणना समावेश छ, र यी इमेलहरूको स्रोत अज्ञात छ। यस निर्देशिकामा रहेको notebook प्रयोग गरेर अनुसरण गर्नुहोस्।

अन्वेषणात्मक डाटा विश्लेषण

जीवनचक्रको क्याप्चर चरणमा डाटा प्राप्त गरिन्छ र समस्याहरू र प्रश्नहरू परिभाषित गरिन्छ, तर हामीलाई कसरी थाहा हुन्छ कि डाटाले अन्तिम परिणामलाई समर्थन गर्न सक्छ?
डाटा वैज्ञानिकले डाटा प्राप्त गर्दा निम्न प्रश्नहरू सोध्न सक्छ:

  • के यो समस्या समाधान गर्न पर्याप्त डाटा छ?
  • के यो समस्याको लागि डाटाको गुणस्तर स्वीकार्य छ?
  • यदि मैले यस डाटाबाट थप जानकारी पत्ता लगाएँ भने, के हामीले लक्ष्यहरू परिवर्तन गर्ने वा पुनः परिभाषित गर्ने विचार गर्नुपर्छ?

अन्वेषणात्मक डाटा विश्लेषण भनेको डाटालाई बुझ्ने प्रक्रिया हो र यी प्रश्नहरूको उत्तर दिनका लागि प्रयोग गर्न सकिन्छ, साथै डाटासेटसँग काम गर्दा आउने चुनौतीहरू पहिचान गर्न पनि। आउनुहोस्, यसलाई हासिल गर्न प्रयोग गरिने केही प्रविधिहरूमा ध्यान केन्द्रित गरौं।

डाटा प्रोफाइलिङ, वर्णनात्मक तथ्यांक, र Pandas

हामीसँग यो समस्या समाधान गर्न पर्याप्त डाटा छ कि छैन भनेर कसरी मूल्याङ्कन गर्ने? डाटा प्रोफाइलिङले वर्णनात्मक तथ्यांकको प्रविधिहरू मार्फत हाम्रो डाटासेटको सामान्य जानकारी संक्षेपमा दिन सक्छ। डाटा प्रोफाइलिङले हामीसँग के उपलब्ध छ भनेर बुझ्न मद्दत गर्छ, र वर्णनात्मक तथ्यांकले हामीसँग कति चीजहरू उपलब्ध छन् भनेर बुझ्न मद्दत गर्छ।

केही अघिल्ला पाठहरूमा, हामीले Pandas प्रयोग गरेर describe() function मार्फत केही वर्णनात्मक तथ्यांक प्रदान गरेका छौं। यसले गणना, अधिकतम र न्यूनतम मानहरू, औसत, मानक विचलन, र संख्यात्मक डाटामा क्वान्टाइलहरू प्रदान गर्दछ। describe() जस्ता वर्णनात्मक तथ्यांक प्रयोग गरेर तपाईंले कति डाटा छ र थप आवश्यक छ कि छैन भनेर मूल्याङ्कन गर्न सक्नुहुन्छ।

नमूना र क्वेरी

ठूलो डाटासेटमा सबै कुरा अन्वेषण गर्नु धेरै समय लाग्ने काम हो र यो प्रायः कम्प्युटरलाई गर्न दिइन्छ। तर, नमूना लिनु डाटालाई बुझ्नका लागि उपयोगी उपकरण हो र यसले डाटासेटमा के छ र यसले के प्रतिनिधित्व गर्छ भनेर राम्रोसँग बुझ्न मद्दत गर्दछ। नमूनाको साथ, तपाईंले सम्भाव्यता र तथ्यांक प्रयोग गरेर आफ्नो डाटाबारे केही सामान्य निष्कर्षमा पुग्न सक्नुहुन्छ। यद्यपि कति डाटा नमूना लिनुपर्छ भन्ने कुनै निश्चित नियम छैन, तर तपाईंले जति धेरै डाटा नमूना लिनुहुन्छ, त्यति नै सटीक सामान्यीकरण गर्न सक्नुहुन्छ।
Pandas लाईब्ररीमा sample() function छ, जहाँ तपाईंले कति वटा र्यान्डम नमूना प्राप्त गर्न चाहनुहुन्छ भनेर तर्क पास गर्न सक्नुहुन्छ।

डाटाको सामान्य क्वेरीले तपाईंले केही सामान्य प्रश्नहरू र सिद्धान्तहरूको उत्तर दिन मद्दत गर्न सक्छ। नमूनाको विपरीत, क्वेरीहरूले तपाईंलाई नियन्त्रण दिन्छ र तपाईंलाई चासो भएका डाटाका विशिष्ट भागहरूमा ध्यान केन्द्रित गर्न अनुमति दिन्छ।
Pandas लाईब्ररीको query() function ले तपाईंलाई स्तम्भहरू चयन गर्न र पङ्क्तिहरू मार्फत डाटाबारे सरल उत्तरहरू प्राप्त गर्न अनुमति दिन्छ।

भिजुअलाइजेसनको साथ अन्वेषण

डाटा पूर्ण रूपमा सफा र विश्लेषण नभएसम्म पर्खनु पर्दैन भिजुअलाइजेसन बनाउन। वास्तवमा, अन्वेषण गर्दा भिजुअल प्रतिनिधित्वले ढाँचाहरू, सम्बन्धहरू, र डाटामा समस्या पहिचान गर्न मद्दत गर्न सक्छ। साथै, भिजुअलाइजेसनले डाटाको व्यवस्थापनमा संलग्न नभएका व्यक्तिहरूसँग सञ्चारको माध्यम प्रदान गर्दछ र क्याप्चर चरणमा सम्बोधन नगरिएका थप प्रश्नहरू साझा र स्पष्ट गर्ने अवसर प्रदान गर्न सक्छ। भिजुअलाइजेसनका लोकप्रिय तरिकाहरू सिक्न Visualizations को खण्ड हेर्नुहोस्।

असंगतताहरू पहिचान गर्न अन्वेषण

यस पाठका सबै विषयहरूले हराएका वा असंगत मानहरू पहिचान गर्न मद्दत गर्न सक्छन्, तर Pandas ले केही जाँच गर्नका लागि कार्यहरू प्रदान गर्दछ। isna() वा isnull() ले हराएका मानहरूको जाँच गर्न सक्छ। डाटामा यी मानहरू किन यसरी आए भन्ने अन्वेषण गर्नु महत्त्वपूर्ण छ। यसले तपाईंलाई यी समस्याहरू समाधान गर्नका लागि कदम चाल्ने निर्णय गर्न मद्दत गर्न सक्छ।

असाइनमेन्ट

उत्तरहरूको लागि अन्वेषण गर्नुहोस्


अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।