Skip to content

Latest commit

 

History

History
112 lines (75 loc) · 22 KB

File metadata and controls

112 lines (75 loc) · 22 KB

ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പരിചയം

 Sketchnote by (@sketchthedocs)
ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പരിചയം - Sketchnote by @nitya

ഇപ്പോൾ നിങ്ങൾക്ക് ഡാറ്റാ സയൻസ് ഒരു പ്രക്രിയയാണ് എന്ന് മനസ്സിലായിരിക്കാം. ഈ പ്രക്രിയ 5 ഘട്ടങ്ങളായി വിഭജിക്കാം:

  • പിടിച്ചെടുക്കൽ
  • പ്രോസസ്സിംഗ്
  • വിശകലനം
  • ആശയവിനിമയം
  • പരിപാലനം

ഈ പാഠം ലൈഫ്‌സൈക്കിളിന്റെ 3 ഭാഗങ്ങളായ പിടിച്ചെടുക്കൽ, പ്രോസസ്സിംഗ്, പരിപാലനം എന്നിവയിൽ കേന്ദ്രീകരിക്കുന്നു.

Diagram of the data science lifecycle

ഫോട്ടോ: ബർക്ക്ലി സ്കൂൾ ഓഫ് ഇൻഫർമേഷൻ

പിടിച്ചെടുക്കൽ

ലൈഫ്‌സൈക്കിളിന്റെ ആദ്യ ഘട്ടം വളരെ പ്രധാനമാണ്, കാരണം അടുത്ത ഘട്ടങ്ങൾ ഇതിൽ ആശ്രയിച്ചിരിക്കുന്നു. ഇത് പ്രായോഗികമായി രണ്ട് ഘട്ടങ്ങൾ ഒന്നിച്ച് ചേർന്നതാണ്: ഡാറ്റാ സമാഹരണം, ഉദ്ദേശ്യവും പരിഹരിക്കേണ്ട പ്രശ്നങ്ങളും നിർവചിക്കൽ.
പ്രോജക്ടിന്റെ ലക്ഷ്യങ്ങൾ നിർവചിക്കാൻ പ്രശ്നം അല്ലെങ്കിൽ ചോദ്യത്തെക്കുറിച്ചുള്ള കൂടുതൽ പശ്ചാത്തലം ആവശ്യമുണ്ട്. ആദ്യം, പ്രശ്നം പരിഹരിക്കേണ്ടവരെ തിരിച്ചറിയുകയും സമാഹരിക്കുകയും ചെയ്യണം. ഇവ ബിസിനസിലെ സ്റ്റേക്ക്‌ഹോൾഡർമാരോ പ്രോജക്ടിന്റെ സ്പോൺസർമാരോ ആയിരിക്കാം, അവർക്ക് ഈ പ്രോജക്ടിൽ നിന്നു ആരോ എന്തോ പ്രയോജനം ലഭിക്കുമെന്ന് തിരിച്ചറിയാൻ സഹായിക്കും, കൂടാതെ എന്ത്, എന്തുകൊണ്ട് അതു ആവശ്യമാണ് എന്നും. നന്നായി നിർവചിച്ച ലക്ഷ്യം അളക്കാവുന്നതും കണക്കാക്കാവുന്നതുമായിരിക്കണം, അംഗീകരിക്കാവുന്ന ഫലം നിർവചിക്കാൻ.

ഡാറ്റാ സയന്റിസ്റ്റ് ചോദിക്കാവുന്ന ചോദ്യങ്ങൾ:

  • ഈ പ്രശ്നം മുമ്പ് സമീപിച്ചിട്ടുണ്ടോ? എന്താണ് കണ്ടെത്തിയത്?
  • പങ്കാളികളിൽ എല്ലാവർക്കും ഉദ്ദേശ്യവും ലക്ഷ്യവും മനസ്സിലായിട്ടുണ്ടോ?
  • സംശയം ഉണ്ടോ, അത് കുറയ്ക്കാൻ എങ്ങനെ?
  • നിയന്ത്രണങ്ങൾ എന്തെല്ലാം?
  • അവസാനം ഫലം എങ്ങനെ കാണപ്പെടും?
  • എത്ര വിഭവങ്ങൾ (സമയം, ആളുകൾ, കംപ്യൂട്ടേഷൻ) ലഭ്യമാണ്?

അടുത്തത് നിർവചിച്ച ലക്ഷ്യങ്ങൾ നേടാൻ ആവശ്യമായ ഡാറ്റ തിരിച്ചറിയൽ, ശേഖരണം, പിന്നീട് പരിശോധിക്കൽ. സമാഹരണ ഘട്ടത്തിൽ, ഡാറ്റാ സയന്റിസ്റ്റുകൾ ഡാറ്റയുടെ അളവും ഗുണനിലവാരവും വിലയിരുത്തണം. ഇത് ആവശ്യമായ ഫലം നേടാൻ സഹായിക്കുന്ന ഡാറ്റ സമാഹരിച്ചതാണെന്ന് സ്ഥിരീകരിക്കാൻ ഡാറ്റാ എക്സ്പ്ലോറേഷൻ ആവശ്യമാണ്.

ഡാറ്റയെക്കുറിച്ച് ഡാറ്റാ സയന്റിസ്റ്റ് ചോദിക്കാവുന്ന ചോദ്യങ്ങൾ:

  • എനിക്ക് ഇതിനകം ലഭ്യമായ ഡാറ്റ എന്തെല്ലാം?
  • ഈ ഡാറ്റയുടെ ഉടമ ആരാണ്?
  • സ്വകാര്യത സംബന്ധിച്ച ആശങ്കകൾ എന്തെല്ലാം?
  • ഈ പ്രശ്നം പരിഹരിക്കാൻ എനിക്ക് മതിയായ ഡാറ്റ ഉണ്ടോ?
  • ഈ പ്രശ്നത്തിന് ഡാറ്റയുടെ ഗുണനിലവാരം അംഗീകരിക്കാവുന്നതാണോ?
  • ഈ ഡാറ്റ വഴി അധിക വിവരങ്ങൾ കണ്ടെത്തിയാൽ, ലക്ഷ്യങ്ങൾ മാറ്റം വരുത്തണോ?

പ്രോസസ്സിംഗ്

ലൈഫ്‌സൈക്കിളിന്റെ പ്രോസസ്സിംഗ് ഘട്ടം ഡാറ്റയിൽ പാറ്റേണുകൾ കണ്ടെത്തലും മോഡലിംഗ് ചെയ്യലും ആണ്. ഈ ഘട്ടത്തിൽ ചില സാങ്കേതിക വിദ്യകൾ പാറ്റേണുകൾ കണ്ടെത്താൻ സാംഖ്യിക രീതികൾ ഉപയോഗിക്കുന്നു. സാധാരണയായി വലിയ ഡാറ്റാ സെറ്റിൽ മനുഷ്യൻക്ക് ഇത് ബുദ്ധിമുട്ടുള്ള ജോലി ആയിരിക്കും, അതിനാൽ കംപ്യൂട്ടറുകൾ പ്രക്രിയ വേഗത്തിലാക്കാൻ സഹായിക്കും. ഈ ഘട്ടത്തിലാണ് ഡാറ്റാ സയൻസ്, മെഷീൻ ലേണിംഗ് തമ്മിൽ മുട്ടിച്ചേരുന്നത്. ആദ്യ പാഠത്തിൽ പഠിച്ചതുപോലെ, മെഷീൻ ലേണിംഗ് ഡാറ്റ മനസ്സിലാക്കാൻ മോഡലുകൾ നിർമ്മിക്കുന്ന പ്രക്രിയയാണ്. മോഡലുകൾ ഡാറ്റയിലെ വ്യത്യസ്ത വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം പ്രതിനിധീകരിച്ച് ഫലങ്ങൾ പ്രവചിക്കാൻ സഹായിക്കുന്നു.

ഈ ഘട്ടത്തിൽ ഉപയോഗിക്കുന്ന സാധാരണ സാങ്കേതിക വിദ്യകൾ ML for Beginners പാഠ്യപദ്ധതിയിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. അവയെക്കുറിച്ച് കൂടുതൽ അറിയാൻ താഴെയുള്ള ലിങ്കുകൾ പിന്തുടരുക:

  • ക്ലാസിഫിക്കേഷൻ: ഡാറ്റയെ വർഗ്ഗങ്ങളായി ക്രമീകരിച്ച് കൂടുതൽ ഫലപ്രദമായി ഉപയോഗിക്കുക.
  • ക്ലസ്റ്ററിംഗ്: സമാനമായ ഗ്രൂപ്പുകളായി ഡാറ്റ കൂട്ടിച്ചേർക്കുക.
  • റെഗ്രഷൻ: മൂല്യങ്ങൾ പ്രവചിക്കാൻ വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം കണ്ടെത്തുക.

പരിപാലനം

ലൈഫ്‌സൈക്കിൾ ഡയഗ്രാമിൽ, പരിപാലനം പിടിച്ചെടുക്കലിനും പ്രോസസ്സിംഗിനും ഇടയിൽ കാണാം. പരിപാലനം ഒരു പ്രോജക്ടിന്റെ മുഴുവൻ കാലയളവിലും ഡാറ്റ മാനേജ്മെന്റ്, സംഭരണം, സുരക്ഷ എന്നിവയുടെ തുടർച്ചയായ പ്രക്രിയയാണ്.

ഡാറ്റ സംഭരണം

ഡാറ്റ എങ്ങനെ എവിടെ സംഭരിക്കപ്പെടുന്നു എന്നത് സംഭരണ ചെലവും ഡാറ്റ എത്ര വേഗത്തിൽ ആക്‌സസ് ചെയ്യാമെന്നതും ബാധിക്കുന്നു. ഈ വിധത്തിലുള്ള തീരുമാനങ്ങൾ സാധാരണയായി ഡാറ്റാ സയന്റിസ്റ്റ് മാത്രം എടുക്കാറില്ല, പക്ഷേ ഡാറ്റ എങ്ങനെ സംഭരിച്ചിരിക്കുന്നു എന്നതിനെ അടിസ്ഥാനമാക്കി ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിൽ അവർ തീരുമാനങ്ങൾ എടുക്കേണ്ടി വരാം.

ഇവിടെ ആധുനിക ഡാറ്റ സംഭരണ സംവിധാനങ്ങളുടെ ചില ഘടകങ്ങൾ ഉണ്ട്, ഇവ ഈ തീരുമാനങ്ങളെ ബാധിക്കാം:

ഓൺ പ്രെമൈസ് vs ഓഫ് പ്രെമൈസ് vs പബ്ലിക് അല്ലെങ്കിൽ പ്രൈവറ്റ് ക്ലൗഡ്

ഓൺ പ്രെമൈസ് എന്നത് നിങ്ങളുടെ സ്വന്തം ഉപകരണങ്ങളിൽ ഡാറ്റ ഹോസ്റ്റ് ചെയ്ത് മാനേജുചെയ്യുന്നതാണ്, ഉദാഹരണത്തിന് ഹാർഡ് ഡ്രൈവ് ഉള്ള സെർവർ. ഓഫ് പ്രെമൈസ് എന്നാൽ നിങ്ങൾക്ക് സ്വന്തമല്ലാത്ത ഉപകരണങ്ങളിൽ ആശ്രയിച്ചിരിക്കുന്നു, ഉദാഹരണത്തിന് ഡാറ്റ സെന്റർ. പബ്ലിക് ക്ലൗഡ് ഡാറ്റ എവിടെ എങ്ങനെ സംഭരിക്കപ്പെടുന്നു എന്നറിയാതെ ഡാറ്റ സംഭരിക്കാൻ ജനപ്രിയമായ ഒരു തിരഞ്ഞെടുപ്പാണ്, ഇവിടെ പബ്ലിക് എന്നത് ക്ലൗഡ് ഉപയോഗിക്കുന്ന എല്ലാവർക്കും പങ്കുവെക്കുന്ന ഏകീകൃത അടിസ്ഥാന ഘടനയെ സൂചിപ്പിക്കുന്നു. ചില സംഘടനകൾക്ക് കർശനമായ സുരക്ഷാ നയങ്ങൾ ഉണ്ട്, അവയ്ക്ക് ഡാറ്റ ഹോസ്റ്റ് ചെയ്യുന്ന ഉപകരണങ്ങളിൽ പൂർണ്ണ ആക്‌സസ് വേണം, അതിനാൽ അവർ സ്വന്തം ക്ലൗഡ് സേവനങ്ങൾ നൽകുന്ന പ്രൈവറ്റ് ക്ലൗഡിൽ ആശ്രയിക്കുന്നു. ക്ലൗഡിലെ ഡാറ്റയെക്കുറിച്ച് കൂടുതൽ അറിയാൻ പിന്നീട് പാഠങ്ങൾ കാണുക.

കൂൾ vs ഹോട്ട് ഡാറ്റ

മോഡലുകൾ പരിശീലിപ്പിക്കുമ്പോൾ കൂടുതൽ പരിശീലന ഡാറ്റ ആവശ്യമാകാം. മോഡലിൽ തൃപ്തിയുണ്ടെങ്കിൽ, കൂടുതൽ ഡാറ്റ മോഡലിന്റെ ലക്ഷ്യം നിറവേറ്റാൻ എത്തും. എങ്കിലും, ഡാറ്റ സംഭരിക്കുന്നതും ആക്‌സസ് ചെയ്യുന്നതും ചെലവ് കൂടും. അപൂർവമായി ഉപയോഗിക്കുന്ന ഡാറ്റ (കൂൾ ഡാറ്റ) സ്ഥിരമായി ആക്‌സസ് ചെയ്യുന്ന ഡാറ്റ (ഹോട്ട് ഡാറ്റ) മുതൽ വേർതിരിക്കുന്നത് ഹാർഡ്‌വെയർ അല്ലെങ്കിൽ സോഫ്റ്റ്‌വെയർ സേവനങ്ങളിലൂടെ ചെലവുകുറഞ്ഞ ഡാറ്റ സംഭരണ ഓപ്ഷൻ ആകാം. കൂൾ ഡാറ്റ ആക്‌സസ് ചെയ്യേണ്ടിവന്നാൽ, ഹോട്ട് ഡാറ്റയേക്കാൾ കുറച്ച് കൂടുതൽ സമയം എടുക്കാം.

ഡാറ്റ മാനേജ്മെന്റ്

ഡാറ്റ ഉപയോഗിക്കുമ്പോൾ, ഡാറ്റാ പ്രിപറേഷൻ പാഠത്തിൽ ഉൾപ്പെടുത്തിയ ചില സാങ്കേതിക വിദ്യകൾ ഉപയോഗിച്ച് ഡാറ്റ ശുദ്ധമാക്കേണ്ടതുണ്ടെന്ന് കണ്ടെത്താം, ഇത് കൃത്യമായ മോഡലുകൾ നിർമ്മിക്കാൻ സഹായിക്കും. പുതിയ ഡാറ്റ എത്തുമ്പോൾ, ഗുണനിലവാരം നിലനിർത്താൻ സമാനമായ പ്രയോഗങ്ങൾ ആവശ്യമാകും. ചില പ്രോജക്ടുകൾ ഡാറ്റ അന്തിമ സ്ഥലത്തേക്ക് മാറ്റുന്നതിന് മുമ്പ് ശുദ്ധീകരണം, സംഗ്രഹണം, കംപ്രഷൻ എന്നിവയ്ക്ക് ഓട്ടോമേറ്റഡ് ടൂൾ ഉപയോഗിക്കും. Azure Data Factory ഇതിന്റെ ഉദാഹരണമാണ്.

ഡാറ്റ സുരക്ഷ

ഡാറ്റ സുരക്ഷയുടെ പ്രധാന ലക്ഷ്യങ്ങളിൽ ഒന്നാണ് ഡാറ്റ കൈകാര്യം ചെയ്യുന്നവർ എന്ത് ശേഖരിക്കുന്നു, ഏത് സാഹചര്യത്തിൽ ഉപയോഗിക്കുന്നു എന്നിവ നിയന്ത്രണത്തിൽ വയ്ക്കുക. ഡാറ്റ സുരക്ഷിതമാക്കുന്നത് ആക്‌സസ് അവശ്യമായവർക്കു മാത്രം പരിമിതപ്പെടുത്തുക, പ്രാദേശിക നിയമങ്ങളും നയങ്ങളും പാലിക്കുക, നൈതികതാ പാഠത്തിൽ ഉൾപ്പെടുത്തിയതുപോലെ നൈതിക മാനദണ്ഡങ്ങൾ പാലിക്കുക എന്നിവ ഉൾപ്പെടുന്നു.

സുരക്ഷയെക്കുറിച്ച് ഒരു ടീം ചെയ്യാവുന്ന ചില കാര്യങ്ങൾ:

  • എല്ലാ ഡാറ്റയും എൻക്രിപ്റ്റ് ചെയ്തിട്ടുണ്ടെന്ന് സ്ഥിരീകരിക്കുക
  • ഉപഭോക്താക്കൾക്ക് അവരുടെ ഡാറ്റ എങ്ങനെ ഉപയോഗിക്കുന്നു എന്ന വിവരം നൽകുക
  • പ്രോജക്ട് വിട്ടുപോയവരുടെ ഡാറ്റ ആക്‌സസ് നീക്കംചെയ്യുക
  • ചില പ്രോജക്ട് അംഗങ്ങൾക്കു മാത്രമേ ഡാറ്റ മാറ്റാൻ അനുവാദം നൽകൂ

🚀 ചലഞ്ച്

ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിളിന്റെ പല പതിപ്പുകൾ ഉണ്ട്, ഓരോ ഘട്ടത്തിനും വ്യത്യസ്ത പേരുകളും ഘട്ടങ്ങളുടെ എണ്ണം വ്യത്യസ്തമായിരിക്കാം, പക്ഷേ ഈ പാഠത്തിൽ പരാമർശിച്ച പ്രക്രിയകൾ എല്ലാം ഉൾക്കൊള്ളും.

ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് ലൈഫ്‌സൈക്കിൾയും ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ്യും പരിശോധിച്ച്, അവയുടെ 3 സാമ്യമുകളും വ്യത്യാസങ്ങളും പറയുക.

ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് (TDSP) ക്രോസ്-ഇൻഡസ്ട്രി സ്റ്റാൻഡേർഡ് പ്രോസസ് ഫോർ ഡാറ്റ മൈനിംഗ് (CRISP-DM)
Team Data Science Lifecycle Data Science Process Alliance Image
ചിത്രം: Microsoft ചിത്രം: Data Science Process Alliance

അവലോകനം & സ്വയം പഠനം

ഡാറ്റാ സയൻസ് ലൈഫ്‌സൈക്കിൾ പ്രയോഗിക്കുന്നത് പല വേഷങ്ങളും ജോലികളും ഉൾക്കൊള്ളുന്നു, ചിലർ ഓരോ ഘട്ടത്തിന്റെ പ്രത്യേക ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കും. ടീം ഡാറ്റാ സയൻസ് പ്രോസസ് പ്രോജക്ടിൽ ഒരാൾക്കുണ്ടാകാവുന്ന വേഷങ്ങളും ജോലികളും വിശദീകരിക്കുന്ന ചില വിഭവങ്ങൾ നൽകുന്നു.

അസൈൻമെന്റ്

ഡാറ്റാസെറ്റ് വിലയിരുത്തൽ


അസൂയാപത്രം:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കപ്പെടണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.