వార్తలు - మోడల్ శిక్షణలో స్టోరేజీని ప్రధాన అడ్డంకిగా మార్చవద్దు

టెక్నాలజీ కంపెనీలు GPUల కోసం ప్రయత్నిస్తున్నాయని లేదా వాటిని పొందే మార్గంలో ఉన్నాయని చెప్పబడింది.ఏప్రిల్‌లో, టెస్లా CEO ఎలోన్ మస్క్ 10,000 GPUలను కొనుగోలు చేశారు మరియు కంపెనీ NVIDIA నుండి పెద్ద మొత్తంలో GPUలను కొనుగోలు చేయడాన్ని కొనసాగిస్తుందని పేర్కొన్నారు.ఎంటర్‌ప్రైజ్ వైపు, పెట్టుబడిపై రాబడిని పెంచడానికి GPUలు నిరంతరం ఉపయోగించబడుతున్నాయని నిర్ధారించడానికి IT సిబ్బంది కూడా తీవ్రంగా కృషి చేస్తున్నారు.అయినప్పటికీ, GPUల సంఖ్య పెరిగినప్పుడు, GPU పనిలేకుండా ఉండటం మరింత తీవ్రంగా మారుతుందని కొన్ని కంపెనీలు గుర్తించవచ్చు.

హై-పెర్ఫార్మెన్స్ కంప్యూటింగ్ (HPC) గురించి చరిత్ర మనకు ఏదైనా బోధిస్తే, గణనపై ఎక్కువ దృష్టి పెట్టడం వల్ల నిల్వ మరియు నెట్‌వర్కింగ్‌ను త్యాగం చేయకూడదు.నిల్వ సమర్ధవంతంగా డేటాను కంప్యూటింగ్ యూనిట్‌లకు బదిలీ చేయలేకపోతే, మీరు ప్రపంచంలో అత్యధిక GPUలను కలిగి ఉన్నప్పటికీ, మీరు సరైన సామర్థ్యాన్ని సాధించలేరు.

మైక్ మాట్చెట్, స్మాల్ వరల్డ్ బిగ్ డేటా విశ్లేషకుడు ప్రకారం, చిన్న మోడల్‌లను మెమరీలో (RAM) అమలు చేయవచ్చు, ఇది గణనపై ఎక్కువ దృష్టి పెట్టడానికి వీలు కల్పిస్తుంది.అయినప్పటికీ, బిలియన్ల నోడ్‌లతో కూడిన ChatGPT వంటి పెద్ద మోడల్‌లు అధిక ధర కారణంగా మెమరీలో నిల్వ చేయబడవు.

"మీరు మెమరీలో బిలియన్ల నోడ్‌లను అమర్చలేరు, కాబట్టి నిల్వ మరింత ముఖ్యమైనది," అని మాచెట్ చెప్పారు.దురదృష్టవశాత్తూ, ప్రణాళికా ప్రక్రియలో డేటా నిల్వ తరచుగా విస్మరించబడుతుంది.

సాధారణంగా, వినియోగ కేసుతో సంబంధం లేకుండా, మోడల్ శిక్షణ ప్రక్రియలో నాలుగు సాధారణ అంశాలు ఉన్నాయి:

1. మోడల్ శిక్షణ
2. అనుమితి అప్లికేషన్
3. డేటా నిల్వ
4. వేగవంతమైన కంప్యూటింగ్

మోడల్‌లను సృష్టించేటప్పుడు మరియు అమలు చేస్తున్నప్పుడు, చాలా అవసరాలు శీఘ్ర ప్రూఫ్-ఆఫ్-కాన్సెప్ట్ (POC) లేదా మోడల్ శిక్షణను ప్రారంభించడానికి టెస్టింగ్ ఎన్విరాన్‌మెంట్‌లకు ప్రాధాన్యత ఇస్తాయి, డేటా స్టోరేజీకి ఎక్కువ ప్రాధాన్యత ఇవ్వబడదు.

ఏది ఏమైనప్పటికీ, శిక్షణ లేదా అనుమితి విస్తరణ నెలలు లేదా సంవత్సరాల పాటు కొనసాగుతుందనే వాస్తవంలో సవాలు ఉంది.ఈ సమయంలో చాలా కంపెనీలు తమ మోడల్ పరిమాణాలను వేగంగా పెంచుకుంటాయి మరియు పెరుగుతున్న మోడల్‌లు మరియు డేటాసెట్‌లకు అనుగుణంగా మౌలిక సదుపాయాలు తప్పనిసరిగా విస్తరించాలి.

మిలియన్ల కొద్దీ ML శిక్షణా పనిభారంపై Google చేసిన పరిశోధనలో సగటున 30% శిక్షణ సమయం ఇన్‌పుట్ డేటా పైప్‌లైన్‌పై ఖర్చు చేయబడుతుందని వెల్లడైంది.శిక్షణను వేగవంతం చేయడానికి GPUలను ఆప్టిమైజ్ చేయడంపై గత పరిశోధనలు దృష్టి సారించినప్పటికీ, డేటా పైప్‌లైన్‌లోని వివిధ భాగాలను ఆప్టిమైజ్ చేయడంలో అనేక సవాళ్లు ఇప్పటికీ ఉన్నాయి.మీరు గణనీయమైన గణన శక్తిని కలిగి ఉన్నప్పుడు, ఫలితాలను పొందడానికి మీరు గణనలలో డేటాను ఎంత త్వరగా ఫీడ్ చేయగలరు అనేది నిజమైన అడ్డంకిగా మారుతుంది.

ప్రత్యేకించి, డేటా నిల్వ మరియు నిర్వహణలోని సవాళ్లకు డేటా వృద్ధికి ప్రణాళిక అవసరం, మీరు అభివృద్ధి చెందుతున్నప్పుడు డేటా విలువను నిరంతరం సంగ్రహించడానికి మిమ్మల్ని అనుమతిస్తుంది, ప్రత్యేకించి మీరు లోతైన అభ్యాసం మరియు నాడీ నెట్‌వర్క్‌ల వంటి మరింత అధునాతన వినియోగ కేసులలోకి ప్రవేశించినప్పుడు, ఇది అధిక డిమాండ్‌లను కలిగి ఉంటుంది. సామర్థ్యం, పనితీరు మరియు స్కేలబిలిటీ పరంగా నిల్వ.

ముఖ్యంగా:

స్కేలబిలిటీ
మెషిన్ లెర్నింగ్‌కు విస్తారమైన డేటాను నిర్వహించడం అవసరం మరియు డేటా పరిమాణం పెరిగేకొద్దీ, మోడల్స్ యొక్క ఖచ్చితత్వం కూడా మెరుగుపడుతుంది.వ్యాపారాలు ప్రతిరోజూ మరింత డేటాను సేకరించి, నిల్వ చేయాలి.నిల్వ స్కేల్ చేయలేనప్పుడు, డేటా-ఇంటెన్సివ్ వర్క్‌లోడ్ అడ్డంకులను సృష్టిస్తుంది, పనితీరును పరిమితం చేస్తుంది మరియు ఫలితంగా ఖరీదైన GPU నిష్క్రియ సమయం ఏర్పడుతుంది.

వశ్యత
బహుళ ప్రోటోకాల్‌లకు (NFS, SMB, HTTP, FTP, HDFS మరియు S3తో సహా) అనువైన మద్దతు వివిధ సిస్టమ్‌ల అవసరాలను తీర్చడానికి, ఒకే రకమైన పర్యావరణానికి పరిమితం కాకుండా అవసరం.

జాప్యం
మోడల్‌లను రూపొందించడానికి మరియు ఉపయోగించేందుకు I/O జాప్యం కీలకం ఎందుకంటే డేటా అనేకసార్లు చదవబడుతుంది మరియు మళ్లీ చదవబడుతుంది.I/O లేటెన్సీని తగ్గించడం వల్ల మోడల్స్ శిక్షణ సమయాన్ని రోజులు లేదా నెలలకు తగ్గించవచ్చు.వేగవంతమైన మోడల్ అభివృద్ధి నేరుగా ఎక్కువ వ్యాపార ప్రయోజనాలకు అనువదిస్తుంది.

నిర్గమాంశ
సమర్థవంతమైన మోడల్ శిక్షణ కోసం నిల్వ వ్యవస్థల నిర్గమాంశం కీలకం.శిక్షణ ప్రక్రియలు పెద్ద మొత్తంలో డేటాను కలిగి ఉంటాయి, సాధారణంగా గంటకు టెరాబైట్లలో.

సమాంతర యాక్సెస్
అధిక నిర్గమాంశను సాధించడానికి, శిక్షణ నమూనాలు కార్యకలాపాలను బహుళ సమాంతర పనులుగా విభజించాయి.మెషిన్ లెర్నింగ్ అల్గారిథమ్‌లు ఒకే ఫైల్‌లను బహుళ ప్రక్రియల నుండి (బహుళ భౌతిక సర్వర్‌లలో సంభావ్యంగా) ఏకకాలంలో యాక్సెస్ చేస్తాయని దీని అర్థం.స్టోరేజీ సిస్టమ్ పనితీరులో రాజీ పడకుండా ఏకకాలిక డిమాండ్‌లను నిర్వహించాలి.

తక్కువ జాప్యం, అధిక నిర్గమాంశ మరియు పెద్ద-స్థాయి సమాంతర I/Oలో అత్యుత్తమ సామర్థ్యాలతో, Dell PowerScale GPU-యాక్సిలరేటెడ్ కంప్యూటింగ్‌కు ఆదర్శవంతమైన నిల్వ పూరకంగా ఉంది.పవర్‌స్కేల్ మల్టీ-టెరాబైట్ డేటాసెట్‌లకు శిక్షణ ఇచ్చే మరియు పరీక్షించే విశ్లేషణ నమూనాల కోసం అవసరమైన సమయాన్ని సమర్థవంతంగా తగ్గిస్తుంది.PowerScale ఆల్-ఫ్లాష్ స్టోరేజ్‌లో, బ్యాండ్‌విడ్త్ 18 రెట్లు పెరుగుతుంది, I/O అడ్డంకులను తొలగిస్తుంది మరియు పెద్ద మొత్తంలో నిర్మాణాత్మకంగా లేని డేటా యొక్క విలువను వేగవంతం చేయడానికి మరియు అన్‌లాక్ చేయడానికి ఇప్పటికే ఉన్న Isilon క్లస్టర్‌లకు జోడించవచ్చు.

అంతేకాకుండా, పవర్‌స్కేల్ యొక్క బహుళ-ప్రోటోకాల్ యాక్సెస్ సామర్థ్యాలు పనిభారాన్ని అమలు చేయడానికి అపరిమిత సౌలభ్యాన్ని అందిస్తాయి, డేటాను ఒక ప్రోటోకాల్‌ను ఉపయోగించి నిల్వ చేయడానికి మరియు మరొక ప్రోటోకాల్‌ను ఉపయోగించి యాక్సెస్ చేయడానికి అనుమతిస్తుంది.ప్రత్యేకించి, పవర్‌స్కేల్ ప్లాట్‌ఫారమ్ యొక్క శక్తివంతమైన ఫీచర్‌లు, ఫ్లెక్సిబిలిటీ, స్కేలబిలిటీ మరియు ఎంటర్‌ప్రైజ్-గ్రేడ్ ఫంక్షనాలిటీ క్రింది సవాళ్లను పరిష్కరించడంలో సహాయపడతాయి:

- మోడల్ శిక్షణా చక్రాన్ని తగ్గించడం ద్వారా 2.7 రెట్లు వరకు ఆవిష్కరణను వేగవంతం చేయండి.

- I/O అడ్డంకులను తొలగించండి మరియు వేగవంతమైన మోడల్ శిక్షణ మరియు ధృవీకరణ, మెరుగైన మోడల్ ఖచ్చితత్వం, మెరుగైన డేటా సైన్స్ ఉత్పాదకత మరియు ఎంటర్‌ప్రైజ్-గ్రేడ్ ఫీచర్‌లు, అధిక పనితీరు, కరెన్సీ మరియు స్కేలబిలిటీని పెంచడం ద్వారా కంప్యూటింగ్ పెట్టుబడులపై గరిష్ట రాబడిని అందిస్తాయి.ఒకే క్లస్టర్‌లో 119 PB వరకు సమర్థవంతమైన నిల్వ సామర్థ్యాన్ని పెంచడం ద్వారా లోతైన, అధిక-రిజల్యూషన్ డేటాసెట్‌లతో మోడల్ ఖచ్చితత్వాన్ని మెరుగుపరచండి.

- చిన్న మరియు స్వతంత్రంగా స్కేలింగ్ కంప్యూట్ మరియు స్టోరేజ్‌ని ప్రారంభించడం, బలమైన డేటా రక్షణ మరియు భద్రతా ఎంపికలను అందించడం ద్వారా స్కేల్‌లో విస్తరణను సాధించండి.

- వేగవంతమైన, తక్కువ-రిస్క్ విస్తరణల కోసం ఇన్-ప్లేస్ అనలిటిక్స్ మరియు ప్రీ-వాలిడేటెడ్ సొల్యూషన్‌లతో డేటా సైన్స్ ఉత్పాదకతను మెరుగుపరచండి.

- NVIDIA GPU యాక్సిలరేషన్ మరియు NVIDIA DGX సిస్టమ్‌లతో రిఫరెన్స్ ఆర్కిటెక్చర్‌లతో సహా అత్యుత్తమ-జాతి సాంకేతికతల ఆధారంగా నిరూపితమైన డిజైన్‌లను ఉపయోగించడం.పవర్‌స్కేల్ యొక్క అధిక పనితీరు మరియు కాన్‌కరెన్సీ డేటా సేకరణ మరియు తయారీ నుండి మోడల్ శిక్షణ మరియు అనుమితి వరకు మెషిన్ లెర్నింగ్ యొక్క ప్రతి దశలో నిల్వ పనితీరు అవసరాలను తీరుస్తుంది.OneFS ఆపరేటింగ్ సిస్టమ్‌తో పాటు, అన్ని నోడ్‌లు ఒకే OneFS-నడిచే క్లస్టర్‌లో సజావుగా పని చేయగలవు, పనితీరు నిర్వహణ, డేటా నిర్వహణ, భద్రత మరియు డేటా రక్షణ వంటి ఎంటర్‌ప్రైజ్-స్థాయి ఫీచర్‌లతో, మోడల్ శిక్షణ మరియు వ్యాపారాల కోసం ధ్రువీకరణను వేగంగా పూర్తి చేయడానికి వీలు కల్పిస్తుంది.

పోస్ట్ సమయం: జూలై-03-2023