శిక్షణ AI మోడళ్లకు అపారమైన డేటా సెంటర్లు అవసరం లేదు | పుదీనా

0
1


ఒకసారి, ప్రపంచంలోని అత్యంత ధనవంతులు పడవలు, జెట్‌లు మరియు ప్రైవేట్ ద్వీపాలపై పోటీ పడ్డారు. ఇప్పుడు, ఎంపిక యొక్క పరిమాణ-కొలత పోటీ క్లస్టర్లు. కేవలం 18 నెలల క్రితం, ఓపెనాయ్ జిపిటి -4, అప్పటి అత్యాధునిక పెద్ద భాషా మోడల్ (ఎల్ఎల్ఎమ్), సుమారు 25,000 నెట్‌వర్క్‌లో ఎన్విడియా తయారు చేసిన అత్యాధునిక గ్రాఫిక్స్ ప్రాసెసింగ్ యూనిట్లు (జిపియు) లో శిక్షణ ఇచ్చింది. ఇప్పుడు ఎలోన్ మస్క్ మరియు మార్క్ జుకర్‌బర్గ్, వరుసగా X మరియు మెటా ఉన్నతాధికారులు తమ చిప్‌లను గాలిలో aving పుతున్నారు: మిస్టర్ మస్క్ తన వద్ద ఒక డేటా సెంటర్‌లో 100,000 GPU లు ఉన్నాయని మరియు 200,000 కొనాలని యోచిస్తున్నట్లు చెప్పారు. మిస్టర్ జుకర్‌బర్గ్ తనకు 350,000 లభిస్తుందని చెప్పారు.

ఎప్పటికప్పుడు-శక్తివంతమైన కృత్రిమ-ఇంటెలిజెన్స్ (AI) నమూనాల కోసం ఎప్పటికప్పుడు-బిగ్గర్ కంప్యూటింగ్ క్లస్టర్‌లను నిర్మించటానికి ఈ పోటీ నిరవధికంగా కొనసాగదు. ప్రతి అదనపు చిప్ ప్రాసెసింగ్ శక్తిని మాత్రమే కాకుండా, మొత్తం క్లస్టర్‌ను సమకాలీకరించే సంస్థాగత భారాన్ని కూడా జోడిస్తుంది. ఎక్కువ చిప్స్ ఉన్నాయి, డేటా సెంటర్ యొక్క చిప్స్ ఎక్కువ సమయం ఉపయోగకరమైన పనిని చేయకుండా డేటాను షట్లింగ్ చేస్తుంది. GPU ల సంఖ్యను పెంచడం తగ్గుతున్న రాబడిని అందిస్తుంది.

అందువల్ల కంప్యూటర్ శాస్త్రవేత్తలు భవిష్యత్ AI మోడళ్లకు శిక్షణ ఇవ్వడానికి తెలివైన, తక్కువ వనరు-ఇంటెన్సివ్ మార్గాల కోసం చూస్తున్నారు. అపారమైన బెస్పోక్ కంప్యూటింగ్ క్లస్టర్‌లను (మరియు వాటి అనుబంధ ముందస్తు ఖర్చులు) పూర్తిగా మరియు బదులుగా, అనేక చిన్న డేటా సెంటర్ల మధ్య శిక్షణ పనిని పంపిణీ చేయడం ద్వారా పరిష్కారం ఉంటుంది. ఇది కొంతమంది నిపుణులు, మరింత ప్రతిష్టాత్మక లక్ష్యం వైపు మొదటి అడుగు కావచ్చు -ఏ ప్రత్యేకమైన హార్డ్‌వేర్ అవసరం లేకుండా AI మోడళ్లను శిక్షణ ఇవ్వడం.

ఆధునిక AI వ్యవస్థకు శిక్షణ ఇవ్వడం అనేది డేటా -సెంటెన్సెస్, చెప్పండి, లేదా ప్రోటీన్ యొక్క నిర్మాణం -కొన్ని విభాగాలను దాచిపెట్టింది. దాచిన విభాగాలు ఏమిటో మోడల్ అంచనా వేస్తుంది. ఇది తప్పు అంచనా వేస్తే, బ్యాక్‌ప్రొపగేషన్ అని పిలువబడే గణిత ప్రక్రియ ద్వారా మోడల్ సర్దుబాటు చేయబడుతుంది, తద్వారా, తదుపరిసారి అదే అంచనాను ప్రయత్నించినప్పుడు, అది సరైన సమాధానానికి అనంతంగా దగ్గరగా ఉంటుంది.

మీరు ఇబ్బంది అని నాకు తెలుసు

మీరు “సమాంతరంగా” పని చేయగలిగేటప్పుడు సమస్యలు వస్తాయి – రెండు, లేదా 200,000, GPU లు ఒకే సమయంలో బ్యాక్‌ప్రొపగేషన్‌లో పనిచేస్తాయి. ప్రతి దశ తరువాత, చిప్స్ వారు చేసిన మార్పుల గురించి డేటాను పంచుకుంటాయి. వారు అలా చేయకపోతే, మీకు ఒక్క శిక్షణా రన్ ఉండదు, మీకు 200,000 చిప్స్ 200,000 మోడళ్లకు శిక్షణ ఇస్తారు. ఆ డేటా-షేరింగ్ ప్రక్రియ “చెక్‌పాయింటింగ్” తో మొదలవుతుంది, దీనిలో ఇప్పటివరకు శిక్షణ యొక్క స్నాప్‌షాట్ సృష్టించబడుతుంది. ఇది వేగంగా సంక్లిష్టంగా ఉంటుంది. రెండు చిప్‌ల మధ్య ఒకే ఒక లింక్ ఉంది, కానీ 190 మధ్య 20 చిప్‌ల మధ్య మరియు 200,000 చిప్‌లకు దాదాపు 20 బిలియన్లు. చెక్‌పాయింట్ మరియు భాగస్వామ్యం చేయడానికి సమయం తీసుకునే సమయం ప్రారంభమవుతుంది. పెద్ద శిక్షణ పరుగుల కోసం, ఈ శిక్షణ లేని దశల కోసం సగం సమయం తరచుగా ఖర్చు చేయవచ్చు.

ఆ వృధా సమయం అంతా గూగుల్ డీప్‌మైండ్ వద్ద ఇంజనీర్ ఆర్థర్ డౌలార్డ్‌ను ఇచ్చింది. తక్కువ చెక్‌పాయింట్లు ఎందుకు చేయకూడదు? 2023 చివరలో, అతను మరియు అతని సహచరులు “భాషా నమూనాల తక్కువ-కమ్యూనికేషన్ శిక్షణ” లేదా డిలోకో కోసం ఒక పద్ధతిని ప్రచురించారు. 100,000 GPU లపై శిక్షణ ఇవ్వడానికి బదులుగా, ఇవన్నీ అడుగడుగునా ఒకరితో ఒకరు మాట్లాడుకుంటాయి, డిలోకో వేర్వేరు “ద్వీపాలలో” శిక్షణను ఎలా పంపిణీ చేయాలో వివరిస్తుంది, ప్రతి ఒక్కటి ఇప్పటికీ గణనీయమైన డేటా సెంటర్. ద్వీపాలలో, చెక్‌పాయింటింగ్ సాధారణమైనదిగా కొనసాగుతుంది, కానీ వాటి అంతటా, కమ్యూనికేషన్ భారం 500 రెట్లు పడిపోతుంది.

ట్రేడ్-ఆఫ్స్ ఉన్నాయి. ఈ విధంగా శిక్షణ పొందిన నమూనాలు ఏకశిలా డేటా సెంటర్లలో శిక్షణ పొందిన అదే గరిష్ట పనితీరును తాకడానికి కష్టపడుతున్నట్లు అనిపిస్తుంది. కానీ ఆసక్తికరంగా, మోడల్స్ వారు శిక్షణ పొందిన అదే పనులపై రేట్ చేయబడినప్పుడు మాత్రమే ఆ ప్రభావం ఉన్నట్లు అనిపిస్తుంది: తప్పిపోయిన డేటాను అంచనా వేయడం.

వారు ఇంతకు ముందు చేయమని ఎప్పుడూ అడగలేదని వారు అంచనాలకు మారినప్పుడు, వారు బాగా సాధారణీకరించబడినట్లు అనిపిస్తుంది. శిక్షణ డేటాలో కాకుండా ఒక రూపంలో ఒక తార్కిక ప్రశ్నకు సమాధానం ఇవ్వమని వారిని అడగండి, మరియు పౌండ్ కోసం పౌండ్ వారు సాంప్రదాయకంగా శిక్షణ పొందిన నమూనాలను అధిగమిస్తారు. ఇది ప్రతి ద్వీపం యొక్క ఒక కళాకృతి కావచ్చు, ఇది చెక్‌పాయింటింగ్ పరుగుల మధ్య, వారు పనిని తిరిగి లాగడం మధ్య దాని స్వంత దిశలో కొంచెం స్వేచ్ఛగా ఉంటుంది. సామూహికంగా ఉపన్యాసాలు ఇవ్వడం కంటే స్టూడియో అండర్ గ్రాడ్యుయేట్ల సమిష్టిలాగా, తుది ఫలితం చేతిలో ఉన్న పనిపై కొంచెం తక్కువ దృష్టి కేంద్రీకరిస్తుంది, కానీ చాలా విస్తృత అనుభవంతో.

ఓపెన్-సోర్స్ AI ల్యాబ్ అయిన ప్రైమ్ ఇంటెలెక్ట్ వ్యవస్థాపకుడు విన్సెంట్ వీజర్, డిలోకోను తీసుకొని దానితో పరిగెత్తాడు. నవంబర్ 2024 లో, అతని బృందం మేధో -1 పై శిక్షణను పూర్తి చేసింది, 10 బిఎన్-పారామితి ఎల్ఎల్ఎమ్ మెటా యొక్క కేంద్ర శిక్షణ పొందిన లామా 2 తో పోల్చదగినది, ఇది 2023 లో విడుదలైనప్పుడు అత్యాధునికమైనది.

మిస్టర్ వీజర్ యొక్క బృందం మిస్టర్ డౌలార్డ్ యొక్క అసలైనది యొక్క తేలికగా సవరించిన సంస్కరణ అయిన ఓపెండిలోకోను నిర్మించింది మరియు మూడు ఖండాలలో ఎనిమిది నగరాల్లో 30 GPU క్లస్టర్‌లను ఉపయోగించి కొత్త మోడల్‌ను శిక్షణ ఇవ్వడానికి పని చేసింది. అతని పరీక్షలలో, GPUS 83% సమయం చురుకుగా పనిచేసింది -ఇది బేస్లైన్ దృష్టాంతంలో 100% తో పోలిస్తే, దీనిలో అన్ని GPU లు ఒకే భవనంలో ఉన్నాయి. శిక్షణ అమెరికాలో డేటా సెంటర్లకు పరిమితం అయినప్పుడు, వారు 96% సమయం చురుకుగా పనిచేస్తున్నారు. ప్రతి శిక్షణా దశను చెక్‌పాయింట్ చేయడానికి బదులుగా, మిస్టర్ వీసెర్ యొక్క అప్రోచ్ చెక్‌పాయింట్లు ప్రతి 500 దశలు మాత్రమే. మరియు ప్రతి మార్పు గురించి మొత్తం సమాచారాన్ని పంచుకునే బదులు, ఇది మార్పులను “పరిమాణపరుస్తుంది”, డేటాలో కనీసం ముఖ్యమైన మూడు వంతులు పడిపోతుంది.

అత్యంత అధునాతన ప్రయోగశాలల కోసం, మోనోలిథిక్ డేటా సెంటర్లు ఇప్పటికే నిర్మించబడ్డాయి, ఇంకా పంపిణీ శిక్షణకు మారడానికి ఇంకా కారణం లేదు. కానీ, సమయం ఇచ్చినప్పుడు, మిస్టర్ డౌలార్డ్ తన విధానం ప్రమాణంగా మారుతుందని భావిస్తాడు. ప్రయోజనాలు స్పష్టంగా ఉన్నాయి, మరియు నష్టాలు -కనీసం, ఇప్పటివరకు పూర్తయిన చిన్న శిక్షణ పరుగుల ద్వారా వివరించబడినవి -చాలా పరిమితం.

ప్రైమ్ మేధస్సు వంటి ఓపెన్ సోర్స్ ల్యాబ్ కోసం, పంపిణీ చేయబడిన విధానం ఇతర ప్రయోజనాలను కలిగి ఉంది. 10 బిఎన్-పారామితి మోడల్‌కు శిక్షణ ఇచ్చేంత పెద్ద డేటా సెంటర్లు చాలా తక్కువ. ఆ కొరత వారి గణనను యాక్సెస్ చేయడానికి ధరలను పెంచుతుంది -ఇది బహిరంగ మార్కెట్లో కూడా అందుబాటులో ఉంటే, వాటిని నిర్మించిన సంస్థలచే నిల్వ చేయకుండా. చిన్న సమూహాలు తక్షణమే అందుబాటులో ఉన్నాయి. ఉపయోగించిన 30 క్లస్టర్‌లలో ప్రతి ఒక్కటి కేవలం ఎనిమిది GPU ల యొక్క రాక్, ఏ సమయంలోనైనా ఆన్‌లైన్‌లో 14 క్లస్టర్‌లు ఉన్నాయి. ఈ వనరు ఫ్రాంటియర్ ల్యాబ్స్ ఉపయోగించే డేటా సెంటర్ల కంటే వెయ్యి రెట్లు చిన్నది, కాని మిస్టర్ వీజర్ లేదా మిస్టర్ డౌలార్డ్ వారి విధానం స్కేల్ చేయకపోవడానికి ఎటువంటి కారణం చూడలేదు.

మిస్టర్ వీజర్ కోసం, శిక్షణను పంపిణీ చేయడానికి ప్రేరణ కూడా శక్తిని పంపిణీ చేయడం -మరియు విద్యుత్ కోణంలో మాత్రమే కాదు. “ఇది ఒక దేశం, ఒకే సంస్థ చేతిలో లేకపోవడం చాలా ముఖ్యం” అని ఆయన చెప్పారు. ఈ విధానం అన్నింటికీ ఉచితంగా కాదు, అయినప్పటికీ అతను తన శిక్షణ పరుగులో ఉపయోగించిన ఎనిమిది-జిపియు క్లస్టర్లలో ఒకటి, 000 600,000 ఖర్చు అవుతుంది; ప్రైమ్ మేజెంట్ చేత అమలు చేయబడిన మొత్తం నెట్‌వర్క్ కొనడానికి m 18 మిలియన్లు ఖర్చు అవుతుంది. కానీ అతని పని ఒక సంకేతం, కనీసం, శిక్షణ సామర్థ్యం గల AI మోడళ్లకు బిలియన్ డాలర్లు ఖర్చు చేయవలసిన అవసరం లేదు.

మరియు ఖర్చులు ఇంకా తగ్గగలిగితే? నిజంగా వికేంద్రీకృత AI ని అనుసరించే డెవలపర్‌ల కల ఏమిటంటే, ఉద్దేశ్యంతో నిర్మించిన శిక్షణ చిప్స్ యొక్క అవసరాన్ని పూర్తిగా తగ్గించడం. టెరాఫ్లోప్‌లలో కొలుస్తారు, ఒక సెకనులో చిప్ ఎన్ని ఆపరేషన్లు చేయగలదో, ఎన్విడియా యొక్క అత్యంత సమర్థవంతమైన చిప్‌లలో ఒకటి 300 లేదా అంతకంటే ఎక్కువ టాప్-ఎండ్ ఐఫోన్‌ల వలె శక్తివంతమైనది. కానీ GPU ల కంటే ప్రపంచంలో చాలా ఎక్కువ ఐఫోన్లు ఉన్నాయి. వారు (మరియు ఇతర వినియోగదారు కంప్యూటర్లు) అన్నీ పని చేయగలిగితే, వారి యజమానులు నిద్రిస్తున్నప్పుడు శిక్షణ పరుగుల ద్వారా మండిపోతుంటే?

ట్రేడ్-ఆఫ్స్ అపారంగా ఉంటాయి. అధిక-పనితీరు గల చిప్‌లతో పనిచేయడం సౌలభ్యం ఏమిటంటే, ప్రపంచవ్యాప్తంగా పంపిణీ చేయబడినప్పుడు కూడా, అవి కనీసం అదే వేగంతో పనిచేసే అదే మోడల్. అది పోతుంది. అధ్వాన్నంగా, శిక్షణ పురోగతిని ప్రతి చెక్‌పాయింట్ దశలో సమగ్రపరచడం మరియు పున ist పంపిణీ చేయాల్సిన అవసరం ఉంది, కాబట్టి శిక్షణ డేటా కూడా ఉంటుంది, ఎందుకంటే సాధారణ వినియోగదారు హార్డ్‌వేర్ కట్టింగ్-ఎడ్జ్ LLM లోకి వెళ్ళే డేటా యొక్క టెరాబైట్లని నిల్వ చేయలేకపోతుంది. కొత్త కంప్యూటింగ్ పురోగతులు అవసరమవుతాయని నిక్ లేన్ ఆఫ్ ఫ్లవర్ చెప్పారు, ఆ విధానాన్ని రియాలిటీ చేయడానికి ప్రయత్నిస్తున్న ప్రయోగశాలలలో ఒకటి.

లాభాలు, అయితే, మంచి మోడళ్లకు దారితీసే విధానంతో, మిస్టర్ లేన్‌ను లెక్కించారు. పంపిణీ చేసిన శిక్షణ సాధారణీకరణలో మోడళ్లను మెరుగ్గా చేస్తుంది, “షార్డెడ్” డేటాసెట్లపై శిక్షణ పొందిన నమూనాలు, ఇక్కడ ప్రతి GPU కి శిక్షణ డేటా యొక్క భాగాలు మాత్రమే ఇవ్వబడతాయి, వాస్తవ ప్రపంచంలో unexpected హించని ఇన్‌పుట్‌ను ఎదుర్కొన్నప్పుడు మెరుగ్గా పని చేయవచ్చు. బిలియనీర్లకు పోటీ చేయడానికి ఇంకేమైనా అవసరమవుతుంది.

© 2025, ది ఎకనామిస్ట్ న్యూస్‌పేపర్ లిమిటెడ్. అన్ని హక్కులూ ప్రత్యేకించుకోవడమైనది. ది ఎకనామిస్ట్ నుండి, లైసెన్స్ క్రింద ప్రచురించబడింది. అసలు కంటెంట్‌ను www.economist.com లో చూడవచ్చు

అన్నింటినీ పట్టుకోండి టెక్నాలజీ ప్రత్యక్ష పుదీనాపై వార్తలు మరియు నవీకరణలు. డౌన్‌లోడ్ పుదీనా వార్తల అనువర్తనం ప్రతిరోజూ పొందడానికి మార్కెట్ నవీకరణలు & లైవ్ వ్యాపార వార్తలు.

వ్యాపార వార్తలుటెక్నాలజీశిక్షణ AI మోడళ్లకు అపారమైన డేటా సెంటర్లు అవసరం లేకపోవచ్చు

మరిన్నితక్కువ



Source link