נייַעס - דו זאלסט נישט לאָזן סטאָרידזש ווערן דער שליסל באַטאַלנעק אין מאָדעל טראַינינג

עס איז געזאָגט אַז טעכנאָלאָגיע קאָמפּאַניעס זענען אָדער סקראַמבאַלינג פֿאַר גפּוס אָדער אויף דעם וועג צו קריגן זיי. אין אפריל, טעסלאַ סעאָ עלאָן מוסק פּערטשאַסט 10,000 גפּוס און סטייטיד אַז די פירמע וואָלט פאָרזעצן צו קויפן אַ גרויס קוואַנטיטי פון גפּוס פֿון NVIDIA. אויף די פאַרנעמונג זייַט, IT פּערסאַנעל זענען אויך פּושינג שווער צו ענשור אַז גפּוס זענען קעסיידער יוטאַלייזד צו מאַקסאַמייז די צוריקקער פון ינוועסמאַנט. אָבער, עטלעכע קאָמפּאַניעס קען געפֿינען אַז בשעת די נומער פון גפּוס ינקריסיז, די יידאַלנאַס פון די גפּו ווערט מער שטרענג.

אויב געשיכטע האט געלערנט אונדז עפּעס וועגן הויך-פאָרשטעלונג קאַמפּיוטינג (HPC), עס איז אַז סטאָרידזש און נעטוואָרקינג זאָל ניט זיין מקריב געווען אויף די קאָסט פון פאָוקיסינג צו פיל אויף קאַמפּיוטינג. אויב סטאָרידזש קענען נישט יפישאַנטלי אַריבערפירן דאַטן צו די קאַמפּיוטינג וניץ, אפילו אויב איר האָבן די מערסט גפּוס אין דער וועלט, איר וועט נישט דערגרייכן אָפּטימאַל עפעקטיווקייַט.

לויט Mike Matchett, אַן אַנאַליסט אין קליין וועלט ביג דאַטאַ, קלענערער מאָדעלס קענען זיין עקסאַקיוטאַד אין זיקאָרן (באַראַן), אַלאַוינג מער פאָקוס אויף קאַמפּיאַטיישאַן. אָבער, גרעסערע מאָדעלס ווי ChatGPT מיט ביליאַנז פון נאָודז קענען ניט זיין סטאָרד אין זכּרון רעכט צו דער הויך פּרייַז.

"איר קענען ניט פּאַסיק ביליאַנז פון נאָודז אין זכּרון, אַזוי סטאָרידזש ווערט אפילו מער וויכטיק," Matchett זאגט. צום באַדויערן, דאַטן סטאָרידזש איז אָפט אָוווערלוקט בעשאַס די פּלאַנירונג פּראָצעס.

אין אַלגעמיין, ראַגאַרדלאַס פון די נוצן פאַל, עס זענען פיר פּראָסט פונקטן אין די מאָדעל טריינינג פּראָצעס:

1. מאָדעל טראַינינג
2. ינפעראַנס אַפּפּליקאַטיאָן
3. דאַטאַ סטאָרידזש
4. אַקסעלערייטיד קאַמפּיוטינג

ווען קריייטינג און דיפּלויינג מאָדעלס, רובֿ רעקווירעמענץ פּרייאָראַטייז שנעל דערווייַז-פון-באַגריף (POC) אָדער טעסטינג ינווייראַנמאַנץ צו אָנהייבן מאָדעל טריינינג, מיט דאַטן סטאָרידזש דאַרף ניט זיין העכסט באַטראַכט.

אָבער, די אַרויסרופן ליגט אין דעם פאַקט אַז טריינינג אָדער ינפעראַנס דיפּלוימאַנט קענען דויערן פֿאַר חדשים אָדער אפילו יאָרן. פילע קאָמפּאַניעס ראַפּאַדלי פאַרגרעסערן זייער מאָדעל סיזעס בעשאַס דעם צייט, און די ינפראַסטראַקטשער מוזן יקספּאַנד צו אַקאַמאַדייט די גראָוינג מאָדעלס און דאַטאַסעץ.

פאָרשונג פון Google אויף מיליאַנז פון ML טריינינג ווערקלאָודז ריווילז אַז אַ דורכשניטלעך פון 30% פון טריינינג צייט איז פארבראכט אויף די אַרייַנשרייַב דאַטן רערנ - ליניע. בשעת פאַרגאַנגענהייט פאָרשונג האט פאָוקיסט אויף אָפּטימיזינג גפּוס צו פאַרגיכערן טריינינג, פילע טשאַלאַנדזשיז נאָך בלייבן אין אָפּטימיזינג פאַרשידן פּאַרץ פון די דאַטן רערנ - ליניע. ווען איר האָבן אַ באַטייטיק קאַמפּיוטיישאַנאַל מאַכט, די פאַקטיש באַטאַלנעק ווערט ווי געשווינד איר קענען קאָרמען דאַטן אין די קאַמפּיאַטיישאַנז צו באַקומען רעזולטאַטן.

ספּאַסיפיקלי, די טשאַלאַנדזשיז אין דאַטן סטאָרידזש און פאַרוואַלטונג דאַרפן פּלאַנירונג פֿאַר דאַטן וווּקס, אַלאַוינג איר קאַנטיניואַסלי עקסטראַקט די ווערט פון דאַטן ווען איר פּראָגרעס, ספּעציעל ווען איר פירנעם אין מער אַוואַנסירטע נוצן קאַסעס אַזאַ ווי טיף לערנען און נעוראַל נעטוואָרקס, וואָס שטעלן העכער פאדערונגען אויף סטאָרידזש אין טערמינען פון קאַפּאַציטעט, פאָרשטעלונג און סקאַלאַביליטי.

בפרט:

סקאַלאַביליטי
מאַשין לערנען ריקווייערז האַנדלינג וואַסט אַמאַונץ פון דאַטן, און ווי די באַנד פון דאַטן ינקריסיז, די אַקיעראַסי פון מאָדעלס אויך ימפּרוווז. דעם מיטל אַז געשעפטן מוזן קלייַבן און קראָם מער דאַטן יעדער טאָג. ווען סטאָרידזש קען נישט וואָג, דאַטן-אינטענסיווע ווערקלאָודז שאַפֿן באַטאַלנעקס, לימאַטינג פאָרשטעלונג און ריזאַלטינג אין טייַער גפּו ליידיק צייט.

פלעקסיביליטי
פלעקסאַבאַל שטיצן פֿאַר קייפל פּראָטאָקאָלס (אַרייַנגערעכנט NFS, SMB, HTTP, FTP, HDFS און S3) איז נייטיק צו טרעפן די באדערפענישן פון פאַרשידענע סיסטעמען, אלא ווי לימיטעד צו אַ איין טיפּ פון סוויווע.

לייטאַנס
I / O לייטאַנסי איז קריטיש פֿאַר בנין און ניצן מאָדעלס ווי דאַטן זענען לייענען און רילייינג עטלעכע מאָל. רידוסינג I / O לייטאַנסי קענען פאַרקירצן די טריינינג צייט פון מאָדעלס מיט טעג אָדער חדשים. פאַסטער מאָדעל אַנטוויקלונג גלייך טראַנזלייץ צו גרעסערע געשעפט אַדוואַנטידזשיז.

דורכפאָר
די טרופּוט פון סטאָרידזש סיסטעמען איז קריטיש פֿאַר עפעקטיוו מאָדעל טריינינג. טראַינינג פּראַסעסאַז אַרייַנציען גרויס אַמאַונץ פון דאַטן, טיפּיקלי אין טעראַביטעס פּער שעה.

פּאַראַלעל אַקסעס
צו דערגרייכן הויך טרופּוט, טריינינג מאָדעלס שפּאַלטן אַקטיוויטעטן אין קייפל פּאַראַלעל טאַסקס. דאָס אָפט מיטל אַז מאַשין לערנען אַלגערידאַמז אַקסעס די זעלבע טעקעס פון קייפל פּראַסעסאַז (פּאַטענטשאַלי אויף קייפל גשמיות סערווערס) סיימאַלטייניאַסלי. די סטאָרידזש סיסטעם מוזן שעפּן קאַנקעראַנט פאדערונגען אָן קאַמפּראַמייזינג פאָרשטעלונג.

מיט זיין בוילעט קייפּאַבילאַטיז אין נידעריק לייטאַנסי, הויך טרופּוט און גרויס-וואָג פּאַראַלעל י / אָ, Dell PowerScale איז אַן אידעאל סטאָרידזש דערגאַנג צו גפּו-אַקסעלערייטיד קאַמפּיוטינג. PowerScale יפעקטיוולי ראַדוסאַז די צייט פארלאנגט פֿאַר אַנאַליסיס מאָדעלס וואָס באַן און פּרובירן מאַלטי-טעראַביטע דאַטאַסעץ. אין PowerScale אַלע-פלאַש סטאָרידזש, באַנדווידט ינקריסיז מיט 18 מאל, ילימאַנייטינג י / אָ באַטאַלנעקס, און קענען זיין מוסיף צו יגזיסטינג יסילאָן קלאַסטערז צו פאַרגיכערן און ופשליסן די ווערט פון גרויס אַמאַונץ פון אַנסטראַקטשערד דאַטן.

דערצו, PowerScale ס מולטי-פּראָטאָקאָל אַקסעס קייפּאַבילאַטיז צושטעלן אַנלימאַטאַד בייגיקייַט פֿאַר פליסנדיק ווערקלאָודז, אַלאַוינג דאַטן צו זיין סטאָרד מיט איין פּראָטאָקאָל און אַקסעסט מיט אנדערן. ספּאַסיפיקלי, די שטאַרק פֿעיִקייטן, בייגיקייַט, סקאַלאַביליטי און פאַרנעמונג-מיינונג פאַנגקשאַנאַליטי פון די PowerScale פּלאַטפאָרמע העלפֿן צו אַדרעס די פאלגענדע טשאַלאַנדזשיז:

- פאַרגיכערן כידעש אַרויף צו 2.7 מאל, רידוסינג די מאָדעל טריינינג ציקל.

- עלימינירן י / אָ באַטאַלנעקס און צושטעלן פאַסטער מאָדעל טריינינג און וואַלאַדיישאַן, ימפּרוווד מאָדעל אַקיעראַסי, ימפּרוווד דאַטן וויסנשאַפֿט פּראָודאַקטיוויטי און מאַקסאַמייזד צוריקקער פון קאַמפּיוטינג ינוועסטמאַנץ דורך לעווערידזשינג פאַרנעמונג-מיינונג פֿעיִקייטן, הויך פאָרשטעלונג, קאַנקעראַנסי און סקאַלאַביליטי. פֿאַרבעסערן מאָדעל אַקיעראַסי מיט דיפּער דאַטאַסעץ מיט העכער האַכלאָטע דורך לעווערידזשינג אַרויף צו 119 פּב פון עפעקטיוו סטאָרידזש קאַפּאַציטעט אין אַ איין קנויל.

- דערגרייכן דיפּלוימאַנט אין וואָג דורך סטאַרטינג קליין און ינדיפּענדאַנטלי סקיילינג קאַמפּיוטינג און סטאָרידזש, צושטעלן געזונט דאַטן שוץ און זיכערהייט אָפּציעס.

- פֿאַרבעסערן די פּראָודאַקטיוויטי פון דאַטן וויסנשאַפֿט מיט אַנאַליטיקס אין פּלאַץ און פאַר-וואַלאַדייטאַד סאַלושאַנז פֿאַר פאַסטער, נידעריק-ריזיקירן דיפּלוימאַנץ.

- לעווערידזשינג פּראָווען דיזיינז באזירט אויף בעסטער-פון-האָדעווען טעקנאַלאַדזשיז, אַרייַנגערעכנט NVIDIA GPU אַקסעלעריישאַן און רעפֿערענץ אַרקאַטעקטשערז מיט NVIDIA DGX סיסטעמען. די הויך פאָרשטעלונג און קאַנקעראַנס פון PowerScale טרעפן די סטאָרידזש פאָרשטעלונג רעקווירעמענץ אין יעדער בינע פון מאַשין לערנען, פֿון דאַטן אַקוואַזישאַן און צוגרייטונג צו מאָדעל טריינינג און ינפעראַנס. צוזאַמען מיט די OneFS אָפּערייטינג סיסטעם, אַלע נאָודז קענען סימלאַסלי אַרבעטן אין דער זעלביקער OneFS-געטריבן קנויל, מיט ענטערפּרייז-מדרגה פֿעיִקייטן אַזאַ ווי פאָרשטעלונג פאַרוואַלטונג, דאַטן פאַרוואַלטונג, זיכערהייט און דאַטן שוץ, וואָס אַלאַוז פאַסטער קאַמפּלישאַן פון מאָדעל טריינינג און וואַלאַדיישאַן פֿאַר געשעפטן.

פּאָסטן צייט: יולי-03-2023