انتقلت وحدات NPU من السيليكون "اللطيف إلى" إلى عنصر سطر يظهر في RFPs المحمولة ، ومناقشات تحديث VDI ، وخرائط الطريق الأمنية لنقطة النهاية. ومع ذلك ، يمكن أن يكون الرقم الأكثر استخدامًا لوصفها - TOPS - مضللًا عند التعامل معه مثل GHz أو التهم الأساسية. بالنسبة لمشتري تكنولوجيا المعلومات ، فإن السؤال العملي ليس "كم عدد TOPS التي تمتلكها وحدة NPU هذه؟" ولكن "ما هي أعباء العمل التي ستسرعها ، وفي أي وقت ، وما هي قيود الطاقة والبرامج ، وإلى متى في دورة حياة الجهاز؟"
تترجم هذه المقالة TOPS إلى لغة الشراء: ما الذي تقيسه وما تخفيه وكيفية اختبار القيمة الحقيقية لنقاط نهاية المؤسسة. الهدف هو مساعدتك في اتخاذ القرارات التي تنجو من كل من تسويق البائعين ومجموعة برامج الذكاء الاصطناعي سريعة الحركة.

لماذا توجد NPUs على أجهزة الكمبيوتر ونقاط النهاية
تعمل نقاط نهاية المؤسسة الآن على ميزات AI أكثر مما تدركه معظم الفرق. بعضها واضح ، مثل نسخ الاجتماعات ، وطمس الخلفية ، وتنظيف الصوت "الاستوديو". يختبئ الآخرون داخل منتجات الأمان أو ميزات المتصفح أو خطوط أنابيب معالجة الصور أو أدوات الوصول أو حتى التجارب على مستوى نظام التشغيل. تقليديا ، تعمل هذه المهام على وحدة المعالجة المركزية أو GPU. هذا يعمل ، لكنه يحرق الطاقة ، ويسرق وقت GPU من أعباء عمل الرسومات ، ويمكن أن يخلق منحدرات أداء صاخبة على آلات رقيقة وخفيفة تحت قيود البطارية.
تتمثل مهمة NPU في التعامل مع أعباء العمل الاستدلالية الشائعة بكفاءة: الكمون المنخفض والإنتاجية المستمرة والحد الأدنى من القوة. من حيث المشتريات ، فإن NPU هي "مسرع الكفاءة". عندما يعمل بشكل جيد، يمكنك الحصول على عمر بطارية أطول أثناء التعاون مع الذكاء الاصطناعي، وعدد أقل من الأحداث الحرارية، وأداء أكثر قابلية للتنبؤ، وربما خصوصية أفضل لأن المزيد من المعالجة يمكن أن تبقى على الجهاز.
ماذا يعني TOPS في الواقع
TOPS تعني "تريليونات العمليات في الثانية". من الناحية النظرية ، إنه مقياس الإنتاجية: عدد العمليات الحسابية التي يمكن للمسرع تنفيذها في كل ثانية. في التسويق ، غالبًا ما يصبح اختصارًا لـ "أداء الذكاء الاصطناعي" ، ولكن هذا صحيح في بعض الأحيان فقط.
الفخ الأول هو كلمة "عملية". يمكن للبائعين حساب أنواع مختلفة من الرياضيات كـ "عملية". بعض عمليات العد الصحيح (شائعة للاستدلال الكمي). يؤكد آخرون على عمليات النقطة العائمة ، أو يقدمون أرقامًا متعددة لدقة مختلفة (INT8 ، INT4 ، FP16 ، إلخ). الفخ الثاني هو أن TOPS عادة ما يكون رقم الذروة ، يقاس في ظل ظروف مثالية لا تشبه نقاط النهاية الخاصة بك التي تعمل Teams ، ومتصفح به 30 علامة تبويب ، و EDR ، و DLP ، و VPN ، وقرص مشفر.
تعامل مع TOPS مثل "ذروة عرض النطاق الترددي للشبكة على مفتاح". مفيدة، ولكن فقط كنقطة انطلاق. ستعتمد تجربتك على المسار بأكمله: أطر البرامج ، ودقة النموذج ، وعرض النطاق الترددي للذاكرة ، ونضج برنامج التشغيل ، وسلوك الجدولة ، وما إذا كان بإمكان التطبيقات المستهدفة استخدام NPU.
ذروة TOPS مقابل TOPS فعالة
Peak TOPS هو الحد الأقصى للإنتاج النظري تحت دقة محددة ومغلف الساعة / الطاقة. TOPS الفعال هو ما يحققه عبء عملك في الممارسة العملية. يمكن أن تكون الإنتاجية الفعالة أقل بشكل كبير بسبب الاختناقات التي لا علاقة لها بالحساب الخام.
الأسباب الشائعة انخفاض الأداء الفعال:
نموذج حركة الذاكرة يهيمن على الحساب. العديد من النماذج الحديثة نقل الكثير من البيانات. إذا كان المسرع في انتظار الذاكرة ، فإن المزيد من وحدات الحوسبة (وأكثر من الذروة TOPS) لن يساعد كثيرا.
تغطية المشغل غير مكتملة. إذا كان النموذج الخاص بك يستخدم طبقات لا يتسارع وقت تشغيل NPU ، فإن هذه الطبقات تعود إلى وحدة المعالجة المركزية / GPU ، وتقدم الأكشاك ونسخ النفقات العامة.
عدم تطابق دقيق إذا افترض عنوان TOPS في NPU INT8 ولكن المكدس الخاص بك يعمل FP16 ، أو لا يمكنك التحديد الكمي دون فقدان الجودة ، فقد لا تصل أبدًا إلى الطبقة المعلن عنها.
القيود الحرارية والطاقة. قد لا تحافظ أجهزة الكمبيوتر المحمولة الرقيقة على عدد الذروة لفترة طويلة. تتصرف جلسات الذكاء الاصطناعي المستدامة مثل "الحمل المستمر" أكثر من كونها معيارًا للانفجار.
نزاع النظام. نقاط النهاية الحقيقية مشغولة. يمكن للخدمات الخلفية وفك تشفير الفيديو والتشفير والتفتيش الأمني سرقة الدورات أو زيادة زمن الاستجابة.
الدقة هي المضاعف الخفي وراء TOPS
يمكن أن يكون لنفس السيليكون أرقام TOPS مختلفة تمامًا اعتمادًا على الدقة الرقمية. يمكن للرياضيات منخفضة الدقة (مثل INT8 أو INT4) تشغيل العديد من العمليات في كل دورة أكثر من نقطة عائمة عالية الدقة. هذا هو السبب في أنك قد ترى البائعين يعلنون عن رقم TOPS كبير "لـ INT8" بينما تكون أرقام FP16 أو FP32 أصغر بكثير.
بالنسبة لمشتري تكنولوجيا المعلومات ، فإن المفتاح هو السؤال: ما هي الدقة التي يستخدمها عبء العمل بالفعل؟ يمكن تشغيل العديد من حالات استخدام المؤسسة - تحسين الكلام ، النسخ ، نماذج اللغة الصغيرة للتلخيص ، أو نماذج الرؤية لتأثيرات كاميرا الويب - بشكل جيد. قد تتطلب أعباء العمل الأخرى ، وخاصة النماذج المخصصة أو السيناريوهات عالية الدقة ، دقة أعلى ، أو على الأقل معايرة دقيقة للحفاظ على الجودة.
عملية الشراء العملية: إذا كان عنوان TOPS للبائع مرتبطًا بدقة لا يمكنك نشرها عمليًا ، فإن هذا الرقم لا يرتبط ببيئتك.
الكمون يهم بقدر الإنتاجية
TOPS هو الإنتاجية ، وليس الكمون. العديد من تجارب AI في نقاط النهاية حساسة لوقت الاستجابة: يجب أن يستجيب النموذج بسرعة لإدخال المستخدم أو تيارات الميكروفون أو إطارات الكاميرا. يمكن أن يظل الجهاز الذي يحتوي على TOPS أعلى يشعر بالسوء إذا كان لديه زمن وصول أعلى من النهاية إلى النهاية بسبب جدولة النفقات العامة أو عدم كفاءة الإطار أو ارتدادات وحدة المعالجة المركزية المتكررة.
في الحياة الحقيقية ، يلاحظ المستخدمون الكمون قبل أن يلاحظوا الإنتاجية. إذا بدأ طمس الخلفية متأخرًا ، أو إذا كانت "مضخات" قمع الضوضاء ، أو إذا تأخرت التسميات التوضيحية ، أو إذا استغرق التلخيص المحلي وقتًا كافيًا حتى ينقر المستخدم بعيدًا ، ينهار اقتراح قيمة NPU - حتى لو كانت الشريحة يمكن أن تتباهى بذروة TOPS.
عرض النطاق الترددي للذاكرة: المحدد الهادئ
غالبًا ما يتم تقييد استدلال الذكاء الاصطناعي بواسطة عرض نطاق الذاكرة وسلوك ذاكرة التخزين المؤقت. يحتاج المسرع إلى جلب الأوزان والتنشيطات بسرعة. إذا كان NPU يشارك الذاكرة مع وحدة المعالجة المركزية و GPU ، يمكن للنظام أن يصبح محتوى الذاكرة مرتبطًا بأعباء العمل المختلطة.
هذا هو السبب في أن جهازين مع TOPS مماثلة يمكن أن تتصرف بشكل مختلف في أعباء العمل المستمرة. قد يكون لدى المرء نظام فرعي أفضل للذاكرة ، أو تخزين مؤقت أكثر كفاءة على الرقاقة ، أو عقوبات أقل بين NPU والذاكرة الرئيسية. نادراً ما تحصل فرق المشتريات على رقم "نطاق ترددي ذاكرة AI" نظيف ، لذلك فإن النهج الأكثر أمانًا هو قياس أعباء العمل التمثيلية في ظل ظروف نقطة النهاية الحقيقية.
كومة البرمجيات الواقع: هل يمكن لتطبيقاتك استخدام NPU؟
NPU هي قيمة فقط عندما يمكن لبرنامجك استهدافه. في عمليات نشر المؤسسات ، يتوقف ذلك على نظام التشغيل وبرامج التشغيل وأوقات التشغيل ودعم التطبيقات.
يجب أن تتضمن قائمة التحقق الخاصة بك:
توافر وقت التشغيل. هل هناك وقت تشغيل ثابت يدعم NPU ويتكامل بشكل نظيف مع عمليات الإدارة والتصحيح؟
التوافق الإطار. هل يتم تشغيل أعباء العمل الخاصة بك عبر أطر مشتركة (على سبيل المثال ، خطوط الأنابيب المستندة إلى ONNX أو SDKs المقدمة من البائع) ، أو هل يتم قفلها إلى كومة تفضل GPU؟
جاهزية التطبيق. هل تعتمد تطبيقات التعاون والإنتاجية التي يعتمد عليها المستخدمون على التفريغ الفعلي إلى NPU على نظام التشغيل الخاص بك؟ "يدعم NPU" في مذكرة الإصدار ليست هي نفسها "تفريغ باستمرار في تكوين المستأجر الخاص بك."
نضج السائق ومخاطر الانحدار. المسرعات حساسة للسائق. إذا كانت بيئتك تؤكد على الاستقرار ، فأنت بحاجة إلى استراتيجية تحديث واضحة وخطة تراجع.
القياس عن بعد هل يمكنك قياس ما إذا كانت NPU تعمل؟ إذا لم تتمكن من مراقبة سلوك التفريغ ، فلا يمكنك التحقق من صحة القيمة أو استكشاف شكاوى المستخدمين.
تفسير أرقام البائعين دون الوقوع
عندما يقدم البائعون TOPS ، افترض أنه سيناريو الذروة الأفضل. مهمتك هي ترجمتها إلى أسئلة المشتريات:
ما هي الدقة المستخدمة لرقم TOPS المعلن عنه؟
هل هذه الدقة واقعية للنماذج التي نديرها ، بالجودة المطلوبة؟
ما هو الأداء المستمر تحت الاستدلال المستمر، وعلى أي قوة تعادل؟
هل النظام خنق تحت الأحمال المؤسسة النموذجية؟
كيف يتغير الأداء عندما يكون النظام على البطارية ، متصلاً بـ VPN ، وتشغيل EDR؟
ما النسبة المئوية للرسم البياني النموذجي الذي يعمل على NPU مقابل CPU / GPU؟
هل يمكننا التحقق من صحة مشاركة NPU واستخدامها باستخدام أدوات مدمجة أو بائع؟
إذا لم يتمكن البائع من الإجابة على هذه الأسئلة دون التلويح باليد ، فتعامل مع TOPS كعلامة تسويقية بدلاً من مقياس هندسي.
سيناريوهات واقعية حيث تساعد NPUs تكنولوجيا المعلومات للمؤسسات
تميل أقوى حالات القيمة إلى أن تكون دائمًا منخفضة إلى متوسطة التعقيد التي تعمل طوال اليوم وتتنافس مع أعباء عمل المستخدم.
تعد تحسينات التعاون فوزًا شائعًا: يمكن تشغيل تأثيرات الخلفية والإطار التلقائي وتصحيح النظر وتنظيف الصوت بشكل مستمر أثناء الاجتماعات. عندما ينتقل عبء العمل هذا من وحدة المعالجة المركزية / GPU ، غالبًا ما ترى ضجيجًا أقل للمروحة ، وعددًا أقل من التأتأة ، وسلوك بطارية أكثر قابلية للتنبؤ.
يمكن أن يقلل النسخ على الجهاز والتعليق التوضيحي من الاعتماد على السحابة وتحسين الاستجابة للمستخدمين في بيئات النطاق الترددي المنخفض. يمكن أن يساعد أيضًا المؤسسات التي تفضل تقليل البيانات الصوتية التي تترك نقطة النهاية.
يمكن أن يكون التلخيص المحلي خفيف الوزن والمساعدة في إعادة الكتابة والبحث الدلالي على جسم محلي صغير ممكنًا عندما تكون النماذج مدمجة ومكممة. يمكن لـ NPU أن تجعل مهام العمل هذه تشعر بأنها "فورية" دون استخدام وحدة المعالجة المركزية.
غالبًا ما تستفيد خطوط أنابيب الكاميرا ومعالجة الصور للعاملين الميدانيين أو فرق الدعم - التقاط المستندات ، والكشف عن الضبابية ، والقطع التلقائي - من الاستدلال الثابت المنخفض الطاقة.
يمكن أن تستفيد بعض التحليلات الأمنية أيضًا ، خاصةً الأنماط التي تحدد خطوط الأنابيب الشبيهة بالاستدلال. ومع ذلك ، يجب على المشترين التحقق من صحة المطالبات بعناية لأن بائعي الأمن قد يختارون GPU أو وحدة المعالجة المركزية لأسباب تشغيلية ، أو يعتمدون على التسجيل السحابي.
حيث لن ينقذك TOPS
لا يتم "حل" النماذج التوليدية الكبيرة ذات الأغراض العامة تلقائيًا بواسطة NPU. إذا كنت تتوقع جيلًا محليًا من فئة سطح المكتب للمهام المعقدة ، فقد لا تزال بحاجة إلى تسريع GPU والمزيد من الذاكرة ومجموعة مضبوطة لهذا العمل. لا تزال العديد من تجارب "النموذج الكبير" تهيمن عليها سعة الذاكرة وعرض نطاق الذاكرة وتحسين البرامج بدلاً من TOPS الخام.
يُنظر إلى NPUs على أنها محركات كفاءة لفئات الاستدلال المحددة ، وليس الأجهزة السحرية التي تحل محل GPUs لكل حاجة AI.
طريقة سهلة للشراء لمقارنة منصات NPU
بدلاً من ترتيب الأجهزة بواسطة TOPS وحده ، قم ببناء مصفوفة مقارنة تعكس واقع المؤسسة.
تناسب عبء العمل: قم بإدراج تجارب الذكاء الاصطناعي التي يقوم المستخدمون بتشغيلها بالفعل اليوم وتلك التي تتوقع توحيدها خلال الأشهر 12-24 القادمة.
التحقق من التفريغ: تأكيد ما إذا كان كل عبء عمل يستخدم NPU بشكل موثوق على بناء نظام التشغيل الذي اخترته.
الكمون والاستجابة: قياس النتائج المرئية للمستخدم ، وليس فقط الإنتاجية.
أداء مستدام: اختبار جلسة مستمرة 20-30 دقيقة، وليس معيارا قصيرا.
تأثير البطارية: مقارنة واط ساعة المستهلكة لنفس سيناريو "الاجتماع effects تأثيرات منظمة العفو الدولية".
السلوك الحراري: تتبع منحنيات المروحة وأحداث الاختناق أثناء تعدد المهام الواقعية.
إمكانية الإدارة: ضمان تكامل برامج التشغيل وأوقات التشغيل مع إيقاع التصحيح وإدارة نقاط النهاية وعناصر التحكم الأمنية.
قابلية الدعم: تقييم الأدوات وتسجيل الدخول واستجابة البائع عند فشل الاستدلال أو تراجع التحميل.
كيفية قياس وحدات NPU بطريقة تحدد نتائج الأعمال
وتتألف الاستراتيجية المرجعية المفيدة لمنظمات تكنولوجيا المعلومات من ثلاث طبقات.
ابدأ بسير عمل تطبيق تمثيلي. على سبيل المثال، مكالمة فيديو مع تأثيرات الخلفية تمكين، التسميات التوضيحية على، وملف تعريف تعدد المهام واقعية في الخلفية. قياس استخدام وحدة المعالجة المركزية ، واستخدام GPU ، واستنزاف البطارية في الساعة ، والاستجابة المرئية للمستخدم.
أضف اختبار الاستدلال الخاضع للرقابة. استخدم مجموعة صغيرة من النماذج التي يمكنك تشغيلها وتكرارها بشكل قانوني. الهدف ليس نشر النتيجة ، ولكن لمقارنة المنصات في ظل ظروف مماثلة: نفس النموذج ، نفس الدقة ، نفس حجم الدفعة ، نفس تكوين وقت التشغيل.
الانتهاء من اختبار الإجهاد والانحدار. قم بتشغيل نفس السيناريوهات بعد تحديثات برنامج التشغيل وتصحيحات نظام التشغيل وتحديثات التطبيق. وحدات المعالجة الوطنية جديدة بما فيه الكفاية بحيث تكون الانحدارات تكلفة تشغيلية حقيقية.
إذا لم تتمكن من إنشاء اختبار "المسار الذهبي" المتكرر ، فسوف تكافح من أجل تبرير تكاليف الأجهزة المتميزة لأنك لن تكون قادرًا على إثبات الأداء أو تحسينات الطاقة.
تداعيات الأمن والخصوصية والحوكمة
يمكن أن يقلل الذكاء الاصطناعي على الجهاز من تعرض البيانات عن طريق الحفاظ على المعالجة المحلية ، ولكنه يغير أيضًا نموذج مخاطر نقطة النهاية. لديك الآن أصول نموذجية ومخابئ وعمليات تضمين حساسة محتملة على أجهزة العميل. يتقاطع هذا مع تشفير القرص و DLP ودفاتر اللعب للاستجابة للحوادث.
يجب على فرق تكنولوجيا المعلومات أن تسأل:
أين يتم تخزين ملفات النماذج وكيف يتم تحديثها؟
ما هو القياس عن بعد الذي يتم إنشاؤه ، وهل يمكن التحكم فيه بموجب سياسات المؤسسة؟
هل يمكن منع فهرسة النواتج الحساسة أو تخزينها مؤقتًا محليًا؟
كيف تتحقق من أن ميزة "على الجهاز" موجودة بالفعل على الجهاز ضمن التكوين الخاص بك؟
تسهّل وحدات NPU تشغيل النماذج محليًا ، لكن الحوكمة لا تزال تتطلب إدارة تكوين منضبطة وقابلية للتدقيق.
تخطيط دورة الحياة: تجنب الشراء لعرض اليوم
اعتماد NPU يتحرك بسرعة ، ودورات تحديث المؤسسة بطيئة. يتمثل الخطر الأكبر في شراء نقاط النهاية المحسنة لعبء العمل التجريبي الذي لن تقوم مؤسستك بتوحيده ، مع فقد القدرات التي ستكون مهمة في السنة الثانية أو الثالثة من دورة حياة الجهاز.
إعطاء الأولوية للمنصات مع دعم قوي للنظام البيئي للبرمجيات ، وتسليم مستقر للسائق ، وإمكانية المراقبة. يمكن أن يتفوق عدد أقل قليلاً من TOPS على منصة ناضجة مدعومة جيدًا على جزء أعلى من TOPS في واقع المؤسسة إذا كان نظام التشغيل والتطبيق أقوى.
أيضا النظر في قابلية عبر البائعين. إذا كانت أدواتك الداخلية قادرة على استهداف تنسيقات النماذج الشائعة وأوقات التشغيل ، فيمكنك تقليل القفل وتحسين قدرتك على تبديل الأجهزة في عمليات التحديث المستقبلية.
دليل التفسير العملي ل TOPS في شراء المؤسسة
تعامل مع TOPS كسقف تقريبي ، وليس وعدًا. يمكن أن يساعد العالي ، ولكن فقط إذا كان عبء العمل يمكن أن يستخدم الدقة والمشغلين الذين يفتحون هذا السقف ، وفقط إذا كان النظام الأساسي يحافظ على الأداء داخل مظاريف الطاقة والحرارية.
في الممارسة العملية ، يصبح TOPS ذا معنى عندما يمكنك تعيينه إلى:
النماذج والميزات التي تخطط لتوحيدها عبر الأسطول
الدقة التي يمكنك نشرها دون تراجع الجودة
معيار قابل للتكرار يقيس زمن الاستجابة والأداء المستدام وتأثير البطارية
الدعم التشغيلي: برامج التشغيل وتحديثات وقت التشغيل والقياس عن بعد وضوابط السياسة
إذا فاز جهاز على هذه الأرقام ، فسيشعر رقم TOPS بأنه "حقيقي". إذا فاز فقط على ورقة المواصفات، سوف تدفع للسيليكون الذي يجلس خاملا.
المنظور النهائي لفرق تكنولوجيا المعلومات
أصبحت NPUs جزءًا قياسيًا من بنية نقطة النهاية ، لكن نجاح الشراء يعتمد على رفض الشراء على الأرقام الرئيسية. TOPS ليست درجة عالمية. وهو رقم ذروة الإنتاجية التي تختلف مع الدقة، وهيكل النموذج، وسلوك الذاكرة، ونضج البرمجيات.
ميزة مشتري تكنولوجيا المعلومات هي الانضباط: تحديد أعباء العمل المستهدفة، والتحقق من صحة التفريغ، وقياس الكمون وتأثير البطارية، وتتطلب المراقبة. عند القيام بذلك ، تصبح وحدات NPU أسهل في التقييم مما تبدو عليه. يمكنك التوقف عن مناقشة ادعاءات التسويق والبدء في مقارنة النتائج: اجتماعات أكثر هدوءًا وعمر أطول للبطارية وتجربة مستخدم أكثر استقرارًا ومسار أكثر وضوحًا لميزات الذكاء الاصطناعي على الجهاز التي تهم في عمليات المؤسسة.


10981
IT Pro 

















