ينتقل الذكاء الاصطناعي من الحوسبة السحابية إلى هواتفنا. بينما تهيمن مساعدات الذكاء الاصطناعي القائمة على الحوسبة السحابية مثل ChatGPT أو Gemini على عناوين الأخبار، هناك تحول أكثر هدوءًا لكنه تحويلي يجري: الذكاء على الجهاز - نماذج الذكاء الاصطناعي التي تعمل بالكامل على جهاز المستخدم، دون إرسال البيانات إلى خوادم بعيدة. هذا ليس مجرد فضول تقني. بالنسبة لمطوري التطبيقات، فإنه يمثل فرصة استراتيجية لبناء تطبيقات أكثر خصوصية وأقل تكلفة وقادرة على العمل دون اتصال بالكامل. وبينما لا تزال رؤية مساعد ذكاء اصطناعي مستقل تمامًا على الجهاز في طور التطور، يتم بالفعل وضع الأسس - من خلال أجهزة أفضل وبرامج محسّنة وبنية نماذج أذكى.
يشير الذكاء على الجهاز إلى نماذج الذكاء الاصطناعي التي تُنفذ محليًا على هاتف ذكي أو جهاز طرفي آخر، دون الاعتماد على البنية التحتية للحوسبة السحابية.
من المهم أن نلاحظ أنه عندما يناقش الخبراء مستقبل الذكاء الاصطناعي على الجهاز، فإنهم يشيرون إلى نموذج مكتفٍ ذاتيًا يعمل بالكامل على أجهزة المستخدم.
هناك أربع قوى تسرع الاهتمام بالذكاء الاصطناعي على الجهاز:
الخصوصية والتنظيم. في أوروبا والمناطق الأخرى ذات قوانين البيانات الصارمة (مثل GDPR)، فإن نقل البيانات الشخصية إلى خدمات ذكاء اصطناعي تابعة للطرف الثالث، حتى لو زعم البائع أنها لن تُخزن، يمكن أن يعرض المطورين لمخاطر قانونية. حتى مع وجود اتفاقيات معالجة البيانات، من الصعب مراجعة وضمان كيفية تعامل خدمات الطرف الثالث مع البيانات الحساسة في الممارسة العملية بشكل كامل.
التكلفة وتحقيق الدخل. يتطلب الذكاء الاصطناعي القائم على الحوسبة السحابية الدفع لكل رمز مميز - وهي تكاليف عادةً ما يتم تمريرها إلى المستخدمين عبر الاشتراكات. لكن في الأسواق ذات مستويات الدخل المنخفضة، قد تكون هذه الأسعار باهظة. تلغي النماذج الموجودة على الجهاز رسوم الرموز المميزة، مما يمكّن من إنشاء تطبيقات مجانية أو منخفضة التكلفة للغاية يتم تحقيق الدخل منها من خلال الإعلانات أو عمليات الشراء لمرة واحدة أو الاشتراكات الدنيا - مما يقلل بشكل كبير من التكلفة الهامشية لخدمة كل مستخدم.
التوفر دون اتصال. ليس لدى كل مستخدم اتصال إنترنت موثوق. سواء في المناطق الريفية أو مواقف السيارات تحت الأرض أو المقاهي في الطوابق السفلية أو مسارات المشي البعيدة، يحتاج الأشخاص إلى ذكاء اصطناعي يعمل بدون اتصال. يتيح الذكاء على الجهاز تجارب حقيقية دون اتصال مثل ترجمة قائمة طعام أو التعرف على نبات من صورة.
التأخير والاستجابة. يُدخل الذكاء الاصطناعي القائم على الحوسبة السحابية تأخيرات في رحلة الشبكة ذهابًا وإيابًا - عادةً 100-500 مللي ثانية حتى في الاتصالات الجيدة. بالنسبة لحالات الاستخدام في الوقت الفعلي مثل الترجمة المباشرة أو أوامر الصوت أو تراكبات الواقع المعزز، هذا التأخير غير مقبول. يلغي الاستدلال على الجهاز تأخير الشبكة تمامًا، مما يمكّن من استجابات فورية حقيقية.
على الرغم من التقدم السريع، فإن الذكاء الاصطناعي على الجهاز هو في الأساس لعبة مقايضات. حجم النموذج وجودة الاستجابة واستهلاك البطارية واستخدام الذاكرة وأداء الجهاز مرتبطة بإحكام - وتحسين أحدها يؤدي دائمًا تقريبًا إلى تدهور الآخر.
تظل نماذج اللغة الكبيرة المستقلة صعبة. النماذج التي يمكن للمطورين دمجها في تطبيقاتهم - مثل Gemma 3n أو Deepseek R1 1.5B أو Phi-4 Mini - تزن 1-3 جيجابايت حتى بعد التكميم القوي. هذا كبير جدًا بالنسبة لحزم متجر التطبيقات، مما يتطلب تنزيلات منفصلة بعد التثبيت. ويختلف الأداء بشكل كبير: على الهواتف الراقية المزودة بوحدات NPU، يعمل الاستدلال بسلاسة؛ على الأجهزة متوسطة المدى، قد يتأخر نفس النموذج أو يسخن أو يتم إيقافه بواسطة إدارة الذاكرة القوية.
الذكاء الاصطناعي المدمج في المنصة أكثر نضجًا. تقدم Gemini Nano من Google (المتوفرة على أجهزة Pixel وأجهزة Samsung المختارة عبر AICore API) وApple Intelligence (iOS 18+) قدرات على الجهاز دون مطالبة المطورين بشحن نماذجهم الخاصة. تتعامل هذه مع التلخيص والردود الذكية وإعادة كتابة النص بكفاءة - ولكنها تقيد المطورين بمنصات ومستويات أجهزة محددة.
نماذج التعلم الآلي الضيقة تعمل بشكل أفضل اليوم. المهام مثل التعرف على الكلام في الوقت الفعلي وتحسين الصور واكتشاف الأشياء والتعليقات التوضيحية المباشرة موثوقة عبر معظم الأجهزة. هذه ليست نماذج لغة كبيرة متعددة الأغراض - إنها نماذج متخصصة ومُحسّنة بشكل كبير (غالبًا أقل من 100 ميجابايت) مبنية لوظيفة واحدة. تجعلها أطر عمل الذكاء الاصطناعي الطرفي متاحة لمطوري التطبيقات عبر المنصات.
الحل الوسط الهجين. تنفذ كل من Google وApple معالجة متدرجة: تتعامل Gemini Nano وApple Intelligence مع التلخيص والردود الذكية وإعادة كتابة النص محليًا، بينما يتم توجيه الاستدلال المعقد والمحادثات متعددة الجولات والاستعلامات كثيفة المعرفة إلى البنية التحتية للحوسبة السحابية (خوادم Gemini من Google، Private Cloud Compute من Apple). يسد هذا النهج البراغماتي الفجوة - لكنه يؤكد أن الذكاء الاصطناعي متعدد الأغراض بالكامل على الجهاز يظل طموحًا.
جعل الذكاء الاصطناعي على الجهاز قابلاً للتطبيق يتطلب تقدمًا على ثلاث جبهات:
العمل جارٍ في جميع المجالات الثلاثة - والتقدم يتسارع.
يقع مطور الذكاء الاصطناعي المثالي على الجهاز عند تقاطع هندسة الهاتف المحمول والتعلم الآلي. يركز معظم متخصصي الذكاء الاصطناعي على البنية التحتية للحوسبة السحابية ومجموعات GPU/TPU - بيئات بها ذاكرة وطاقة وحوسبة وفيرة. نادرًا ما يواجهون قيود الهاتف المحمول المحددة: حدود الذاكرة الصارمة، وإنهاء التطبيق في الخلفية بشكل قوي، والاختناق الحراري، وميزانيات البطارية الضيقة. وقد أدى ذلك إلى ظهور تخصص جديد: هندسة الذكاء الاصطناعي الطرفي.
يجب على المطورين في هذا المجال:
من المهم أن نلاحظ أن "على الجهاز بالكامل" يشير إلى مكان تشغيل استدلال الذكاء الاصطناعي - وليس ما إذا كان التطبيق يمكنه الوصول إلى الإنترنت. لا يزال بإمكان النموذج المحلي استدعاء واجهات برمجة التطبيقات الخارجية كأدوات (مثل بحث الويب أو خدمة الطقس)، ولكن الاستدلال الذكاء الاصطناعي نفسه يحدث بالكامل على الجهاز. مع الاستدلال على الجهاز واستدعاء الأدوات، فإنك تحافظ على الخصوصية (لا يتم إرسال بيانات المستخدم للمعالجة) مع الاستمرار في توسيع الوظائف.
على الرغم من التقدم السريع، لن يحل الذكاء الاصطناعي على الجهاز محل الذكاء الاصطناعي القائم على الحوسبة السحابية للمهام المعقدة مثل الاستدلال متعدد الخطوات أو توليد الأكواد أو المحادثات الطويلة المفتوحة. قد يبالغ المستخدمون في تقدير ما يمكن أن تفعله النماذج المحلية - مما يؤدي إلى الإحباط إذا تأخر الأداء. لا تتوقع جودة بمستوى ChatGPT على هاتف اقتصادي.
ولكن بالنسبة لحالات الاستخدام عالية القيمة والمحددة جيدًا، المستقبل مشرق:
مع تقلص النماذج وأصبحت وحدات NPU قياسية ونضوج الأطر، سينتقل الذكاء الاصطناعي على الجهاز من حداثة المتبنين الأوائل إلى ممارسة قياسية.
الذكاء على الجهاز لا يتعلق فقط بالسرعة أو الراحة - إنه تحول نموذجي في كيفية تفكيرنا في الذكاء الاصطناعي: من الخدمات المركزية القائمة على الاشتراك إلى المساعدين الشخصيين والخاصين والجاهزين دائمًا الذين يعيشون في جيوبنا.
بالنسبة لمطوري التطبيقات، يفتح هذا طريقًا لبناء تطبيقات أكثر أخلاقية وشمولية ومرونة - دون تبعيات الحوسبة السحابية أو متطلبات امتثال البيانات المعقدة. التكنولوجيا ليست مثالية بعد، لكن الاتجاه واضح. نحن بالفعل أقرب مما يدرك معظم الناس. المسار واضح - والوتيرة تتسارع.


