هوش مصنوعی در حال خروج از رایانش ابری و ورود به تلفنهای ما است. در حالی که دستیارهای هوش مصنوعی مبتنی بر ابر مانند ChatGPT یا Gemini تیترهای خبری را تسخیر کردهاند، یک تحول آرام اما دگرگونکننده در جریان است: هوش داخل دستگاه—مدلهای هوش مصنوعی که کاملاً روی دستگاه کاربر اجرا میشوند، بدون ارسال داده به سرورهای راه دور. این فقط یک کنجکاوی فنی نیست. برای توسعهدهندگان اپلیکیشن موبایل، این نمایانگر یک فرصت استراتژیک برای ساخت اپلیکیشن موبایلهایی است که خصوصیتر، مقرونبهصرفهتر و کاملاً قادر به کار آفلاین هستند. و در حالی که چشمانداز یک دستیار هوش مصنوعی کاملاً خودمختار داخل دستگاه هنوز در حال تکامل است، پایههای آن در حال گذاشته شدن است—از طریق سختافزار بهتر، نرمافزار بهینهشده و معماری مدلهای هوشمندتر.
هوش داخل دستگاه به مدلهای هوش مصنوعی اشاره دارد که به صورت محلی روی یک ساعت هوشمند یا سایر دستگاههای لبهای اجرا میشوند، بدون اتکا به رایانش ابری.
نکته مهم این است که وقتی کارشناسان درباره آینده هوش مصنوعی داخل دستگاه بحث میکنند، به یک مدل مستقل اشاره میکنند که کاملاً روی سختافزار کاربر اجرا میشود.
چهار نیروی وجود دارد که علاقه به هوش مصنوعی داخل دستگاه را تسریع میکنند:
حریم خصوصی و مقررات. در اروپا و سایر مناطق با قوانین سختگیرانه داده (مانند GDPR)، انتقال دادههای شخصی به خدمات هوش مصنوعی شخص ثالث، حتی اگر فروشنده ادعا کند که ذخیره نخواهد شد، میتواند توسعهدهندگان را در معرض خطر قانونی قرار دهد. حتی با وجود توافقنامههای پردازش داده، حسابرسی کامل و تضمین نحوه مدیریت دادههای حساس توسط خدمات شخص ثالث در عمل دشوار است.
هزینه و کسب درآمد. هوش مصنوعی مبتنی بر ابر نیاز به پرداخت برای هر توکن دارد—هزینههایی که معمولاً از طریق اشتراک به کاربران منتقل میشوند. اما در بازارهایی با سطح درآمد پایینتر، چنین قیمتگذاریای میتواند ممنوع کننده باشد. مدلهای داخل دستگاه هزینههای توکن را حذف میکنند و امکان اپلیکیشن موبایلهای رایگان یا با هزینه بسیار پایین را فراهم میکنند که از طریق تبلیغات، خریدهای یکبار مصرف یا اشتراکهای حداقلی درآمدزایی میشوند—که به طور چشمگیری هزینه نهایی ارائه خدمات به هر کاربر را کاهش میدهد.
دسترسی آفلاین. همه کاربران اینترنت قابل اعتماد ندارند. چه در مناطق روستایی، پارکینگهای زیرزمینی، کافههای زیرزمین یا مسیرهای کوهنوردی دور، مردم به هوش مصنوعی نیاز دارند که بدون اتصال کار کند. هوش داخل دستگاه تجربههای واقعاً آفلاین مانند ترجمه یک منو یا شناسایی یک گیاه از یک عکس را امکانپذیر میکند.
تاخیر و پاسخگویی. هوش مصنوعی مبتنی بر ابر تاخیرهای رفت و برگشت شبکه را معرفی میکند—معمولاً 100-500 میلیثانیه حتی در اتصالات خوب. برای موارد استفاده در زمان واقعی مانند ترجمه زنده، دستورات صوتی یا لایههای واقعیت افزوده، این تاخیر غیرقابل قبول است. استنتاج داخل دستگاه تاخیر شبکه را به طور کامل حذف میکند و پاسخهای واقعاً آنی را امکانپذیر میکند.
علیرغم پیشرفت سریع، هوش مصنوعی داخل دستگاه اساساً یک بازی مبادله است. اندازه مدل، کیفیت پاسخ، مصرف باتری، استفاده از حافظه و عملکرد دستگاه به شدت به هم مرتبط هستند—و بهبود یکی تقریباً همیشه دیگری را تضعیف میکند.
LLMهای مستقل همچنان چالشبرانگیز هستند. مدلهایی که توسعهدهندگان میتوانند در اپلیکیشن موبایلهای خود بگنجانند—مانند Gemma 3n، Deepseek R1 1.5B یا Phi-4 Mini—حتی پس از کوانتیزاسیون تهاجمی، 1-3 گیگابایت وزن دارند. این برای بستههای فروشگاه اپلیکیشن موبایل بسیار بزرگ است و نیاز به دانلودهای جداگانه پس از نصب دارد. و عملکرد به طور چشمگیری متفاوت است: در تلفنهای پیشرفته با NPUها، استنتاج به آرامی اجرا میشود؛ در دستگاههای میانرده، همان مدل ممکن است با تاخیر مواجه شود، بیش از حد گرم شود یا توسط مدیریت تهاجمی حافظه کشته شود.
هوش مصنوعی یکپارچه شده با پلتفرم بالغتر است. Gemini Nano گوگل (در دسترس در Pixel و دستگاههای منتخب سامسونگ از طریق APICore API) و Apple Intelligence (iOS 18+) قابلیتهای داخل دستگاه را بدون نیاز به ارسال مدلهای خود توسط توسعهدهندگان ارائه میدهند. اینها خلاصهسازی، پاسخهای هوشمند و بازنویسی متن را به طور کارآمد مدیریت میکنند—اما توسعهدهندگان را به پلتفرمها و سطوح دستگاه خاص قفل میکنند.
مدلهای یادگیری ماشین محدود امروز بهترین عملکرد را دارند. وظایفی مانند تشخیص گفتار در زمان واقعی، بهبود عکس، تشخیص اشیا و زیرنویس زنده در بیشتر دستگاهها قابل اعتماد هستند. اینها LLMهای چندمنظوره نیستند—آنها مدلهای تخصصی و به شدت بهینهشده (اغلب کمتر از 100 مگابایت) هستند که برای یک کار ساخته شدهاند. فریمورکهای Edge AI آنها را برای توسعهدهندگان اپلیکیشن موبایل در پلتفرمها قابل دسترس میکنند.
مصالحه ترکیبی. گوگل و اپل هر دو پردازش سطحبندی شده را پیادهسازی میکنند: Gemini Nano و Apple Intelligence خلاصهسازی، پاسخهای هوشمند و بازنویسی متن را به صورت محلی مدیریت میکنند، در حالی که استدلال پیچیده، مکالمات چندگانه و پرسوجوهای دانشمحور به رایانش ابری هدایت میشوند (سرورهای Gemini گوگل، Private Cloud Compute اپل). این رویکرد عملی شکاف را پر میکند—اما تأکید میکند که هوش مصنوعی کاملاً داخل دستگاه و چندمنظوره همچنان آرزویی است.
قابل اجرا کردن هوش مصنوعی داخل دستگاه نیاز به پیشرفت در سه جبهه دارد:
کار در هر سه زمینه در حال انجام است—و پیشرفت در حال تسریع است.
توسعهدهنده ایدهآل هوش مصنوعی داخل دستگاه در تقاطع مهندسی موبایل و یادگیری ماشین قرار دارد. بیشتر متخصصان هوش مصنوعی بر رایانش ابری و خوشههای GPU/TPU تمرکز میکنند—محیطهایی با حافظه، قدرت و محاسبات فراوان. آنها به ندرت با محدودیتهای خاص موبایل مواجه میشوند: محدودیتهای سخت حافظه، خاتمه تهاجمی اپلیکیشن موبایل پسزمینه، محدودیت حرارتی و بودجه باتری محدود. این منجر به ایجاد یک تخصص جدید شده است: مهندسی Edge AI.
توسعهدهندگان در این زمینه باید:
نکته مهم، «کاملاً داخل دستگاه» به جایی که استنتاج هوش مصنوعی اجرا میشود اشاره دارد—نه اینکه آیا اپلیکیشن موبایل میتواند به اینترنت دسترسی داشته باشد. یک مدل محلی همچنان میتواند APIهای خارجی را به عنوان ابزار فراخوانی کند (مانند جستجوی وب یا سرویس آب و هوا)، اما استدلال هوش مصنوعی خود کاملاً روی دستگاه اتفاق میافتد. با استنتاج داخل دستگاه و فراخوانی ابزار، شما حریم خصوصی را حفظ میکنید (هیچ داده کاربر برای پردازش ارسال نمیشود) در حالی که همچنان قابلیت را گسترش میدهید.
علیرغم پیشرفت سریع، هوش مصنوعی داخل دستگاه برای وظایف پیچیده مانند استدلال چندمرحلهای، تولید کد یا مکالمات طولانی بازپایان جایگزین هوش مصنوعی مبتنی بر ابر نخواهد شد. کاربران ممکن است آنچه را که مدلهای محلی میتوانند انجام دهند بیش از حد برآورد کنند—که منجر به ناامیدی در صورت تأخیر عملکرد میشود. کیفیت سطح ChatGPT را در یک تلفن بودجه انتظار نداشته باشید.
اما برای موارد استفاده با دامنه خوب و ارزش بالا، آینده روشن است:
همانطور که مدلها کوچک میشوند، NPUها استاندارد میشوند و فریمورکها بالغ میشوند، هوش مصنوعی داخل دستگاه از یک تازگی پذیرنده اولیه به عمل استاندارد تغییر خواهد کرد.
هوش داخل دستگاه فقط در مورد سرعت یا راحتی نیست—این یک تغییر پارادایم در نحوه فکر ما درباره هوش مصنوعی است: از خدمات متمرکز مبتنی بر اشتراک به دستیاران شخصی، خصوصی و همیشه آماده که در جیبهای ما زندگی میکنند.
برای توسعهدهندگان اپلیکیشن موبایل، این مسیری را برای ساخت اپلیکیشن موبایلهای اخلاقیتر، فراگیرتر و انعطافپذیرتر باز میکند—بدون وابستگی به ابر یا الزامات پیچیده انطباق با دادهها. فناوری هنوز کامل نیست، اما جهت واضح است. ما از آنچه اکثر مردم تصور میکنند نزدیکتر هستیم. مسیر واضح است—و سرعت در حال تسریع است.

