पिछली तिमाही में, मैं एक हल्के वीडियो सिंथेसिस मॉडल पर परफॉर्मेंस बेंचमार्क चला रहा था जिसे हमने हाल ही में फाइन-ट्यून किया था। इसे अपनी प्रमुख प्रयोगशाला मशीनों पर टेस्ट करने के बजाय, मैंने इसके बीटा वर्जन को एक पुराने iPhone 11 पर लोड किया। जैसा कि अनुमान था, वह जूझने लगा—तीन सेकंड की क्लिप को रेंडर करने में लगभग चार मिनट लग गए और डिवाइस काफी गर्म हो गया। लेकिन उस विशिष्ट हार्डवेयर की थर्मल सीमाओं को करीब से देखने ने मुझे सॉफ्टवेयर रोडमैपिंग के बारे में उतना सिखाया जितना कोई मार्केट विश्लेषण नहीं कर सकता था। AI App Studio में, जो तकनीक-केंद्रित सॉफ्टवेयर विकसित करने वाला एक स्टूडियो है, हमारा विजन इस बात पर आधारित नहीं है कि आर्टिफिशियल इंटेलिजेंस एक हाई-पावर्ड सर्वर फार्म में क्या हासिल कर सकता है। यह पूरी तरह से इस पर आधारित है कि वह किसी यूजर के हाथ में मौजूद डिवाइस पर क्या कर सकता है।
हम क्लाउड के बजाय एज (Edge) के लिए क्यों बना रहे हैं?
मोबाइल एप्लिकेशन में एज कंप्यूटिंग का अर्थ है बाहरी क्लाउड सर्वर पर निर्भर रहने के बजाय सीधे स्थानीय डिवाइस हार्डवेयर पर कम्प्यूटेशनल मॉडल चलाना। मेरा इस पर एक दृढ़ स्टैंड है: मोबाइल इंटेलिजेंस का भविष्य 'एज' पर ही होना चाहिए।
कई डेवलपर्स का तर्क है कि भारी प्रोसेसिंग को क्लाउड पर भेजना ही डिवाइस की बैटरी खत्म किए बिना या एप्लिकेशन का आकार बढ़ाए बिना जटिल फीचर्स देने का एकमात्र तरीका है। हालांकि बड़े बुनियादी मॉडलों के लिए यह आंशिक रूप से सच है, लेकिन यह निर्भरता गंभीर देरी (latency) और सुरक्षा कमियों को जन्म देती है। जब कोई यूजर तत्काल उपयोग की उम्मीद में एप्लिकेशन खोलता है, तो API रिस्पॉन्स प्राप्त करने में तीन सेकंड की नेटवर्क देरी भी उसके अनुभव को खराब कर देती है।
हमारा रोडमैप जानबूझकर क्लाउड-आधारित सतही समाधानों से बचता है। हम एम्बेडेड और उद्देश्य-निर्मित मॉडलों के साथ ऐसे एप्लिकेशन बनाने को प्राथमिकता देते हैं जो ऑफलाइन भी काम कर सकें। हमारे सॉफ्टवेयर की असली कसौटी यह नहीं है कि वह गीगाबिट फाइबर कनेक्शन पर कितना स्मार्ट है, बल्कि यह है कि वह बिना किसी सिग्नल के सबवे सफर के दौरान कितनी विश्वसनीयता से काम करता है।
उत्पादन लागत में गिरावट मोबाइल सॉफ्टवेयर को कैसे बदल रही है?
हमारी दीर्घकालिक उत्पाद दिशा को समझने के लिए, आपको मीडिया और यूटिलिटी क्रिएशन के व्यापक रुझानों को देखना होगा। LTX स्टूडियो द्वारा 2026 की क्रिएटिव ट्रेंड्स रिपोर्ट के अनुसार, पिछले एक साल में एंटरप्राइज AI वीडियो अपनाने में 127% की वृद्धि हुई है। साथ ही, उत्पादन लागत में 91% की गिरावट आई है, जिससे दिनों का काम मिनटों में होने लगा है।

लागत और समय में यह कमी सिर्फ एक कॉर्पोरेट आंकड़ा नहीं है; यह सीधे तौर पर उपभोक्ता की अपेक्षाओं को प्रभावित करती है। यदि एंटरप्राइज टीमें मिनटों में सिंथेटिक एसेट्स तैयार और टेस्ट कर सकती हैं, तो आम यूजर्स भी उम्मीद करते हैं कि उनके मोबाइल टूल्स वैसी ही गति प्रदान करें। इसके अलावा, Accio के 2026 मार्केट विश्लेषण के आंकड़े बताते हैं कि व्यापक ऑडियो और वीडियो उपकरण बाजार 21.46 बिलियन अमेरिकी डॉलर तक पहुंच जाएगा। पेशेवर स्टूडियो हार्डवेयर और उपभोक्ता मोबाइल उपकरणों के बीच की रेखा अब मिट रही है।
इन आंकड़ों पर हमारी प्रतिक्रिया स्पष्ट है। हम केवल उपभोग (consumption) के लिए उपकरण नहीं बना रहे हैं; हम मोबाइल प्रोडक्शन वातावरण बना रहे हैं। यदि कोई यूजर एक जटिल टाइमलाइन एडिट करना चाहता है या हाई-फिडेलिटी ऑडियो प्रोसेस करना चाहता है, तो उसे वापस डेस्कटॉप पर जाने के लिए मजबूर नहीं किया जाना चाहिए। कम्प्यूटेशनल क्षमता पहले से ही उनकी जेब में है; सॉफ्टवेयर को बस उसके अनुरूप ढलने की जरूरत है।
पुराने हार्डवेयर के लिए आर्टिफिशियल इंटेलिजेंस बनाने पर क्या होता है?
जब आपका बेसलाइन टेस्ट डिवाइस iPhone 14 Pro जैसा शक्तिशाली हो, तो एक प्रभावशाली प्रोडक्ट बनाना आसान है। असली इंजीनियरिंग चुनौती—और हमारी प्राथमिक डिजाइन सीमा—ऐसे मॉडल बनाना है जो पुराने आर्किटेक्चर पर भी शालीनता से काम कर सकें।
एक मुख्य विचार जिसे हम आंतरिक रूप से उपयोग करते हैं वह यह है: सबसे अच्छा सॉफ्टवेयर तेज हार्डवेयर की मांग नहीं करता; वह उपलब्ध हार्डवेयर के अनुसार खुद को ढाल लेता है। यदि हम एक उन्नत बैकग्राउंड सेगमेंटेशन फीचर तैनात करते हैं, तो उसे iPhone 14 Plus पर त्रुटिहीन रूप से चलना चाहिए। यदि उसी फीचर को iPhone 11 पर एक्सेस किया जाता है, तो मॉडल को स्वचालित रूप से हल्के वर्जन पर स्विच हो जाना चाहिए। आउटपुट में थोड़ा अधिक समय लग सकता है, लेकिन एप्लिकेशन क्रैश नहीं होगा।
यह हार्डवेयर-समावेशी दृष्टिकोण हमारे पूरे विकास चक्र को निर्धारित करता है। हम मॉडलों को छाँटने (pruning) और क्वांटाइज़ करने में हफ़्तों बिताते हैं ताकि वे सख्त मेमोरी सीमाओं के भीतर फिट हो सकें। पुराने हार्डवेयर वाले यूजर्स का साथ न छोड़कर, हम अपनी इंजीनियरिंग टीमों को प्रोसेसिंग पावर पर निर्भर रहने के बजाय अत्यधिक ऑप्टिमाइज़्ड कोड लिखने के लिए प्रेरित करते हैं।
हाइब्रिड मार्केट में यूटिलिटी ऐप्स कैसे विकसित होते हैं?
हर एप्लिकेशन को वीडियो जेनरेट करने या 3D वातावरण रेंडर करने की आवश्यकता नहीं होती। हमारे रोडमैप का एक बड़ा हिस्सा रोजमर्रा के साधारण कार्यों से बाधाओं को दूर करने पर केंद्रित है। एक ऐसा टेक्नोलॉजी रोडमैप जो बुनियादी उपयोगिता की अनदेखी करता है, वह स्वाभाविक रूप से दोषपूर्ण है।
उदाहरण के लिए डॉक्यूमेंट मैनेजमेंट को ही लें। जब हम एक PDF एडिटर में लोकल लैंग्वेज मॉडल को एकीकृत करते हैं, तो लक्ष्य कोई चमक-धमक वाला चैटबॉट बनाना नहीं होता। लक्ष्य यह होता है कि यूजर किसी संवेदनशील कानूनी दस्तावेज को तीसरे पक्ष के सर्वर पर अपलोड किए बिना, पचास पन्नों के अनुबंध से विशिष्ट क्लॉज तुरंत निकाल सके।
यही तर्क मोबाइल CRM पर भी लागू होता है। सेल्स प्रोफेशनल्स को ऐसे AI असिस्टेंट की जरूरत नहीं है जो उनके ईमेल शुरू से लिखने की कोशिश करे। उन्हें ऐसे इंटेलिजेंट सिस्टम की जरूरत है जो क्लाइंट इंटरैक्शन को स्वचालित रूप से वर्गीकृत करें, ऑफलाइन मीटिंग नोट्स लॉग करें और कॉल आते ही प्रासंगिक ऐतिहासिक डेटा सामने लाएं। मेरे अनुभव में, यूजर्स उस इंटेलिजेंस को नकार देते हैं जो उनके निर्णय की जगह लेने की कोशिश करती है। वे उस इंटेलिजेंस को आसानी से अपना लेते हैं जो दोहराव वाले प्रशासनिक कार्यों को कम करती है।
हमारा तकनीक-केंद्रित रोडमैप आगे कहाँ ले जाता है?
एक रोडमैप निर्णय लेने का आधार होता है, न कि केवल इच्छाओं की सूची। जैसा कि मेरे सहयोगी दोरुक अव्जी ने एक हालिया पोस्ट में बताया कि एक तकनीक-केंद्रित ऐप स्टूडियो प्रोडक्ट रोडमैप कैसे बनाता है, हमारा हर तकनीकी एकीकरण सीधे यूजर की आवश्यकता से जुड़ा होना चाहिए।
अगले छत्तीस महीनों में, हमारा इंजीनियरिंग फोकस मल्टी-मोडल लोकल प्रोसेसिंग पर बहुत अधिक रहेगा। हम केवल टेक्स्ट या इमेज मॉडल से आगे बढ़ रहे हैं। हम ऐसे फ्रेमवर्क पर रिसर्च कर रहे हैं जो स्थानीय मोबाइल एप्लिकेशन को ऑडियो, टेक्स्ट और विजुअल इनपुट को एक साथ प्रोसेस करने की अनुमति देते हैं, जिससे डिवाइस छोड़े बिना एक-दूसरे से संदर्भ (context) लिया जा सके।
प्रोसेसिंग को 'एज' पर रखकर, अलग-अलग हार्डवेयर सीमाओं के लिए आक्रामक रूप से ऑप्टिमाइज़ करके और केवल इंडस्ट्री हाइप के बजाय वास्तविक यूजर समस्याओं को लक्षित करके, हम सुनिश्चित करते हैं कि हमारे एप्लिकेशन व्यावहारिक बने रहें। मास स्टोरेज के लिए क्लाउड का अपना स्थान हमेशा रहेगा, लेकिन सॉफ्टवेयर का तत्काल और रिस्पॉन्सिव भविष्य सीधे आपके डिवाइस पर घटित हो रहा है।