Az előző negyedévben teljesítményteszteket futtattam egy könnyűsúlyú videószintézis-modellen, amelyet éppen akkor finomhangoltunk. Ahelyett, hogy a laboratóriumi csúcskategóriás gépeinken teszteltem volna, betöltöttem a bétát egy kiöregedett iPhone 11-re. Ahogy várható volt, az eszköz megizzadt: egy háromperces klip renderelése majdnem négy percig tartott, és a telefon kellemetlenül átforrósodott. Azonban az adott hardver hőkezelési korlátainak megfigyelése többet tanított a szoftveres ütemtervünk kialakításáról, mint bármilyen piacelemzés. Az AI App Studiónál — egy technológia-fókuszú szoftverfejlesztő műhelyben — a víziónk nem azon alapul, amit a mesterséges intelligencia egy nagyteljesítményű szerverparkban képes elérni. Teljes mértékben arra építünk, amit valaki a saját kezében tartva képes végrehajtani.
Miért fejlesztünk a peremhálózatra (edge) a felhő helyett?
A mobilalkalmazások körében a peremhálózati számítástechnika (edge computing) azt a gyakorlatot jelenti, amikor a számítási modelleket közvetlenül a helyi eszköz hardverén futtatjuk, ahelyett, hogy külső felhőszerverekre támaszkodnánk. Határozott álláspontom, hogy a mobil intelligencia jövőjének a „széleken” kell élnie.
Sok fejlesztő azzal érvel, hogy a nagy erőforrás-igényű folyamatok felhőbe történő kiszervezése az egyetlen módja annak, hogy összetett funkciókat kínáljunk az akkumulátor lemerítése vagy az alkalmazásméret drasztikus növelése nélkül. Bár ez a hatalmas fundamentális modellek esetében részben igaz, ez a függőség súlyos késleltetést és adatvédelmi sebezhetőséget okoz. Amikor egy felhasználó azonnali megoldást várva megnyit egy appot, egy hárommásodperces hálózati késés az API-válaszra várva teljesen tönkreteszi az élményt.
Terméktervünk tudatosan kerüli a „vékony” felhőalapú megoldásokat. Előnyben részesítjük a beágyazott, célirányosan épített modelleket tartalmazó alkalmazásokat, amelyek offline is működnek. Szoftvereink valódi mércéje nem az, hogy mennyire „okosak” egy gigabites optikai kapcsolaton, hanem az, hogy mennyire megbízhatóan teljesítenek a metrón, zéró térerő mellett.
Hogyan formálják át a mobil szoftvereket a csökkenő előállítási költségek?
Ahhoz, hogy megértsük hosszú távú termékirányunkat, meg kell vizsgálnunk a média- és segédprogram-készítés makrotrendjeit. Az LTX Studio 2026-os Kreatív Trendek Riportja szerint a vállalati MI-videóalkalmazás 127%-kal nőtt az elmúlt évben. Ezzel egy időben a gyártási költségek 91%-kal csökkentek, napokról percekre rövidítve a munkafolyamatokat.

A költségek és az idő ezen drasztikus csökkenése nem csupán egy vállalati mutató; közvetlenül befolyásolja a fogyasztói elvárásokat. Ha a vállalati csapatok percek alatt képesek szintetikus tartalmakat generálni és tesztelni, a mindennapi felhasználók is elvárják, hogy mobil eszközeik ugyanezt a sebességet kínálják. Emellett az Accio 2026-os piaci elemzése szerint a tágabb audio- és videoberendezések piaca eléri a 21,46 milliárd dollárt. A határvonal a professzionális stúdióhardverek és a fogyasztói mobil eszközök között kezd eltűnni.
Válaszunk ezekre az adatokra egyértelmű: nem csupán fogyasztásra szánt eszközöket, hanem mobil produkciós környezeteket építünk. Ha egy felhasználó egy komplex idősávot akar szerkeszteni vagy nagy hűségű hanganyagot feldolgozni, nem szabadna asztali környezetbe kényszeríteni. A számítási kapacitás már ott lapul a zsebükben; a szoftvernek egyszerűen fel kell zárkóznia.
Mi történik, ha mesterséges intelligenciát építünk régebbi hardverekre?
Könnyű lenyűgöző terméket fejleszteni, ha az alapértelmezett teszteszközünk egy iPhone 14 Pro, amely A16 Bionic chippel és bőséges Neural Engine magokkal van felszerelve. A valódi mérnöki kihívás — és egyben elsődleges tervezési korlátunk — olyan modellek létrehozása, amelyek rugalmasan alkalmazkodnak a régebbi architektúrákhoz is.
Belsőleg gyakran hangoztatott elvünk: A legjobb szoftver nem gyorsabb hardvert követel, hanem elegánsan alkalmazkodik ahhoz, amije van. Ha bevezetünk egy fejlett háttér-szegmentálási funkciót, annak hibátlanul kell futnia egy iPhone 14 Plus-on vagy egy alap iPhone 14-en. Ha ugyanezt a funkciót egy iPhone 11-en érik el, a modellnek automatikusan egy könnyebb változatra kell váltania. Az eredmény talán valamivel tovább tart, vagy kevésbé agresszív mintavételezést használ, de az alkalmazás nem omolhat össze.
Ez a hardver-inkluzív megközelítés meghatározza a teljes fejlesztési ciklusunkat. Heteket töltünk a modellek ritkításával (pruning) és kvantálásával, hogy beférjenek a szigorú memóriakorlátok közé. Azzal, hogy nem hagyjuk cserben a régebbi hardvert használókat, arra kényszerítjük mérnöki csapatainkat, hogy rendkívül optimalizált kódot írjanak ahelyett, hogy nyers számítási erőre támaszkodnának.
Hogyan fejlődnek a segédprogramok egy hibrid piacon?
Nem minden alkalmazás igényel videógenerálást vagy 3D-s renderelést. Ütemtervünk nagy része a hétköznapi, rutinfeladatok súrlódásmentesítésére fókuszál. Az olyan technológiai terv, amely figyelmen kívül hagyja az alapvető használhatóságot, alapvetően hibás.
Vegyük például a dokumentumkezelést. Amikor helyi nyelvi modelleket integrálunk egy PDF-szerkesztőbe, a cél nem egy csillogó chatbot létrehozása. A cél az, hogy a felhasználó azonnal kinyerhessen konkrét záradékokat egy ötvenoldalas szerződésből anélkül, hogy érzékeny jogi dokumentumokat töltene fel egy harmadik fél szerverére.
Ugyanez a logika érvényes egy mobil CRM-re is. Az értékesítési szakembereknek nincs szükségük olyan MI-asszisztensre, amely megpróbálja nulláról megírni az e-mailjeiket. Olyan intelligens rendszerekre van szükségük, amelyek automatikusan kategorizálják a beérkező ügyfél-interakciókat, naplózzák az offline megbeszélések jegyzeteit, és pontosan akkor hívják elő a releváns előzményeket, amikor bejövő hívásuk érkezik. Tapasztalatom szerint a felhasználók elutasítják azt az intelligenciát, amely az ítélőképességüket akarja helyettesíteni, de örömmel fogadják azt, amely eltünteti az ismétlődő adminisztratív terheket.
Hová vezet a technológia-fókuszú ütemtervünk?
Az ütemterv egy döntési mátrix, nem pedig egy kívánságlista. Ahogy kollégám, Doruk Avcı részletezte egy korábbi posztjában arról, hogyan épít terméktervet egy technológia-fókuszú app stúdió a felhasználói igények alapján, minden technikai integrációnknak közvetlenül kapcsolódnia kell egy dokumentált felhasználói igényhez.
A következő harminchat hónapban mérnöki fókuszunk erőteljesen a multimodális helyi feldolgozás felé tolódik el. Túlmutatunk az egyszerű szöveges vagy képi modelleken. Olyan keretrendszereket kutatunk, amelyek lehetővé teszik a helyi mobilalkalmazások számára a hang-, szöveges és vizuális bemenetek egyidejű feldolgozását, kontextust merítve egymásból anélkül, hogy az adatok elhagynák az eszközt.
Azzal, hogy a feldolgozást a peremhálózaton tartjuk, agresszívan optimalizálunk a változó hardveres korlátokra, és a valódi felhasználói nehézségeket célozzuk meg az iparági felhajtás helyett, biztosítjuk, hogy alkalmazásaink praktikusak maradjanak. A felhőnek mindig meglesz a helye a tömeges tárolásban és az aszinkron feladatokban, de a szoftverek azonnali, válaszkész jövője éppen itt, az eszközön történik.