Xiaomi meties robotu izveidē, uzņēmums ir paziņojis par Xiaomi-Robotics-0 atvērtā pirmkoda redzes-valodas-darbības (VLA) modeli ar 4.7 miljardiem parametru, kas gan ir ļoti, ļoti maz salīdzinot ar kā minimums vairākiem simtiem miljardu parametru, ko izmanto šobrīd populārie ChatGPT, Claude un Gemini modeļi. Xiaomi-Robotics-0 ir izstrādāts, lai apvienotu vizuālo uztveri, valodas izpratni un reāllaika darbību izpildi, ko Xiaomi dēvē par fiziskā intelekta pamatu robotu izveidē.
Šādi robotikas valodas modeļi apvieno uztveri, lēmumu pieņemšanu un izpildi. Robotam ir jāredz pasaule, jāsaprot, kas tam tiek prasīts, jāizstrādā plāns un pēc tam tas vienmērīgi un samērīgi jāīsteno.
Xiaomi valodu modelis izmanto tā saukto Mixture-of-Transformers arhitektūru, sadalot pienākumus starp vizuālās valodas modeli, kas darbojas kā smadzenes un darbību modeli. Vizuālais modelis ir apmācīts interpretēt cilvēka norādījumus un izprast telpiskumu.
Darbību modelis ģenerē darbību kopumu (Action Chunk), izmantojot plūsmas saskaņošanas (flow-matching) metodes, lai kustības būtu precīzas un plūstošas.
Atliks vien uzbūvēt savu robotu, jo programmatūra tā darbināšanai jau būs gatava!



