Эрдэмтэдийн, зөвхөн хиймэл оюун ухааны ажилтнуудаас бүрдсэн компани байгуулж ажиллуулсны хүлээлт хангаагүй үр дүн

Хиймэл оюун ухаан таны ажлыг булааж, амьжиргааны эх үүсвэргүй орхих вий гэж санаа зовж байгаа бол тайвширч болно. AI таны ажлыг авах болоогүй. Тэр хүсээгүйдээ биш, харин тэр үүнийг хийх чадваргүй учраас тэр гэж Futurism бичжээ.

Карнеги Меллоны их сургуулийн судлаачдын саяхан хийсэн туршилт нь, хүмүүсийн хувьд маш сонирхолтой үр дүнг гаргажээ. Эрдэмтэд хиймэл оюун ухааны загварууд болох хиймэл оюун ухааны агентуудаар бүрэн хангагдсан, хуурамч програм хангамжийн компанийг байгуулжээ. Тэд даалгавраа бие даан гүйцэтгэх ёстой байв. TheAgentCompany нэртэй уг симуляцид Google, OpenAI, Anthropic, Meta зэрэг компаниудын дижитал ажилчид ажилласан. Виртуал оффист тэд санхүүгийн шинжээч, программ хангамжийн инженер, төслийн менежерүүдийн үүргийг гүйцэтгэж, хүний нөөцийн хэлтэс, техникийн захирал нь ч гэсэн дижитал ажилтан байв.

Загварууд бодит байдалд ойрхон нөхцөлд даалгавруудыг хэр сайн даван туулж байгааг шалгахын тулд судлаачид ердийн мэдээллийн технологийн компанид байдаг хиймэл оюун ухааны даалгавруудыг тавьсан. AI агентууд, файлын лавлахуудыг удирдах, шинэ оффисуудаар виртуал аялал хийх, тэр ч байтугай санал хүсэлт дээр үндэслэн програмистуудын гүйцэтгэлийн тайланг бичихийг оролдсон.

Үр дүн нь аймшигтай байсан. Хамгийн сайн гүйцэтгэлтэй загвар нь Anthropic-ийн Claude 3.5 Sonnet байсан бөгөөд өмнө нь тавьсан даалгаврын ердөө 24 хувийг л гүйцэтгэж чадсан юм. Судалгааны зохиогчид, энэхүү даруухан үр дүн маш өндөр зарлагатай, нэг даалгаварт 6 доллараас дээш зардал гарсныг тэмдэглэжээ.

(AI, тухайлбал Chat GPT-ийн бидэнд, тухайн контекст дэх алхмууд нь нэг ажлыг шийдвэрлэхийн тулд AI агентын гүйцэтгэх ёстой бие даасан үйлдэл эсвэл тушаалууд гэж тайлбарлав.

Алхам бүр нь жишээлбэл:

Мэдээллийн сан эсвэл файлд хандах,
"Виртуал хамтрагч" -аас мэдээлэл хүсэх
Файлын системд шилжих командыг гүйцэтгэх,
Текст эсвэл код үүсгэх,
Түр зуурын шийдвэр гаргах гэх мэт.

Өөрөөр хэлбэл, хүн хэд хэдэн логик алхамаар шийдэж чадах даалгаврыг, хиймэл ухаан нь, эрүүл ухаан, санах ой, үйлдлээ үр дүнтэй төлөвлөх чадваргүйн улмаас хэдэн арван удаагийн давталт шаарддаг. Тийм ч учраас сул үр дүнтэй загварууд ч гэсэн үнэтэй- нэг даалгавар тутамд $ 6+, оролдлого бүрт хэдэн арван алхам хийдэг нь харагджээ.

Google-ийн Gemini 2.0 Flash загвар нь, даалгаврын 11.4%-ийг гүйцэтгэсэн бөгөөд гүйцэтгэсэн ажил бүрт дунджаар 40 алхам хийсэн амжилтаараа хоёрдугаарт оров.

Хамгийн муу виртуал ажилчин нь, Amazon-ийн Nova Pro v1 байсан бөгөөд энэ нь даалгаврын ердөө 1.7%-ийг гүйцэтгэсэн. Даалгавар тус бүрийг гүйцэтгэхийн тулд бараг 20 алхам хийсэн.

Судлаачид энэ бүтэлгүйтлийг, хиймэл оюун ухааны агентууд эрүүл ухаан, сэтгэлгээний дутагдалтай, нийгмийн харилцааны чадвар сул, интернетэд итгэлтэйгээр жолоодох, баримжаа чадваргүйтэй холбон тайлбарлаж байна.

Үүний зэрэгцээ, тэд өөрсдийгөө хуурч мэхлэх хандлагатай байсан бөгөөд энэ нь даалгавраа бүрэн бүтэлгүйтэхэд хүргэсэн "товчилсон, богино аргуудыг" бий болгож байв.

Жишээ нь,” AI агент нэг ажлыг гүйцэтгэх явцдаа, корпорацийн чатаар асуулт асуух тохирох ажилтнаа олж чадахгүй байсан. Тэгснээ, тэр даалгаврыг "хялбаршуулах" шийдвэр гаргаж, нөгөө хэрэглэгчийн нэрийг өөрчилж, түүнд хэрэгтэй ажилтныхаа нэрийг өгч байв."

Судлаачид хиймэл оюун ухаан нь энгийн ажлуудыг даван туулж чадна гэж хэлж байгаа ч, энэ удаагийн болон бусад судалгааны үр дүн, AI агентууд хүн төрөлхтөний одоогийн өндөр амжилтанд хүрсэн нарийн төвөгтэй ажилд хараахан бэлэн болоогүй байгааг харуулж байна. Үүний гол шалтгаан нь, орчин үеийн хиймэл оюун ухаан нь асуудлыг шийдэж, өнгөрсөн туршлагаас суралцаж, мэдлэгээ шинэ нөхцөл байдалд ашиглах ухаалаг систем биш, харин таны ухаалаг утсан дээрх автоматаар бөглөх функцийн цогц үргэлжлэл байгаа нь юм.

Тиймээс, томоохон технологийн компаниудын хэлдэгчилэн AI машинууд таны ажлыг булааж авах асуудал ойрын үед болохгүй нь тодорхой байна.