앱도 직접 조작… AI가 손·발까지 달았다 작성일 05-02 5 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">생성형 AI 넘어 ‘AI 비서’ 혁명<br>사용자의 명령 잘 수행했는지<br>스스로 판단, 될 때까지 반복</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="UB6HDvKptY"> <p contents-hash="b4b9387be3d4221476b676a6f5d218a0f4d42f24422ea4063356b8ba6b3302a5" dmcf-pid="u8J0hZPKYW" dmcf-ptype="general">스마트폰 화면을 수십 번 터치해야 했던 과정을 없애는 ‘제로 클릭’ 시대가 가능해진 건 스스로 판단하고 외부 앱을 조작할 수 있게 된 AI 에이전트(비서) 기술 덕분이다. 사용자의 귀찮은 손가락 노동을 AI 에이전트가 고스란히 떠안게 된 것이다.</p> <p contents-hash="36363609f83e6fe5e13a6c0a28bb8afc7065067180446e0815dfb6b85e105328" dmcf-pid="76ipl5Q9Zy" dmcf-ptype="general">챗GPT로 대표되는 생성형 AI는 단순한 ‘조언자(코파일럿·Copilot)’였다. 질문을 하면 그럴싸한 텍스트나 코드를 만들어줬다. 실제 실행(클릭)하는 것은 사람 몫이었다. AI 에이전트는 조언자 역할을 넘어 사람이 목표를 제시하면 결과물까지 완성해 주는 대리인으로 진화했다. 생성형 AI는 생각하는 두뇌와 질문에 답하는 입뿐이었지만 AI 에이전트는 인간처럼 보고·듣고(눈·귀), 계획을 세우고(두뇌), 실행(손·발)할 수 있는 능력을 갖게 되면서 사람을 대신해 업무를 할 수 있게 된 것이다.</p> <p contents-hash="6ac26687066c617e2a64f1a2f06fa4f5dbc9aa4b33a80adf1ba8a49e0a2bba13" dmcf-pid="zPnUS1x25T" dmcf-ptype="general">예를 들어 사람이 “제일 싼 항공권 찾아줘”라며 할 일을 알려주면 AI 에이전트는 웹페이지, PC 내 파일, 이전 대화 내용 등에서 필요한 정보를 모두 모은다. 이때 텍스트뿐 아니라 이미지·음성·PDF까지 읽을 수 있는 멀티모달 기술이 적용된다. 생성형 AI 때보다 감각 기관이 늘어난 셈이다.</p> <p contents-hash="7d8f513350f949d972b816408c797b4ba727b885fc8f7af9de985a2aa034d057" dmcf-pid="qQLuvtMVGv" dmcf-ptype="general">이후 수집한 정보를 바탕으로 날짜 확인→항공사 검색→가격 비교까지 할 일을 잘게 쪼갠 뒤 진행한다. 이때 AI 에이전트는 지시를 제대로 이해하고 행동하고 있는지 확인하는 과정을 끊임없이 반복한다.</p> <p contents-hash="6a3f9c3a8991604ab8493ef0a2a0eee3a513981fb73086dcd38695a36524e2cc" dmcf-pid="Bxo7TFRfYS" dmcf-ptype="general">다음 단계로 AI 에이전트는 실제 행동에 나서게 된다. AI 자체는 글을 쓸 수 있어도 인터넷을 검색하거나 파일을 열고·저장하거나 이메일을 보낼 수 없다. 이때 AI 에이전트는 손·발 역할을 하는 API(Application Programming Interface)를 활용한다. API는 AI를 외부 서버와 연결해주는 문(門)이자 AI끼리 소통하는 대화 규칙이다. 예를 들어 사용자가 ‘내일 서울 날씨가 어때’라고 물으면 AI 에이전트는 날씨 API를 통해 기상청에 요청해 받은 날씨 정보를 사용자에게 알려준다. 뉴스나 주가 정보, 메일 발송이나 일정 등록, 결제·예약 때도 각각의 API를 통해 외부와 연결해 정보를 얻는다. API가 많이 연결될수록 AI 에이전트가 할 수 있는 일이 늘어난다.</p> <p contents-hash="94fed94a5216f20117e2c9c7d1b5b5baaa229ef21f2e266f2d05465b70bbc5af" dmcf-pid="bMgzy3e41l" dmcf-ptype="general">하지만 AI 입장에서 날씨·지도·메일·일정 등 각각의 정보를 불러오려면 일일이 API를 배워야 하는 번거로움이 생긴다. 이때 앤스로픽이 만든 MCP가 위력을 발휘한다. MCP는 서로 모양이 다른 API를 공통 규격으로 묶어 놓은 것이다. 저마다 다른 단자를 썼던 마우스·키보드·프린터가 USB 하나로 통일되면서 모든 기기를 꽂아 쓸 수 있게 됐듯이 MCP는 API 연결을 표준화했다.</p> <p contents-hash="ed86d2adeed1bc2c7779bcd5e492c0d78c00562774d4c972047a26ee73d5d29e" dmcf-pid="KRaqW0d8Zh" dmcf-ptype="general">AI 에이전트는 마지막 단계로 자신의 행동 결과가 지시받은 목표를 달성했는지를 최종 판단한다. 목표에 미달했다면 처음부터 다시 읽고, 생각하고, 행동하는 과정을 거치며 목표를 달성할 때까지 반복하게 된다.</p> <p contents-hash="ec723b2ee997c649c94c368b8c19fffb3ed3bae8a6bc40a1629e3a05f73268b7" dmcf-pid="9eNBYpJ6GC" dmcf-ptype="general">IT 전문가들은 가까운 미래에는 스마트폰 첫 화면을 빽빽하게 채웠던 수십 개의 앱 아이콘이 사라질 것으로 예상한다. 일일이 앱을 켜고 끌 필요 없이, 내 지시를 실행하는 하나의 AI 에이전트와 대화창만 남게 되는 것이다.</p> </section> </div> <p class="" data-translation="true">Copyright © 조선일보. 무단전재 및 재배포 금지.</p> 관련자료 이전 '나혼산' 안재현 "내 1번 안주"…13살 반려묘 건강 검진 05-02 다음 삼바 노조 전면 파업… 제품 23종 생산 중단 05-02 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.