WP “가장 정확한 답 내놓는 AI는 구글 ‘AI 모드’…챗GPT 제쳐” 작성일 08-29 36 목록 <div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">9개 AI 검색도구 성능 평가...사서들이 직접 채점<br>구글 1위, 챗GPT 2위, 메타·그록 최하위<br>“AI, 구글 검색 대체는 아직 요원”</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="foWfPc0Cwf"> <p contents-hash="70e1dfe5cf20cf6244d7a4201de9bde83f380049a352e5e137bbae4ec23c938d" dmcf-pid="4gY4QkphDV" dmcf-ptype="general"> [이데일리 김현아 기자] 워싱턴포스트(WP)가 미국 공공·대학 도서관 사서들과 함께 진행한 대규모 AI 검색 성능 테스트에서 구글의 ‘AI 모드’가 가장 정확한 답변을 제공한 것으로 나타났다. 챗GPT는 2위를 기록했지만, 일부 영역에서는 전작 GPT-4가 오히려 더 높은 평가를 받았다.</p> <figure class="figure_frm origin_fig" contents-hash="4a04e269498fa49025be2584b4a883bb1f35e93f9943dc40273833aa81299b3d" dmcf-pid="8aG8xEUlO2" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202508/29/Edaily/20250829082145372stld.jpg" data-org-width="670" dmcf-mid="2wZISUaVs8" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202508/29/Edaily/20250829082145372stld.jpg" width="658"></p> </figure> <div contents-hash="4101816df91a20fc3abd01ad213df0d1288f0546cddb914fa4c995948467beaf" dmcf-pid="6NH6MDuSs9" dmcf-ptype="general"> <strong>900건 답변 검증…사서들이 직접 채점</strong> </div> <p contents-hash="65ec1b30ed2f53fa37c586ce306cb0ebb6ad7ae26f09ee2e8c281c36687f7c95" dmcf-pid="PI7ojT8tsK" dmcf-ptype="general">WP는 지난 7~8월 무료 기본 버전으로 제공되는 9개 AI 검색 도구에 총 30개의 까다로운 질문을 던지고, 나온 900건의 답변을 사서들이 평가했다고 27일(현지시간) 보도했다.</p> <p contents-hash="e4379c0c2c31db83905058f8858f9dcca9de73abfce3516848c4abade3bc52ff" dmcf-pid="QCzgAy6FOb" dmcf-ptype="general">평가 대상은 △구글 AI 모드와 AI 오버뷰 △오픈AI 챗GPT(GPT-5, GPT-4 터보) △마이크로소프트 빙 코파일럿 △앤스로픽 클로드 △메타 AI △일론 머스크의 그록(Grok)△퍼플렉시티(Perplexity) 등이다.</p> <p contents-hash="dd307b3b57e52b3c57eeb6f851d5f4aef49554898706d5d3b630ff26e88266ce" dmcf-pid="xhqacWP3EB" dmcf-ptype="general">질문은 AI의 고질적 약점을 겨냥한 다섯 가지 영역, ①퀴즈 ②전문 소스 필요 질문 ③최신 사건 ④내재된 편향 ⑤이미지 인식으로 구성됐다.</p> <p contents-hash="99c6d551b04a0205d83e26d9bc8ee30da1f84a52e0af2913e7d019e13142f760" dmcf-pid="y4D3uMvaOq" dmcf-ptype="general"><strong>최종 순위…구글 1위, 챗GPT 2위, 메타·그록 최하위</strong></p> <p contents-hash="37d63036852aa6974c636f4bfad22f2c44833fa4f02540350b7f734f28fc4de4" dmcf-pid="W8w07RTNEz" dmcf-ptype="general">종합 점수에서 구글 AI 모드가 60.2점으로 1위를 차지했고, GPT-5 챗GPT가 55.1점으로 2위, 퍼플렉시티가 51.3점으로 3위에 올랐다.</p> <p contents-hash="d73b86e0475843e8401ab77b90e58c897dcc18187706c1a8ef6dd97bbd9abbac" dmcf-pid="Y6rpzeyjm7" dmcf-ptype="general">반면, 일론 머스크의 그록3는 40.1점으로 8위, 메타 AI는 33.7점으로 최하위에 머물렀다.</p> <p contents-hash="80fd2713ead4c5323cccee31a04261555b9245bb74bfbaa210e29b4ef2adcd4d" dmcf-pid="GPmUqdWAIu" dmcf-ptype="general">WP는 “구글 AI 모드는 퀴즈와 최신 사건 대응에서 독보적인 강점을 보였다”며 “다만 결과를 내는 데 시간이 오래 걸리고 접근 방식이 다소 번거롭다는 한계가 있다”고 지적했다.</p> <p contents-hash="e3c941344de5c5fe8b7fd17cb2af5c720531802a54f4693fcfc2b44fb792641b" dmcf-pid="HQsuBJYcIU" dmcf-ptype="general">퀴즈에선 구글 AI 모드가 최고, 그록이 최악이었다.</p> <p contents-hash="5837614f8ca775bb800d5a300afb885cc1121cc52aca5d623afc1553c1f4ed88" dmcf-pid="XxO7biGkIp" dmcf-ptype="general">전문 소스가 필요한 질문에는 빙 코파일럿 최고, 퍼플렉시티가 최악이었다.</p> <p contents-hash="37ac0ff54cf1c8cb47b9c88b570acd455ac66d1acb4da91682aa6681643e395e" dmcf-pid="ZMIzKnHEI0" dmcf-ptype="general">최신 사건은 구글 AI 모드가 최고, 메타가 AI 최악이었다.</p> <p contents-hash="11cb277746f4d2d5915c8ff5ef5c5336ce11f3dc2d78e74d8fe9313b4b97dd35" dmcf-pid="5RCq9LXDE3" dmcf-ptype="general">편향성 대응은 챗GPT-4 터보가 최고, 메타 AI가 최악이었다. GPT-5는 종합적으로 2위에 오르며 개선된 성능을 보여줬지만, 출처 명시, 편향성 대응 같은 일부 항목에서는 GPT-4가 오히려 더 좋은 평가를 받았다.</p> <p contents-hash="b0b730c4f78df2252b6a5875774c6921c99e334062abc3c0f9e7b242125ed036" dmcf-pid="16rpzeyjmF" dmcf-ptype="general">이미지 인식은 퍼플렉시티가 최고, 메타 AI가 최악이었다.</p> <p contents-hash="458d78de501d263260a2111e908606f14e02ef7271024963a3f5f7b8f5f80737" dmcf-pid="tPmUqdWAOt" dmcf-ptype="general">특히 “아이폰 버튼 개수” 같은 단순 질문조차 정답을 낸 것은 3개 AI뿐이었고, 대부분은 자신 있게 잘못된 답을 내놓는 이른바 ‘할루시네이션(hallucination)’ 현상을 보였다.</p> <p contents-hash="ccdd2e0887033276d001d357eb4865c57f490633327857e176468a03cc224df7" dmcf-pid="FQsuBJYcm1" dmcf-ptype="general">이와 관련해 WP는 “AI 답변을 맹신하기보다 사서처럼 출처를 확인하고 최신성을 검증하는 태도가 필요하다”고 강조했다.</p> <figure class="figure_frm origin_fig" contents-hash="f0be7f6e1ec01079ec525df0f3735eb89f22667d9f402a68bca8d478636e84a3" dmcf-pid="3xO7biGkw5" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202508/29/Edaily/20250829082146612yipt.jpg" data-org-width="550" dmcf-mid="VEbjEGxpD4" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202508/29/Edaily/20250829082146612yipt.jpg" width="658"></p> </figure> <div contents-hash="fa9189d296d6325ec3bd251138aaa6b2cf6b3d9d7757ff6c093686cab8484379" dmcf-pid="0MIzKnHEOZ" dmcf-ptype="general"> <strong>“AI, 구글 검색 대체는 아직 요원”</strong> </div> <p contents-hash="2b1b47485104d9a36ce800c784ac81faa95f67cfae61e644c6da46180453168d" dmcf-pid="pRCq9LXDIX" dmcf-ptype="general">사서들은 테스트 질문의 64%는 전통적인 구글 검색으로도 더 빨리 정확한 답을 얻을 수 있었다고 평가했다.</p> <p contents-hash="f448ed0c369f26828eabc0d143c2925c461caecf449744adb97d3aace80e24b1" dmcf-pid="UehB2oZwrH" dmcf-ptype="general">WP는 “AI는 복잡한 질문에서는 ‘건초더미 속 바늘’을 찾는 데 유용했지만, 단순 검색에서는 오히려 ‘노이즈’를 만들 수 있다”며 “AI가 구글을 대체하기까지는 아직 갈 길이 멀다”고 결론지었다.</p> <p contents-hash="71951bf8e1ee90ad18359a565152e9ebfd852d5818a723449dfba15401eb64e2" dmcf-pid="udlbVg5rOG" dmcf-ptype="general">김현아 (chaos@edaily.co.kr) </p> </section> </div> <p class="" data-translation="true">Copyright © 이데일리. 무단전재 및 재배포 금지.</p> 관련자료 이전 '트라이' 김민상 "웃음 끊이지 않던 현장…오래 기억 남을 것" 종영소감 08-29 다음 커, 우상혁 빠진 다이아몬드리그 파이널서 남자 높이뛰기 우승 08-29 댓글 0 등록된 댓글이 없습니다. 로그인한 회원만 댓글 등록이 가능합니다.