Agentic Web: 자율 브라우저와 디지털 상호작용의 미래에 대한 전략적 분석
이 문서는 Gemini 2.5 Deep Research의 결과물을 옮겨온 것이다. 이를 기초 자료로 하여, 각 기술 스택, 제품의 테스트와 사용 경험, 비교 분석, 시사점과 전략적 방향을 차근차근 덧붙여 나가고자 한다.
- 이 문서는 개인적 연구자료로 만들어졌으며, 인용이나 복사, 요약 등의 필요로 원문에 대한 접근 권한이 필요로 한 경우 이메일로 요청해주시기 바랍니다.
에이전틱 웹의 여명
정보 검색에서 과업 실행으로: 에이전틱 브라우저의 정의
지난 수십 년간 웹 브라우저는 사용자가 디지털 정보를 수동적으로 소비하는 창구, 즉 정보 디스플레이 도구로서의 역할을 수행해왔다. 그러나 이제 우리는 새로운 패러다임의 전환점에 서 있다. '에이전틱 브라우저(Agentic Browser)'의 등장은 브라우저가 수동적 도구에서 능동적이고 자율적인 파트너로 진화하고 있음을 시사한다.
에이전틱 브라우저는 대형 언어 모델(LLM)이 단순한 정보 제공자를 넘어, 추론 엔진이자 실질적인 과업 수행의 주체(Agent)로서 기능하는 시스템으로 정의된다.1 이 시스템은 사용자의 높은 수준의 목표를 이해하고, 이를 달성하기 위한 구체적인 단계로 분해한 뒤, 최소한의 인간 개입으로 웹 인터페이스와 상호작용하여 과업을 완수하는 능력을 갖추고 있다.3 이는 특정 규칙과 선택자(selector)에 의존하여 쉽게 깨지는 기존의 웹 자동화 도구(예: Selenium, Playwright)와 근본적인 차이를 보인다.4 에이전틱 브라우저는 정해진 스크립트가 아닌, 사용자의 의도와 웹의 맥락을 이해하여 유연하게 대처하는 것을 목표로 한다.
이러한 변화의 중심에는 '에이전틱 AI(Agentic AI)'라는 개념이 있다. 사용자의 지시가 있어야만 반응하는 기존의 반응형(reactive) AI를 넘어, 스스로 목표를 설정하고, 계획을 수립하며, 행동을 실행하는 자율성을 특징으로 한다.2
생성형 코파일럿에서 자율 에이전트로의 진화
에이전틱 브라우저의 등장을 이해하기 위해서는 '생성형 AI(Generative AI)'와 '에이전틱 AI(Agentic AI)'의 핵심적인 차이를 명확히 구분해야 한다. 생성형 AI는 주로 챗봇과 같이 사용자의 명시적인 지시에 따라 반응하는 시스템이다. "이 보고서를 요약해줘" 또는 "이메일 초안을 작성해줘"와 같은 구체적인 명령을 수행하는 데 탁월하지만, 그 역할은 본질적으로 수동적이고 지시 의존적이다.5
반면, 에이전틱 AI는 **자율성(Autonomy), 목표 지향성(Goal-orientation), 지속적 학습(Continual Learning), 그리고 상황적 반응성(Contextual Reactivity)**과 같은 속성을 통해 한 단계 더 나아간다.2 사용자는 "도쿄로 4박 5일 여행 계획을 세우고, 예산에 맞는 항공권과 숙소를 예약해줘"와 같은 포괄적인 목표를 제시한다. 그러면 에이전트는 이 목표를 달성하기 위한 세부 단계를 스스로
고안하고, 비평하며, 소유한다.8 즉, 사용자가 제공한 레시피를 따르는 것이 아니라, 목표 달성을 위한 최적의 레시피를 스스로 창조하는 것이다.
이 지점에서 기술적 용어의 명확화가 필요하다. 시장에서는 '에이전트 기반 아키텍처(agent-based architecture)'와 '에이전틱 행동(agentic behavior)'이라는 용어가 혼용되어 혼란을 야기하고 있다.8 전자는 시스템이 자율적인 모듈 단위로 구조화되었는지를 의미하는 아키텍처적 특성인 반면, 후자는 아키텍처와 무관하게 시스템이 얼마나 자율적으로 행동하는지를 나타내는 행동적 특성이다. 현재 시장에 출시된 많은 에이전틱 시스템들은 완전한 에이전트 기반 아키텍처라기보다는, GPT-4o와 같은 강력한 LLM이 외부 프레임워크와 결합하여 '에이전틱 행동'을 보이는 경우가 대부분이다.8 이 보고서는 이러한 구분을 명확히 하여 각 서비스의 기술적 본질을 분석할 것이다.
시장의 중요성과 인간-컴퓨터 상호작용의 패러다임 전환
에이전틱 브라우저의 출현은 웹의 패러다임을 '읽기-쓰기(read-write)'에서 **'읽기-쓰기-실행(read-write-execute)'**으로 전환시키고 있다. 특히 브레이브(Brave)와 같은 암호화폐 브라우저의 맥락에서는 블록체인과의 상호작용을 통해 **'읽기-쓰기-소유(read-write-own)'**의 개념으로까지 확장된다.9
이러한 변화는 사용자 생산성, 비즈니스 프로세스 자동화, 나아가 디지털 경제 전반에 막대한 영향을 미칠 잠재력을 가지고 있다. 시장조사기관 가트너(Gartner)는 2028년까지 일상적인 업무 흐름의 15%가 브라우저 AI 에이전트에 의해 완료될 것으로 예측하며, 이 기술의 빠른 확산을 예고했다.10
이러한 패러다임 전환은 단순히 기술적 발전을 넘어, 사용자의 역할을 근본적으로 재정의한다. 과거의 사용자는 디지털 세계의 '조작자(operator)'로서 모든 클릭과 타이핑을 직접 수행해야 했다. 그러나 에이전틱 웹 환경에서 사용자는 디지털 과업의 '관리자(manager)' 또는 '감독(director)'으로 역할이 변화한다. 사용자의 핵심 역량은 온라인에서 어떻게 과업을 수행하는지가 아니라, 무엇을 수행해야 하는지를 정의하고 그 결과를 어떻게 평가할 것인지로 이동한다. 이는 디지털 리터러시, 직업 훈련, 그리고 사용자 인터페이스(UI) 설계에 지대한 영향을 미칠 것이다. 미래의 UI는 직접적인 조작이 아닌, 감독, 개입, 목표 설정 기능을 중심으로 설계되어야 할 것이다.
하지만 이 거대한 잠재력 이면에는 심각한 리스크가 공존한다. 자율성이 높은 AI가 초래할 수 있는 예측 불가능한 결과에 대한 책임 소재, 악의적 행동 방지 등 윤리적 딜레마가 제기된다.5 또한, 에이전트의 자율적 행동은 데이터 유출, 프롬프트 오염, 사이버 공격 등 새로운 차원의 보안 취약점을 만들어낸다.7 이 보고서는 기술적 혁신과 함께 이러한 리스크를 심도 있게 분석하여 균형 잡힌 시각을 제공하고자 한다.
엔진 룸: 기반 웹 에이전트 기술 비교 분석
에이전트가 웹을 인식하고 상호작용하는 방식은 크게 세 가지로 나눌 수 있다. 이 기술적 선택은 각 서비스의 성능, 강점, 그리고 약점을 결정하는 핵심 요소이다.
지각 모델: 비전 기반(스크린샷) 상호작용
기술 심층 분석
이 접근법은 인간이 브라우저를 사용하는 방식과 가장 유사하다. 에이전트는 웹페이지의 스크린샷을 찍어 이를 GPT-4o와 같은 비전-언어 모델(VLM) 또는 멀티모달 모델에 입력으로 제공한다.4 모델은 이미지를 분석하여 "‘로그인’이라고 쓰인 파란색 버튼"과 같은 시각적 요소를 식별하고, 어디를 클릭하거나 타이핑할지 결정한다.4 OpenAI의 Operator가 사용하는 CUA(Computer-Using Agent) 모델이 이 방식의 대표적인 예이다.13
강점
- 견고성(Robustness): 이 방식은 웹사이트의 기반이 되는 HTML 코드 변경에 매우 강하다. 개발자가 버튼의 ID나 클래스명을 바꾸더라도, 시각적 형태가 동일하게 유지되는 한 에이전트는 정상적으로 상호작용할 수 있다.4
- 보편성(Universality): 시각적으로 렌더링될 수 있는 모든 웹 콘텐츠와 상호작용이 가능하다. 복잡한 단일 페이지 애플리케이션(SPA), 피그마(Figma)나 게임과 같은 캔버스 기반 애플리케이션, 심지어 접근성 마크업이 부실한 레거시 시스템에서도 작동할 수 있다.4
약점
- 지연 시간 및 비용: 각 단계를 수행하기 위해 이미지를 캡처하고 처리하는 과정은 텍스트 기반 방식에 비해 계산 비용이 높고 속도가 느리다.1
- 제한된 컨텍스트: 에이전트는 현재 화면에 보이는 것만 "볼" 수 있다. 숨겨진 드롭다운 메뉴나 화면 밖에 있는 콘텐츠에 접근하려면 스크롤이나 클릭과 같은 추가적인 행동을 통해 해당 요소를 화면에 노출시켜야 한다.15
- 높은 환각(Hallucination) 비율: 시각적 해석에 의존하기 때문에 모델이 아이콘이나 레이아웃을 잘못 해석하여 오류를 일으킬 확률이 더 높다.15 이는 OpenAI Operator의 초기 사용자 리뷰에서도 지적된 심각한 문제점이다.12
- 백그라운드 작업의 한계: 대부분의 브라우저는 백그라운드에서 실행 중인 탭을 완전히 렌더링하지 않기 때문에, 비전 기반 에이전트는 여러 탭을 동시에 활용하는 병렬 작업에 비효율적이다.15
구조 모델: DOM 기반 상호작용
기술 심층 분석
이 접근법은 웹페이지의 근간을 이루는 코드 구조, 즉 문서 객체 모델(DOM, Document Object Model)과 직접 상호작용한다. 에이전트는 HTML을 파싱하여 태그, ID, 속성 등을 통해 요소를 식별한다.4 이는 Playwright나 Selenium과 같은 전통적인 웹 자동화 도구에서 사용하는 방식이다.
강점
- 속도 및 효율성: 텍스트 기반의 HTML을 파싱하는 것은 이미지를 처리하는 것보다 훨씬 빠르고 자원 소모가 적다. Opera Neon은 이를 자사 제품의 핵심 장점으로 내세우고 있다.16
- 정확성 및 포괄성: 에이전트는 화면에 보이지 않는 요소를 포함하여 전체 페이지 구조에 한 번에 접근할 수 있다. 이는 스크롤이나 클릭 없이도 더 정확한 데이터 추출과 페이지 콘텐츠에 대한 완전한 이해를 가능하게 한다.15
- 백그라운드 및 병렬 처리: 시각적 렌더링에 의존하지 않기 때문에 백그라운드 탭에서도 완벽하게 작동하며, 이는 강력한 다중 탭 및 병렬 과업 실행을 가능하게 한다.15
약점
- 취약성(Brittleness): 이 방식의 가장 큰 단점이다. 개발자가 버튼의 ID를 변경하거나 레이아웃을 재구성하면, 에이전트의 기존 인식 체계가 무너진다. 안정적인 CSS 선택자나 XPath 쿼리에 대한 의존도가 매우 높다.4
- 정보 과부하: 원본 HTML은 스타일 정보, 추적 스크립트 등 LLM을 혼란스럽게 하거나 컨텍스트 창 용량을 초과하게 만드는 "노이즈"로 가득 차 있는 경우가 많다.18 이로 인해 모델이 중요한 상호작용 요소를 식별하기 어려워진다.
- 캔버스 접근 불가능: 이 방식은 HTML5
<canvas>
요소 내에 렌더링된 콘텐츠를 전혀 인식할 수 없다. 해당 콘텐츠는 DOM의 일부가 아니기 때문이다.14
통합: 하이브리드 접근법과 첨단 기술
순수 비전 기반 또는 DOM 기반 접근법의 명백한 한계를 인식한 많은 첨단 에이전트들은 두 가지를 결합한 하이브리드 모델을 개발하고 있다.
- HTML 단순화: 원본 HTML에서 관련 없는 노이즈를 제거하고 핵심적인 상호작용 요소만 남겨 "단순화된 HTML" 표현을 만드는 알고리즘이 연구되고 있다. 이는 LLM이 페이지 구조를 더 쉽고 정확하게 처리하고 이해하도록 돕는다.18
- 비전과 텍스트의 결합: WebVoyager와 같은 프로젝트는 스크린샷과 페이지 텍스트를 함께 사용하여, 비전의 견고성과 DOM의 포괄적인 컨텍스트라는 두 마리 토끼를 모두 잡으려 한다.21 이를 통해 에이전트는 레이아웃을 시각적으로 파악하면서 동시에 기반 코드에도 접근할 수 있다.
- 구조화된 관찰 공간(Structured Observation Space): 현재 페이지 뷰(HTML 또는 스크린샷)뿐만 아니라, 과업 설명, 페이지 내 현재 위치, 그리고 과거 행동 기록까지 포함하는 통합된 "관찰 공간"을 에이전트에게 제공하는 것이 핵심 혁신으로 떠오르고 있다. 이는 에이전트가 더 일관성 있고 논리적인 의사결정을 내리는 데 필수적인 컨텍스트를 제공한다.18
비전과 DOM 중 어느 것을 선택하느냐는 단순한 기술 구현의 문제를 넘어, AI가 디지털 세계를 어떻게 인지해야 하는가에 대한 근본적인 철학적 선택을 반영한다. 비전 기반 에이전트는 인간과 유사한(human-like) 방식으로, DOM 기반 에이전트는 기계 친화적인(machine-native) 방식으로 세상을 본다. 비전 기반 접근법은 인간의 지각 방식을 모방하여 웹의 시각적 혼돈에 더 잘 적응할 수 있는 직관성을 추구한다.4 반면, DOM 기반 접근법은 웹의 고유 언어인 HTML로 "사고"함으로써 효율성과 정확성을 극대화한다.15 이 전략적 분기는 OpenAI와 같이 인간 상호작용 모방을 범용 지능의 경로로 보는 기업과, Opera Neon처럼 웹의 고유 환경에 최적화하려는 기업 간의 차이를 만들어낸다. 미래는 아마도 과업의 성격에 따라 이 두 "지각 모드"를 유연하게 전환할 수 있는 하이브리드 모델에 있을 가능성이 높다.
흥미롭게도, DOM 기반 에이전트의 "취약성"이라는 약점은 역설적으로 더 표준화되고 접근성이 높으며 잘 구조화된 웹 디자인을 촉진하는 긍정적인 요인으로 작용할 수 있다. DOM 기반 에이전트는 일관성 없는 코드를 가진 웹사이트에서 실패한다.4 앞으로 에이전트에 의한 트래픽이 웹 상호작용의 상당 부분을 차지하게 되면 10, 웹사이트들은 "에이전트 친화적"이 되려는 강력한 상업적 동기를 갖게 될 것이다. DOM 기반 에이전트에 친화적인 사이트를 만들기 위해서는 명확하고 의미 있는 HTML, 안정적인 요소 ID, 그리고 접근성 모범 사례를 따라야 한다. 결국, DOM 기반 에이전트의 부상은 "모바일 호환성"만큼이나 "에이전트 호환성"을 중요하게 만들어, 웹 개발 표준의 향상을 이끄는 경제적 강제 함수(forcing function)로 작용할 수 있다. 이는 접근성 도구에 의존하는 인간 사용자에게도 긍정적인 부수 효과를 가져올 것이다.
표 2.1: 비전 기반 대 DOM 기반 에이전트 기술 비교 분석
지표 | 비전 기반 (스크린샷) | DOM 기반 (HTML 구조) | 하이브리드 접근법 |
핵심 원리 | 인간처럼 웹을 시각적으로 인식 | 웹의 기반 코드와 구조를 판독 | 시각적 데이터와 구조적 데이터를 결합 |
상호작용 방식 | VLM이 스크린샷을 분석하여 요소를 식별하고 마우스/키보드 행동 생성 | LLM이 HTML을 파싱하여 요소를 식별하고 자동화 라이브러리용 명령어 생성 | 두 방식을 모두 사용하며, 종종 HTML 단순화를 통해 교차 검증 및 정확도 향상 |
강점 | - 코드 변경에 매우 견고함 - 보편성 (SPA, 캔버스, 레거시 사이트에서 작동) | - 높은 속도와 효율성 - 페이지 전체 콘텐츠 접근 가능 (화면 밖 포함) - 백그라운드/병렬 작업에 이상적 | - 순수 접근법들의 약점을 완화 - 잠재적으로 더 높은 정확도와 견고성 |
약점 | - 높은 지연 시간과 계산 비용 - 화면에 보이는 콘텐츠로 제한됨 - 높은 환각 위험 - 백그라운드 탭에서 비효율적 | - 취약성; UI 코드 변경 시 작동 불능 - 캔버스 요소 인식 불가 - HTML "노이즈"에 의해 압도될 수 있음 | - 구현이 더 복잡함 - 양쪽 방식의 약점을 일부 계승할 수 있음 |
핵심 기술 | 멀티모달 LLM (예: GPT-4o) | 웹 자동화 라이브러리 (예: Playwright) + LLM | HTML 단순화 알고리즘, 통합된 관찰 공간 |
대표 사례 | OpenAI Operator (CUA 모델) | Opera Neon ("Do" 기능), rtrvr.ai | WebVoyager, AutoWebGLM |
기득권의 공세: 거대 기술 기업들이 에이전틱 지형을 형성하는 방식
기존의 거대 기술 기업들은 각자의 강점을 활용하여 에이전틱 웹 시장에 진입하고 있으며, 저마다 독특한 접근법과 전략적 목표를 추구하고 있다.
Google Project Mariner: 생태계 플레이
제품 개요
Project Mariner는 Google DeepMind에서 개발한 연구 프로토타입으로, Google Chrome 브라우저를 제어하여 과업을 수행하는 AI 에이전트로 포지셔닝되어 있다.22 이는 독립적인 브라우저가 아니라 기존 Chrome 생태계 내에서 작동하는 에이전트라는 점에서 중요한 특징을 갖는다.
기술 및 기능
- 네이티브 멀티모달리티: Gemini 모델(특히 Gemini 2.5의 맞춤형 버전)을 기반으로 하는 Mariner는 화면에 표시된 텍스트, 코드, 이미지, 양식 등을 "관찰"하여 사용자의 목표와 맥락을 이해한다.22 이는 강력한 비전 기반 또는 하이브리드 접근법을 시사한다.
- 관찰, 계획, 실행(Observe, Plan, Act) 사이클: 고전적인 에이전트 루프를 따른다. 브라우저를 관찰하고, (사용자와 공유하는) 계획을 세운 뒤, 웹사이트를 탐색하고 상호작용하며 계획을 실행한다.22
- 다중 과업 수행: 가상 머신에서 최대 10개의 과업을 동시에 처리할 수 있는 능력이 핵심 기능으로, 복잡한 작업을 병렬로 수행할 수 있음을 보여준다.22
- "가르치고 반복하기(Teach and repeat)": Mariner는 작업 흐름을 학습하도록 설계되었다. 이력서 정보를 바탕으로 채용 공고를 찾는 방법을 한 번 보여주면, 이후에는 최소한의 입력만으로 동일한 프로세스를 복제할 수 있다.22
전략 및 포지셔닝
Google의 전략은 에이전트 기능을 Chrome, Drive, Gmail과 같은 기존 제품군과 Gemini API라는 핵심 AI 플랫폼에 깊숙이 통합하는 것이다. Google AI Ultra 구독자(월 250달러)에게 Mariner를 제공하고, 파트너사에게 Gemini API를 통해 기능을 개방함으로써, Google은 고부가가치 소비자 구독과 플랫폼 수준의 기업 채택이라는 두 가지 전략을 동시에 추구하고 있다.22 이는 명백한
생태계 잠금(ecosystem lock-in) 전략이다.
OpenAI Operator: 인간 참여형 자동화 도구
제품 개요
Operator는 브라우저와 원격으로 상호작용하여 웹 과업을 자동화하는 AI 에이전트의 연구 프리뷰 버전이다. operator.chatgpt.com
이라는 전용 웹사이트를 통해 접근할 수 있으며, 초기에는 ChatGPT Pro 구독자에게만 제공된다.26
기술 및 기능
- Computer-Using Agent (CUA) 모델: Operator는 GPT-4o의 비전 능력에 강화 학습을 결합하여 개발된 CUA 모델을 기반으로 한다.12 이는 본질적으로비전 기반 에이전트로, 스크린샷을 해석하여 마우스와 키보드 제어를 통해 상호작용한다.27
- 인간 참여형(Human-in-the-Loop) 설계: Operator는 의도적으로 완전 자율적으로 설계되지 않았다. 비밀번호나 결제 정보 입력과 같은 민감한 작업 시에는 일시 중지하고 사용자에게 직접 제어권을 넘겨주며("인계 모드"), 중요한 단계에서는 확인을 요청한다("사용자 확인").13 이러한 협력적 접근 방식은 Operator의 핵심적인 안전 철학이다.
- 성능 및 한계: 초기 사용자 리뷰와 벤치마크 결과는 엇갈린다. 개념 자체는 "극도로 멋지다"는 평을 받지만, 속도가 느리고 비용이 많이 들며, 사실을 지어내는 심각한 환각 현상이 자주 발생한다는 비판을 받는다.12 복잡한 인터페이스나 긴 작업 흐름 처리에도 어려움을 겪으며 26, WebArena 벤치마크에서는 58.1%의 성공률을 기록했다.26
전략 및 포지셔닝
OpenAI의 전략은 Operator를 공개 연구 프리뷰로 출시하여 사용자 피드백을 수집하고 반복적으로 개선하는 것이다. 완전한 자율성보다는 안전과 사용자 제어를 우선시하며, 웹 과업을 위한 인간-AI 협업 모델을 정립하는 데 초점을 맞추고 있다. 최종적으로는 주력 제품인 ChatGPT에 통합될 것으로 예상되며, 이는 별도의 브라우저 제품을 만들기보다는 기존 핵심 서비스를 강화하는 전략을 시사한다.27
Anthropic의 Computer Use: 개발자를 위한 툴킷
제품 개요
Mariner나 Operator와 달리, Anthropic의 "Computer Use"는 일반 소비자를 위한 제품이 아니다. 이는 개발자들이 Claude 모델을 사용하여 자신만의 에이전트 시스템을 구축할 수 있도록 API를 통해 제공되는 도구이다.28
기술 및 기능
- API 우선, 비전 기반 제어: 이 도구는 스크린샷 기능과 마우스/키보드 제어 기능을 제공하여 Claude 모델이 데스크톱 환경과 상호작용할 수 있게 한다.28 Claude가 스크린샷을 분석하고 클릭할 위치의 픽셀 좌표를 계산하는 방식으로 작동한다.30
- 보안 및 샌드박싱 강조: Anthropic의 문서는 안전성을 매우 강조한다. 프롬프트 인젝션이나 시스템 침해와 같은 보안 위협을 방지하기 위해, 에이전트를 최소한의 권한과 제한된 인터넷 접근 권한을 가진 전용 샌드박스형 가상 머신 또는 컨테이너에서 실행할 것을 강력히 권장한다.28 이는 다른 서비스와 차별화되는 주요 지점이다.
- 성능: OSWorld 벤치마크에서 Computer Use를 탑재한 Claude는 14.9%의 성공률을 기록했다. 이는 동일 카테고리의 차상위 모델(7.7%)보다 월등히 높은 수치지만, 인간 수준의 성능(70-75%)에는 아직 크게 미치지 못한다.30
전략 및 포지셔닝
Anthropic의 전략은 에이전틱 웹을 위한 안전한 인프라 계층이 되는 것이다. 핵심 도구를 제공하고 보안 우선 접근법을 강조함으로써, 다른 기업들이 컴퓨터 제어라는 어려운 문제를 직접 해결하지 않고도 안전한 에이전트 애플리케이션을 구축할 수 있도록 지원한다. 이는 최종 사용자가 아닌 개발자와 기업을 대상으로 하는 플랫폼 활성화(platform-enablement) 전략이다.
기득권 기업들의 전략을 분석해보면, 이들은 아직 기능 자체로 경쟁하기보다는 시장 진입과 지배를 위한 전략적 접근법으로 경쟁하고 있음을 알 수 있다. Google(Mariner)은 자사의 지배적인 브라우저(Chrome)와 생산성 도구(Drive)를 활용하여 깊이 통합된 고부가가치 경험을 창출함으로써 생태계의 필수불가결성을 높이려 한다.22 OpenAI(Operator)는 방대한 사용자 기반(ChatGPT Pro)을 활용하여 새로운 제품 카테고리의 사용자 경험을 정의하고, 인간-에이전트 협업의 "올바른" 모델을 확립하고자 한다.13 Anthropic(Computer Use)은 안전성에 대한 명성을 바탕으로 이 새로운 골드러시 시대의 "곡괭이와 삽" 공급자가 되려 한다.28 이는 고전적인 플랫폼 전쟁의 양상이며, 승자는 오늘 최고의 에이전트를 가진 자가 아니라, 장기적으로 생태계 잠금, UX 정의, 또는 인프라 지배 중 어떤 전략적 접근이 성공하느냐에 따라 결정될 것이다.
또한, 이들 에이전트의 화려한 데모 영상과 실제 사용자 경험 사이에는 신뢰성과 속도 면에서 상당한 괴리가 존재한다. Google의 Mariner 데모는 복잡한 다단계 작업을 빠르고 완벽하게 수행하는 모습을 보여주지만 22, OpenAI Operator에 대한 실제 사용자 리뷰는 "고통스러울 정도로 느리고", "정신분열적인" 환각에 시달리며, 결국 인간보다 비효율적이라고 평가한다.12 Anthropic 역시 자사의 최첨단 모델이 아직 인간 수준에 미치지 못함을 인정한다.30 이는 현재 기술이 아직 초기 단계에 머물러 있음을 시사한다. 오늘날 사용자에게 제공되는 주된 가치는 신뢰할 수 있는 생산성 향상이 아니라, 신기함과 실험의 기회이다. 시장은 현재 "과대광고 주기(hype cycle)"에 있으며, 기업의 본격적인 도입은 신뢰성, 속도, 비용 효율성의 획기적인 개선에 달려 있을 것이다.
도전자들의 물결: 전용 에이전틱 브라우저와 스타트업
거대 기술 기업들이 기존 생태계를 기반으로 접근하는 반면, 새로운 도전자들은 처음부터 에이전틱 기능을 핵심으로 하는 전용 브라우저를 구축하며 시장에 진입하고 있다. 이들은 종종 더 집중된 가치 제안을 통해 틈새시장을 공략한다.
Opera Neon: "채팅, 실행, 제작"의 3대 핵심 전략
제품 개요
Opera는 과거의 콘셉트 브라우저였던 "Neon" 브랜드를 부활시켜, 자칭 "최초의 AI 에이전틱 브라우저"를 선보였다.16 이는 에이전트 기능을 네이티브하게 통합한 독립형 브라우저이다.
기술 및 기능
Opera Neon은 세 가지 핵심 기능, 즉 "채팅(Chat)", "실행(Do)", "제작(Make)"을 중심으로 구축되었다.
- 채팅: 검색 및 문맥 정보를 제공하는 표준적인 대화형 AI 비서 기능이다.32
- 실행: 양식 채우기, 여행 예약 등 과업 자동화를 위한 핵심 에이전트 기능이다. 중요한 점은, 속도와 개인정보 보호를 위해 비전 기반이 아닌 DOM 기반 접근법을 사용하며, 모든 작업이 사용자의 로컬 컴퓨터에서 이루어진다는 것이다.16
- 제작: 가장 야심 찬 기능으로, 클라우드에 호스팅된 가상 머신 내의 AI 에이전트를 사용하여 사용자의 프롬프트를 기반으로 게임, 웹사이트, 보고서와 같은 복잡한 디지털 자산을 생성한다. 이 작업은 사용자가 오프라인 상태가 되어도 비동기적으로 계속 실행될 수 있다.16
전략 및 포지셔닝
Opera는 Neon을 얼리어답터와 파워 유저를 위한 프리미엄 구독 기반 브라우저로 포지셔닝하고 있다.34 이들의 전략은 대화, 로컬 과업 자동화, 클라우드 기반 창작을 모두 아우르는 깊이 통합된 올인원 에이전트 경험을 제공함으로써 Chrome이나 Edge와 차별화하는 것이다.
Fellou: 심층 리서치 및 워크플로우 자동화 엔진
제품 개요
Fellou는 스스로를 "세계 최초의 에이전틱 브라우저"라 칭하며, 심층 리서치와 교차 플랫폼 과업 자동화를 위해 설계되었다.35
기술 및 기능
- Deep Action & Deep Search: Fellou의 핵심 기술은 LinkedIn, Reddit 등 로그인이 필요한 플랫폼을 포함한 여러 웹사이트에서 병렬 검색을 수행하는 능력이다.35 이를 바탕으로 Amazon에서 제품을 구매하거나 소셜 미디어에 콘텐츠를 게시하는 등 여러 사이트에 걸친 복잡한 워크플로우를 실행할 수 있다.35
- Task Groups & Profiles: 사용자가 "Task Groups"라는 별도의 워크플로우를 생성하고, 업무용과 개인용 프로필을 분리하여 작업을 체계적으로 관리할 수 있는 기능을 제공한다.35
- 콘텐츠 인식 상호작용: 에이전트는 현재 보고 있는 페이지의 맥락을 이해하는 "콘텐츠 인식(content-aware)" 능력을 갖추고 있어, 이를 기반으로 콘텐츠를 생성하거나 특정 행동을 취할 수 있다.37
전략 및 포지셔닝
Fellou는 여러 소스에서 정보를 종합하고 다단계 온라인 프로세스를 자동화해야 하는 학생, 연구원, 바쁜 직장인들을 목표로 하고 있다.37 인증된 세션을 처리하고 심층적인 교차 플랫폼 리서치를 수행하는 능력이 핵심 차별점이다.
Genspark: 노코드 플랫폼과 "MCP 스토어"
제품 개요
Genspark는 AI 검색 엔진으로 시작하여 "완전한 에이전틱 브라우저"로 진화했다.39 핵심 서비스는 과업 자동화를 위한 노코드(no-code) 비서인 "Super Agent"이다.
기술 및 기능
- Super Agent & No-Code: Genspark는 사용 편의성에 중점을 둔다. 사용자가 "치과에 전화해줘"와 같은 간단한 프롬프트를 입력하면, 에이전트가 GPT-4.1을 포함한 9개의 특화된 LLM을 조율하여 전체 워크플로우를 실행한다.39
- MCP (Model Context Protocols) 스토어: Genspark의 핵심 혁신이다. 이는 Slack, Google Calendar, GitHub와 같은 다양한 도구를 위한 700개 이상의 사전 구축된 통합 기능("MCP")을 제공하는 앱스토어와 유사한 플랫폼이다.40 이를 통해 비전문가도 코딩 없이 복잡한 교차 앱 자동화를 쉽게 생성할 수 있다.41
- Chromium 기반 AI 계층: 브라우저는 Chromium을 기반으로 하여 호환성을 보장하면서, 문맥 분석과 자동화를 위한 정교한 AI 계층을 추가했다.41
전략 및 포지셔닝
Genspark의 전략은 에이전틱 웹의 Zapier 또는 IFTTT가 되는 것이다. 노코드 인터페이스와 방대한 통합 라이브러리(MCP 스토어)에 집중함으로써, 자신의 디지털 생활과 업무를 자동화하고자 하는 비기술적 사용자를 공략하고 있다. 바이럴 마케팅을 통한 폭발적인 연간 반복 수익(ARR) 성장은 이 접근법이 강력한 시장 매력을 가지고 있음을 보여준다.39
Manus: 고도로 자율적인 "디지털 직원"
제품 개요
싱가포르 기반 스타트업 Monica가 개발한 Manus는 지속적인 인간의 지도 없이 복잡한 온라인 과업을 수행할 수 있는 고도로 자율적인 AI 에이전트, 즉 "디지털 직원"으로 포지셔닝된다.43
기술 및 기능
- 급진적 자율성: 보다 인간 참여적인 Operator와 비교했을 때, Manus는 높은 수준의 목표를 부여받으면 최소한의 개입으로 처음부터 끝까지 과업을 완수하도록 설계되었다.44
- 비동기 클라우드 실행: 과업이 클라우드에서 실행되므로 사용자의 기기가 꺼져도 에이전트는 작업을 계속할 수 있으며, 완료 시 사용자에게 알림을 보낸다.46
- 다중 모델 오케스트레이션: Manus는 오케스트레이션 계층 역할을 하며, Claude나 Qwen과 같은 강력한 서드파티 모델을 활용하여 과업을 수행한다.44
- 성능: GAIA 벤치마크에서 GPT-4 등을 능가하는 최고 수준(SOTA)의 성능을 달성했다고 주장한다.46 그러나 사용자 리뷰는 엇갈린다. "경이로운" 잠재력을 인정받는 동시에, 긴 처리 시간, 불안정성, 비직관적인 디자인에 대한 비판도 제기된다.48
전략 및 포지셔닝
Manus는 AI 자율성의 한계를 밀어붙이고 있다. 이들의 전략은 진정으로 독립적인 "디지털 직원"이라는 개념을 증명하는 것이다. 현재 기업용으로 사용하기에는 신뢰성이 의심되지만, 벤치마크에서의 높은 성능과 야심 찬 비전은 상당한 기대를 불러일으키며, 보다 범용적인 AI 에이전트를 향한 경쟁에서 선두 주자로 자리매김하고 있다.44
도전자들의 전략을 살펴보면, 이들이 Google과 정면으로 경쟁하기보다는 특정 사용자 유형과 미해결 문제에 집중하여 방어 가능한 틈새시장을 개척하고 있음을 알 수 있다. Opera Neon은 로컬 프라이버시와 클라우드의 강력함을 결합하여 "파워 유저"를 공략하고 16, Fellou는 심층적인 교차 플랫폼 검색 기능으로 "연구원"을 겨냥한다.35 Genspark는 노코드와 통합 기능으로 "비기술적 자동화 사용자"를, Manus는 최대의 자율성을 원하는 "위임자"를 목표로 한다.40 이는 전형적인 시장 세분화 전략으로, 이들의 성공은 거대 기업들이 동일한 사용자 그룹을 위한 특화 기능을 개발하기 전에 자신들의 틈새시장을 지배할 수 있느냐에 달려있다.
한편, 자율성과 신뢰성 사이에는 근본적인 긴장 관계가 존재한다. 가장 자율적인 에이전트로 평가받는 Manus가 가장 불안정하다는 평가를 받는 것이 그 증거이다.48 OpenAI의 Operator는 안전과 신뢰성을 위해 의도적으로 인간 참여형 안전장치를 설계했다.13 이는 급진적 자율성이 데모에서는 인상적일지라도, 현재로서는 미션 크리티컬한 업무에 사용하기에는 너무 취약하다는 점을 시사한다. 단기적으로 성공할 제품은 OpenAI의 접근법처럼 에이전트의 주도성과 강력한 인간 감독 및 개입 메커니즘을 결합한 형태가 될 가능성이 높다.
특화 및 개인정보 중심 구현
일반적인 목적의 에이전틱 브라우저를 넘어, 특정 사용 사례나 가치에 초점을 맞춰 에이전트 원칙을 적용하는 플레이어들도 등장하고 있다. 이들은 특히 프로젝트 생성과 개인정보 보호라는 두 영역에서 두각을 나타낸다.
Perplexity Labs: 프로젝트 생성기로서의 AI 에이전트
제품 개요
Perplexity Labs는 브라우저가 아닌, Perplexity Pro 구독자를 위한 프로젝트 생성 도구이다.50 이는 과업을 수행하는 에이전트를 넘어, 완성된 결과물을 창조하는 데 초점을 맞춘다.
기술 및 기능
- 프롬프트에서 프로젝트로: 사용자가 "내 사업 재무 분석을 위한 대시보드를 만들어줘"와 같은 복잡한 목표를 제시하면, Labs는 단순한 답변이 아닌 완전한 자산 세트를 제공한다.50
- 다중 도구 실행: 심층 웹 브라우징을 통한 리서치, Python을 이용한 코드 실행 및 분석, 그리고 차트, 이미지, 심지어 간단한 대화형 웹 애플리케이션(HTML/CSS/JS) 생성 도구를 복합적으로 사용한다.50
- 자산 중심의 결과물: 최종 결과물은 텍스트 답변이 아니라, 다운로드 가능한 파일(CSV, 스크립트, 이미지)과 작동하는 앱 또는 대시보드이며, 이 모든 것이 "Assets" 탭에 체계적으로 정리되어 제공된다.50
전략 및 포지셔닝
Perplexity는 답변을 넘어 결과물에 집중함으로써 스스로를 차별화하고 있다. 핵심 검색 기능이 '답변'을, "Research" 모드가 '보고서'를 제공한다면, Labs는 '솔루션'을 제공한다. 이는 Perplexity를 아이디어 구상에서부터 구체적인 다중 구성요소 프로젝트까지 신속하게 진행해야 하는 지식 노동자, 분석가, 개발자를 위한 도구로 포지셔닝한다. 이는 Operator와 같은 범용 브라우저 에이전트보다는 Manus의 창작 기능과 더 직접적으로 경쟁한다.53
Brave Browser: 개인정보 보호 장치를 갖춘 에이전틱 웹
제품 개요
Brave는 개인정보 보호에 중점을 둔 기존 브라우저로, 자사의 AI 비서인 Leo를 중심으로 에이전틱 AI 기능을 점진적으로 통합하고 있다.55
기술 및 기능
- 개인정보 우선 아키텍처: 이것이 Brave의 핵심 차별점이다. 에이전트 기능은 "안전장치(guardrails)"와 함께 설계되었다. 웹페이지 컨텍스트와 사용자 데이터는 외부 서버에 저장되지 않고 가능한 한 로컬에서 처리된다는 원칙을 고수한다.55 이는 대부분의 클라우드 기반 에이전트와 극명한 대조를 이룬다.
- 사용자 제어: Brave는 사용자가 항상 완전한 제어권을 유지해야 함을 강조한다. AI가 이메일이나 은행 계좌와 같은 로그인된 세션에 무제한으로 접근하는 것을 방지하며, 로드맵에는 과업 진행 표시기, 사용자 개입 제어, 명시적 동의 메커니즘과 같은 기능이 포함되어 있다.55
- 에이전틱 기능 (개발 중): 로드맵에는 다단계 워크플로우 자동화, 페이지 상호작용, 양식 자동화, 백그라운드 과업 모니터링 등의 기능이 포함되어 있다.55
- 암호화폐 통합: Brave의 네이티브 암호화폐 지갑은 잠재적인 "에이전틱 암호화폐 브라우저"의 기반을 제공한다. 이를 통해 에이전트는 탈중앙화 애플리케이션(DApp) 및 스마트 컨트랙트와 자율적으로 상호작용하며, '읽기-쓰기-소유' 패러다임을 넘어 더욱 능동적인 형태로 진화할 수 있다.9
전략 및 포지셔닝
Brave의 전략은 개인정보에 민감한 에이전트 시장을 선점하는 것이다. 다른 브라우저들이 더 강력하거나 화려한 AI 기능을 제공할 수 있지만, Brave는 상당수의 사용자가 최대의 기능보다는 개인정보 보호와 제어권을 우선시할 것이라는 데 베팅하고 있다. 이들의 접근 방식은 에이전트 기능을 신중하고 투명하게 추가하여, 개인정보 보호라는 핵심 브랜드 약속과 일치하도록 보장하는 것이다.
이러한 특화된 구현들을 통해 "에이전틱 브라우저"라는 용어 자체가 이미 너무 좁아지고 있음을 알 수 있다. 시장은 Operator나 Fellou와 같은 "범용 에이전트"와 Perplexity Labs나 Brave와 같은 "특화 에이전트"로 분화되고 있다. 범용 에이전트가 브라우저에서 인간이 할 수 있는 모든 작업을 목표로 하는 반면, Perplexity Labs는 비행기 예약과 같은 일반적인 브라우징 작업이 아닌, 연구 및 프로젝트 생성이라는 특정 고부가가치 워크플로우에 초점을 맞추고 있다.50 마찬가지로 Brave는 가장 강력한 에이전트가 아닌, 가장
사적인 에이전트를 구축함으로써 특화된 가치를 제안한다.55 이는 미래 시장이 단일 승자독식 구조가 아니라, 브라우저에 내장되거나 독립형 애플리케이션으로 존재하는 다양한 에이전트 도구들의 생태계가 될 것임을 시사한다. 각 도구는 창작, 연구, 자동화 등 다른 과업과 개인정보 보호, 성능, 사용 편의성 등 다른 사용자 가치에 맞춰 특화될 것이다.
또한, 개인정보 보호는 단순한 기능이 아니라, 에이전트 시장의 주요 сег먼트를 정의할 근본적인 아키텍처 선택이 되고 있다. 대부분의 에이전트 시스템은 효과적인 작동을 위해 방대한 양의 컨텍스트 데이터(웹페이지 콘텐츠, 사용자 기록 등)를 클라우드로 전송해야 하며, 이는 거대한 개인정보 위험을 초래한다. Brave는 로컬 우선 처리와 사용자 제어 데이터 공유라는 원칙을 중심으로 에이전트 스택을 구축하고 있다.55 로컬 처리와 클라우드 처리라는 아키텍처 선택은 직접적인 장단점을 가진다. 로컬 처리는 더 작고 덜 강력한 모델로 제한될 수 있지만 우수한 개인정보 보호를 제공하는 반면, 클라우드 처리는 최첨단 모델을 가능하게 하지만 개인정보 취약성을 내포한다. 사용자들이 에이전트 시스템이 요구하는 데이터의 양을 더 잘 인지하게 되면서, 시장은 양분될 가능성이 높다. 한쪽은 최대의 성능과 편의를 위해 데이터 공유를 수용하는 그룹(Google/OpenAI 모델)이 될 것이고, 다른 한쪽은 Brave 모델이 제공하는 개인정보 보호와 제어권을 요구하는 그룹이 될 것이다. 이는 Brave에게 지속 가능한 경쟁 우위를 제공한다.
시장 분석 및 경쟁 구도
앞선 분석을 종합하여, 주요 서비스들을 직접 비교하고 전체 시장 구도를 평가한다.
정면 대결: 에이전틱 서비스 비교 매트릭스
이 섹션의 핵심은 주요 에이전틱 서비스를 핵심 전략 및 기술 차원에서 비교하는 종합적인 표이다. 이를 통해 경쟁 환경을 한눈에 파악할 수 있다.
표 6.1: 주요 에이전틱 브라우저 서비스의 기능 및 전략 비교
지표 | Google Mariner | OpenAI Operator | Anthropic C.U. | Opera Neon | Fellou | Genspark | Manus | Perplexity Labs | Brave Leo |
유형 | 통합 에이전트 | 웹 기반 에이전트 | 개발자 API | 독립형 브라우저 | 독립형 브라우저 | 독립형 브라우저 | 웹 기반 에이전트 | 프로젝트 생성기 | 통합 에이전트 |
기반 기술 | 비전/하이브리드 | 비전 (CUA) | 비전 (API) | DOM (Do) / 클라우드 (Make) | 미지정 (하이브리드 추정) | 미지정 (하이브리드 추정) | 다중 모델 오케스트레이션 | 다중 도구 (코드, 웹) | 로컬 우선, 하이브리드 |
자율성 수준 | 높음 (학습/반복) | 중간 (인간 참여형) | 해당 없음 (툴킷) | 높음 (비동기 Make) | 높음 | 높음 (노코드) | 급진적 자율성 | 높음 (프로젝트 단위) | 중간 (안전장치) |
주요 목표 | 생태계 잠금 | UX 패러다임 정의 | 개발자 지원 | 올인원 파워 유저 | 심층 리서치 | 노코드 자동화 | 완전 자율성 증명 | 완성된 프로젝트 제공 | 사용자 프라이버시 보장 |
핵심 차별점 | Gemini 통합 | CUA 모델, 안전성 | 보안/샌드박싱 | "Do"(로컬) & "Make"(클라우드) | 교차 플랫폼 로그인 | MCP 스토어 | "디지털 직원" | 자산 생성 | 개인정보 우선 아키텍처 |
대상 고객 | Google 파워 유저 | ChatGPT Pro 사용자 | 개발자/기업 | 얼리어답터 | 연구원/분석가 | 비기술적 자동화 사용자 | 위임자/파워 유저 | 지식 노동자 | 개인정보 중시 사용자 |
가격 모델 | 구독 (AI Ultra) | 구독 (Pro) | API 사용량 | 구독 | 부분 유료화 | 부분 유료화 | 부분 유료화 | 구독 (Pro) | 부분 유료화/프리미엄 |
전략적 포지셔닝 및 차별화된 가치 제안
표 6.1의 데이터를 바탕으로, 시장 참여자들을 다음과 같은 전략적 그룹으로 분류할 수 있다.
- 생태계 거인: Google, OpenAI (기존 플랫폼을 활용하여 시장 지배력 강화)
- 인프라 제공자: Anthropic (에이전트 개발을 위한 핵심 도구와 안전한 환경 제공)
- 올인원 도전자: Opera Neon, Fellou (새로운 브라우저 경험을 처음부터 구축)
- 자동화 플랫폼: Genspark, Manus (과업 실행 자체에 초점을 맞춘 서비스)
- 틈새 전문 기업: Perplexity, Brave (프로젝트 생성 및 개인정보 보호라는 특정 가치에 집중)
이러한 그룹화는 각 기업이 전체 시장에서 어떤 위치를 차지하고 있으며, 누구와 직접적으로 경쟁하고 있는지를 명확하게 보여준다.
초기 성능과 사용자 반응: 벤치마크 대 현실
마케팅 홍보와 벤치마크 점수는 기술의 잠재력을 보여주지만, 실제 사용자 경험은 종종 다른 이야기를 들려준다.
- 벤치마크: Manus는 GAIA 벤치마크에서 65% 이상의 정확도로 최고 성능(SOTA)을 주장하고 46, OpenAI의 Operator는 WebArena에서 58.1% 26, Anthropic의 Claude는 OSWorld에서 14.9%를 기록했다.30 한편, DOM 기반 에이전트인 rtrvr.ai는 Halluminate Web Bench에서 81.39%라는 인상적인 성공률을 기록하며 비전 기반 모델들을 앞섰다.17
- 현실: 사용자 리뷰는 훨씬 더 미묘한 그림을 그린다. Operator는 "느리고" "환각 머신"이라는 비판을 받았다.12 Manus는 "과대평가되었고", 느리며, 불안정하여 경쟁사가 2분 만에 끝내는 작업을 한 시간이나 걸려 처리했다는 평가를 받았다.48
벤치마크가 유용하기는 하지만, 속도, 안정성, 사용성과 같은 전체적인 사용자 경험을 포착하지는 못한다는 점이 명백하다. 통제된 테스트 환경에서는 rtrvr.ai와 같은 DOM 기반 에이전트가 명확한 성능 우위를 보이지만 17, 장기적으로는 비전 기반 에이전트가 범용성 측면에서 더 높은 잠재력을 가질 수 있다. 현재 사용자들의 반응을 종합해 볼 때, 이 기술은 아직 신뢰할 수 있는 주류 생산성 도구로 자리 잡기에는 성숙하지 않았음을 알 수 있다.
핵심 리스크와 도입을 향한 길
에이전틱 웹의 광범위한 채택을 위해서는 신뢰성, 보안, 개인정보 보호라는 중대한 장벽을 넘어야 한다.
새로운 공격 표면: 자율 에이전트의 보안과 신뢰
에이전틱 브라우저는 인간이 가진 회의론과 보안 훈련이 결여되어 있기 때문에 새로운 종류의 취약점을 야기한다.10 이들은 의심스러운 URL이나 비정상적인 웹사이트 디자인과 같은 시각적 경고 신호를 인식하지 못한다.
- OAuth 동의 피싱: 이는 매우 심각한 위협이다. 한 개념 증명(Proof-of-Concept) 사례에서, 파일 공유 도구에 가입하라는 지시를 받은 에이전트가 악성 사이트에 속아 사용자 이메일에 대한 전체 접근 권한을 가진 OAuth 애플리케이션을 승인하는 모습이 시연되었다. 이 과정에서 에이전트는 인간이라면 의심했을 여러 위험 신호(관련 없는 권한 요청, 낯선 브랜드, 의심스러운 URL)를 무시했다.10 에이전트는 훈련받은 프로세스를 기계적으로 따를 뿐이므로, 합법적이지만 악의적인 워크플로우를 악용하는 공격에 완벽한 희생양이 된다.58
- 프롬프트 인젝션 및 목표 조작: 공격자는 웹페이지에 숨겨진 지침을 삽입하여 에이전트를 하이재킹하고, 원래 목표에서 벗어나게 하거나 민감한 데이터를 유출시키거나 도구를 오용하게 만들 수 있다.60 전통적인 보안 프레임워크는 에이전트의 예측 불가능한 자율적 결정에서 비롯되는 위협을 모델링하도록 설계되지 않았다.61
- 완화 전략: 제안된 완화 전략으로는 에이전트를 샌드박스 환경에서 실행하고(Anthropic의 권장 사항) 28, 브라우저 네이티브 안전장치와 모니터링을 구현하며(Brave의 접근 방식) 55, "브라우저 탐지 및 대응(BDR)" 도구를 개발하는 것 등이 있다.10
개인정보 방정식: 데이터 처리 및 사용자 제어 분석
에이전트 시스템의 개인정보 보호 정책과 데이터 처리 관행은 사용자의 신뢰를 얻기 위한 핵심 요소이다.
- 데이터 수집: 대부분의 서비스는 IP 주소, 브라우저 버전, 방문 페이지, 그리고 사용자가 제공한 개인정보를 포함한 상당한 양의 데이터를 수집한다.62 일부는 익명화된 상호작용 데이터를 모델 훈련에 사용할 수 있다고 명시하고 있다.64
- 개인정보의 트레이드오프: 효과적인 에이전트를 구동하기 위해 풍부한 컨텍스트 데이터가 필요하다는 점과 사용자의 개인정보 보호 권리 사이에는 직접적인 충돌이 존재한다. 대다수를 차지하는 클라우드 기반 에이전트는 이 데이터를 서드파티 서버로 전송해야 한다.
- 설계 기반 개인정보 보호 대안: Brave의 로컬 우선 처리 및 데이터 공유에 대한 명시적 사용자 동의 모델은 다른 서비스들의 기본 데이터 수집 관행과 뚜렷한 대조를 이룬다.55 개인정보 보호 정책을 자동으로 분석해주는 도구의 등장은 이 분야에 대한 우려가 커지고 있음을 보여준다.65
에이전틱 AI 도입의 가장 큰 장애물은 기술 그 자체가 아니라 신뢰이다. 기술은 이미 인상적인 작업을 수행할 수 있지만 22, 동시에 불안정하고 12 막대한 새로운 보안 위험을 초래한다.10 비행기를 예약할 수 있는 에이전트는 해커에게 당신의 전체 이메일 계정 접근 권한을 넘겨주도록 속을 수도 있다. 사용자는 신뢰할 수 있고 안전하게 작업을 수행한다고 믿지 않는 에이전트에게 의미 있는 작업을 위임하지 않을 것이다. 따라서 성공적인 에이전트 제품의 가장 중요한 "기능"은 기술적 보안(샌드박싱), 절차적 보안(사용자 확인), 투명성(감사 추적, 명확한 행동 소통)을 포함하는 "신뢰 및 안전" 계층이 될 것이다.
또한, 에이전틱 브라우저의 부상은 웹 보안의 재설계를 강요할 것이다. 기존의 웹 보안은 인간 사용자의 판단력에 크게 의존해왔다.57 그러나 AI 에이전트는 이러한 판단력이 결여되어 있으며, "낙관적으로 보아도" 훈련받지 않은 일반 직원 수준의 보안 인식을 가지고 있다.57 따라서 보안은 더 이상 사용자에게 보내는 제안이나 경고가 아니라, 에이전트를 위한 하드코딩된 프로그래밍적 안전장치가 되어야 한다. 이는 "브라우저 탐지 및 대응(BDR)", 에이전트 전용 방화벽, 실시간 프롬프트 분석과 같은 새로운 보안 도구 카테고리의 성장을 촉진할 것이다. 보안은 네트워크나 엔드포인트 계층을 넘어, 브라우저의 실행 계층 자체로 이동하여 새로운 자율적 행위자들의 행동을 효과적으로 통제해야 할 것이다.
전망 및 이해관계자를 위한 전략적 권고
에이전틱 웹은 피할 수 없는 진화의 과정이지만, 주류로 채택되기까지는 신뢰성, 보안, 개인정보 보호라는 험난한 과제를 해결해야 한다. 현재 시장은 다양한 접근법이 난립하는 실험적인 "캄브리아기 대폭발"과 같다. 장기적인 승자는 신뢰와 안정성이라는 핵심 과제를 해결하는 자가 될 것이다.
전략적 권고
- 제품 개발자에게: 신뢰성을 희생하면서 "급진적 자율성"을 추구하지 말아야 한다. 강력한 인간 참여형 감독 및 명확한 개입 지점을 갖춘 시스템 구축에 집중해야 한다. 처음부터 샌드박싱과 안전장치를 채택하여 설계 기반 보안을 우선시해야 한다.
- 투자자 및 파트너에게: 단기적으로 가장 유망한 투자는 가장 "지능적인" 에이전트가 아니라, 이를 가능하게 하는 인프라(Anthropic의 보안 API 등)나 특정 고부가가치 문제를 잘 해결하는 특화 에이전트(Perplexity Labs, Genspark 등)에 있다.
- 기업 도입 담당자에게: 신중하게 접근해야 한다. 위험이 낮고 중요하지 않은 워크플로우에서 에이전트 도구를 시범 운영해야 한다. 강력한 보안 제어, 감사 추적, 개인정보 보호 아키텍처를 제공하는 솔루션(Brave 또는 Anthropic 모델 기반 시스템 등)을 우선적으로 고려해야 한다. 광범위한 보안 검토와 브라우저 네이티브 보호 장치 없이는 민감한 시스템에 접근 권한을 가진 에이전트를 배포해서는 안 된다.
참고 자료
- 에이전틱 코딩, AI에게 일 맡기고 코딩은 확인만 하는 시대?, 7월 8, 2025에 액세스, https://digitalbourgeois.tistory.com/1445
- 에이전틱 AI(Agentic AI)의 부상 - 더이노베이터스, 7월 8, 2025에 액세스, https://theinnovators.zone/archives/4287
- I loved Arc browser and was skeptical of its agentic Dia replacement - until I tried it | ZDNET, 7월 8, 2025에 액세스, https://www.zdnet.com/article/i-loved-arc-browser-and-was-skeptical-of-its-agentic-dia-replacement-until-i-tried-it/
- Autonomous Browser Agents: A New Era Beyond Traditional Automation | by Jiao - Medium, 7월 8, 2025에 액세스, https://medium.com/@yhocotw31016/autonomous-browser-agents-a-new-era-beyond-traditional-automation-6d75ee03ced3
- [시사금융용어] 에이전틱 AI(Agentic AI) - KB의 생각, 7월 8, 2025에 액세스, https://kbthink.com/news-list/view.html?newsId=20250121073002404
- AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges - arXiv, 7월 8, 2025에 액세스, https://arxiv.org/html/2505.10468v1
- 성공적인 에이전틱 AI 구축을 위한 핵심 전략과 고려 사항 | 인사이트리포트 - Samsung SDS, 7월 8, 2025에 액세스, https://www.samsungsds.com/kr/insights/how-to-build-agentic-ai.html
- Understanding Agent-Based vs. Agentic AI - David R. Longnecker, 7월 8, 2025에 액세스, https://drlongnecker.com/blog/2025/05/agent-based-vs-agentic-ai/
- Why I'm Excited About the Future of Agentic Crypto Browsers | by Ayushkmrjha - Medium, 7월 8, 2025에 액세스, https://medium.com/@ayushkmrjha/why-im-excited-about-the-future-of-agentic-crypto-browsers-bcbd22a43655
- Browser AI agents pose serious security risks - DevX, 7월 8, 2025에 액세스, https://www.devx.com/daily-news/browser-ai-agents-pose-serious-security-risks/
- Why Headless Browsers Are a Key Technology for AI Agents - The New Stack, 7월 8, 2025에 액세스, https://thenewstack.io/why-headless-browsers-are-a-key-technology-for-ai-agents/
- I am among the first people to gain access to OpenAI's “Operator” Agent. Here are my thoughts. : r/ChatGPTPro - Reddit, 7월 8, 2025에 액세스, https://www.reddit.com/r/ChatGPTPro/comments/1i8jln3/i_am_among_the_first_people_to_gain_access_to/
- Introducing Operator - OpenAI, 7월 8, 2025에 액세스, https://openai.com/index/introducing-operator/
- arXiv:2501.09236v1 [cs.SE] 16 Jan 2025, 7월 8, 2025에 액세스, https://arxiv.org/pdf/2501.09236
- An AI Web Agent Deep Comparison: rtrvr.ai vs. OpenAI Operator vs. Convergence Lab's Proxy vs. Browser Use, 7월 8, 2025에 액세스, https://www.rtrvr.ai/blog/ai-web-agents-deep-comparison
- Meet Opera Neon, the new AI agentic browser - Blog, 7월 8, 2025에 액세스, https://blogs.opera.com/news/2025/05/opera-neon-first-ai-agentic-browser/
- rtrvr.ai's Breakthrough Performance on the Halluminate Web Bench: Redefining AI Agent Capabilities, 7월 8, 2025에 액세스, https://www.rtrvr.ai/blog/web-bench-results
- AutoWebGLM: A Large Language Model-based Web Navigating Agent - arXiv, 7월 8, 2025에 액세스, https://arxiv.org/html/2404.03648v2
- AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent - arXiv, 7월 8, 2025에 액세스, https://arxiv.org/html/2404.03648v1
- A Survey on (M)LLM-Based GUI Agents - arXiv, 7월 8, 2025에 액세스, https://arxiv.org/html/2504.13865v1
- Best 30+ Open Source Web Agents in 2025 - Research AIMultiple, 7월 8, 2025에 액세스, https://research.aimultiple.com/open-source-web-agents/
- Project Mariner - Google DeepMind, 7월 8, 2025에 액세스, https://deepmind.google/models/project-mariner/
- You can finally try Google's AI tool that controls your Chrome browser for you, 7월 8, 2025에 액세스, https://www.androidauthority.com/google-project-mariner-io-2025-updates-3559376/
- What is Google's Project Mariner? - The AI Navigator, 7월 8, 2025에 액세스, https://www.theainavigator.com/blog/what-is-google-s-project-mariner
- AI in Search: Going beyond information to intelligence - Google Blog, 7월 8, 2025에 액세스, https://blog.google/products/search/google-search-ai-mode-update/
- OpenAI Operator - Wikipedia, 7월 8, 2025에 액세스, https://en.wikipedia.org/wiki/OpenAI_Operator
- Operator - OpenAI Help Center, 7월 8, 2025에 액세스, https://help.openai.com/en/articles/10421097-operator
- Computer use tool - Anthropic, 7월 8, 2025에 액세스, https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/computer-use-tool
- Building Effective AI Agents - Anthropic, 7월 8, 2025에 액세스, https://www.anthropic.com/research/building-effective-agents
- Developing a computer use model - Anthropic, 7월 8, 2025에 액세스, https://www.anthropic.com/news/developing-computer-use
- Opera announces Opera Neon, the first AI agentic browser, 7월 8, 2025에 액세스, https://press.opera.com/2025/05/28/opera-neon-the-first-ai-agentic-browser/
- Opera Neon | Agentic AI browser | Opera, 7월 8, 2025에 액세스, https://operaneon.com/
- Opera Neon: Complete Guide to AI Browser, Features & Pricing - Topmost Ads, 7월 8, 2025에 액세스, https://topmostads.com/opera-neon-guide/
- Introducing Opera Neon: The First Agentic AI Browser - - RegulatingAI, 7월 8, 2025에 액세스, https://regulatingai.org/introducing-opera-neon-the-first-agentic-ai-browser/
- How Fellou works: the new AI intelligent browser, 7월 8, 2025에 액세스, https://marketing4ecommerce.net/en/fellou-agency-browser/
- Fellou is an AI agentic browser for deep search and automation of complex tasks., 7월 8, 2025에 액세스, https://www.toolify.ai/tool/fellou-ai-browser
- Fellou changes the game: The world's first agentic browser - Medium, 7월 8, 2025에 액세스, https://medium.com/@KanikaBK/fellou-changes-the-game-the-worlds-first-agentic-browser-acb3dc293c32
- Fellou: The AI Browser That Thinks and Acts for You - YouTube, 7월 8, 2025에 액세스, https://www.youtube.com/watch?v=qeL2PR8hMUc&pp=0gcJCfwAo7VqN5tD
- Genspark ships no-code personal agents with GPT-4.1 and OpenAI Realtime API, 7월 8, 2025에 액세스, https://openai.com/index/genspark/
- Introducing Genspark AI Browser - Mainfunc.ai, 7월 8, 2025에 액세스, https://mainfunc.ai/blog/genspark_ai_browser
- Genspark Browser: The AI-Powered Chrome Killer You Need to See - Reddit, 7월 8, 2025에 액세스, https://www.reddit.com/r/AISEOInsider/comments/1lbgvwr/genspark_browser_the_aipowered_chrome_killer_you/
- Introducing Genspark AI Browser & MCP Store - YouTube, 7월 8, 2025에 액세스, https://www.youtube.com/watch?v=3t5tXL0l-cM
- en.wikipedia.org, 7월 8, 2025에 액세스, https://en.wikipedia.org/wiki/Manus_(AI_agent)
- SmythOS vs Manus AI: Report - SmythOS, 7월 8, 2025에 액세스, https://smythos.com/developers/agent-comparisons/smythos-vs-manus-ai-report/
- Manus AI review - Auto Gmail, 7월 8, 2025에 액세스, https://autogmail.com/manus-review
- Manus AI: The Best Autonomous AI Agent Redefining Automation ..., 7월 8, 2025에 액세스, https://huggingface.co/blog/LLMhacker/manus-ai-best-ai-agent
- Manus AI - Apps on Google Play, 7월 8, 2025에 액세스, https://play.google.com/store/apps/details?id=tech.butterfly.app
- Anyone use manus ai yet? : r/ChatGPTCoding - Reddit, 7월 8, 2025에 액세스, https://www.reddit.com/r/ChatGPTCoding/comments/1jd3u6k/anyone_use_manus_ai_yet/
- MIT's Harsh Review of Manus (AI Agent) - AI Breakfast - Beehiiv, 7월 8, 2025에 액세스, https://aibreakfast.beehiiv.com/p/mit-s-harsh-review-of-manus-ai-agent
- Perplexity Help Center - Perplexity Labs, 7월 8, 2025에 액세스, https://www.perplexity.ai/help-center/en/articles/11144811-perplexity-labs
- 5 projects Perplexity's new Labs AI tool can whip up for you now - in minutes - ZDNet, 7월 8, 2025에 액세스, https://www.zdnet.com/article/5-projects-perplexitys-new-labs-ai-tool-can-whip-up-for-you-now-in-minutes/
- Perplexity Labs Explained: Full Guide to Features, Use Cases & Future - Topmost Ads, 7월 8, 2025에 액세스, https://topmostads.com/perplexity-labs-ultimate-guide/
- Perplexity Labs: A Guide With 5 Practical Examples - DataCamp, 7월 8, 2025에 액세스, https://www.datacamp.com/tutorial/perplexity-labs
- Perplexity Introduces Labs for Project-Based AI Workflows - InfoQ, 7월 8, 2025에 액세스, https://www.infoq.com/news/2025/06/perplexity-labs/
- Building Browser AI: Leo's Development Progress and Plans - Brave, 7월 8, 2025에 액세스, https://brave.com/blog/leo-roadmap-2025-update/
- Brave Leo AI, 7월 8, 2025에 액세스, https://brave.com/leo/
- Browser AI Agents, Not Employees, Now Viewed as Weakest Link in Cybersecurity, 7월 8, 2025에 액세스, https://www.carriermanagement.com/news/2025/06/30/276892.htm
- How Secure Is Your OAuth? Insights from 100 Websites - CyberArk, 7월 8, 2025에 액세스, https://www.cyberark.com/resources/threat-research-blog/how-secure-is-your-oauth-insights-from-100-websites
- New OAuth Phishing Threat: Exploiting Vulnerabilities in SaaS Integration Platforms, 7월 8, 2025에 액세스, https://www.obsidiansecurity.com/blog/oauth-phishing-threat-exploiting-saas-integration-platforms
- AI Agents Are Here. So Are the Threats. - Unit 42, 7월 8, 2025에 액세스, https://unit42.paloaltonetworks.com/agentic-ai-threats/
- Agentic AI Threat Modeling Framework: MAESTRO | CSA - Cloud Security Alliance, 7월 8, 2025에 액세스, https://cloudsecurityalliance.org/blog/2025/02/06/agentic-ai-threat-modeling-framework-maestro
- AI Agents Privacy Policy, 7월 8, 2025에 액세스, https://www.agent.so/policies/privacy
- Privacy Policy - AI Agent, 7월 8, 2025에 액세스, https://aiagent.autviz.com/privacy-policy/
- Privacy policy - First Principles First, 7월 8, 2025에 액세스, https://www.fp1.ai/privacy-policy
- AI Privacy Policy Analyzer Chrome Extension - GitHub, 7월 8, 2025에 액세스, https://github.com/zahidaz/ai-privacy-policy-analyzer