A Technical Note

SEO deep dive: 구글 검색엔진은 진짜 어떻게 동작할까? — SEO를 넘어 검색 시스템 자체를 이해하기

frontendseo
DEV.SEO
SEO deep dive: 구글 검색엔진은 진짜 어떻게 동작할까? — SEO를 넘어 검색 시스템 자체를 이해하기
Fig. I — 관련 스크린샷.
Abstractum · 초록

구글은 단순한 검색창이 아니다. 크롤링, 인덱싱, 역색인, PageRank, 벡터 검색, RankBrain, BERT, NavBoost, Gemini AI까지 수많은 시스템이 단계적으로 협력하는 거대한 정보 검색 엔진이다. 이 글은 Next.js SEO 문제를 계기로 시작된, 현대 검색엔진 구조 전체에 대한 기술적 해부 기록이다.

개요

본 블로그를 Search Console에 등록하여 추이를 살펴보던 중, 인덱싱이 여러 컨텐츠 중 오직 3개만 된 것을 발견했다.

정적 페이지들은 모두 크롤링 및 색인이 생성되었으나, 동적으로 생성되는 컨텐츠에 대해서는 크롤링 자체가 이루어지지 않은 것을 확인했다.

디버깅을 진행하면서, 서치 콘솔에서 sitemap이 등록되지 않았음을 발견했다.

또한, 링크를 검색했을 때 메인 페이지를 제외하고 다른 컨텐츠가 노출되지 않는 것을 보면서 SEO 최적화에 대해서 보다 깊게 알아볼 시점이 왔음을 느꼈고, 이에 대해서 정리하고자 한다.

SEO란 무엇인가?

SEO(Search Engine Optimization, 검색엔진 최적화) 는 구글, 네이버 빙(Bing) 같은 검색엔진에서 웹사이트나 콘텐츠가 더 잘 노출되도록 만드는 일련의 작업과 전략 을 말한다.

사용자가 특정 키워드를 검색했을 때 내 페이지가 검색 결과의 상위에 노출되게 하는 것이 핵심 목표이다.

SEO가 중요한 이유

상위 3위가 클릭의 절반 이상을 가져간다

검색 1페이지 안에서도 클릭은 상위 3개 자연 검색 결과에 몰리는 경향이 있다.

출처1위2위3위상위 3개 합계
FirstPageSage (2026)39.8%18.7%10.2%68.7%
SISTRIX28.5%15.7%11.0%55.2%
Backlinko27.6%54.4%

연구마다 차이는 있지만, 상위 3개 결과가 전체 클릭의 약 54~69% 를 차지한다.

실제 유저의 클릭 비율을 나타낸 이미지
Fig. — 실제 유저의 클릭 비율을 나타낸 이미지

2페이지는 사실상 보이지 않는다

  • 2페이지 결과 클릭률: 0.63%
  • 1위는 10위보다 클릭 가능성 약 10배 높음

즉, "1페이지 진입"이 아니라 상위 3위 확보, 특히 1~2위권 진입이 핵심 지표다.

광고와 달리 SEO는 "자연 검색(organic search)" 영역에서 이루어지기 때문에, 한 번 상위에 자리 잡으면 지속적으로 비용 없이 트래픽을 얻을 수 있다는 장점이 있다.

그래서 마케팅에서 장기적인 자산으로 평가받는다.

우리가 서치 엔진의 원리를 이해해야 하는 이유

SEO를 "키워드 몇 개 넣고 메타 태그 잘 쓰면 되는 작업"으로 생각하기 쉽다. 하지만 그런 접근은 2010년대 초반까지나 통했다.

지금의 구글은 여러 알고리즘이 단계적으로 작동하는 파이프라인이고, 각 단계마다 평가 기준이 다르다. 크롤링 단계에서 떨어지면 인덱싱은 시도조차 되지 않고, 인덱싱에서 걸러지면 랭킹 후보에도 못 든다. 운 좋게 랭킹에 올라도 사용자 행동이 나쁘면 재랭킹 단계에서 다시 떨어진다.

즉, "어디서 막혔는지"를 모르면 무엇을 고쳐야 할지도 모른다.

  • 트래픽이 안 나오는데 색인은 됐다면 → 랭킹 단계의 문제 (콘텐츠 품질, 권위, 의도 매칭)
  • 색인이 안 됐다면 → 크롤링 또는 인덱싱 단계의 문제 (사이트맵, 중복, 씬 콘텐츠)
  • 순위는 좋은데 클릭이 없다면 → 재랭킹 신호의 문제 (타이틀, 메타 디스크립션, SERP 매력도)
  • 처음엔 순위가 좋았는데 점점 떨어진다면 → NavBoost의 사용자 신호 문제 (체류 시간, 포고 스티킹)

원리를 알면 증상을 보고 원인을 역추적할 수 있다. 그리고 더 중요한 건, 알고리즘이 바뀌어도 흔들리지 않는다는 점이다. 구글은 매년 수천 번씩 알고리즘을 업데이트하지만, "사용자 의도를 가장 잘 만족시키는 페이지를 찾는다" 는 본질은 변하지 않는다. 원리를 이해한 사람은 새 업데이트가 나와도 "이건 어느 단계의 어떤 신호를 강화한 것이군"이라고 해석할 수 있다.

반대로 원리를 모르고 "올해 트렌드" 같은 표면적 팁만 따라가면, 업데이트 한 번에 트래픽이 반토막 나는 경험을 반복하게 된다.

검색엔진의 작동 원리 (구글을 중심으로)

SEO를 이해하려면 검색엔진이 어떻게 동작하는지 먼저 알아야 한다. 크게 세 단계로 이루어진다.

  1. 크롤링(Crawling) 단계에서 검색엔진의 봇(예: Googlebot)이 웹을 돌아다니며 페이지를 발견한다.
  2. 인덱싱(Indexing) 단계에서 발견한 페이지의 내용을 분석해 거대한 데이터베이스에 저장한다.
  3. 랭킹(Ranking) 단계에서 사용자가 검색하면 수백 개의 알고리즘 신호를 바탕으로 가장 적합한 순서로 결과를 보여준다.

SEO는 이 세 단계 모두에서 내 사이트가 유리한 위치에 놓이도록 돕는 작업이다.

그럼 지금부터 하나씩 톺아보자.

0. 전체 그림: 구글 검색은 "파이프라인"이다.

먼저 큰 그림을 잡고 가는 게 중요하다.

구글 검색은 단일 알고리즘이 아니라, 여러 시스템이 순차적으로 처리하는 파이프라인 이다.

구글의 알고리즘은 하나의 공식이 아니라 "어떤 페이지가 사용자의 의도를 가장 잘 만족시키는가?" 라는 단 하나의 질문에 답하기 위해 설계된 시스템들의 집합이다.

크게 네 단계로 나뉜다. 위에서 서술한 3가지 외에 서빙 + 재랭킹이 추가된다.)

  1. 크롤링(Crawling) : 웹을 돌아다니며 페이지를 발견하고 수집한다.
  2. 인덱싱(Indexing) : 수집한 페이지를 이해하고 색인에 저장한다.
  3. 랭킹(Ranking) : 검색어가 들어오면 색인에서 후보를 골라 순위를 매긴다.
  4. 서빙 + 재랭킹(Serving + Re-ranking) : 사용자에게 보여주기 직전 마지막 조정이다.

각 단계마다 다른 알고리즘이 동작하고, SEO 전략도 단계마다 다르게 접근해야 한다.

구글 서치 파이프라인
Fig. — 구글 서치 파이프라인

1. 크롤링: 구글봇이 어떻게 페이지를 찾는가?

작동 원리

크롤링(Crawling) 은 구글봇(Googlebot)이라는 자동화 프로그램이 웹을 돌아다니며 페이지를 발견하고 다운로드하는 단계이다.

구글봇이 페이지를 크롤링해야 그 페이지가 랭킹될 수 있고, AI Overviews에 나타날 수 있으며, 구글 검색에서 발견될 수 있다.

그러면 구글봇은 어떻게 페이지를 찾는가?

시드 URL(이전 크롤링에서 알아낸 URL, 백링크, XML 사이트맵, 서치 콘솔에 제출된 페이지)에서 시작해서, HTTP(S)로 페이지를 요청하고, <a href> 링크를 따라가며 새 URL을 큐에 추가한다.

여기서 중요한 개념이 크롤 버짓(Crawl Budget) 이다.

구글은 모든 사이트를 무한히 크롤링하지 않는다. 사이트마다 일정량의 "예산"을 배정한다.

크롤 버짓은 사이트 크기, 권위와 인기도, 서버 건강 상태, robots.txt 에 의해 결정된다.

크롤 버짓은 단순한 "할당량"이 아니라 여러 시스템이 결합된 결과다. 깊이 있게 이해하고 싶다면 아래 섹션들을 차례로 펼쳐보자.

크롤 버킷 설명 이미지
Fig. — 크롤 버킷 설명 이미지

2026년의 특징 (글 작성 시점)

구글은 모바일 우선 인덱싱(Mobile-First Indexing) 을 사용한다.

구글봇은 거의 항상 모바일 기기인 척 하면서 사이트를 크롤링하기 때문에, 모바일 사이트가 콘텐츠를 숨기거나 데스크톱에 있는 네비게이션 링크를 빠뜨리면 구글봇은 그걸 보지 못한다.

또한 자바스크립트로 동적으로 로드되는 콘텐츠도 처리한다. 다만 렌더링은 자원을 많이 쓰기 때문에, 정적 HTML보다 우선순위가 떨어질 수 있다.

SEO 시사점

  • 사이트맵 제출내부 링크 구조 를 잘 짜야 구글봇이 깊은 페이지까지 도달한다. 구글 공식 문서에 따르면 구글봇은 이전에 크롤링한 페이지에 내장된 링크에서 새 URL을 주로 발견하기 때문에, 가장 신뢰할만한 장기 전략은 강력한 내부 링크 아키텍쳐와 외부 참조를 얻는 것이다. (외부에서 링크를 많이 걸어주면 그만큼 구글봇이 많이 접근하게 된다.)
  • 서버 응답 속도, 5xx 오류, 무한 리다이렉션 같은 기술적 문제는 크롤 버짓을 갉아먹는다.
  • robots.txtnoindex 메타 태그로 가치 없는 페이지(검색 결과 페이지, 필터 조합 페이지 등)는 크롤링을 막아 자원을 중요한 페이지로 돌려야 한다.
  • 모바일에서 콘텐츠가 누락되면 안 된다. 반응형이 안전하다.

2. 인덱싱: 페이지를 "이해"하고 저장하기

역색인(Inverted Index)이라는 핵심 구조

페이지를 다운로드했다고 끝이 아니다. 구글은 페이지의 의미를 분석하고, 검색에 빠르게 활용할 수 있는 구조로 저장해야 한다.

이때 사용되는 것이 역색인(Inverted Index) 이다.

직관적으로 이해해 보면, 일반 책의 색인은 "이 책 9페이지에는 사과, 바나나, 포도가 나옴"처럼 페이지 -> 단어 매핑 이다.

역색인은 그 반대이다. "사과 -> 페이지 9, 27, 103"처럼 단어 -> 페이지 목록 매핑 이다.

컴퓨터 과학에서 역색인은 콘텐츠에서 문서 내 위치로의 매핑을 저장하는 데이터베이스 인덱스이다.

사용자가 "강아지 훈련법"을 검색하면 구글은 전체 웹을 뒤지지 않는다. 역색인에서 "강아지"를 포함한 페이지 목록과 "훈련법"을 포함한 페이지 목록을 즉시 가져와서 교집합을 구한다. 그래서 수십억 페이지 중에서도 0.5초안에 결과가 나오는 것이다.

캐노니컬화와 중복 처리

수집된 페이지가 다 색인되는 것은 아니다. 인덱싱 과정에서 구글은 페이지가 인터넷의 다른 페이지와 중복인지 또는 정본(canonical)인지를 판단한다.

정본은 검색 결과에 표시될 수 있는 페이지이다. 정본을 선택하기 위해 먼저 비슷한 콘텐츠를 가진 페이지들을 그룹(클러스터라고도 부른다)로 묶고, 그 중 가장 대표적인 것을 선택한다.

최근 몇 년 동안 서치 콘솔에 "크롤링됨 - 현재 색인되지 않음" 상태가 크게 증가하고 있는데, 이는 구글이 "페이지를 봤지만 저장할 가치가 없다고 판단했다" 는 의미이다.

구글의 색인은 거대하지만 무한하지 않기 때문에 적극적인 정본화와 중복 감지를 수행한다.

엔티티 인식: 단어가 아닌 "개념"으로 저장

여기서 핵심적인 변화가 일어났다. 과거 구글은 "텍스트=문자열"로 봤지만, 2010년대 중반부터 엔티티(Entity) 개념으로 바뀌었다. 구글은 텍스트를 문자의 모음으로 보는 것을 멈추고 실제 세계의 객체(사람, 회사, 제품, 장소)를 인식하기 시작했다.

예를 들어 "사과"라는 단어를 봤을 때, 구글은 이게 과일인지 회사(Apple Inc.)인지 도시인지를 주변 단어로 판단해서 적절한 엔티티 ID로 색인한다.

이게 지식 그래프(Knowledge Graph) 의 기반이다.

또한 페이지가 사이트의 핵심 주제인지 아닌지 판단하기 위해, 구글은 페이지와 사이트를 벡터화한 다음, 페이지 임베딩(siteRadius)을 사이트 임베딩(siteFocusScore)과 비교한다. 즉 사이트가 일관된 주제를 다루고 있는지를 수학적으로 측정한다는 의미이다.

벡터화, 그리고 지식 그래프 설명 이미지
Fig. — 벡터화, 그리고 지식 그래프 설명 이미지

SEO 시사점

  • 같은 콘텐츠가 여러 URL에 있으면 rel=canonical 태그 로 정본을 명시하자. (단, 때에 따라서는 효과가 미미할 수 있다.)
  • 씬 콘텐츠(thin content)는 색인조차 되지 않을 수 있다. 페이지마다 고유한 가치(독자에게 새로운 정보)를 제공해야 한다.
  • 토픽 클러스터링(그룹화): 한 가지 주제를 깊고 일관되게 다루면 siteFoucsScore가 올라가고, 그 주제에 대한 권위가 쌓인다. 너무 잡다한 주제를 다루면 사이트의 정체성이 흐려진다.
  • 구조화된 데이터(Schema.org)로 엔티티를 명시적으로 알려주면 구글이 더 정확히 이해한다.

3. 랭킹: 어떤 페이지를 위에 놓을 것인가 (핵심)

이제 가장 복잡하고 중요한 부분이다.

사용자가 검색어를 입력하면 구글은 어떻게 순위를 매기는가?

현대 구글의 랭킹은 한 번에 끝나는 것이 아니라 4단계 깔때기 구조 이다.

  • 검색(Retrieval) : 인덱스에서 수만개의 문서를 미리 선택한다. (키워드 매칭 + Neural Matching/RankEmbed)
  • 거친 랭킹(Coarse Ranking) : 이것을 수백 개로 줄인다. (RankBrain 등 사용)
  • 정밀 랭킹(Fine Ranking) : DeepRank 가 깊은 언어 이해로 상위 후보들을 평가한다.
  • 재랭킹(Re-Ranking) : NavBoost 가 사용자 신호를 기반으로 다듬는다.

각 단계마다 다른 알고리즘이 동작하니, 하나씩 살펴보자.

4단계 깔때기 구조
Fig. — 4단계 깔때기 구조

3-1. 고전적인 기반: PageRank와 BM25

PageRank - "어떤 페이지가 권위 있는가?"

페이지 랭크 이미지
Fig. — 페이지 랭크 이미지

구글의 창업 자산이다.

핵심 아이디어는 단순하다.

"중요한 페이지가 링크해 주는 페이지는 그 자체로도 중요하다."

수학적으로 표현하면 다음과 같다.

PR(A)=1dN+diPR(Ti)C(Ti)PR(A) = \frac{1 - d}{N} + d \sum_i \frac{PR(T_i)}{C(T_i)}

복잡해 보이지만 풀어 보면 의외로 직관적이다.

  • PR(A)PR(A) : 페이지 A의 페이지랭크 점수
  • TiT_i : 페이지 A에 링크를 보내는 모든 페이지
  • C(Ti)C(T_i) : 페이지 TiT_i 가 외부로 보내는 링크의 총 개수
  • dd : 감쇠 계수(damping factor), 보통 0.85
  • NN : 전체 페이지 수

좀 더 쉽게 표현하면 다음과 같다.

어떤 페이지로부터 링크를 받으면 그 페이지의 PRPR그 페이지가 가진 외부 링크 수로 나눠서 가져온다.

즉 권위있는 사이트의 링크가 더 가치 있고, 그 사이트가 링크를 적게 줄수록 받는 쪽이 더 큰 점수를 얻어가는 방식이다.

0.85 라는 감쇠 계수는 "유저가 링크를 따라가다 85% 의 확률로 계속 가고, 15% 의 확률로 무작위 페이지로 점프한다"는 모델에서 나왔다. (랜덤 서퍼 모델)

PageRank 는 죽었다는 말이 많지만 사실 그렇지 않다. 링크는 여전히 중요하다. 링크의 다양성과 관련성이 핵심이며, 페이지랭크는 구글의 랭킹 기능 안에서 매우 잘 살아있다. 모든 문서에 대해 웹사이트의 페이지랭크가 여전히 고려되고 있다.




BM25 - "쿼리와 페이지가 얼마나 잘 맞는가"

PageRank가 "권위"를 다룬다면, BM25는 "쿼리-문서 관련성" 을 다룬다.

검색엔진 정보 검색의 표준 알고리즘이다.

수식은 다음과 같다.

BM25(d,q)=tqIDF(t)ft,d(k1+1)ft,d+k1(1b+bdavgdl)BM25(d,q)=\sum_{t\in q}\mathrm{IDF}(t)\cdot\frac{f_{t,d}(k_1+1)}{f_{t,d}+k_1\left(1-b+b\cdot\frac{|d|}{\mathrm{avgdl}}\right)}

어렵게 느껴지지만 쪼개서 보면 의외로 이해할만 하다.

(1) IDF - 흔한 단어인가, 희귀한 단어인가

역문서 빈도(IDF) 는 코퍼스 전체에서 어떤 용어의 중요도를 측적한다.

희귀한 용어는 흔한 용어보다 더 유익한 것으로 간주된다.

예를 들어 "the"는 거의 모든 문서에 등장하므로 가치가 거의 없지만, "quantum" 같은 희귀한 용어는 관련성을 더 잘 드러낸다.

(2) TF (포화 함수가 적용된) - 단어가 얼마나 자주 나오는가

BM25는 단순히 키워드 등장 횟수를 그대로 쓰지 않고 "포화 함수(saturation function)" 를 통과시켜서, 단어가 매우 많이 등장하는 문서의 영향력에 상한선을 둔다.

"score" 라는 단어를 500번 언급하는 파일이 5번 언급하는 파일보다 100배 더 관련성이 있는 것은 아니라는 직관 때문이다. 어느 시점이 지나면 더 많은 단어 매칭이 "더 관련 있음"을 의미하지 않는다.

즉 키워드 스터핑(억지로 반복)이 통하지 않는 수학적 이유가 여기 있다.

(3) 문서 길이 정규화 (b 파라미터)

긴 문서일수록 자연스럽게 키워드가 더 많이 나온다. 그래서 BM25는 문서 길이를 평균 길이(avgdl)와 비교해 보정한다. 비정상적으로 긴 문서가 부당하게 유리해지지 않도록 막는다.

이 세 가지가 합쳐져서, BM25는 "이 페이지가 이 쿼리에 대해 얼마나 적절한가"를 점수로 매긴다. 구글이 BM25 자체를 그대로 쓰진 않지만, 같은 원리를 응용한 시스템을 사용한다.

3-2. AI 기반 시스템: 진짜 현대 구글

여기서부터가 2015년 이후의 혁명이다.

RankBrain(2015~) - "검색 의도의 의미를 이해"

RankBrain 이전에 구글은 쿼리의 개별 단어를 보고 정확히 일치하는 페이지를 찾으려고 했다. RankBrain은 그런 니즈에 맞게 접근 방법을 바꾸었다.

단어를 수학적 벡터(숫자 표현)로 변환하고 개념들 사이의 연결을 검색한다.

"비즈니스 미팅에 비 올 때 뭘 입어야 할까"라고 검색하면, RankBrain은 이 쿼리가 단순히 "비"나 "옷"에 관한 것이 아니라 특정 상황에 관한 것임을 이해한다.

"비즈니스 복장", "비 보호", "추천"이라는 개념을 연결해서, 정확히 그 문구를 포함한 페이지가 없어도 관련 결과를 제공한다.

기술적으로는 단어를 다차원 공간의 벡터로 변환한다. 비슷한 의미의 단어는 그 공간에서 가깝게 위치한다. 예를 들어 "자동차"와 "차량"은 거의 같은 위치에 있고, "강아지"와 "고양이"는 멀지만 "동물"이라는 더 큰 영역에 같이 묶인다.

Neural Matching (2018~) - "벡터로 검색"

Nerual Matching(내부 명칭: RankEmbed)은 2018년부터 쿼리와 문서를 개념적 수준에서 매칭한다.

단 하나의 키워드도 일치하지 않더라도 관련 결과를 다차원 의미 공간의 벡터를 사용해 찾아낸다.

이게 바로 시멘틱 서치(Semantic Search)의 핵심이다. 페이지 전체와 쿼리 전체를 벡터로 변환한 뒤, 두 벡터의 거리를 측정해서 의미적으로 가까운지 판단한다. 키워드를 정확히 일치시키지 않아도 된다.

BERT / DeepRank (2019~) - "문장의 뉘양스를 이해"

BERT(Bidirectional Encoder Representations from Transformers)는 언어 이해의 양자 도약이었다. 처음으로 구글이 문장의 양쪽 방향에서 단어의 맥락을 분서갛ㄹ 수 있게 되었다. "not"이나 "without" 처럼 문장의 의미를 오나전히 뒤집을 수 있는 작은 단어들이 마침내 제대로 이해되기 시작했다.

예를 들어 "면허 없이 차를 살 수 있을까?"라는 쿼리에서, BERT 이전에는 단순히 "차 사기" 관련 페이지를 보여줬지만, BERT 이후로는 "면허 없이" 라는 부정 조건이 핵심임을 이해해서 법적 정보를 보여준다.

DeepRank는 BERT가 랭킹에 사용될 때의 이름이다. DeepRank는 계산 비용이 크고 느리다. 트랜스포머 아키텍쳐는 단순 모델보다 더 많은 자원을 요구하기 때문에, 최종 랭킹 단계에 들어가는 마지막 20~30개 문서에만 사용된다.

즉 BERT/DeepRank는 모든 페이지에 적용되는 게 아니라, 다른 시스템이 추려낸 최상위 후보들의 순위를 다듬는 데 쓰인다.

MUM, Gemini 3 (2024~2026) - 멀티모달과 생성형 AI

MUM(Multitask Unified Model, 2021)은 BERT보다 1,000배 강력하며 텍스트, 이미지, 비디오를 다국어로 이해한다. MUM은 여전히 특정 기능COVID 백신 검색, 구글 렌즈, 비디오의 관련 주제)에만 사용되고 일반 랭킹에는 사용되지 않는다.

큰 변화는 Gemini 3(2025년 11월부터)을 통해 온다. Gemini 3는 검색의 AI Mode를 구동한다.

AI Mode는 2026년 1월부터 Gemini 3 Flash로 전 세계적으로 사용 가능한 구글의 새로운 검색 기능이다.

단순히 링크를 보여주는 대신, Gemini3는 동적 답변과 인터렉티브 도구, 시뮬레이션, 시각적 레이아웃을 검색 결과에 직접 생성한다.

3-3. NavBoost: 사용자의 행동이 모든 것을 뒤집는다

이게 2024년 구글 API 유출에서 가장 충격적인 부분이다.

NavBoost는 사용자 클릭 행동을 기반으로 결과를 재랭킹하는 강력한 "Twidder"이다. DOJ 재판에서 구글 임원 판두 나약(Pandu Nayak) 같은 사람들의 선서 증언으로 NavBoost의 존재와, 13개월의 롤링 윈도우로 집계된 데이터 사용이 검색 결과를 다듬는 데 있어서의 핵심 역할로 작용함이 확인되었다.

  • badClicks: 사용자가 빠르게 검색 결과로 돌아오는 클릭으로, "pogo-sticking"이라 불리며 컨텐츠에 불만족함을 의미한다.
  • lastLongestClicks: 사용자가 클릭하고 머무른 마지막 결과를 식별하는데, 이는 사용자의 검색 여정이 성공적으로 끝났음을 시사하므로 특히 강한 성공 신호로 간주된다.

이게 왜 충격적이냐면, 구글이 수년간 "클릭은 직접적인 랭킹 요소가 아니다"라고 공언해왔기 때문이다. (개인정보 이슈)

커뮤니티에서 많은 논쟁이 있어왔는데, 이걸 통해서 진실임이 밝혀진 것이다.

구글의 공식 입장과 NavBoost의 영향력은 모순이 아니라 랭킹 파이프라인의 두 단계를 설명한다.

클릭은 머스탱(Mustang) 시스템이 결정하는 초기 랭킹에는 직접적으로 영향을 미치는게 미미할 수 있다.

아무래도 초기 랭킹 판별 단계에서는 전통적인 방식(위에서 서술한 PageRank 등)과 Rank에 기반한다. 그러나 페이지가 그 랭킹을 유지하거나 개선하는 능력은 NavBoost의 재랭킹 단계에서의 성과에 크게 의존한다.

뭔가 어려운 말들이 많이 나와서 요약하면 다음과 같다.

전통적 SEO로 출발선에 서고, 사용자 경험으로 장기적인 경주에서 이긴다. (마라톤을 생각하자.)

3-4. Twiddlers: 랭킹의 마지막 손질

유출된 문서에는 QualityBoost, WebImageBoost, RealTimeBoost, NavBoost 같은 "Boost" 접미사가 붙은 다양한 함수가 있다.

이 함수들은 Twiddler 프레임워크 안에서 동작한다. Twiddlers는 단일 코퍼스의 결과를 재랭킹하는 컴포넌트이다.

즉 메인 랭킹이 끝난 후에도, 여러 Twiddler들이 순위를 미세 조정한다. 신선도(FreshnessTwiddler), 품질(QualityBoost), 사용자 신호(NavBoost) 등이 각각 작용한다.

3-5. 디모션(Demotion) 시그널: 패널티는 아니지만 떨어뜨림

NavBoost는 사용자 만족도의 미묘한 관점을 캡처하지만, 그 외에도 여러 디모션 신호가 있다.

clutterScore(페이지가 어수선함), violatesMobileInterstitialPolicy(방해되는 모바일 팝업), anchorMismatchDemotion(앵커 텍스트가 타겟 사이트와 맞지 않음), navDemotion(네비게이션 품질이 낮음), serpDemotion(SERP에서 사용자 불만족 신호) 등이 있다.

유출 문서에 따르면 콘텐츠는 다양한 이유로 demote(강등)될 수 있다.

4. 2026년의 큰 변화: AI Overviews(AI 개요)와 GEO

AI Overviews(AI 개요)가 게임을 바꿧다

"파란 링크"의 시대는 끝났다.

2025년 기준 AI Overviews가 전체 검색의 약 55%에 등장하면서 사용자가 답을 얻는 방식이 근본적으로 바뀌었다.

흥미로운 점은, AI Overviews(AIOs)는 기본 검색 인프라와 동일한 랭킹 인프라에서 그려온다.

강한 E-E-A-T 신호, 구조화된 콘텐츠, 구체적 질문에 대한 명확한 답을 가진 페이지가 가장 인용될 가능성이 높다.

즉 AI Overviews도 전통 SEO 위에서 작동한다.

AI 인용은 92%가 상위 10위 유기적 검색 결과에서 온다. 그래서 전통 랭킹을 무시할 수 없다.

GEO (Generative Engine Optimization)

새 용어가 등장했다. AEO(Answer Engine Optimization)는 콘텐츠를 명확한 답변을 제공하도록 구조화해서 AI 검색 결과와 피처드 스니펫에 나타날 확률을 높이는 것을 의미한다. 구조화된 콘텐츠는 AI 생성 검색 결과에 더 잘 등장한다.

5. 종합: 이 모든 것이 SEO에 어떤 의미인가

이제 작동 원리를 알았으니, 이를 바탕으로 2026년의 SEO와 AEO 전략을 정리해보자.

검색은 4단계 + α 파이프라인이다

2026년의 구글 검색은 단일 알고리즘이 아니라 여러 시스템의 순차적 협력이다. 페이지/브린의 1998년 PageRank부터 2025년 Gemini 3까지, 모든 시스템이 사라지지 않고 자기 위치에서 작동한다.

사용자 쿼리
   ↓
[0. Query Fan-Out]  ── Gemini 3가 여러 서브쿼리로 분해
   ↓
[1. Retrieval]      ── BM25 + RankEmbed가 후보 추출
   ↓
[2. NavBoost 필터]  ── 13개월 클릭 데이터로 추림
   ↓
[3. Mustang]        ── T* (Topicality + Quality + Clicks)
   ↓
[4. DeepRank]       ── BERT로 상위 20-30개 정밀 평가
   ↓
[5. Twiddler]       ── NavBoost 재적용 + 기타 부스트
   ↓
[6. AI 답변 생성]   ── Gemini 3가 답변 + Generative UI
   ↓
사용자에게 표시

이 모든 단계를 통과해야 한다. 한 단계만 떨어져도 끝이다.

2026년의 SEO = AEO = GEO

구글이 2026년 5월 15일 공식 가이드에서 명확히 했다: AEO와 GEO는 별개가 아니라 SEO다. AI Overviews도, AI Mode도, Gemini 3도 모두 기존 검색 랭킹 시스템 위에 구축되어 있기 때문이다.

따라서 별도의 "AI 최적화 해킹"은 무용하다. 오히려 구글은 다음 다섯 가지를 명시적으로 하지 말라고 했다.

  • LLMs.txt 만들기: 구글이 무시함
  • 콘텐츠 청킹: 페이지를 작게 쪼개는 것 무용
  • AI 전용 글쓰기: 자연스러운 글이 정답
  • 비진정한 언급 추구: Reddit/Quora 농장 무효
  • 광적인 schema 추가: AEO만을 위해서는 무용

진짜 결정타는 사용자 만족 (NavBoost)

2024년 유출과 DOJ 증언이 함께 증명한 가장 충격적인 사실: 사용자 만족이 모든 것을 결정한다.

NavBoost는 13개월의 클릭 데이터를 기억하면서:

  • goodClicks (만족 클릭)
  • badClicks (pogo-sticking)
  • lastLongestClicks (검색 여정의 성공 종료)

이 세 신호로 검색 결과를 재랭킹한다. 마지막 손질이 아니라 초기 강력한 필터로 작동한다 (Pandu Nayak DOJ 증언). 즉 전통적 SEO 신호로 출발선에는 설 수 있지만, 사용자가 만족하지 못하면 며칠 안에 떨어진다.

이게 본문이 강조한 명제의 정확한 메커니즘이다.

전통적 SEO로 출발선에 서고, 사용자 경험으로 장기적인 경주에서 이긴다. 마라톤을 생각하자.

2026년에 특히 더 중요해진 것들

1차 경험과 검증 가능한 저자성

2026년 4월 코어 업데이트는 E-E-A-T 신호를 한 단계 더 강화했다. 더 이상 "있으면 좋은 것"이 아니라 기대되는 사항이다.

  • 진짜 저자 정보 (이름, 자격, 소속)
  • 1차 경험에 기반한 콘텐츠 (직접 사용, 직접 방문, 직접 인터뷰)
  • 원본 데이터와 조사
  • AI로 쉽게 만들 수 없는 가치

본문 2024년 유출 Details에서 다룬 OriginalContentScore, contentEffort, numOfArticles8 신호들이 이를 측정한다.

코어 웹 바이탈 — 더 이상 선택이 아님

지표목표
LCP (Largest Contentful Paint)4G에서 2.5초 이내
INP (Interaction to Next Paint)200ms 이내
CLS (Cumulative Layout Shift)0.1 이내

코어 웹 바이탈이 NavBoost와 직접 연결된다. 느린 페이지 → pogo-sticking → badClick 누적 → navDemotion.

한 줄로 압축한 2026년 SEO 원칙

"파이프라인의 모든 단계를 통과할 수 있게 페이지를 만들어라.

  • 기술적으로는 크롤·색인 가능하게 (기술 SEO)
  • 의미적으로는 쿼리와 매칭되게 (콘텐츠·키워드·엔티티)
  • 권위적으로는 신뢰받게 (백링크·E-E-A-T·siteAuthority)
  • 사용자 입장에서는 만족시키게 (UX·CTR·체류 시간)

이 네 가지 중 하나라도 빠지면 어느 단계에서 떨어진다."

마지막 한마디

수많은 알고리즘 이름이 나왔지만, 모든 것은 결국 한 방향을 가리킨다.

구글의 알고리즘은 끊임없이 변하지만 보상 시스템(reward system) 은 결국 변하지 않는다.

독자에게 진짜 도움이 되는 고품질 콘텐츠, 신뢰와 관련성에 기반한 링크 프로필, 강한 E-E-A-T 신호, 견고한 기술적 기반은 판다부터 2026년 3월 업데이트까지 모든 주요 업데이트를 통과해 좋은 점수와 랭킹을 얻어왔다.

최근 발표된 AEO 정책 역시 핵심은 "어떻게 좋은 컨텐츠를 노출시킬건가?" 이다. 즉, 결국 본질은 변하지 않는다는 것이다.

알고리즘의 디테일을 이해하면 "왜", "어떻게" 그것이 작동하는지 알 수 있다. 본질을 반영하기 위한 노력을 엿볼 수 있는 부분이다.

핵심은 검색엔진을 속이려는 것이 아니라, 검색엔진이 "좋다"고 판단하는 신호와 사용자가 "도움된다"고 느끼는 경험이 결국 같은 곳을 향하도록 만드는 것이다.

이 글이 SEO에 대해서 고민하는 동료 개발자들께 조금이라도 도움이 되었으면 한다.

MMXXVI · 2026-05-16
독자의 여백· Commentarii