허명회 교수의 '쌍둥이 득표' 통계 분석을 챗GPT에게 물었더니

허명회 교수 쌍둥이 득표에 대한 수학풀이 지피티 분석
허명회 교수의 쌍둥이 득표 분석에 대한 재분석

인천시장 선거 관내 사전투표 결과에서 송도1동과 송도2동의 후보별 득표수가 완전히 같게 나온 사례가 논란이 됐습니다. 박찬대 후보 3,030표, 유정복 후보 1,440표가 두 동에서 똑같이 나온 것입니다. 숫자만 보면 누구라도 ‘이게 우연일 수 있나?’라는 의문을 가질 수 있습니다.

허명회 고려대 통계학과 교수는 6월 9일과 10일 페이스북 글을 통해 이 현상을 수학적·통계적으로 설명했습니다. 핵심은 ‘특이해 보이는 숫자 일치가 곧바로 부정선거의 증거가 되는 것은 아니다’라는 내용입니다. 이번 글에서는 시민들도 이해할 수 있도록 공식과 계산 과정을 함께 정리합니다.

논란의 핵심

먼저 인천 사례의 숫자를 정리하면 다음과 같습니다. 송도1동과 송도2동에서 두 후보의 득표수가 모두 같았습니다. 두 동의 전체 표수도 4,470표로 같습니다.

구분 박찬대 후보 유정복 후보 합계
송도1동 3,030표 1,440표 4,470표
송도2동 3,030표 1,440표 4,470표

직관적으로는 매우 특이해 보입니다. 서로 다른 두 지역의 숫자가 후보별로 완전히 같기 때문입니다. 하지만 통계에서는 이 숫자를 볼 때 ‘이 한 쌍만 미리 정해놓고 비교했는지’, 아니면 ‘전체 행정동 조합을 모두 본 뒤 발견된 사례인지’를 구분합니다.

이 차이가 중요합니다. 한 번의 비교에서 낮은 확률의 일이 발생한 것과, 수천 개 조합을 비교한 뒤 그중 하나가 발견된 것은 전혀 다른 문제입니다.

이항분포 계산

허명회 교수는 이 사례를 동전 던지기 문제처럼 단순화했습니다. 한 표가 박찬대 후보에게 갈 확률을 p, 유정복 후보에게 갈 확률을 1-p로 두는 방식입니다.

인천 사례에서 박찬대 후보 득표비율은 다음과 같습니다.

p = 3,030 ÷ 4,470 ≈ 0.6779

즉, 박찬대 후보에게 갈 확률을 약 67.79%로 둡니다. 유정복 후보에게 갈 확률은 다음과 같습니다.

1 - p = 1 - 0.6779 = 0.3221

한 동에서 박찬대 후보가 얻는 표수를 확률변수 X라고 두면, X는 이항분포를 따른다고 볼 수 있습니다.

X ~ Binomial(n, p)

여기서 n은 전체 표수 4,470이고, p는 박찬대 후보 득표비율 0.6779입니다. 송도1동과 송도2동을 각각 X, Y라고 하면 다음처럼 놓을 수 있습니다.

X ~ Binomial(4,470, 0.6779)
Y ~ Binomial(4,470, 0.6779)

관심 있는 질문은 ‘두 동에서 박찬대 후보 득표수가 완전히 같을 확률’입니다. 수학적으로는 다음 확률을 구하는 문제입니다.

P(X = Y)

정확한 공식

두 동의 득표수가 같으려면 X와 Y가 같은 값을 가져야 합니다. 예를 들어 둘 다 3,030표일 수도 있고, 둘 다 3,020표일 수도 있습니다. 수학적으로는 가능한 모든 값을 더해야 합니다.

P(X = Y) = Σ P(X = i) × P(Y = i)

이항분포에서 어떤 값 i가 나올 확률은 다음과 같습니다.

P(X = i) = C(n, i) pi(1-p)n-i

여기서 C(n, i)는 조합입니다.

C(n, i) = n! ÷ {i!(n-i)!}

따라서 두 동의 득표수가 같을 확률은 다음과 같이 쓸 수 있습니다.

P(X = Y) = Σ [C(n, i)pi(1-p)n-i]2

조금 더 풀어 쓰면 다음과 같습니다.

P(X = Y) = Σ C(n, i)2 p2i(1-p)2n-2i

이 공식이 바로 두 독립적인 이항분포 결과가 같은 숫자로 나올 확률을 계산하는 식입니다.

인천 사례 대입

허명회 교수 인천 득표수 사례 분석
허명교 교수 페이스북 캡처

인천 사례에서는 다음 값을 넣습니다.

항목
n 4,470
p 0.6779
1-p 0.3221

정확한 합산 계산을 컴퓨터로 하면 다음 값이 나옵니다.

P(X = Y) ≈ 0.00903

퍼센트로 바꾸면 다음과 같습니다.

0.00903 × 100 = 0.903%

즉, 비슷한 조건의 두 동이 있을 때 후보 득표수가 완전히 같게 나올 확률은 약 0.9%입니다. 한 번만 비교한다면 낮아 보일 수 있습니다. 하지만 실제로는 한 번만 비교한 것이 아닙니다.

근사식 확인

정확한 계산은 컴퓨터가 필요하지만, 대략적인 값은 근사식으로도 확인할 수 있습니다. 두 이항분포 X와 Y가 있을 때 차이 D = X - Y라고 두면, D의 평균은 0이고 분산은 다음과 같습니다.

Var(D) = Var(X) + Var(Y)

이항분포의 분산은 np(1-p)이므로 다음처럼 정리됩니다.

Var(D) = 2np(1-p)

정규분포 근사를 이용하면 두 값이 정확히 같을 확률은 대략 다음과 같습니다.

P(X = Y) ≈ 1 ÷ √{4πnp(1-p)}

이제 숫자를 넣어보겠습니다.

np(1-p) = 4,470 × 0.6779 × 0.3221 ≈ 976
4πnp(1-p) ≈ 4 × 3.1416 × 976 ≈ 12,265
√12,265 ≈ 110.7
1 ÷ 110.7 ≈ 0.00903

근사식으로 계산해도 약 0.903%가 나옵니다. 따라서 허명회 교수가 제시한 0.00903이라는 값은 수학적으로 자연스럽게 나오는 값입니다.

조합 수 효과

여기서 중요한 질문이 나옵니다. 0.9%짜리 일이 실제로 일어났다면 이상한 것 아니냐는 질문입니다. 한 번만 비교했다면 낮은 확률입니다. 하지만 인천 전체 행정동을 대상으로 보면 비교 가능한 조합이 많습니다.

만약 인천 행정동이 137개라면, 두 동씩 짝지을 수 있는 경우의 수는 다음과 같습니다.

137C2 = 137 × 136 ÷ 2 = 9,316쌍

허명회 교수는 다음 글에서 인천의 행정동 수가 137개가 아니라 156개였어야 할 수도 있다고 했습니다. 156개로 계산하면 다음과 같습니다.

156C2 = 156 × 155 ÷ 2 = 12,090쌍

어느 쪽이든 핵심은 같습니다. 비교 가능한 쌍이 수천 개에서 1만 개 이상이라는 점입니다.

기대값 계산

허명회 교수는 이 많은 조합 중에서 ‘비슷한 조건의 동 조합’이 약 1% 정도 있다고 가정했습니다. 137개 기준으로 가능한 조합은 9,316쌍이고, 그중 1%는 다음과 같습니다.

9,316 × 0.01 = 93.16

즉, 약 93쌍입니다. 이 93쌍 각각에서 득표수가 완전히 같을 확률이 0.00903이라면, 완전히 일치하는 쌍의 기대값은 다음과 같습니다.

기대값 = 비교 가능한 쌍의 수 × 일치 확률
= 93 × 0.00903
≈ 0.84개

0.84개는 거의 1개에 가까운 값입니다. 비슷한 조건의 쌍이 93개 정도 있다는 가정이 맞다면, 인천에서 완전히 일치하는 쌍이 1개 발견되는 것은 크게 이상한 일이 아닙니다.

최소 1개 이상 나올 확률도 근사적으로 계산할 수 있습니다. 기대값을 λ라고 하면 다음 식을 쓸 수 있습니다.

P(1개 이상 발생) ≈ 1 - e

여기서 λ = 0.84를 넣으면 다음과 같습니다.

P(1개 이상 발생) ≈ 1 - e-0.84
e-0.84 ≈ 0.431
1 - 0.431 = 0.569

즉, 약 56.9%입니다. 비슷한 조건의 쌍이 93개 정도 있다는 가정이 맞다면, 적어도 1쌍이 완전히 일치할 확률은 절반을 넘습니다.

광주전남 사례

허명회 교수 페이스북 광주사례
허명회 교수 페이스북 캡처

허명회 교수는 다음 글에서 광주전남 사례도 설명했습니다. 광주전남 광역단체장 선거 관내 사전투표에서 유력 후보의 득표수가 완전히 같은 읍면동 쌍이 다섯 개 나왔다는 내용입니다.

처음 보면 인천의 한 쌍보다 더 이상해 보일 수 있습니다. 그러나 광주전남에서는 같은 숫자가 더 많이 나올 조건이 있습니다. 이유는 크게 세 가지입니다.

  • 읍면동 수가 많다
  • 유력 후보 득표율이 높다
  • 읍면동별 투표 규모가 작다

광주전남 읍면동 수를 393개로 보면 가능한 쌍의 수는 다음과 같습니다.

393C2 = 393 × 392 ÷ 2 = 77,028쌍

인천 9,316쌍보다 훨씬 많습니다. 비교할 기회가 많으면 같은 숫자가 발견될 가능성도 커집니다.

왜 더 겹칠까

허명회 교수는 광주전남에서 유력 후보 득표비율 p가 약 0.9 수준이라고 설명했습니다. 인천의 p = 0.6779보다 훨씬 높습니다. 또 광주전남의 투표 규모 n은 인천보다 작은 곳이 많았습니다.

예를 들어 첫 번째 쌍에서는 다음 숫자가 나왔습니다.

유력 후보 상대 후보 합계 n p
1,401표 120표 1,521표 약 0.921

근사식에 넣어보면 다음과 같습니다.

np(1-p) = 1,521 × 0.921 × 0.079 ≈ 110.7
4πnp(1-p) ≈ 4 × 3.1416 × 110.7 ≈ 1,391
√1,391 ≈ 37.3
1 ÷ 37.3 ≈ 0.0268

즉, 일치 확률은 약 2.68%입니다. 인천의 0.903%보다 약 3배 정도 높습니다.

다섯 번째 쌍으로 언급된 숫자도 보겠습니다.

유력 후보 상대 후보 합계 n p
356표 42표 398표 약 0.894
np(1-p) = 398 × 0.894 × 0.106 ≈ 37.7
4πnp(1-p) ≈ 4 × 3.1416 × 37.7 ≈ 474
√474 ≈ 21.8
1 ÷ 21.8 ≈ 0.0459

즉, 일치 확률은 약 4.59%입니다. 이 값은 인천의 0.903%보다 훨씬 큽니다.

공식에서 핵심은 다음 부분입니다.

P(X = Y) ≈ 1 ÷ √{4πnp(1-p)}

n이 작아지면 분모가 작아집니다. 분모가 작아지면 전체 값은 커집니다. 즉, 투표 규모가 작을수록 같은 숫자가 나올 확률이 커집니다.

또 p가 0.9처럼 1에 가까워지면 1-p는 0.1처럼 작아집니다. 그러면 p(1-p) 값이 작아지고, 역시 분모가 작아집니다. 결과적으로 같은 숫자가 나올 확률은 커집니다.

질문 구분

이 문제에서는 질문을 구분해야 합니다. 사람들이 자주 헷갈리는 부분입니다.

질문 의미 해석
질문 1 송도1동이 이미 3,030표일 때 송도2동도 3,030표가 나올 확률 한 동을 고정하고 다른 한 동을 비교
질문 2 두 동을 동시에 봤을 때 두 동의 득표수가 서로 같을 확률 허명회 교수의 P(X = Y) 계산
질문 3 두 동이 모두 정확히 3,030표와 1,440표로 나올 확률 사후에 특정 숫자를 고정해 묻는 방식

통계에서는 결과를 본 뒤 특정 숫자를 고정해 확률을 묻는 방식에 주의합니다. 이를 쉽게 말하면 ‘결과를 보고 나서 과녁을 그리는 문제’라고 할 수 있습니다.

우리가 봐야 할 질문은 ‘전체 행정동 조합 중에서 같은 숫자의 쌍이 나올 수 있느냐’입니다. 이 관점에서 보면 같은 숫자 한두 쌍은 충분히 나올 수 있습니다.

검증의 한계

허명회 교수의 설명은 ‘같은 숫자가 나왔다는 사실만으로는 부정선거의 증거가 부족하다’는 뜻입니다. 하지만 ‘검증이 필요 없다’는 뜻은 아닙니다.

시민들이 숫자를 보고 의문을 갖는 것은 자연스러운 일입니다. 선거는 신뢰가 중요하기 때문입니다. 다만 의문이 실제 증거가 되려면 더 강한 자료가 필요합니다.

  • 같은 패턴이 비정상적으로 많이 반복되는지
  • 특정 후보에게 유리한 방향으로만 반복되는지
  • 전체 득표율 분포가 자연스럽지 않은지
  • 과거 선거와 비교해 비정상적 변화가 있는지
  • 개표록, 투표지, 집계표 사이에 불일치가 있는지
  • 참관인 확인 내용과 공식 집계가 다른지
  • 재검표에서 숫자가 달라지는지

단순히 두 지역의 숫자가 같다는 이유만으로는 부족합니다. 숫자 일치는 검토의 출발점은 될 수 있지만, 곧바로 부정선거의 증거가 되지는 않습니다.

통계적 평가

허명회 교수 글의 큰 방향은 수학적으로 맞습니다. 인천 사례의 0.00903 계산은 이항분포 모델에서 자연스럽게 나오는 값입니다. 비교 가능한 행정동 쌍이 많으면 드문 일이 실제로 나타날 수 있다는 설명도 통계적으로 맞습니다.

광주전남 사례에 대한 설명도 방향은 맞습니다. 읍면동 수가 많고, 유력 후보 득표율이 높고, 투표 규모가 작으면 숫자 일치가 더 자주 나올 수 있습니다.

다만 이 설명은 현실을 단순화한 모델입니다. 실제 선거는 동전 던지기처럼 완전히 독립적이지 않습니다. 지역마다 유권자 구성, 사전투표율, 정치 성향, 관내·관외 투표 비율이 다릅니다.

따라서 가장 정확한 평가는 이렇습니다. 허명회 교수의 설명은 ‘득표수 일치가 통계적으로 충분히 가능하다’는 점을 보여주는 설명으로는 타당합니다. 

하지만 전체 선거를 완전히 검증한 최종 결론이라고 단정하는 것은 아닙니다.

자주묻는 질문

Q. 두 동의 득표수가 완전히 같으면 부정선거 증거인가요?

그 사실 하나만으로는 부정선거 증거라고 보기 어렵습니다. 비교 대상이 많으면 우연히 같은 숫자가 나올 수 있습니다.

Q. 0.9% 확률이면 매우 이상한 것 아닌가요?

한 번만 비교했다면 낮은 확률입니다. 하지만 수천 개 조합을 비교하면 0.9%짜리 일도 실제로 나타날 수 있습니다.

Q. 인천 사례에서 핵심 공식은 무엇인가요?

핵심은 P(X = Y)입니다. 두 지역의 후보 득표수가 같을 확률을 구하는 공식입니다. 이항분포를 이용하면 P(X = Y) = Σ [C(n, i)pi(1-p)n-i]2 로 계산할 수 있습니다.

Q. 광주전남에서 다섯 쌍이 나온 것은 더 이상한 일 아닌가요?

반드시 그렇지는 않습니다. 광주전남은 비교할 읍면동 수가 많고, 유력 후보 득표율이 높으며, 작은 규모의 읍면동도 많아 숫자 일치 가능성이 더 커질 수 있습니다.

Q. 허명회 교수의 설명은 완전히 맞나요?

큰 방향은 맞습니다. 다만 실제 선거는 단순 동전 던지기보다 복잡하므로, 이 설명은 시민 이해를 돕는 단순 모델로 보는 것이 적절합니다.

Q. 그렇다면 검증은 필요 없나요?

아닙니다. 시민들이 의문을 제기할 수 있습니다. 다만 검증은 전체 읍면동 자료, 개표록, 집계표, 재검표 결과 등 객관 자료를 바탕으로 해야 합니다.

출처 및 확인사항: 본문은 허명회 고려대 통계학과 교수가 6월 9일과 10일 페이스북에 올린 선거 득표수 일치 관련 통계 설명을 바탕으로, 이항분포 공식과 근사식을 이용해 이해하기 쉽게 재구성한 글입니다. 실제 선거 검증을 위해서는 전체 읍면동별 관내 사전투표 원자료, 개표록, 집계표, 재검표 결과 등 추가 자료 확인이 필요합니다.