https://www.science.org/doi/10.1126/science.aal4230 <- 논문 원본 링크
대학교 새내기 시절이던 2020년만 해도, C언어 수업에서 구글에 함수를 하나하나 찾아가며 과제를 했던 기억이 있다.
하지만 세상은 빠르게 변했고, 군대를 다녀오니 모두가 GPT로 과제를 하고 있었다. 2025년 현재는 간단한 앱 정도는 몇마디 지침만으로 뚝딱 만들어내는 것이 요즘의 언어모델이다.
그런데 AI가 점점 똑똑해진다는 것은 인간의 언어를 배우고 있다는 것이고, 이는 인간의 문화와 편견도 함께 학습한다는 것을 뜻하지 않나?
즉, "과연 AI의 언어 학습은 중립적일까?" <- 이 의문을 과학적으로 해소해주는 첫 논문이 바로 이것이다.
많은 논문을 읽어본 것은 아니지만, 지금까지 읽었던 것들은 방법론이 결과 앞에 나왔었는데,
이 논문은 결과를 먼저 설명하고 방법론이 나중에 나온다.
해당 글에서는 이해를 쉽게 하기 위해 방법론을 먼저 설명하겠다!
1. 연구 개요
논문명 : Semantics derived automatically from language corpora contain human-like biases
(언어 말뭉치에서 자동적으로 추출된 의미는 인간의 편향을 포함한다)
저자 : A. Caliskan, J.J.Bryson, A.Anrayanan
학회/연도 : Science, 2017
핵심 키워드 : cosine similarity, word embedding, IAT, WEAT, WEFAT, implicit bias
2. Abstract
논문의 맨 앞장에 나오는 초록 부분에서는 IAT라는 개념이 등장한다.
조금 갑작스러울 수 있지만 전반적인 이해를 위해 해당 개념에 대해 먼저 자세히 짚어보고 넘어가도록 하자.
심리학에서 주로 사용되는 IAT(Implicit Associaton Test, 암묵적 연관 검사)는 심리학자 Anthony Greenwald가 1998년에 개발한 사람의 무의식적 편향(implicit bias)을 측정하는 대표적인 심리 실험이다.
즉, 말로는 "난 인종차별을 절대 하지 않아"라고 말해도, 무의식 속에서는 특정 인종에 대한 자동적인 연관(흑인은 힙합을 잘해)이 존재할 수 있다. 이 실험은 그 "무의식 속 연관의 강도"를 수치로 측정하는 도구이다.
추후 논문에서 결과의 이해를 돕기 위해 간단한 IAT 실험 설계를 해보도록 하자!
- 실험 목표 : 사람의 무의식 속에 "남성 = 과학 / 여성 = 예술" 이라는 편향이 존재하는지 측정한다.
- 실험 구조 : 실험 참가자들은 컴퓨터 화면에 표시되는 키워드를 왼손 / 오른손 키로 분류한다.
- 실험 단계
1) 남성 / 여성 단어 구분 : 남성 관련 단어(석범, 동남, 수호, 승배, ...) vs 여성 관련 단어(하은, 민지, 민아, 민희, ...)
2) 과학 / 예술 단어 구분 : 과학 관련 단어(물리, 화학, 생물, 칼륨, ..._ vs 예술 관련 단어(음악, 춤, 공연, 미술, ...)
3) 편향 가설 조합 구분 : 남성 + 과학 단어 : 오른손 vs 여성 + 예술 단어 : 왼손
4) 편향 가설 역조합 구분 : 남성 + 예술 단어 : 오른손 vs 여성 + 과학 단어 : 왼손
1, 2단계를 거쳐 단어 구분 연습을 한 후, 3단계에서는 남성, 과학 단어를 오른손으로 누르며 여성, 예술 단어를 왼손으로 누른다.
4단계에서는 편향 조합과 반대로 남성과 예술 단어는 오른손으로, 여성과 과학 단어는 왼손으로 누른다.
- 실험 결과
3단계에서보다 4단계에서의 평균 반응속도가 느려진다. (Why? 무의식적으로 익숙하지 않은 조합이기 때문에)
간단한 실험 예시를 통해 IAT에 대해 이해를 해보았다.
이 실험은 인간의 편향 스펙트럼을 측정할 수 있는데, 오늘 리뷰할 논문은 이 편향을 기계적으로 완벽하게 재현한다.
(웹에서 수집된 표준 텍스트 말뭉치로 학습된 순수 통계적 머신러닝 모델을 사용하여)
연구의 결과는 말뭉치가 역사적 편견을 포함하고 있다는 것을 보여주는데, 이 역사적 편견이란
1. 도덕적으로 중립인 경우 (곤충은 유쾌하지 않고 꽃은 유쾌하다)
2. 문제적인 편향인 경우 (인종이나 성별 관련 편견)
3. 단순히 현실의 통계적 분포인 경우 (직업이나 이름의 성별 비율)
모두를 포함한다.
3. Introduction
초록에서도 잠깐 언급되었지만, 이 연구는 일반적인 머신러닝 모델조차 일상적인 인간 문화를 반영한 텍스트 데이터로부터 고정관념 편향 (stereotyped bias)을 학습할 수 있다는 것을 보여준다. 말뭉치가 의미를 포착한다는 것은 말뭉치 언어학이라는 분야에서 오래전부터 존재했지만, 해당 연구는 세 가지의 새로운 기여를 한다고 한다.
1) 단어 임베딩이라는 강력한 도구를 사용하여, 텍스트 말뭉치의 연관관계를 추출한다. 이를 통해 단순한 통계에서 찾는 의미를 증폭한다,
-> 앞서 몇 번 언급되었던 일반적인 머신러닝 모델, 순수 통게적 머신러닝 모델이 GloVe를 뜻한다.
2) 문서화되어있는 인간의 편향을 기계적으로 재현함으로써, 편견적인 태도와 행동을 연구할 수 있는 새로운 도구와 통찰을 제공한다.
-> 즉, 심리학자가 피실험자들을 대상으로 IAT를 하지 않아도 언어 모델을 통해 인간 편향을 분석할 수 있다.
3) 본 연구는 널리 쓰이는 머신러닝 구성요소인 GloVe 단어 임베딩을 사용해 실험을 수행했다.
-> 이는 문화적 고정관념이 널리 사용중인 AI에 전파되고 있다는 것을 보여준다.
4. Methods
이 논문을 흥미로웠다고 느낀 것이, 정말 간단한 개념들만 사용하여 민감한 주제를 시원하게 긁어줬기 때문이라고 생각한다.
방법론 파트에서 등장하는 개념은 WEAT와 WEFAT이다. 처음 들어본다? 당연하다. 여기서 만든 개념이기 때문이다.
그리고 이 방법론을 이해하기 위해 필요한 사전지식은 코사인 유사도와 단어 임베딩 정도이다.
2025.10.09 - [DL/NLP] - 05. 벡터의 유사도(Vector Similarity)
05. 벡터의 유사도(Vector Similarity)
내용 정리 출처: 『딥러닝을 이용한 자연어처리』, 위키독스 (https://wikidocs.net/book/2155) 최근에 "Semantics derived automatically from language corpora contain human-like biases"라는 흥미로운 논문을 읽었다. 워드 임
it-study-2002.tistory.com
NLP를 차근차근 공부하며 정리할 예정인데, 코사인 유사도는 위 글에서 확인하고, word embedding만 간단하게 살펴보자.
1) 워드 임베딩이란?
단어들을 벡터 공간 속의 점으로 표현하는 방법이다.
이때, 비슷한 의미의 단어는 벡터 공간에서 서로 가깝게 위치하도록 학습된다. 이렇게 단어를 숫자 벡터로 표현하면 어떤 이점이 있냐?
king - man + woman = queen <- 이 연산을 우리가 머리에서 이해하는 것처럼 컴퓨터도 이해할 수 있게 된다.
그렇다면 해당 논문에서 사용한 워드 임베딩의 일종인 GloVe는 무엇인가?
2) GloVe : Gloval Vectors for Word Representation (Pennington et al., 2014)
GloVe는 Stanford NLP Group에서 개발한 모델로, 전 세계 말뭉치의 단어 동시 등장 확률(co-occurrence probability)을 이용하여, 단어 간의 의미 관계를 수학적으로 포착한다. 사람의 라벨링 없이 텍스트 통계만으로 학습한 비지도 학습을 통해 만들어졌으며, 전역 통계 정보와 지역 문맥 정보를 동시에 반영하는 것이 특징이다.
논문을 작성하던 2017년 당시에는 GloVe가 워드 임베딩 계의 SoTA였지만, 현재는 ELMo, CoVe, BERT, GPT 시리즈, LLM 등등이 나오며 워드 임베딩은 진화하고 있다. (언제 다 공부하지????)
어쨌든, 8400억 토큰과 220만 가지 종류의 토큰을 포함한 "Common Crawl" 말뭉치를 사용하여 각 단어를 300차원 벡터로 나타내어 해당 연구에 사용했다고 한다.
3) WEAT(Word Embedding Association Test)
워드 임베딩 연관 검정, WEAT는 IAT로부터 용어를 빌려온다.
위에서 IAT에 대한 이해를 했기 때문에, 어떻게 IAT를 AI 모델로 옮겼는지 확인해보도록 하자.
Caliskan et al.은 IAT의 실험 원리를 단어 벡터 공간에 적용하였다. 즉, 인간의 반응 시간 -> 단어 벡터 간 거리(유사도)로 치환했다.
단어들이 서로 "의미적으로 얼마나 가까운가"를 수학적으로 계산한다면, 인간 언어에 포함되어있는 편향 패턴이 드러난다는 것이다.
(실제로 워드 임베딩을 통해 코사인 유사도를 측정하면 john이라는 단어는 간호사보다 축구선수와 더 거리가 가까울 것이다.)
그러면 WEAT의 통계적 절차를 살펴보도록 하자.
1. 단어 집합 정의
- 두 개의 target words : {male names - messi, ronaldo, aguero, ...}, {women names - emily, anis, jaimy, ...}
- 두 개의 attribution words : {career words - salary, company, hire, ...}, {family words - dinner, family, house, ...}
2. null hypothesis(귀무가설) 설정
두 target words 집합에서 두 attribution words 집합에 대한 상대적 유사도의 차이가 없다.
3. 검정통계량 설정
$$ s(X, Y, A, B) = \sum_{x\in X}^{}s(x, A, B) - \sum_{y\in Y}^{}s(y, A, B) $$
where
$$ s(w A, B) = mean_{a \in A}cos(\vec{w}, \vec{a}) - mean_{b \in B}cos(\vec{w},\vec{b}) $$
X, Y : target words 집합
A, B : attribution words 집합
2번 귀무가설에서 얘기한 "두 target words 집합에서 두 attribution words 집합에 대한 상대적 유사도의 차이"를 수식으로 표현하면
위의 식이 된다. 그리고 아래 식은 target words 집합 내의 한 단어가 각 속성 집합에 속한 단어들과의 거리 평균 차이가 된다.
(구체적인 예시를 들면, X 집합의 messi라는 이름의 {salary, company, hire,...}과의 거리 평균 - {dinner, family, house,...}와의 거리 평균 이 되는 것이다.
4. 가설검정
permutation test(순열검정)로 p-value를 계산한다.
속성 단어들을 무작위로 섞을때(A와 B를 섞음) 실제 관찰된(혹은 그 이상의) 평균 차이가 나타날 확률을 계산하여 유의성 검증하는 것인데,
과연 "이 편향이 우연이 아니라 실제 데이터 구조에서 비롯되었는지"를 검증하는 절차이다.
이때, 단측 순열검정의 p-value는 아래와 같다.
$$ Pr_{i} [s(X_{i}, Y_{i}, A, B > s(X, Y, A, B)] $$
5. 효과 크기 계산(Effect size, d)
IAT에서는 효과 크기를 Cohen's d 라고 지칭하며, 로그변환한 반응시간 평균의 차이를 표준편차로 나눈 값이다.
이때, d가 클수록 편향이 강하다는 의미이며 일반적으로 0.2 = small, 0.5 = medium, 0.8 : large로 해석한다.
이를 수학적으로 구현하기 위해 동일한 방식으로 d를 계산하였다. (로그변환 반응시간 -> 단어간 유사도 차이로 바꾼 차이만 있다.)
$$ \frac{mean_{x \in X}s(x, A, B) - mean_{y \in Y}s(y, A, B)}{std-dev_{w \in X \cup Y}s(w, A, B)} $$
수식도 별로 없고, 단순한 개념이지만 확실하게 IAT를 수학적으로 복제했다고 말할 수 있다.
4) WEFAT(Word Embedding Factual Association Test)
WEAT와 WEFAT. 이름부터 "Factual" 이라는 단어 하나만 추가된 것에서 알 수 있듯이, WEAT의 확장버전이라고 생각하면 된다.
WEAT가 집단 간 상대적 편향을 비교했다면, WEFAT은 워드 임베딩이 현실의 경험적인 정보를 얼마나 포착하는지 확인하는 검정이다.
즉, 하나의 단어가 현실 데이터(통계)와 얼마나 일치하는가를 보는데, $ p_{w} $만 추가로 알면 된다.
이는 현실 세계에 대응되는 속성값으로, 이를테면 직업 내 여성 종사자의 비율 같은 것이 $ p_{w} $가 될 수 있다.
$$ s(w, A, B) = \frac{mean_{a \in A}cos(\vec{w}, \vec{a}) - mean_{b \in B}cos(\vec{w}, \vec{b})}{std-dev_{x \in A \cup B}cos(\vec{w}, \vec{x})} $$
WEFAT은 정규화된 연관 점수를 사용한다.
귀무가설은 이 연관 점수와 $ p_{w} $사이에 상관관계가 없다는 것이다.
선형회귀로 상관계수를 구해 귀무가설을 기각하고 연관 점수가 속성값과 관계가 있다는 것일 보일 수 있다.
5. Results
결과는 크게 세가지 부분으로 나눌 수 있다.
1. 기초 편향 재현
2. 사회적 편향 재현 (논문에서는 stereotyped bias 라고 지칭)
3. 현실 데이터와의 상관 분석
이중 1, 2는 table 1에서 확인할 수 있고, 3은 figure 1, 2에서 확인할 수 있다.
결과는 사실 IAT의 결과를 재현했다는 것이 주요 내용이므로 쭉 훑어보도록 하자.

첫번째, 두번째 줄은 꽃과 곤충, 악기와 무기의 유쾌 vs 불쾌 편향을 측정한 값이다.
$N$은 참가자 수, $d$는 효과 크기, $N_{T}$ 와 $N_{A}$는 단어 집합의 단어 수이다.
나머지는 stereotyped bias를 재현한 결과이다. 그중 네번째, 다섯 번째 줄은 IAT가 아닌 유명한 실험에서 영감을 얻은 실험인데, 이름만 달리 적은 같은 이력서를 채용공고에 제출한 결과, Eur-American 이름이 더 많은 기회를 얻었다고 한다. 그리고 WEAT 역시 이 결과를 재현해냈다.
기초 편향과 사회적 편향(stereotyped bias)을 WEAT를 통해 재현했고, 효과 크기는 모두 1 이상으로 강했으며, 모두 유의한 결과를 얻어냈다.

앞서 방법론 파트에서 공부했던 WEFAT 실험 결과이다.
각 그림에서 $x$축은 $p_{w}$에 해당하며, $y$축은 연관 점수에 해당한다.
그리고 각 점은 단어 집합에 속한 단어 하나가 된다.
첫 번째 그림은 여성 종사자 비율($p_{w}$)과 직업이름-여성단어 연관 점수의 상관관계이다.
실제로 여성 종사자의 비율이 높고 연관 점수도 높은 빨간 점들에 해당하는 직업 단어는 간호사, 보건교사 등이 있고,
여성 종사자의 비율이 낮고 연관 점수도 낮은 파란 점들은 미식축구선수, 엔지니어 등이 있다.
두번째 그림은 사람이름-여성단어 연관 점수와 실제 이름에서 여성 비율의 상관관계로, 이 역시 높은 상관관계를 보인다.
워드 임베딩은 고장 단어 나부랭이로, 현실 세계를 눈으로 본 적이 없다. (당연하지. 단어한테는 눈이 없으니까?)
하지만 WEAT와 WEFAT을 통해 이들은 현실 세계의 정보(편향 등)를 수치화하여 표현할 수 있게 된다! 아주 흥미롭지 않은가??
6. Discussion
드디어 마지막 파트다.
개인적으로 discussion 파트를 크게 다섯 부분으로 나누어 정리해보았다.
최초로 인간 편향을 수치화해서 보여준 논문이다 보니 앞으로의 방향성에 초점을 맞추어 작성되었다고 느꼈다.
나 역시 이를 주춧돌로 하여 다른 논문들을 읽어봐야 할 것이다.
1) 기대효과
1. 심리학적인 관점에서, 전혀 다른 환경(word embedding)에서 IAT의 결과를 재현했다. -> IAT의 신뢰성을 강화함
2. 이전에는 알 수 없던 "암묵적 연관성"을 효율적으로 탐구할 수 있는 방법이 된다.
3. 서로 다른 인구집단(예를 들면 한국인 vs 미국인)이 작성한 대구모 말뭉치가 있다면, 인구집단 간 편향 차이를 빠르게 파악할 수 있다.
4. 역사적 인구 집단을 연구할 수 있다.(이미 죽은 사람을 대상으로 IAT는 못하지만, 그들이 남긴 말뭉치는 존재한다..!)
2) Sapir-Whorf 가설 논쟁에 기여
단어 임베딩이 고정관념적인 편향 뿐만 아니라, 지식(꽃의 본능적 즐거움, 직업의 성별 분포)도 포함한다는 것을 보여준다.
-> 이는 언어학의 "distributional hypothesis"를 지지 : 단어의 통계적 부분이 우리가 "의미"라고 부르는 것의 많은 부분을 담당한다.
또한, 사피를-워프 가설(언어 상대성 이론 : 사용하는 언어가 개인의 사고방식, 세상을 인지하는 방식을 결정한다는 이론) 논쟁에 기여한다.
-> 이는 기대효과의 3) 에 대한 연장선으로 해석했는데, 집단간 사용하는 언어의 차이가 있기 때문에 이를 분석함으로써 해당 가설을 뒷받침하는 근거가 될 수 있을 것이다.
3) 확장성
해당 논문의 실험은 숫자, 다양성, 확실한 유의성에 있어 다양한 가능성을 제기한다.
-> 모든 인간의 암묵적 편향이 언어의 통계적 속성에 반영되어있을 가능성을!
4) 귀무가설 제시
언어를 통해 집단 내 / 집단 간 정체성 정보가 암묵적으로 전파된다.
-> 즉, 사람들이 왜 편견을 가지고 있을까? 에 대한 연구, 설명, 정책수립을 하기 전에 이것이 단순히 언어 속 통계적인 규칙성이 무의식적으로 전파된 결과가 아님을 먼저 입증해야 한다.
5) AI / ML에 시사하는 바, 주의점
이 연구는 단순히 "AI가 편향되어 있다"는 사실을 보여주는 데서 멈추지 않는다.
AI가 인간의 언어를 학습하는 과정에서 그 언어에 포함된 문화적인 편향(cultural stereotypes)을 함께 학습한다는 점을 경고한다.
만약 이런 모델들이 의사결정 시스템에 통합된다면?
이 논문이 작성된 시점은 2017년이었다. 2025년 현재 많은 의사결정 시스템에 인공지능이 사용되는데, 이는 분명 고려해야할 부분일 것이다. 단순한 기술적, 수학적 계산으로 사회적인 정의와 윤리의 문제를 지적할 수 있다는 점이 굉장히 매력적이지 않은가? <- 이건 내 개인의견
Caliskan은 두 가지 대응 방안을 제시한다.
1. Fairness in machine learning : 비차별(non-discrimination) 역시 수학적으로 정의하고 알고리즘 수준에서 강제한다.
-> 즉, AI가 특정 변수(성별, 인종 등)에 영향을 받지 않도록 수학적 제약을 두는 방법
2. Modular AI Architecture : AI의 통계적 학습(statistical regularity)과 규범적 지식(explicit rule of conduct)을 분리하여 학습
-> AI가 데이터로부터 암묵적으로 배운 내용과 사회적으로 허용되는 행동 규칙을 분리하고, 두 영역이 서로 견제하도록 설계하는 방법
앞으로 관련 논문을 더 읽어보며 과연 Caliskan이 제시한 두 가지 대응 방안이 사용되었는지 확인하는 것도 재밌을 것이다.