2012/01/07 22:02

확률분포 이야기 (01) 빌어먹을 애플! 수학/통계학

당신은 새로 나온 애플 아이폰4s를 구입했다. 즐거운 마음으로 집에 와서 포장을 풀어보니, 이런 젠장 하자가 있는 물건이다. 무척 화가 나지만 스티브 잡스의 마지막 숨결이 스며든 아이폰4s를 가지고 싶은 마음이 간절한 당신은 자신의 뽑기운을 탓하며 분노를 꾹 참고 다른 제품으로 교환을 한다. 시리(Siri)의 감미로운 목소리를 상상하며 두근거리는 마음으로 상자를 개봉한 당신은 교환한 제품에서도 똑같은 하자를 발견한다. 아니 이런 빌어먹을 애플! 도대체 아이폰을 어떻게 만드는 거냐?

당신은 뽑기운이 얼마나 나쁜 것일까? 또는 애플은 아이폰을 얼마나 엉망으로 만들고 있는 것일까? 이 질문은 아이폰4s의 불량률을 알면 간단히 답변할 수 있다. 다들 알겠지만, 불량률이란 생산된 제품 중에서 불량인 제품의 비율을 말한다. 당신은 2대의 아이폰을 샀고, 2대 모두 불량이었다. 2/2 = 1 = 100%, 따라서 아이폰 4s의 불량률은 100%다. 애플 개객퀴!

하지만 똑똑한 당신은 단 2대만으로 불량률을 말하기에는 지나치다는 것을 안다. 그렇다면 아이폰4s의 불량률을 어떻게 정확히 알 수 있을까? 여기에 간단한 방법이 있다. 실리콘으로 만든 가면을 쓰고 중국의 애플 하청업체에 침투해서 기밀 자료를.. 아니 이건 좀 아닌 것 같다. 그렇다면 집을 팔아 아이폰을 1,000대쯤 사서.. 아니 이것도 좀 아닌 것 같다.

이러한 여러분의 고민을 해결할 좀 더 간단하고 현명한 방법이 하나 있다. 일단 우리가 가진 데이터(아이폰 두 대 모두 불량)를 바탕으로 잠정적인 결론을 내리되, 새로운 데이터가 추가될 때마다 결론을 조금씩 수정하는 것이다. 이러한 접근법을 베이지언 통계학이라고 한다. 좀 더 자세히 알아보자.


조금 어려운 방법

일단 여기서부터 설명하는 방법은 조금 어려운 방법이다. 읽기 싫은 독자를 위해 글상자로 구분해두었으니 귀찮으면 그냥 뛰어넘길 바란다. 왜 굳이 어려운 방법을 먼저 설명하냐하면, 그래야 간단한 방법이 얼마나 간단한지 알 수 있기 때문이다. 얼마나 간단하냐하면 아래 다섯 문단을 읽고 간단한 방법을 읽는 사람들은 아주 허무한 기분을 느낄 정도다.

아이폰의 불량률은 10%일 수도 있고 20%일 수도 있다. 아니면 정말로 100%일 수도 있다. 우리는 여기에 대해 아는 바가 전혀 없다. 확실한 것이 있다면 적어도 0%는 아니라는 사실이다. 이미 불량품 2개가 있기 때문이다. 어쨌거나 우리가 불량률을 안다고 치면, 그 경우에 불량품을 연속으로 두 개 뽑을 확률도 알 수 있다. 이것은 별로 어렵지 않은데 그냥 불량률을 곱하면 된다. 불량률이 10%인 경우엔 10% * 10% = 0.1 * 0.1 = 0.01 = 1%, 20%인 경우엔 20% * 20% = 0.2 * 0.2 = 0.04 = 4% 등등.

불량률이 10%일 때, 제품 2개가 불량일 확률을 구하는 것은 간단하다. 그럼 반대로 제품 2개가 불량일 때 불량률이 10%일 확률을 구하는 것은 어떨까? 간단한 예 하나를 가지고 생각해보자. 아이폰을 만드는 공장이 중국과 대만에 둘 있는데, 중국 공장은 불량률이 10%이고, 대만 공장은 20%다. 불량 아이폰의 1/3은 중국 공장에서 만들고 2/3은 대만 공장에서 만든다. 당신이 아이폰을 하나 샀는데 그게 불량이라면, 이 아이폰은 대만 공장에서 나왔을 확률이 중국 공장에서 나왔을 확률보다 2배는 더 크다.

우리는 방금 각 공장의 불량률을 모두 더한 값(30%)으로 공장별 불량율(10%와 20%)을 나눠서 1/3과 2/3이라는 확률을 얻어냈다. 이 방법을 좀 더 확장하면 제품 2개가 불량일 때 불량률이 10%일 확률도 알 수 있다. 모든 가능한 불량률에서 각각 제품 2개가 불량일 확률을 구하고, 이것을 다 더한 값으로 그 확률들을 나눠주면 된다. 슬슬 머리가 복잡해지는 독자는 마우스 휠을 굴려서 간단한 방법을 설명하는 대목으로 넘어가자.

아직까지 버티고 있는 독자들은 미적분을 좀 알아야 한다. 모른다고? 몰라도 상관없다. 휠을 굴리면 된다. 불량률이 x일 때, 제품 2개가 불량일 확률은 x^2이다. 불량률은 0%에서 100%, 다시 말해 0에서 1까지 값을 가지므로 모든 불량률에서 제품 2개가 불량일 확률의 합은 0에서 1까지 x^2을 적분하면 된다. 그리고 그 값은 1/3이다. 제품 2개가 불량일 때 불량률이 10%일 확률은, 불량율이 10%일 때 제품 2개가 불량일 확률을 1/3으로 나눠준(다시 말해 3으로 곱해준 값)과 같다. 즉 1%*3 = 3%가 된다. (정확히 말하면 여기서는 확률이 아니라 확률밀도지만 앞에서도 말했다시피 이 설명은 대부분 야매이므로 그런 것은 따지지 말자)

내친 김에 불량률의 기댓값도 구해보자. 제품 2개가 불량일 때 불량률이 x일 확률은 3*x^2이므로 3*x^3을 0에서 1까지 적분하면 불량률의 기대값이 된다. 불량률의 기댓값은 3/4=0.75, 즉 75%가 된다. 이제 우리는 여러 가지 귀찮은 수학 계산을 거치긴 했지만, 단 2개의 불량 아이폰 만으로 아이폰의 불량률의 기댓값을 구했다. 그리고 논리적으로도 꽤 괜찮은 것 같다.


아주 간단한 방법

자, 이제 간단한 방법을 알아보자. 일단 불량품과 정상제품이 1:1이라고 가정을 하고 시작하자. 우리는 2개의 불량품을 관찰했다. 그러면 이제 불량품과 정상제품의 비는 3:1이다. 불량품의 비율은 3/4=0.75=75%. 이 비율은 불량률의 기댓값과 정확히 똑같다. 아이폰을 1대 더 샀는데 그건 정상이었다면 불량품의 비율은 이제 3:2이 된다. 그러면, 불량률의 기댓값은 60%로 고칠 수 있다. 믿지 못하겠다면 위의 방법대로 계산을 다시 해보라.

이 방법은 몇 가지 장점이 있다. 무엇보다도 아주 간단하다. 정상제품의 개수와 불량품의 개수만 세면 된다. 게다가 적은 수의 표본만 가지고도 합리적인 기댓값을 산출할 수 있다. 또, 새로운 사례가 발견되면 이 기댓값을 역시 간단한 방법으로 수정할 수 있다. 마지막으로 사례가 많아지면 이 기댓값은 점점 불량률에 가까워진다. 아이폰의 실제 불량률이 25%라면, 우리가 10,000대의 아이폰을 관찰하면 2,500대는 불량이고 7,500대는 정상일 것이다. 이 방법대로 하면 불량 대 정상의 비율은 2,501:7,501이고 25%에 아주 가깝다.

이 신기한 방법은 베타 분포(beta distribution)라는 확률 분포를 이용한 것이다. 불량 대 정상처럼 두 가지 사건이 가능한 경우를 나타내는 확률 분포를 베르누이 분포(Bernoulli distribution)이라고 한다. 뭐 이름은 복잡하지만 베르누이 분포는 우리 모두 잘 알고 있는데 불량율이 30%이면 불량품을 뽑을 확률이 30%고 정상제품을 뽑을 확률이 70%이다. 그게 전부다. 다만 복잡해지는 것은 불량률을 모를 때인데, 베타분포는 이 불량률의 확률분포다. 즉, 확률의 확률인 것이다. 말은 복잡하지만 계산은 간단하다. 1:1로 시작해서 경우의 수를 더해나가면 된다.

이해를 돕기 위해 다른 예를 들어보자. 소개팅에 성공하느냐 실패하느냐는 베르누이 분포를 따른다고 가정해보자(실제로는 그렇지 않을 가능성이 더 크지만.. 자세한 설명은 생략한다). 성공률이 30%면 소개팅을 100번쯤하면 30번 정도 성공한다. 0%면, 안 생겨요. 그런데 우리는 소개팅 성공률을 알 수 없는데, 이것은 베타 분포로 추정할 수 있다. 소개팅을 3번해서 2번 성공하고 1번 실패했다면, 성공 대 실패는 1:1에서 3:2이 되고 성공율의 기댓값은 60%가 된다.

베타 분포는 확률의 기댓값을 알려주는 것 말고도 다른 장점들을 가지고 있다. 이것은 계산이 그렇게 간단하지 않은데, 컴퓨터가 대신 다 해주기 때문에 자세히 알 필요가 없다. 검색엔진 울프람 알파를 사용하면 베타 분포로 여러 가지 값들을 계산해볼 수 있다. 예를 들어 BetaDistribution[3,2] 라고 입력하면 성공과 실패가 3:2인 경우 베타 분포를 계산해서 여러 가지 정보를 알려준다. 자세한 내용은 링크를 클릭해서 보도록 하고 아래 그래프만 보자.

위의 그래프에서 가로축은 소개팅 성공률(또는 아이폰 불량률이나 뭐든 상관없다)을 나타내고, 세로축은 그 확률밀도를 나타낸다. 그래프를 보면 전반적으로 오른쪽으로 치우친 모습을 보이지만 그 확률은 넓게 퍼져 있다. 이 결과는 직관적으로 당연한데, 우리가 관찰한 사례는 3건 뿐이므로 소개팅 성공률이 얼마라고 단언하기는 어렵기 때문이다. 

이번엔 소개팅을 48번해서 그 중에 29번은 성공하고 19번은 실패했다고 해보자. 성공 대 실패는 30:20이므로 성공률의 기댓값은 3:2인 경우와 똑같이 60%다. 하지만 BetaDistribution[30,20]를 입력해서 그래프를 보면 그 폭이 훨씬 좁아진 것을 알 수 있다. 그리고 세로축의 확률밀도도 훨씬 높아져 있는데 3:2인 경우에는 제일 높을 때도 1.5~2 정도 범위에 있었다면 이제는 5~6 정도 범위에 있다. 다시 말해 똑같은 "소개팅 성공률 60%"라고 해도 사례 수가 많으면 그 추정치를 더 확신할 수 있다.

마지막으로 왜 1:1에서 시작하는지 생각해보자. 아니 이것도 생각할 필요 없이 그냥 울프람 알파에 물어보고 그래프를 보자. BetaDistribution[1,1] 라고 검색해보면 아주 썰렁한 그래프를 볼 수 있다.

모든 소개팅 성공률(다시 한 번, 아이폰 불량률이든 뭐든)의 확률밀도가 똑같다. 이것을 균등분포(uniform distribution)라고 한다. 다 '균등'하기 때문이다. 이것이 처음에 1:1로 시작하는 이유이기도 하다. 아무런 증거도 없다면 우리는 어느 성공률(이나 불량률)이 이 더 확률이 높다고 볼 이유가 없기 때문이다.

하지만 납득할만한 이유가 있다면(또는 당신이 '앱등이'거나 '삼엽충'이라면) 얼마든지 초깃값을 달리 할 수도 있다. 예를 들어, 이전 버전 아이폰을 토대로 이번 아이폰4s의 불량률 추정은 1:100으로 시작하겠다고 해도 말릴 사람은 없다. 이 경우엔 불량품을 2개 연속으로 받아도 3:100이고 불량률의 기댓값은 2.9% 정도가 된다. 또 여러분이 자신의 매력에 강한 확신이 있어서 소개팅 성공률을 50:10으로 시작했다면 10번 연속으로 차였다고 해도 50:20이고 여전히 여러분의 소개팅 성공률의 기댓값은 약 71.4%로 준수한 편이다.

우리가 설득력있는 이유를 포함시켜 초깃값을 잡으면 적은 데이터로도 좀 더 그럴듯한 추정치를 얻을 수 있고, 우리가 말도 안되는 편견을 바탕으로 초깃값을 잡으면 그것을 교정하는데 굉장히 많은 데이터가 필요하다. 잘 모를 때는 그냥 1:1에서 시작하는 게 속편하다. 어쨌거나 데이터가 많아지면 초깃값과 무관하게 진짜 값에 수렴하기 때문에 크게 걱정할 필요는 없다.

(다음에 계속)

공유하기 버튼

 

2012/01/01 00:00

방명록/질문게시판 (2011.9.8~) 잡담

방명록을 겸한 질문 게시판 용도의 글입니다.

아이추판다에게 하고 싶은 말이나 묻고 싶은 것이 있으면 공개/비공개 댓글로 달아주시기 바랍니다.

방명록/질문게시판 (2011. 2. 23~2011. 9. 7)
방명록/질문게시판 (2009.10.11~2011. 2. 22)
방명록/질문게시판 (2009.2.11~2009.10.11)
방명록/질문게시판 (2008.9.10~2009. 2.10)


공유하기 버튼

 

2011/12/26 13:47

2011년 내 이글루 결산 기타

2011 내 이글루 결산

1년동안 작성한 아이추판다님의 결산내역입니다. 이글루에 포스팅하여 공유해보세요.
본문이 500px 이하인 스킨은 지원하지 않아 포스트가 잘려보일 수 있습니다.
결산기간 : 2011년 12월 26일~ 2012년 1월 9일

포스트[50]

  2 2 7 1 6 11 3 2 7 1 5 3  
  1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월  

덧글[1383]

  32 50 202 56 295 210 112 12 148 34 146 86  
  1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월  

트랙백[12]

  1 0 3 3 1 3 0 0 1 0 0 0  
  1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월  

핑백[45]

  1 3 3 3 3 16 4 0 7 3 1 1  
  1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월  

내가 보낸 글 통계[210]

  49 120 0 10 31 0  
  테마 태그 가든 보낸트랙백 보낸핑백 블로거뉴스  

포스트 수 비교

 (2010년 포스트 : 45개)
2010 2010  2011 2011
  7 2 2 2 3 7 2 1 2 6 4 11 5 3 3 2 3 7 4 1 5 5 5 3  
  1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월  

명예의 전당

1년동안 작성한 글

200자 원고지 기준으로 356장 분량이며, 원고 두께는 약 2cm 입니다.
1년 동안의 글을 문고판 시리즈로 낸다면 2권까지 낼 수 있겠네요. 아이추판다님은 올 한해 이글루스에서 13,693번째로 게시물을 가장 많이 작성하셨네요.

자주 등록한 태그&대표글 TOP5

  1. 1위: 심리학(52회) | 역사를 기억하지 않는자들의 과거는 반복된다
  2. 2위: 어색한순간(14회) | "한국화된 이슬람"에 대한 상상
  3. 3위: 교육(14회) | "유능한 어머니의 조건"
  4. 4위: 라캉주의(12회) | 무엇이 먼저일까? 심리학과 정신분석학
  5. 5위: 정신분석학(10회) | 오래된 습관의 단순한 반복

자주 발행한 밸리&대표글 TOP5

  1. 1위: 과학(32회) | 공부는 돌아다니면서 & TOP 100
  2. 2위: 뉴스비평(9회) | 생산력 발전의 딜레마
  3. 3위: IT(4회) | 기계에 맞선 경주
  4. 4위: 개그(2회) | 아니 뭘 어쩌려고?
  5. 5위: 인문사회(1회) | 논증을 도와주는 비판적 질문들

내 이글루 인기글

  1. 가장 많이 읽힌 글은 혈액형과 ... 입니다.
  2. 가장 대화가 활발했던 글은 방명록/질문게시판 (2011.2.23~) 입니다.
  3. (덧글117개, 트랙백0개, 핑백1개)

내 이글루 활동 TOP5

  1. 1위: jane (34회)
  2. 2위: 긁적 (22회)
  3. 3위: 漁夫 (15회)
내 이글루결산

공유하기 버튼

 

2011/12/24 13:52

눈 위를 구르는 판다 잡담

나 말고 얘네



귀여움 만렙 찍은 듯..

공유하기 버튼

 

2011/12/16 10:19

공부는 돌아다니면서 & TOP 100

[사이언스온] 공부는 배운 자리에 머문다

지난 주에 올라온 사이언스온 연재. 트위터에서 한 분이 '전이(transfer)'와 '통섭(consilience)'의 차이를 질문하셨는데 간단하다. 전이는 한 개인이 특정 기술은 다른 문제에 적용하는 것이고 통섭은 여러 학문을 특정 학문(원래는 생물학)을 중심으로 통합하는 것이다. 야구 선수가 야구의 스윙을 응용해서 골프도 잘 친다면, 이 선수는 '야구 스윙' 기술을 '골프 스윙'에 전이 시킨 것이다. 물론 야구와 골프가 통섭된 것은 아니다.

암세포는 잘도 다른 장기로 전이 되지만, 기술을 다른 영역이나 맥락에 전이시키기는 무척 어렵다. 학교 교육에 대해 흔히 현실에서 아무 소용 없는 것을 가르친다고 비판을 한다. 이런 비판에 힘입어 요즘에는 구체적인 실제 사례를 교육 과정에 많이 포함시킨다. 겉보기에도 그럴싸하고, 외국에서도 이런 교육 방식이 인기를 끌기 때문에 '선진적'인 '실용적', '응용중심의' 교육 방식처럼 여겨지지만, 이번 글에서 소개한 실험들을 참고하자면 실제로는 오히려 별로 실용적이지 않을 수 있다. 구체적인 문제들을 풀어보는 연습도 중요하지만, 추상적인 지식을 배우는 것이 우선이다.


덧.

2011 이글루스 TOP 100에 선정되었군요. 추천해주신 분들께 감사드립니다. 2009년에는 개인별 추천 수도 추정해봤는데(링크) 그때 짜둔 프로그램이 어디있는지 모르겠네요. 비슷하겠죠.. 뭐.. (먼산)

어쨌든, 다시 한 번 추천해주신 분들과 방문해주시는 분들께 감사드립니다. 꾸벅.

공유하기 버튼

 

1 2 3 4 5 6 7 8 9 10 다음



메모장

야후 블로그 벳지