2009년 11월 30일 월요일

Lagrange multipliers

2-1. 이론적 배경

 

이 이론의 근간은 "calculus of variations"이라 불리고, 그 결과물은 오일러-라그란지 방정식으로 요약된다. 뭐 자세한 설명은 전혀 필요없다고 생각되므로, 곧바로 결과식을 살펴보기로 하자.

 

일단 목표는 함수 f(x,y)를 최소화하는 것이다. 물론 일반적으로 여러 변량의 함수 일 수 있다, f(x,y,....). 하지만 여기서는 편의상 두변수 함수로 제한 하겠다. 흔한 미적분을 적용한다면, 미분=0 으로 결정된다. 즉,

 

           (1)

 

여기서 fx, fy는 f를 x, y로 편미분한 함수이다.  만약 이 두 dx,dy가 선형 독립이면, fx=0, fy=0이라는 단순 결과를 얻는다. 만약 dx,dy가 서로 상관되면 어떠할까? (실제 상관이 안된다 하더라도 인위적으로 상관시킬 수도 있다.) 이경우 두 변수는 다음과 같이 상관되어진다고 가정하면 (이를 제한: constraint 라고 한다.)

 

                (2)

 

식 (1)과 (2)를 풀면 fx/gx=fy/gy이고 이 공통 비를 R이라고 하고 f-R*g를 최소로 하는 조건은 제한(constraint)이 없는 식을 풀어내는 것과 같은 결과를 만들어낸다. 즉 제한 g를 갖는 함수 f를 최소화 하는 것은 f-R g를 최소화 하는 것과 같은 결과를 얻게된다.

 

여기서 r을 라그란지 곱셈자라고 부르고 이를 이용하여 제한이 주어지는 경우 간단히 문제를 해결할 수 있을 것이다. 실제 수치적 방법으로 적용할때, R은 위와 같은 수식적방법으로 적용할 수 없다. 왜냐하면 제한 g는 이론과 실험을 연결 시켜주기때문에 수식으로는 풀어낼 수 없는 조건이되며, 이는 밸런싱의 경우도, 데이터와 모델을 연결해주는 애매모호한 조건에 해당 되기 때문이다. 하지만 수치적방법으로 이를 해결 할 수 있다. 즉 r에 임의의 초기값을 주고, 피팅을 반복하면서 r값을 조정하는 방식으로 최소의 f를 찾아낼 수 있는 알고리듬을 개발하였고, 이를 라그란지 곱셈자 방식이라고 부른다.

 

2-2. 알고리듬

 

1장에서 설명한 바와 같이 우리의 최종목표는 x_global를 최소화 시키는 것이다. 라그란지 곱셈자를 쓰기위하여 제한을 찾아보자. 가장 즉흥적으로 떠오르는 제한은 피팅을 통해 얻어진 결과량은 표본의 L값과 같아야 한다는 것이다. 즉 물리량 x0-L=0이라는 제한함수의 존재이다.이를 다음과 같은 식으로 표현할 수 있다.

 

       (3)

 

위의 라그란지 곱셈자 방식에 의거한 phi(R,a)는 우리가 최소화해야 할 함수이고 이는 곱셈자 R과 피팅을 통한 물리량 x0의 곱을 더한 형태이다. a는 피팅함수에 포함된 변량이고 피팅후 얻어지는 "수"이다. 많은 경우에 있어 보고자하는 물리량에 따라 제한함수는 여러개있을 수 있으며, 이는 2-1절에서 설명된 식의 확장일 뿐이다.

 

수치적 알고리듬은, 먼저 R_b (b는 여러 제한 함수를 나타냄)를 찾은후 phi(R_b,a's)를 최소화 함으로써 변량 a들을 결정하고 이를 토대로 물리량 x0와 x_global를 결정하는 식이다. 이를 중분히 반복시킴으로써 최적의 물리량을 데이터를 통해 찾아낼 수 있

다. 여기서 주지할 사항은 피팅, 즉 (불완전한)이론에 근거한 물리량을 실험으로 얻진 데이타를 통해 죄적값을 찾은 것이다. 역으로 데이터를 통해 불완전한 이론을 보강 혹은 궁극적으로 완전한 이론을 확립하고자 하는 방식이다.(이를 "현상론"이라고 한다.)

 

여기서 몇가지 인지해야 할 사항이 있다. 시작은 단순한 피팅물이지만 식 (3)에서 보았듯이 보고자하는 물리량을 피팅식에 포함 시켰다는 점이다. 물론 이 물리량은 테이터를 통해 얻어질 수 있는 것이어야 한다. 밸런싱 예에서 보시다시피, 우리의 데이터는 L값을 보여주고 있다. 만약 L값이 모텔링에 근거해 어떤 요소 x0와 관련이 있다면, 위와같은 방식으로 L을 통하여 x0를 분석할 수 있는 방식이 되겠다. 예를 들어서, L이 저그의 공격력의 함수로 표현이 가능하다면 주어진 데이터로부터 공격력을 분석할 수 있으며, 또한 밸런싱작업에도 쓰여질 수 있을 것이다. 물론 받드시 만족해야할 두 조건이 필요하다. 이를 위해 다음 그래프를 살펴보자

 

좌측 그림의 빨간점은 Monte Carlo방식으로 얻진 x_global 점들이고 파란곡선은 마치 지도의 등고선을 나타낸다. 검은 점들이 제한 함수를 만족하는 점들이다. 위 점들은 변량 a1,...ai,...aj... 으로 구성된 다차원 공간에서 표현된 것이다.

우측은 검은 점을 따로 뽑아 나타낸 것으로 수직선은 x_global을 수평선은 물리량 x0를 나타낸다.

 

거의 모든 경우에 있어, 라그란지 곱셈자 그래프는 우측과 같이 이차함수의 형태로 나타내고 이 이차함수의 변곡률에 따라 물리량의 신뢰성을 볼 수 있다. 만약 너무 완만하다면 아무리 잘 된 피팅이라 할지라도 물리량의 에러가 너무 크게 나오므로 신뢰할 수 없는 경우에 해당 된다.

 

그러므로 반드시 만족해야할 전제조건은,

1. 피팅의 유효성 (goodness of fit, x_global이 1이 되면 완벽한 피팅)

2. LM의 이차함수의 변곡률이 충분히 뾰족해야 한다.

 

물론 분석자가 정한 신뢰도내에서 위 두 조건이 만족되야 하겠다.

 

(Figure reference: arXiv:hep-ph/0101051 v3 5 Feb 2001)

 

지금까지 이론적 배경을 알아보았다. 다음 장에서는 궁극적인 적용인 간단한 모델링을 하고자 한다.

Mahalanobis distance

마할라노비스 거리는 군집분석에서 가장 많이 사용되는 거리개념으로서, 두 지점의 단순한 거리뿐만이 아니라, 변수의 특성을 나타내는 표준편차와 상관계수가 함께 고려된다는 특징을 가지고 있다.

 

군집분석을 실시하는 대부분 경우, 군집분석을 실시하기 전에 모든 변수들을 평균이 0이고 분산이 1의 변환된 변수로 표준화시킨다

 

마할라노비스 거리는 변수들 사이의 표준편차와 상관관계를 고려하여 만들어진 거리로서, 만일 모든 변수가 표준화되어 있고 모든 변수들이 서로 독립적인 관계를 가지고 있다면, 마할라노비스 거리는 앞에서 정의된 유클리디안 거리와 일치하게 된다.

 

 

아래 그림과 같은 점 A,B,C 가 있다고 하자.


공분산 행렬(Covariance Matrix)은 아래와 같다라고 하자.



A, B, C 각각의 위치는 다음과 같다.
A(0.5, 0.5)
B(0, 1)
C(1.5, 1.5)


마할라노비스 거리 구하는 공식은 아래와 같다.



은 공분산 행렬의 역행렬이고, 는 변환행렬이다.



먼저, 공분산 행렬의 역행렬을 구하자. 2차 정방행렬의 역행렬 구하는 공식은 다음과 같다.

 일 때, A의 역행렬  이다.

위식에 의해 공분산 행렬의 역행렬을 구하면

 이다.

마할라노비스 거리 공식에 의해 A,B의 거리와 A,C의 거리를 구해보자.






유클리안 거리와 비교해서 결과가 반대로 나왔음을 알 수 있다. 즉, 상관에 따른 거리가 변할 수 있음을 나타낸다.

규석이네 열 식구 '힘겨운 겨울나기'

충청남도 아산시의 한 시골마을, 지어진 지 30년도 넘어 벽이 갈라지고 비바람이 새는 낡은 집에 규석이네 대가족이 살고 있다. 할아버지, 할머니, 외할머니, 아버지, 어머니, 남동생과 작은아버지, 사촌여동생 둘까지 규석이네 열 식구는 이곳에서 힘겨운 일상을 보내고 있다.

◈학원을 다녀야 갈 수 있는 학교 




곳곳에 곰팡이가 가득한 오래된 집은 아이들이 다니는 학교까지 거리가 멀다는 또 하나의 단점이 있다. 규석이네는 자동차가 없어 학교를 보낼 수가 없는 상황. 학교를 다니기 위해서는 학원에 등록해 학원 승합차를 이용하는 방법밖에 없다. 그래서 규석이와 세 아이들은 어려운 형편에도 학교를 다니기 위해서 학원을 다니고 있다.

아이들을 제외하고 여섯 명의 어른이 있는데도 형편이 어려운 것은 일할 수 있는 사람이 규석이의 작은 아버지와 할머니 둘 뿐이기 때문이다. 나머지 어른들은 모두 병이나 장애를 갖고 있어 일을 할 수 없는 상황이다.

◈엄마는 후두암, 아빠는 다리 잃어

규석이의 어머니 구영희(35) 씨는 3년 전 후두암을 진단받고 아직까지 투병 중이다. 식구가 많다보니 영희 씨의 약해진 체력으로는 집안일도 벅찰 정도다. 규석이의 할아버지 이범수(72) 씨는 지난해 봄, 오토바이에 다리를 치어 지체장애 3급의 장애인이 됐다. 수술을 받았지만 아직까지도 통증을 호소하고 있고 집 앞 텃밭 기르는 일만 겨우 할 수 있는 상황이다.

설상가상 이 집의 가장이었던 규석이의 아버지 이대종(43) 씨도 올해 여름, 교통사고로 다리 한 쪽을 잃게 됐다. 야근을 마치고 새벽에 오토바이를 타고 퇴근을 하다 자동차와 충돌했고, 사고난 지 열흘 만에 다리를 절단하게 됐다. 대종 씨의 과실이 커서 1200만 원이 넘는 병원비는 고스란히 그의 몫이 됐다. 이렇게 대종 씨마저 장애인이 되고 나니 형편은 더욱 어려워졌다.



◈수학경시대회 4년 연속 수상

하지만 이런 상황에서도 기특하게 아이들은 어른들의 기쁨이자 희망이 되고 있다. 공부를 잘하는 규석이는 특히 수학에 뛰어난 재능을 보여 도내 수학경시대회에서 4년 연속 대상을 받았을 정도. 동생 규찬이(8)도 금상을 받았을 정도로 형을 따라 공부에 열의를 보이고 있다. 담임선생님은 “머리가 좋은 아이들인데 가정 형편이 어려워지면서 혼란스러워하는 게 보인다”며 미래에 대해 걱정을 내비치기도 했다.

"앞으로 의족에 의지해 걸을 수 있는 정도만 되면 무슨 일이든지 해서 아이들 뒷바라지를 하고 싶다"는 대종 씨. 어려운 가정 형편으로 아이들의 꿈이 무너지는 것만은 보고 싶지 않은 아버지의 간절한 바람이 안타깝게 느껴진다.

-----------------------------------------------------------------
MK 생각.
난 행복하다.
난 불평할 자격이 없다. 나보다 더 힘든 사람들도 희망을 바라보고 사니깐..

高2가 교수-대학원생과 겨뤄 국제에세이대회 3위

민사고 김재희 양 ‘남극탐사’ 주제로

민족사관고 재학생이 청소년 극지과학자연합(APECS·The Association of Polar Early Career Scientists)이 주관한 ‘국제 극지과학정책 에세이대회’에서 입상했다.

한국극지연구진흥회는 남극조약 50주년 기념행사의 일환으로 진행된 에세이대회 수상자인 김재희 양(18·민족사관고 국제계열 2학년·사진)에게 28일 항공료 등 장학금을 전달했다. 한국극지연구진흥회는 이날 국제적 안목을 지닌 국가미래 지도자 육성 차원에서 김 양에게 장학금을 수여했다. 김 양은 29일부터 다음 달 2일까지 미국 워싱턴 스미스소니언 자연사박물관에서 개최되는 ‘남극정상회의’에 초청돼 에세이를 발표한다.

김 양은 에세이에서 남극의 극한미생물에 관한 특허와 소유권을 보호하기 위한 가칭 ‘생물자원탐사를 위한 남극 과학연구 기구’ 설립을 주장했다. 그는 “학교 환경동아리에서 활동하면서 남극에 대한 관심이 생겼다”며 “남극에서 자원 및 상업적 개발이 이슈가 되고 있는데 앞으로 남극 문제에 대한 관심을 높이는 데 기여하고 싶다”고 말했다. 김 양은 에세이를 제출할 때 환경 전문 변호사를 장래 희망으로 썼다고 한다.

한국극지연구진흥회 윤석순 회장은 “지구환경문제가 국제 이슈로 대두되면서 남극, 북극에 대한 전략적 가치가 높아지고 있다”며 “김 양은 세계 각국의 대학생, 대학원생 및 교수까지 응모한 이 대회에서 당당히 3위로 입상했다. 3위지만 1위는 미국 매사추세츠공대(MIT)의 박사과정 학생이고 2위는 호주의 대학생이어서 김 양의 수상은 한국의 일대 쾌거”라고 말했다.

----------------------------------------------------------------
MK 생각.
꿈을 먹는 자는 인생을 포만하게 하는 자.
"부러움"이라는 단어는 나를 작게 만들지만 "존경"이란 단어는 나를 성장시킬 수 있다.

2009년 11월 29일 일요일

“無스펙 대학생의 대기업 취업 스토리”



바늘구멍보다 어렵다는 취업.

그런데 흔한 공인영어점수도 없이, 대학 졸업도 1년이나 남겨둔 대학생이 덜컥 유통업계 2위의 대기업에 취업을 했다는 이야기가 들려왔다. 이른바 상위권 대학 출신도 아니고, 국가 공인 자격증을 가진 것도 아니라고 한다. 그는 어떻게 취직했을까?

無 스펙(*스펙 : 취업시장의 은어로 토익점수, 출신대학 등을 이야기함) 대학생의 대기업 취업 스토리를 들어봤다.

소문을 듣고 찾아낸 주인공은 바로 정해영(24살, 대진대학교 행정학 전공) 씨. 정 씨는 지난 23일로 삼성테스코의 정식 직원이 됐다.‘난다 긴다’하는 취업생들을 물리치고 바늘구멍을 뚫은 것이다. 다짜고짜 취업 비결을 묻는 질문에 정 씨는 의외의 답변을 했다. “군대 습관 덕분에”가 그 대답이었다.

궁금증이 맴돌았다. 우스갯소리로 보통 군대 경험은 취업의 주적(主敵)이라고 하지 않던가.

시간은 2007년으로 거슬러 간다. 당시 군에서 갓 제대한 정 씨는 일찍 일어나던 군대 습관을 유지하기 위해 삼성테스코 홈플러스 아르바이트직에 지원했다.

정말 군대에서 생긴 습관 때문이었을까? 정 씨는 그 이후 하루도 빠지지 않고, 사무실로 오전 7시 정시에 알람시계처럼 출근했다.

아무도 출근하지 않는 시각이다. 출근 뿐 아니라 근무태도에서도 정 씨는 유독 성실하다고 주변에서 입을 모은다.

같은 사무실에 일하는 삼성테스코 강정현 과장은 “정 씨가 입사 이후 2년간 하루도 빠지지 않고, 7시에 출근했다”며 “처음에는 설마설마 하다가 나중에 사무실 직원들이 정 씨의 성실함에 빠져버렸다”고 말했다. 강 과장은 “출근 시간 뿐 아니라 근무 시간의 성실함도 혀를 내두를 수준”이라고 덧붙였다.

요즘 청년 같지 않은 성실함이 정 씨의 무기였던 것이다.

2년간 꾸준히 이어진 정 씨의 성실함, 결국 삼성테스코에서는 그 보답으로 정 씨를 정규직으로 정식 채용하기로 결정했다.

물론 삼성테스코에는 아르바이트직원 가운데 근무 기간이 1년 이상인 우수 직원을 정규직으로 뽑는 제도가 있었기에 가능한 일이었다. 삼성테스코에서는 1년에 100명이 아르바이트를 하다가 정규직으로 채용된다.

그러나 일선 영업직이 아니 사무직 직원을 정규직으로 채용한 경우는 처음으로, 삼성테스코에서도 파격이다. 처음에 인사팀은 정 씨의 채용에 난색을 표명하기도 했다는 후문이다.

정 씨 채용을 적극 지원했다는 삼성테스코 PR사회공헌부문장 설도원 전무는 “대학졸업을 1년이나 남겨둔 정 씨에게는 파격적인 조건이었지만, 직장생활에서는 성실한 자세가 가장 중요한데 정 씨는 그 자세를 갖췄기 때문에 결국 채용이 성사됐다”고 말했다.

설 전무는 “삼성테스코는 앞으로도 인재를 얻기 위해 보다 다양한 채용제도를 활용할 계획이며, 각 영업망을 통해 7만개 이상의 신규 일자리를 만들 계획”이라고 덧붙였다. 무스펙으로 취업한 정 씨의 취업스토리, 단순하면서도 명쾌한 그 이야기 속에 요즘 젊은이들이 놓치고 있는 취업문을 여는 황금의 열쇠가 있는 것 아닐까.

점프!!

미영누나, 동진군

미영누나, 동진군 지못미....

도시락

동진군이 싸온 도시락!

2009년 11월 27일 금요일

Cumulative distribution function [출처 : wiki]

Cumulative distribution function

From Wikipedia, the free encyclopedia

In probability theory and statistics, the cumulative distribution function (CDF), or just distribution function, completely describes the probability distribution of a real-valued random variable X. Cumulative distribution functions are also used to specify the distribution of multivariate random variables.

Contents

 [hide]

[edit]Definition

For every real number x, the CDF of a real-valued random variable X is given by

x \mapsto F_X(x) = \operatorname{P}(X\leq x),

where the right-hand side represents the probability that the random variable X takes on a value less than or equal to x. The probability that X lies in the interval (a, b] is therefore FX(b) − FX(a) if a < b.

If treating several random variables X, Y, ... etc. the corresponding letters are used as subscripts while, if treating only one, the subscript is omitted. It is conventional to use a capital F for a cumulative distribution function, in contrast to the lower-case f used for probability density functions and probability mass functions. This applies when discussing general distributions: some specific distributions have their own conventional notation, for example the normal distribution.

The CDF of X can be defined in terms of the probability density function ƒ as follows:

F(x) = \int_{-\infty}^x f(t)\,dt.

Note that in the definition above, the "less than or equal to" sign, "≤", is a convention, not a universally used one (e.g. Hungarian literature uses "<"), but is important for discrete distributions. The proper use of tables of the binomial and Poisson distributions depend upon this convention. Moreover, important formulas like Levy's inversion formula for the characteristic function also rely on the "less or equal" formulation.

[edit]Properties

From top to bottom, the cumulative distribution function of a discrete probability distribution, continuous probability distribution, and a distribution which has both a continuous part and a discrete part.

Every cumulative distribution function F is (not necessarily strictly) monotone non-decreasing (see monotone increasing) and right-continuous. Furthermore, we have

\lim_{x\to -\infty}F(x)=0, \quad \lim_{x\to +\infty}F(x)=1.

Every function with these four properties is a CDF. The properties imply that all CDFs are càdlàg functions.

If X is a discrete random variable, then it attains values x1, x2, ... with probability pi = P(xi), and the CDF of X will be discontinuous at the points xi and constant in between:

F(x) = \operatorname{P}(X\leq x) = \sum_{x_i \leq x} \operatorname{P}(X = x_i) = \sum_{x_i \leq x} p(x_i).

If the CDF F of X is continuous, then X is a continuous random variable; if furthermore F is absolutely continuous, then there exists aLebesgue-integrable function f(x) such that

F(b)-F(a) = \operatorname{P}(a\leq X\leq b) = \int_a^b f(x)\,dx

for all real numbers a and b. (The first of the two equalities displayed above would not be correct in general if we had not said that the distribution is continuous. Continuity of the distribution implies that P (X = a) = P (X = b) = 0, so the difference between "<" and "≤" ceases to be important in this context.) The function f is equal to the derivative of F almost everywhere, and it is called the probability density function of the distribution of X.

[edit]Point probability

The "point probability" that X is exactly b can be found as

\operatorname{P}(X=b) = F(b) - \lim_{x \to b^{-}} F(x).

[edit]Kolmogorov-Smirnov and Kuiper's tests

The Kolmogorov-Smirnov test is based on cumulative distribution functions and can be used to test to see whether two empirical distributions are different or whether an empirical distribution is different from an ideal distribution. The closely related Kuiper's test (pronounced [kœypəʁ]) is useful if the domain of the distribution is cyclic as in day of the week. For instance we might use Kuiper's test to see if the number of tornadoes varies during the year or if sales of a product vary by day of the week or day of the month.

[edit]Complementary cumulative distribution function

Sometimes, it is useful to study the opposite question and ask how often the random variable is above a particular level. This is called the complementary cumulative distribution function (ccdf), defined as

F_c(x) = \operatorname{P}(X > x) = 1 - F(x).

In survival analysis, Fc(x) is called the survival function and denoted S(x).

[edit]Folded cumulative distribution

Example of the folded cumulative distribution for anormal distribution function

While the plot of a cumulative distribution often has an S-like shape, an alternative illustration is the folded cumulative distribution ormountain plot, which folds the top half of the graph over,[1] thus using two scales, one for the upslope and another for the downslope. This form of illustration emphasises the median and dispersion of the distribution or of the empirical results.

[edit]Examples

As an example, suppose X is uniformly distributed on the unit interval [0, 1]. Then the CDF of X is given by

F(x) = \begin{cases}
0 &:\ x < 0\\
x &:\ 0 \le x \le 1\\
1 &:\ 1 < x.
\end{cases}

Take another example, suppose X takes only the discrete values 0 and 1, with equal probability. Then the CDF of X is given by

F(x) = \begin{cases}
0 &:\ x < 0\\
1/2 &:\ 0 \le x < 1\\
1 &:\ 1 \le x.
\end{cases}

[edit]Inverse

If the CDF F is strictly increasing and continuous then  F^{-1}( y ), y \in [0,1]  is the unique real number x such that F(x) = y.

Unfortunately, the distribution does not, in general, have an inverse. One may define, for  y \in [0,1] ,


F^{-1}(y) = \inf_{x \in \mathbb{R}} \{ F(x) \geq y \}.

Example 1: The median is F − 1(0.5).

Example 2: Put τ = F − 1(0.95). Then we call τ the 95th percentile.

The inverse of the cdf is called the quantile function.

The inverse of the cdf can be used to translate results obtained for the uniform distribution to other distributions. Some useful properties of the inverse cdf are:

  1. F − 1 is nondecreasing
  2. F^{-1}(F(x)) \leq x
  3. F(F^{-1}(y)) \geq y
  4. F^{-1}(y) \leq x if and only if y \leq F(x)
  5. If Y has a U[0,1] distribution then F − 1(Y) is distributed as F. This is used in random number generation using the inverse transform sampling-method.
  6. If {Xα} is a collection of independent F-distributed random variables defined on the same sample space, then there exist random variables Yα such that Yα is distributed as U[0,1] and F − 1(Yα) = Xα with probability 1 for all α.

[edit]Multivariate case

When dealing simultaneously with more than one random variable the joint cumulative distribution function can also be defined. For example, for a pair of random variablesX,Y, the joint CDF is given by

(x, y) \to F(x,y) = \operatorname{P}(X\leq x,Y\leq y),

where the right-hand side represents the probability that the random variable X takes on a value less than or equal to x and that Y takes on a value less than or equal to y.

Every multivariate CDF is:

  1. - Monotonically non-decreasing for each of its variables
  2. - Right-continuous for each of its variables.
  3. - 0\leq F(x_{1},...,x_{n})\leq 1
  4. \lim_{x_{1},...,x_{n}\rightarrow+\infty}F(x_{1},...,x_{n})=1 and \lim_{x_{i}\rightarrow-\infty}F(x_{1},...,x_{n})=0,\quad \mbox{for all i}

[edit]See also