1. 개요
부트스트랩(Bootstrap)이란, 일반적으로 한 번 시작되면 알아서 진행되는 일련의 과정을 뜻한다.
원래의 부트스트랩은 Boot + strap으로, 긴 부츠의 뒷부분에 달린 고리를 뜻했다. 이것에서 'pull one's own by one's bootstrap'이라는, 불가능한 일을 해낸다는 관용어구가 생겼다. 그리고 그 의미가 변화하여, 도움받지 않고 스스로의 상황을 개선시킨다는 의미가 되었다.
뮌히하우젠 남작 이야기에서 이 단어가 나왔다는 설이 있지만 사실 그것과는 관련이 없다고 한다. 근거는 해당 출처 참고.
현재는 다양한 방면에서 부트스트랩이란 용어가 사용되고 있다.
원래의 부트스트랩은 Boot + strap으로, 긴 부츠의 뒷부분에 달린 고리를 뜻했다. 이것에서 'pull one's own by one's bootstrap'이라는, 불가능한 일을 해낸다는 관용어구가 생겼다. 그리고 그 의미가 변화하여, 도움받지 않고 스스로의 상황을 개선시킨다는 의미가 되었다.
뮌히하우젠 남작 이야기에서 이 단어가 나왔다는 설이 있지만 사실 그것과는 관련이 없다고 한다. 근거는 해당 출처 참고.
현재는 다양한 방면에서 부트스트랩이란 용어가 사용되고 있다.
2. 컴퓨터 부팅 과정
3. 통계학에서의 부트스트랩
브래들리 에프론(Bradley Efron)이 1979년에 제안한 방법으로, 표본에 대해 더 자세히 알기 위해 사용한다. 2000년대 이후 컴퓨터의 연산능력이 제고됨에 따라 베이즈 통계와 함께 주목을 받고 있다.
아이디어는 모집단의 성질에 대해 표본을 통해 추정할 수 있는 것처럼, 표본의 성질에 대해서도 재표집(resampling)을 통해 추정할 수 있다는 것이다. 즉 주어진 표본(샘플)에 대해서, 그 샘플에서 또 다시 샘플(재표본)을 여러번(1,000~10,000번, 혹은 그 이상)추출하여 표본의 평균이나 분산 등이 어떤 분포를 가지는가를 알아낼 수 있다.
단, 원래의 모집단이 iid가정을 충족해야 한다는 제약이 있고, 재표집의 수가 적을 경우 아웃라이어의 영향을 받을 수 있으며, 분석을 할 때마다 수치가 조금씩이나마 다르게 나온다는 부분은 유의해야 한다. 물론 재표집 수를 10,000회, 못해도 5,000회 이상 하는 경우에는 대개 무시해도 될 정도라고 알려져 있다.
아이디어는 모집단의 성질에 대해 표본을 통해 추정할 수 있는 것처럼, 표본의 성질에 대해서도 재표집(resampling)을 통해 추정할 수 있다는 것이다. 즉 주어진 표본(샘플)에 대해서, 그 샘플에서 또 다시 샘플(재표본)을 여러번(1,000~10,000번, 혹은 그 이상)추출하여 표본의 평균이나 분산 등이 어떤 분포를 가지는가를 알아낼 수 있다.
단, 원래의 모집단이 iid가정을 충족해야 한다는 제약이 있고, 재표집의 수가 적을 경우 아웃라이어의 영향을 받을 수 있으며, 분석을 할 때마다 수치가 조금씩이나마 다르게 나온다는 부분은 유의해야 한다. 물론 재표집 수를 10,000회, 못해도 5,000회 이상 하는 경우에는 대개 무시해도 될 정도라고 알려져 있다.