이 소식을 먼저 읽은 사람들이 있습니다.
최신 기사를 받으려면 구독하십시오.
이메일
이름
당신은 벨을 어떻게 읽고 싶습니까?
스팸 없음

순수한 전략- 결정론적(임의성 제외) 행동 계획. 이전 장에서는 순수 전략만 고려했습니다. 혼합 전략은 섹션 2.2에서 논의되지만, 지금은 달리 명시되지 않는 한 전략이란 항상 순수 전략을 의미합니다.

프레젠테이션 과정에서 종종 우리는 바이매트릭스 게임의 예와 함께 솔루션의 개념을 설명할 것이므로 적절한 정의를 제공할 것입니다.

정의 2.1. 최종 단계는 플레이어의 집합과 각 플레이어의 전략 집합이 유한한 수의 요소를 포함하는 게임입니다. 두 사람의 궁극적 인 게임은 바이매트릭스 게임.

성은 이중 매트릭스를 사용하여 그러한 게임에서 상금을 기록하는 편리한 형태에서 유래합니다.

추가 분석을 위해 임의의 전략 프로파일 s의 전략을 일부 /-번째 플레이어의 전략과 다른 모든 플레이어의 전략 s_(.공식적으로 s = (.y, s,). , 우리는 그것을 표시하는 또 다른 방법을 소개합니다.

우리가 고려할 게임 해결의 첫 번째 개념은 지배적 전략의 균형입니다.

정의 2.2. /번째 플레이어의 전략 엄격하게 지배그의 전략 "만약 Uj(s jt s ,) > h,(s", s,) 모든 세트 s 에 대해 나머지 플레이어의 전략. 이 경우 전략 s"는 호출됩니다. 엄격하게 지배합니다.

기본적으로 이것은 모든 결정된나머지 플레이어의 전략 세트에서 i 번째 플레이어는 전략 s를 선택하여 엄격하게 더 큰 승리전략을 선택할 때보다 s". 다음과 같이 가정하는 것이 논리적입니다. 합리적인 플레이어는 엄격하게 지배되는 전략을 선택해서는 안 됩니다.가장 단순한 게임에서 이러한 가정은 게임에 대한 솔루션을 찾는 데 충분할 수 있습니다.

정의 2.3. 전략 프로필 s* =(s*, s^,..., s*)가 호출됩니다. 균형 (엄격하게) 지배적인 전략, i 번째 플레이어의 경우 전략 s"가 그의 다른 전략을 엄격하게 지배합니다.

이 솔루션 개념은 사소한 결론으로 ​​이어질 수 있는 것처럼 보일 수 있습니다. 각 플레이어는 상대방이 어떻게 행동하든 상관없이 다른 플레이어보다 더 많은 보상을 줄 전략을 가지고 있습니다. 그런 다음 그는 이 전략을 정확히 균형에 적용할 것입니다. 모든 것이 매우 분명합니다. 그러나 "죄수의 딜레마" 게임의 여러 실제 상황을 분석하는 데 가장 유명하고 매우 중요한 것은 바로 이 상황입니다.

예 2.1(죄수의 딜레마). 두 명의 범죄자는 서로 다른 감방에 수감되어 있어 의사소통이 불가능합니다. 수사는 1년 동안 경범죄로 각각 유죄를 선고할 충분한 증거가 있다. 하지만 10년형을 선고받은 중대 범죄에 대해서는 수사에서 증거가 충분하지 않다. 수사 담당자는 각 범죄자에게 거래를 제안합니다. 범죄자는

파트너에 대한 증거를 제시하면 1년이 줄어들며, 이는 파트너를 중대한 범죄로 기소하기에 충분합니다. 범죄자들이 감옥에서 보낼 년수에만 관심이 있다고 가정하고 추가 1년은 효용의 1단위를 뺀 값입니다. 그러면 범죄자의 보수는 다음 이중 행렬로 나타낼 수 있습니다.

게임 참가자의 이름이 지정되지 않은 경우 첫 번째 참가자의 다른 전략은 이중 행렬의 행에 해당하고 두 번째 참가자의 전략은 열에 해당한다고 가정합니다. 우리의 예에서 첫 번째 죄수가 증언하고 두 번째 죄수가 증언하지 않으면 첫 번째 죄수는 석방되고 두 번째 죄수는 10년형을 받게 됩니다.

다른 죄수가 어떻게 행동하든 증거를 제시하면 (첫 번째 플레이어의 경우 이중 행렬의 첫 번째 행의 첫 번째 좌표가 엄격하게) 보수가 더 크다는 것을 쉽게 알 수 있습니다 (수감 기간은 더 짧음). 두 번째 행보다 큰 경우 두 번째 플레이어의 경우 첫 번째 열 이중 행렬의 두 번째 좌표가 두 번째 열보다 엄격하게 큽니다. 그러면 지배적 전략의 균형이 전략의 프로필이 될 것입니다(증언, 증언).

이 예에서 흥미로운 점은 플레이어가 보상을 증가시키는 행동을 선택하면 둘 다 침묵을 선택하는 반대 상황에 비해 보상이 낮은 상황에 이르게 된다는 것입니다. 설명은 강한 외부 효과의 존재에 있습니다. 한 플레이어의 행동이 다른 플레이어의 보수에 미치는 강한 영향. 결과적으로, 전략의 균형 프로파일은 이 게임에서 유일한 파레토 비효율적인 것으로 판명되었습니다. 이 경우와 같이 게임 참가자의 관점에서 바람직한 파레토 효율성이 사회적 관점에서 바람직하지 않을 수 있습니다.

죄수의 딜레마와 같은 상황은 경제 상황을 분석할 때 자주 발생합니다. 예를 들어, 유사한 제품 세트를 판매하는 두 상점 간의 경쟁을 고려하십시오. 간단하게 하기 위해 상점에서 고가 또는 저가의 두 가지 가격 수준만 청구할 수 있다고 가정해 보겠습니다. 소비자는 당연히 더 저렴한 매장에서 구매하는 것을 선호합니다. 그러면 이익으로 특징지어지는 상점의 보수는 예를 들어 다음과 같이 보일 수 있습니다.


평형의 관점에서 볼 때 여기의 상황은 죄수의 딜레마와 유사합니다. 즉, 지배적 전략의 평형( 낮은 가격, 저렴한 가격)은 유일한 파레토 비효율적 프로파일(또한 사회적으로 바람직함)입니다.

이미 언급한 죄수의 딜레마가 널리 알려진 이유는 게임 이론 예측의 정확성을 실험적으로 테스트하기 위해 그 예를 사용했기 때문입니다. 테스트는 두 낯선 사람두 상점의 게임에 표시된 것과 가까운 상금(예: 달러)으로 돈을 위한 게임을 하는 것이 제안되었습니다. 각 참가자는 개별적으로(종종 익명으로) 결정을 내렸고 상금을 받기 전에 다른 플레이어의 결정을 알지 못했습니다. 이러한 조건에서 게임의 많은 플레이에서 플레이어는 상금이 자신의 상금을 정확하게 추정한다고 가정하고 균형 결과에 도달하지 못한 것으로 나타났습니다. 물론 이러한 실험의 결과에서 게임 이론의 예측이 정확하지 않다는 것은 아니지만, 플레이어가 보수를 평가할 때 이타주의, 공정성 등의 고려 사항과 같은 비금전적 요소를 고려했다는 것뿐입니다. 플레이어의 보수가 올바르게 추정되면 플레이어는 지배적인 전략을 선호해야 하므로 이를 선택해야 합니다(미시경제학에서 드러난 선호도의 정신에 따라). 따라서 이러한 종류의 실험의 가치는 게임 이론적인 예측을 테스트하는 것이 아니라 개인의 행동에서 비물질적 동기의 역할을 평가하는 데 있습니다.

강한 지배의 개념보다 훨씬 덜한 게임 이론은 약한 지배의 개념을 사용합니다.

정의 2.4. /번째 플레이어의 전략, 약하게 지배적인그의 전략 "만약 m,(s, s ,) > m ; (sJ, s,) 다른 플레이어의 전략 세트 s_j,또한 다른 플레이어의 적어도 한 세트의 전략에 대해 불평등이 엄격하게 충족됩니다. 그런 다음 전략 s"가 호출됩니다. 약하게 지배됨.

엄격하지 않은 불평등의 경우 합리적인 플레이어가 약하게 지배되는 전략을 선택하지 않을 것이라고 주장하는 것은 더 이상 불가능하지만 그러한 행동은 매우 논리적으로 보입니다. 거의 사용되지는 않지만 강한 지배의 경우와 유사한 약한 지배 전략에서 균형의 정의가 있습니다.

정의 2.5. 전략 프로파일 s* = (s*, Sj,..., s*)가 호출됩니다. 약하게 지배적인 전략의 균형, i 번째 플레이어의 경우 전략 s"가 그의 다른 전략을 약하게 지배합니다.

예제 2.2(닫힌 두 번째 가격 경매). 두 번째 가격의 비공개 경매는 두 사람이 진행합니다. 경매는 다음과 같이 구성됩니다. 각 참가자는 다른 참가자의 비율을 모르고 음수가 아닌 비율을 나타냅니다(엔벨로프에 있음). 가장 높은 입찰가를 제시한 참가자는 다른 참가자의 입찰가 중 최고 금액(즉, 두 번째 금액이지만 입찰 가치)을 지불하고 일부 아이템을 받습니다. 예를 들어 플레이어의 입찰가가 100과 90인 경우 100을 입찰한 참가자가 경매에서 승리하고 두 번째 입찰의 크기인 90에 항목을 얻습니다. 각 참가자에게 화폐 단위로 표현된 주제에 대한 평가를 하도록 하십시오. v2> 0. 이 추정치는 모든 참가자에게 알려져 있습니다. 게임을 간단하게 설명하기 위해 두 참가자가 동일한 비율을 나타내면 개체가 첫 번째 참가자에게 이동합니다.

이 게임에서 첫 번째 플레이어의 전략은 베팅의 크기입니다. 비율이 음수가 아니므로 가능한 모든 전략 집합

5, = 0 = u,(o, s 2) > w,(s, s 2) = u, - s 2 v x는 전략 s를 약하게 지배합니다.

우리는 첫 번째 플레이어에게 자신의 점수를 베팅으로 지정하는 전략이 다른 전략을 약하게 지배한다는 것을 보여주었습니다. 두 번째 플레이어에게도 유사한 진술이 사실임을 쉽게 확인할 수 있습니다. 우리의 추론에서 우리는 플레이어가 다른 플레이어의 추정치를 알고 있다는 사실을 사용하지 않았습니다. 즉, 두 번째 가격의 비공개 경매에서 불완전한 정보로 플레이하는 경우 귀하의 이름을 지정하는 것이 덜 유리할 것입니다. 다른 입찰을 하는 것보다

판매자가 첫 번째 가격의 경매를 주선하고 두 번째가 아닌 첫 번째 입찰가를 받을 수 있는 경우 두 번째 가격의 경매를 주선하는 것은 수익성이 없는 것처럼 보일 수 있습니다. 그러나 경매의 경우 균형에서 첫 번째 가격의 요율 값은 더 낮을 것입니다. 경매의 수익률에 대해서는 챕터에서 더 자세히 다루겠습니다. 5. 한편, 2차 가격 경매는 매우 인기가 있으며 예를 들어 기업에서 널리 사용됩니다. Google인터넷에서 문맥 광고를 판매할 때 "Yandex".

지배적 전략의 균형은 소수의 게임에서만 존재합니다. 일반적으로 플레이어는 다른 모든 것을 지배하는 단일 전략을 가지고 있지 않습니다. 그러나 지배의 개념은 더 넓은 클래스의 게임에서 솔루션을 찾을 수 있도록 합니다. 이를 위해서는 플레이어의 행동에 대해 일관된 추론을 수행해야 합니다. 우리는 합리적인 플레이어가 엄격하게 지배되는 전략을 선택하지 않을 것이라는 점에 이미 주목했습니다. 그러나 이것은 상대방이 그러한 전략을 선택할 가능성을 무시하고 다른 플레이어가 게임을 분석할 수 있음을 의미합니다. 아마도 일부 분석은 다른 플레이어가 원래 게임에서 지배되지 않은 지배적 전략을 가지고 있음을 드러낼 것입니다. 등. 형식적인 정의를 내리자.

프로세스 강력하게 지배되는 전략의 순차적 배제다음과 같이 설정됩니다. 플레이어가 엄격하게 지배하는 모든 전략은 고려 대상에서 제외하겠습니다. 모든 지배적 전략이 플레이어의 가능한 전략 세트에서 제외되는 새로운 게임을 고려하십시오. 그럼 이 안에 새로운 게임우리는 엄격하게 지배되는 모든 전략 등을 제거합니다.

플레이어에게 여러 전략이 남아 있을 때 이러한 프로세스가 종료될 수 있지만 각 플레이어가 제외되지 않은 전략은 하나만 있을 수 있으므로 이러한 전략 세트를 게임의 솔루션으로 고려하는 것이 논리적입니다. .

정의 2.6. 강력하게 지배되는 전략을 순차적으로 제거한 결과 각 플레이어에게 단일 전략이 남게 되면 이러한 전략의 프로필을 다음과 같이 호출합니다. 지배 균형.

예제 1.1에서 우리는 바로 그러한 평형을 얻었습니다. 한 가지 예를 더 살펴보겠습니다.


전략 프로파일(N, P)은 이 게임에서 유일한 내쉬 균형입니다. 그러나 P를 선택하기 위해 두 번째 플레이어는 첫 번째 플레이어가 B를 선택하지 않았는지 확인해야 합니다. 그러나 두 번째 플레이어가 II를 선택하는 경우 첫 번째 플레이어의 보수는 동일합니다. 또한 B를 선택함으로써 첫 번째 플레이어는 두 번째 플레이어가 L을 선택하는 것을 두려워하지 않을 수 있습니다. 아마도 합리적인 두 번째 플레이어는 전략 C를 선택하는 것에 대해 생각할 것입니다.

명확한 답이 아직 발견되지 않은 두 번째 질문: 플레이어가 내쉬 균형에 도달하는 방법은 무엇입니까?

이상적인 이론적 시나리오는 다음과 같습니다. 플레이어는 다른 플레이어의 행동에 대해 독립적으로 기대치를 형성한 다음 주어진 기대에 따라 보상을 최대화하는 행동을 선택합니다. 이 경우 기대치가 실제로 플레이어가 선택한 행동과 일치하면 내쉬 균형을 얻습니다. 이 추론을 통해 우리는 내쉬 균형을 다음과 같은 상황으로 부를 수 있습니다. 자기 충족적 기대.그러나 기대는 어디에서 오는가? 그리고 설명된 과정의 결과로 내쉬 균형 중 어떤 것이 선택될 것입니까? 고려된 시나리오의 틀에서 이러한 질문은 답이 없는 상태로 남아 있습니다.

또 다른 접근 방식은 선수 훈련의 존재를 포함합니다. 플레이어는 이론적으로 주어진 게임을 하는 방법을 배웁니다(학생들이 경제학부) 또는 유사한 상호 작용 경험이 있습니다(예: 숙련된 작업자가 새로운 팀), 이를 통해 기대치를 올바르게 형성하고 최적의 행동을 선택할 수 있습니다. 이 시나리오는 기대의 형성을 설명할 수 있게 해주지만, 첫째, 게임 모델의 범위를 표준적이고, 연구되고, 자주 접하는 상호작용 상황으로 축소하고, 둘째, 단일 및 반복 상황의 상황으로 이어질 수 있습니다. 상호작용은 구별되지 않으며, 후자는 게임 이론의 틀 내에서 전략과 해결 방법의 측면에서 크게 다릅니다. 4.

세 번째 시나리오는 플레이어 간의 사전 합의, 관습, 법률 또는 플레이어의 상호 작용을 제어하는 ​​제3자의 지침이 있는 것입니다. 이 경우 합의나 지시는 구속력이 없을 수 있지만 내쉬 균형을 실행하는 것이 권장되는 경우 플레이어 중 누구도 규정된 행동에서 벗어나고자 하는 (혼자) 욕구가 없습니다. 모든 상황에서 그러한 시나리오가 가능하지 않다는 것은 분명합니다. 또한 계약을 체결하거나 제3자를 참여시키는 바로 그 과정이 게임의 일부가 될 수 있습니다.

마지막으로 내쉬 균형의 개념을 연구할 때 발생하는 세 번째 자연스러운 질문은 다음과 같습니다. 실제 플레이어가 일반적으로 균형 전략을 선택한다는 경험적 증거가 있습니까? 여기서도 짧고 명료한 대답을 하는 것은 극히 어렵습니다. 동시에 발생하는 문제의 성격은 실험 경제학의 주제와 더 일치합니다. 따라서 우리는 실험 방법론에 대한 질문이 훌륭하게 분석되고 많은 결과가 제시되어 있는 전문 문헌, 예를 들어 책으로 눈을 돌릴 것을 권장합니다.

순수 전략에는 균형이 없는 게임이 있으므로(예제 3.1 참조) 문제가 발생합니다. 이러한 균형이 존재하기 위해 어떤 조건이 충분합니까? 유한하지 않은 게임의 순수 전략에서 내쉬 균형의 존재에 대한 주장을 공식화하고 증명합시다.

진술 2.3. 각 플레이어에 대한 전략 세트의 경우 유클리드 공간에서 비어 있지 않은 볼록 콤팩트 및 각 플레이어의 보수 함수 그리고-연속 에스 5에서 준오목하면 게임은 순수 전략에서 내쉬 균형을 갖습니다.

증거.공식을 기억하십시오 카쿠타이의 정리, 우리는 증명에서 사용할 것입니다. 허락하다 엑스-비어 있지 않은 볼록 컴팩트 세트 R n , X*는 하위 집합의 집합이고/는 다음과 같은 상위 반연속 매핑입니다. 엑스 V 엑스*,각 포인트에 대해 엑스 엑스한 무리의 f(x)비어 있지 않고 닫히고 볼록합니다. 그러면 매핑은 / 고정 소수점을 갖습니다.

우리의 주장을 증명하는 아이디어는 Kakutani의 정리의 조건을 충족하는 매핑을 구성하는 것입니다. 이를 위해 베스트 답변 표시를 약간 재정의합니다. 우리는 순전히 기술적으로 최선의 답이 다른 플레이어의 전략뿐만 아니라 플레이어 자신의 전략에 달려 있다고 가정합니다. 플레이어 자신의 전략이 바뀌면 다른 플레이어의 전략이 고정된 상태에서 최선의 답은 물론 바뀌지 않습니다. 이제 모든 플레이어에게 최적의 답을 데카르트 곱으로 표시하는 표기법을 소개하겠습니다. 봄 여름 시즌) = s,(s) x 초 2 (초)엑스... 엑스 s n (s).각 프로필에 대한 이 매핑은 각 플레이어가 가장 좋은 방법다른 플레이어의 전략에 반응합니다. 매핑 S의 고정점, 즉 프로필 에스그런 s e s(들)>정의상 내쉬 균형입니다. 매핑 5가 Kakutani의 정리의 조건을 만족함을 보여줍시다. 각 조건의 검증은 별도의 증명 지점을 구성합니다.

  • 1. 집합을 보여줍시다. 에스모든 프로파일 - 볼록 컴팩트. 각 플레이어 S의 전략 세트를 주장하는 조건에서 비어 있지 않은 볼록 컴팩트 세트이므로 데카르트 곱 에스 = 엑스 시즌2더블 엑스 에스앤볼록 컴팩트입니다.
  • 2. 디스플레이 에스비어 있지 않은 이미지가 있습니다. Weierstrass 정리에 의해 연속 함수 그리고-최대값인 닫힌 경계 집합 5에 도달합니다. 따라서, 에스비어 있지 않은 이미지가 있습니다.
  • 3. 이미지 표시 에스닫히고 볼록합니다. 각 플레이어의 페이오프 기능부터 준 오목 만약그런 다음 유사 오목 함수의 속성에 의해 $를 설정합니다. = (들. | u t (s i9s .) > 케이) 고정 에스 .그리고 k정의 영역이 닫힐 때 닫히고 비어 있지 않으면 볼록합니다. 이것은 누구에게나 사실이기 때문에 케이, 집합 5. = (5/1 (s", 5 ,) > maxw.(s., 에스 .)}

볼록한. 그러나 데카르트 곱 5(5) = 초 x (초)엑스 s2(에스)엑스... 엑스 CS)는 닫혀 있고 볼록합니다.

4. 매핑이 § 위에서 반 연속. 함수에 연속성 조건을 사용합니다. 그리고,에 의해 우리는 모순으로 증명할 것입니다. 디스플레이가 있다고 가정합시다. § ns는 상부 반연속적입니다. 그런 다음 일련의 전략 프로필이 있습니다. 에스엠그리고 에스엠 ,어디 티 -시퀀스 요소 번호 s"" 전자 에스엠 e s(s""), lim s"" = s° e S,그러나 lim s"" = s° g lim s(s""). 즉,

~*티->/그리고 -? 오

전략 s f °가 s 0 에 대한 최상의 응답이 아닌 암석, 즉 전략이 있다 에스"그런 그리고, 0 ,) > 우리를]초;). 그러면 m,(s/, s) e > 0을 찾을 수 있습니다. 0 ,) > m,(s ; °, s 0 ,) + Ze, 어디서

가정에 따라 함수 m은 연속적이므로 lim sm = s°, lim s"" = s°,

*우 -*우

충분히 큰 오른쪽

부등식 (2.8)-(2.10)을 하나의 사슬로 결합하면 다음을 얻습니다.

관계식(2.11)에서 u,(s", s"") > m,(s/", s"") + 에스,그러나 이것은 s""에 대한 응답으로 s"가 s/"보다 엄격하게 더 큰 보수를 제공하기 때문에 조건 s"" es(s"")와 모순됩니다. 그들은 모순에 이르렀습니다. 따라서 s가 상부 반연속적이지 않다는 우리의 원래 가정은 잘못되었습니다.

우리는 매핑이 에스 Kakutani의 정리의 모든 조건을 만족하므로 고정점이 있습니다. 이 고정점은 내쉬 균형입니다. 주장 2.3이 증명된다. ?

특히 명령문 2.3은 예제 2.7에서 내쉬 균형의 존재를 보장하지만 플레이어의 보수 함수가 불연속적인 예제 2.8에서는 그렇지 않습니다.

"일의 예.

게임에 안장점이 없으면 게임의 가격을 결정하는데 어려움이 있고, 최적의 전략선수. 예를 들어 다음 게임을 고려하십시오.

이 게임과 . 따라서 첫 번째 플레이어는 4의 보상을 보장할 수 있고 두 번째 플레이어는 손실을 5로 제한할 수 있습니다. 와 사이의 영역은 말하자면 무승부이며 각 플레이어는 비용을 들여 자신의 결과를 개선하려고 시도할 수 있습니다. 이 지역의. 이 경우 플레이어의 최적 전략은 무엇입니까?

각 플레이어가 별표( 및 )로 표시된 전략을 사용하는 경우 첫 번째 플레이어의 이득과 두 번째 플레이어의 손실은 5가 됩니다. 이는 첫 번째 플레이어가 자신보다 더 많이 이기기 때문에 두 번째 플레이어에게 불리합니다. 자신을 보장할 수 있습니다. 그러나 두 번째 플레이어가 첫 번째 플레이어의 전략을 사용하려는 의도를 어떤 식으로든 드러낸다면 그는 전략을 적용하고 첫 번째 플레이어의 보수를 4로 줄일 수 있습니다. 그러나 첫 번째 플레이어가 두 번째 플레이어의 전략 사용 의도를 밝히면, 그런 다음 전략을 사용하여 그는 자신의 보수를 6으로 늘릴 것입니다. 따라서 각 플레이어가 사용할 전략을 비밀로 유지해야 하는 상황이 발생합니다. 그러나 어떻게 해야 할까요? 결국, 게임을 여러 번 플레이하고 두 번째 플레이어가 항상 전략을 적용하면 첫 번째 플레이어는 곧 두 번째 플레이어의 의도를 파악하고 전략을 적용한 후 추가 이득을 얻습니다. 분명히 두 번째 플레이어는 새로운 게임마다 전략을 변경해야 하지만 첫 번째 플레이어가 각 경우에 어떤 전략을 사용할지 추측하지 않도록 해야 합니다.

무작위 선택 메커니즘의 경우 플레이어의 이득과 손실은 무작위 변수가 됩니다. 이 경우 게임의 결과를 추정할 수 있습니다. 평균두 번째 선수의 패배. 다시 예로 돌아가 보겠습니다. 따라서 두 번째 플레이어가 전략을 사용하고 확률이 0.5인 무작위로 사용하는 경우 0.5, 첫 번째 플레이어의 전략으로 손실의 평균 가치는 다음과 같습니다.

그리고 첫 번째 플레이어의 전략으로

따라서 두 번째 플레이어는 첫 번째 플레이어가 사용하는 전략에 관계없이 평균 손실을 4.5로 제한할 수 있습니다.

따라서 많은 경우에 전략을 미리 요약하지 않고 일종의 무작위 선택 메커니즘을 사용하여 무작위로 하나 또는 다른 것을 선택하는 것이 편리한 것으로 판명되었습니다. 무작위 선택을 기반으로 하는 전략이라고 합니다. 혼합 전략, 호출되는 의도된 전략과 대조적으로 순수한 전략.

순수에 대한 보다 엄격한 정의를 내리자. 혼합 전략.



안장점이 없는 게임이 있습니다.

사용 빈도를 나타냅니다. 순수한 전략, (i 번째 전략을 사용할 확률)를 통해 첫 번째 플레이어. 유사하게, 우리는 두 번째 플레이어의 순수 전략을 사용하는 빈도를 ,(j번째 전략을 사용할 확률)로 나타냅니다. 안장 포인트 게임을 위한 순수한 전략 솔루션이 있습니다. 안장점이 없는 게임의 경우 전략 선택이 확률을 기반으로 하는 혼합 전략에 솔루션이 있습니다. 그 다음에

많은 순수한 1st 플레이어 전략;

첫 번째 플레이어의 많은 혼합 전략;

순수한 2인용 전략이 많이 있습니다.

많은 2인용 혼합 전략.

한 가지 예를 생각해 보십시오. 게임이 있다고 가정해 보겠습니다.

두 번째 플레이어는 확률을 선택합니다. . 전략을 적용할 때 두 번째 플레이어의 평균 손실을 추정해 보겠습니다.

플레이어의 행동 선택은 다음과 같습니다. 이동하다. 움직임이 있다 개인적인(플레이어가 의식적으로 결정을 내림) 무작위의(게임의 결과는 플레이어의 의지에 달려 있지 않습니다). 플레이어가 수행해야 하는 이동을 결정하는 일련의 규칙을 호출합니다. 전략. 전략이 있다 깨끗한(무작위가 아닌 플레이어 결정) 및 혼합(전략은 랜덤 변수로 간주될 수 있음).

안장 포인트

V 게임 이론성. ( 안장 요소)는 열의 가장 큰 요소입니다. 게임 매트릭스, 해당 행의 가장 작은 요소이기도 합니다(in 2인 제로섬 게임). 따라서 이 시점에서 한 플레이어의 최대값은 다른 플레이어의 최소값과 같습니다. S. t. 포인트가 있습니다 평형.

미니맥스 정리

minimax 전략이라고 합니다. 미니맥스 전략.

플레이어에게 가장 "신중한" 최대화 및 최소화 전략의 선택을 지시하는 원칙을 이라고 합니다. 미니맥스 원리. 이 원칙은 각 플레이어가 상대방의 반대 목표를 달성하려고 한다는 합리적인 가정에서 따릅니다.

플레이어는 상대방이 불리한 방식으로 행동할 것이라고 가정하고 자신의 행동을 선택합니다. 해를 입히려고 할 것입니다.

손실 기능

손실 기능는 이론상으로 통계적 결정관찰된 데이터를 기반으로 한 잘못된 의사 결정으로 인한 손실을 특성화합니다. 잡음의 배경에 대해 신호 매개변수를 추정하는 문제가 해결되는 경우 손실 함수는 추정된 매개변수의 실제 값과 추정된 매개변수 사이의 불일치 측정값입니다.

플레이어의 최적 혼합 전략주어진 확률로 동일한 조건에서 게임을 여러 번 반복하여 순수 전략을 완벽하게 적용한 세트입니다.

플레이어의 혼합 전략은 주어진 확률로 동일한 조건에서 게임을 여러 번 반복하는 경우 순수 전략을 완전히 적용한 것입니다.

1. 행의 모든 ​​요소가 다른 행의 해당 요소보다 크지 않은 경우 원래 행은 보수 행렬에서 삭제할 수 있습니다. 열의 경우도 마찬가지입니다.

2. 게임의 가격이 독특하다.

도크인: 2개의 게임 가격이 있다고 가정해 보겠습니다. V및 , 쌍 및 각각에서 달성 된 다음

3. 보수 매트릭스의 모든 요소에 동일한 숫자가 추가되면 최적의 혼합 전략은 변경되지 않으며 게임 가격은 이 숫자만큼 증가합니다.

도크인:
, 어디

4. 보수 행렬의 모든 요소에 동일한 수를 곱한 경우 , 게임의 가격에 이 숫자가 곱해지고 최적의 전략은 변경되지 않습니다.

5. 게임 이론과 통계적 해법

5.1. 제로섬 행렬 게임

경제 및 수학적 모델링은 다음 조건에서 수행됩니다.

확실성;

불확실성.

모델링 확실한 조건하에 이를 위해 필요한 모든 초기 규제 데이터의 가용성을 전제로 합니다(매트릭스 모델링, 네트워크 계획및 관리).

모델링 위험 일부 초기 데이터의 값이 무작위이고 이러한 무작위 변수의 확률 분포 법칙이 알려진 경우 확률론적 불확실성 하에서 수행됩니다(회귀 분석, 대기열 이론).

모델링 불확실한 상황에서 해당 총 결석이를 위해 필요한 일부 데이터(게임 이론).

최적의 결정을 내리기 위한 수학적 모델 갈등 상황불확실한 상황에서 건설되었습니다.

게임 이론에서는 다음과 같은 기본 개념이 사용됩니다.

전략;

승리 기능.

이동하다 우리는 게임 규칙에 의해 제공되는 행동 중 하나를 플레이어가 선택하고 구현한다고 부를 것입니다.

전략 - 상황에 따라 각 동작에 대한 행동 방침을 선택하는 기술입니다.

승리 기능 승자에게 지는 플레이어의 지불 금액을 결정하는 역할을 합니다.

V 매트릭스 게임보수 함수는 다음과 같이 표현됩니다. 지불 매트릭스 :

이동을 선택한 플레이어 II에서 이동을 선택한 플레이어 I에 대한 지불 금액은 어디입니까?

이러한 쌍 게임에서 각 상황에서 두 플레이어의 보수 함수 값은 크기가 같고 부호가 반대입니다. 그리고 이 게임은 제로섬 .

"매트릭스 게임을 하는" 과정은 다음과 같이 표현됩니다:

지불 매트릭스가 설정되었습니다.

플레이어 I은 플레이어 II에 관계없이 이 행렬의 행 중 하나를 선택합니다(예: -th;

플레이어 II는 플레이어 I에 관계없이 이 행렬의 열 중 하나를 선택합니다(예: - th;

행렬의 요소는 내가 플레이어 II로부터 얼마나 많은 플레이어를 받을지 결정합니다. 물론 , 그렇다면 우리는 플레이어 I의 실제 손실에 대해 이야기하고 있습니다.

보수 행렬이 있는 적대적 쌍 게임을 게임이라고 합니다.

예시

게임을 생각해 봅시다.

지불 매트릭스가 제공됩니다.

.

플레이어 I은 플레이어 II에 관계없이 이 행렬의 세 번째 행을 선택하고 플레이어 II는 플레이어 I에 관계없이 이 행렬의 두 번째 열을 선택합니다.

그런 다음 플레이어 I은 플레이어 II로부터 9개의 유닛을 받습니다.

5.2. 매트릭스 게임에서 최적의 순수 전략

최적의 전략 플레이어 I의 전략은 플레이어 II의 전략 선택에 대한 보수를 줄이지 않는 방식으로, 그리고 플레이어 II의 전략은 플레이어 I의 전략 선택에 대한 손실을 늘리지 않는 방식으로 호출됩니다.

페이오프 행렬의 i번째 행을 이동으로 선택하여 플레이어 I은 플레이어 II가 이 값을 최소화하려고 할 때 최악의 경우 최소 값의 보수를 확보합니다. 따라서 플레이어 I은 최대 보상을 제공할 -번째 행을 선택합니다.

.

플레이어 II는 비슷한 방식으로 주장하며 최소한의 손실을 확실히 보장할 수 있습니다.

.

다음 부등식은 항상 참입니다.

값이 호출됩니다. 낮은 게임 가격 .

값이 호출됩니다. 최고 게임 가격 .

최적의 전략이라고 합니다. 깨끗한 , 동등성이 충족되는 경우:

,

.

값이 호출됩니다. 게임의 순 가격 , 만약 .

최적의 순수 전략 및 형식 안장 포인트 지불 매트릭스.

안장 포인트의 경우 다음 조건이 충족됩니다.

즉, 요소는 행에서 가장 작고 열에서 가장 큽니다.

따라서 보수 행렬이 안장 포인트 , 당신은 찾을 수 있습니다 최적의 순수 전략 선수.

플레이어 I의 순수한 전략은 -번째 자리의 숫자가 1인 것을 제외하고 모든 숫자가 0인 정렬된 숫자 집합(벡터)으로 나타낼 수 있습니다.

플레이어 II의 순수 전략은 -번째 자리의 숫자가 1인 것을 제외하고 모든 숫자가 0인 정렬된 숫자 집합(벡터)으로 나타낼 수 있습니다.

예시

.

이동으로 보수 행렬의 일부 행을 선택하여 플레이어 I은 표시된 열의 값보다 작지 않은 최악의 경우 보수를 확보합니다.

따라서 플레이어 I은 이 값을 최소화하려고 하는 플레이어 II의 이동에 관계없이 최대 보상을 제공하는 보상 행렬의 두 번째 행을 선택합니다.

플레이어 II도 비슷하게 주장하고 첫 번째 열을 이동으로 선택합니다.

따라서 보수 행렬의 안장점이 있습니다.

선수 I과 선수 II에 대한 최적의 순수 전략에 해당하여 선수 I은 선수 II의 전략 변경에 대한 보수를 감소시키지 않고 선수 II는 선수 I의 전략 변경에 대한 손실을 증가시키지 않습니다.

5.3. 매트릭스 게임에서 최적의 혼합 전략

보수 행렬에 안장점이 없으면 어떤 플레이어도 하나의 순수 전략을 사용하는 것이 합리적이지 않습니다. 사용하는 것이 더 유리합니다 "확률적 혼합물" 순수한 전략. 그런 다음 이미 혼합된 전략을 최적의 전략으로 정의합니다.

혼합 전략 플레이어의 이동은 이 플레이어의 이동 선택으로 구성된 무작위 이벤트의 확률 분포를 특징으로 합니다.

플레이어 I의 혼합 전략은 정렬된 숫자 집합입니다. (벡터)는 다음 두 가지 조건을 충족합니다.

1) for , 즉, 보수 행렬의 각 행을 선택할 확률은 음이 아닙니다.

2) 즉, 집계에서 각 보수 행렬 행의 선택은 다음을 나타냅니다. 전체 그룹이벤트.

플레이어 II의 혼합 전략은 정렬된 숫자 집합입니다. (벡터) 조건 충족:

결제 금액 혼합 전략을 선택한 플레이어 I에게

혼합 전략을 선택한 플레이어 II에서

,

평균이다

.

최적 혼합 전략이라고 함

그리고 ,

임의의 혼합 전략에 대해 다음 조건이 충족되는 경우:

즉, 최적의 혼합 전략에서 참가자 I의 보수가 가장 크고 참가자 II의 손실이 가장 적습니다.

보수 행렬에 안장점이 없는 경우

,

즉, 양의 차이가 있습니다( 유지된 차이 )

- ³ 0,

그리고 플레이어는 이 차이를 자신에게 유리하게 더 많이 얻을 수 있는 추가 기회를 찾아야 합니다.

예시

보수 행렬에 의해 주어진 게임을 고려하십시오:

.

안장점이 있는지 확인합니다.

, .

보수 행렬에는 안장점이 없고 분포되지 않은 차이는 다음과 같습니다.

.

5.4. 최적의 혼합 전략 찾기

2×2 게임용

차원이 있는 보수 행렬에 대한 최적 혼합 전략의 결정은 두 변수의 함수의 최적점을 찾는 방법으로 수행됩니다.

플레이어 I이 보수 행렬의 첫 번째 행을 선택할 확률을

와 동등하다 . 그러면 두 번째 행을 선택할 확률은 입니다.

플레이어 II가 첫 번째 열을 선택할 확률은 와 같습니다. 그러면 두 번째 열을 선택할 확률은 입니다.

플레이어 II가 플레이어 I에게 지불한 금액은 다음과 같습니다.

플레이어 I의 이득과 플레이어 II의 손실의 극한값은 다음 조건에 해당합니다.

;

.

따라서 플레이어 I과 II의 최적 혼합 전략은 각각 다음과 같습니다.

5.5. 2× 게임의 기하학적 솔루션N

보수 행렬의 차원이 ~에서 증가함에 따라 최적 혼합 전략의 정의를 두 변수의 최적 기능을 찾는 것으로 축소하는 것이 더 이상 불가능합니다. 그러나 플레이어 중 한 명이 두 가지 전략만 가지고 있는 경우 기하학적 솔루션을 사용할 수 있습니다.

게임에 대한 솔루션을 찾는 주요 단계는 다음과 같습니다.

평면의 좌표계를 소개합니다. 축에 선분을 넣어 봅시다. 이 세그먼트의 왼쪽과 오른쪽 끝에서 수직선을 그립니다.


단위 세그먼트의 왼쪽 및 오른쪽 끝은 두 가지 전략 및 에 해당하며 플레이어 I이 사용할 수 있습니다. 그려진 수직선에서 이 플레이어의 보수를 연기합니다. 예를 들어 보수 행렬의 경우


전략을 선택할 때 플레이어 I의 그러한 보수는 and가 될 것이고, 전략을 선택할 때 그들은 and가 될 것입니다.

플레이어 II의 전략에 해당하는 플레이어 I의 페이오프 포인트를 직선 세그먼트로 연결해 보겠습니다. 그런 다음 아래에서 차트를 경계로 하는 형성된 파선이 플레이어 I의 보수에 대한 하한을 결정합니다.



플레이어 I에 대한 최적의 혼합 전략 찾기

,

이것은 최대 세로 좌표를 가진 플레이어 I의 보수의 아래쪽 경계에 있는 점에 해당합니다.

고려 중인 예에서 두 가지 전략 및 만 사용하여 플레이어 I의 보수의 하단 경계에서 발견된 점에서 교차하는 직선에 해당하는 플레이어 II는 플레이어 I이 더 큰 수익을 얻는 것을 방지할 수 있다는 사실에 주목합시다. 지불.

따라서 게임은 게임으로 축소되고 고려 중인 예에서 플레이어 II의 최적 혼합 전략은 다음과 같습니다.

,

여기서 확률은 게임과 동일합니다.

5.6. 게임 해결× N

매트릭스 게임에 순수 전략에 대한 솔루션이 없고(즉, 안장점이 없음) 보수 매트릭스의 큰 차원으로 인해 그래픽으로 해결할 수 없는 경우 솔루션을 얻으려면 다음을 사용하십시오. 방법 선형 프로그래밍 .

차원의 보수 행렬이 주어집니다.

.

확률을 찾아야 합니다 , 이 혼합 전략이 플레이어 II의 이동 선택에 관계없이 최소한 의 보수를 보장하기 위해 어떤 플레이어와 함께 그의 이동을 선택해야 합니다.

플레이어 II가 선택한 각 이동에 대해 플레이어 I의 보상은 종속성에 의해 결정됩니다.

우리는 부등식의 양쪽을 다음과 같이 나누고 새로운 표기법을 도입합니다.

평등

다음과 같은 형식을 취합니다.

플레이어 I은 보수를 최대화하고 싶기 때문에 그 역수는 최소화해야 합니다. 그런 다음 플레이어에 대한 선형 계획법 문제는 다음 형식을 취합니다.

제한하에

플레이어 II에 대한 문제는 유사하게 이중 문제로 구성됩니다.

제한하에

심플렉스 방법으로 문제를 해결하면 다음을 얻습니다.

,

5.7. 매트릭스 게임 해결의 특징

최적의 전략을 찾는 문제를 해결하기 전에 두 가지 조건을 확인해야 합니다.

지불 매트릭스를 단순화할 수 있습니까?

보수 매트릭스에 안장점이 있습니까?

지불 매트릭스를 단순화할 수 있는 가능성을 고려하십시오.

내가 얻고자 하는 선수 때문에 가장 큰 승리, 다음 관계가 다른 -번째 라인에 만족되면 그는 이 이동을 사용하지 않을 것이기 때문에 -번째 라인은 보수 행렬에서 삭제할 수 있습니다.

유사하게, 최소 손실을 위해 노력하는 플레이어 II는 이동으로 보수 행렬의 -번째 열을 선택하지 않을 것이며, 다음 관계가 다른 -번째 열과 유지되는 경우 이 열을 지울 수 있습니다.

최대 간단한 솔루션게임은 다음 조건(정의에 따라)을 충족하는 안장점의 단순화된 보수 행렬에 존재합니다.

예시

지불 매트릭스가 주어졌을 때:

.

지불 매트릭스의 단순화:

안장 포인트의 존재:

5.8. 자연과 놀기

게임 이론의 문제와 달리 통계적 결정 이론의 문제 불확실한 상황은 적대적 갈등을 띠지 않으며 일반적으로 "자연" .

자연이 있는 매트릭스 게임에서 플레이어 II는 의사 결정의 효율성에 영향을 미치는 일련의 불확실한 요소입니다.

자연이 있는 매트릭스 게임은 플레이어 I이 최적의 전략을 선택할 때 플레이어 II가 손실을 최소화하기 위해 노력한다는 사실에 더 이상 의존할 수 없다는 점에서만 일반 매트릭스 게임과 다릅니다. 따라서 보수 매트릭스와 함께 다음을 소개합니다. 위험 매트릭스 :

조건에서 이동을 사용할 때 플레이어 I의 위험 값은 어디와 같습니까? 그 선수가 조건이 성립될 것이라는 것을 알았다면 내가 받았을 보수, 즉 , 그리고 그가 받게 될 보수 , 조건이 확립될 이동을 선택할 때 알지 못합니다.

따라서 보수 행렬은 고유하게 위험 행렬로 변환되며 역 변환은 모호합니다.

예시

승리 매트릭스:

.

위험 매트릭스:

가능한 두 가지 문제 진술 솔루션 선택에 대해 자연과 함께하는 매트릭스 게임에서 :

이익 극대화;

위험 최소화.

결정 문제는 다음 두 가지 조건 중 하나로 설정할 수 있습니다.

- 위험 자연 전략의 확률 분포 함수가 알려진 경우, 예를 들어 제안된 특정 경제 상황 각각의 발생 확률 변수;

- 불확실한 상황에서 그러한 확률 분포 함수를 알 수 없는 경우.

5.9. 통계 솔루션 이론의 문제 해결

위험

위험에 처한 결정을 내릴 때 플레이어는 확률을 알고 있습니다. 자연 상태의 시작.

그런 다음 플레이어 I은 다음을 위한 전략을 선택하는 것이 편리합니다. 선을 따라 취한 보수의 평균값은 최대값입니다. :

.

이 문제를 위험 매트릭스로 해결할 때 다음과 같은 동일한 솔루션을 얻습니다. 최소 평균 위험 :

.

5.10. 통계 솔루션 이론의 문제 해결

불확실한 상황에서

불확실한 상황에서 결정을 내릴 때 다음을 사용할 수 있습니다. 기준 :

Wald의 최대 기준;

Savage의 최소 위험 기준;

비관론의 기준 - Hurwitz의 낙관론;

라플라스의 불충분이성의 원리.

고려하다 최대 Wald 기준 .

자연과의 게임은 합리적인 공격적인 상대와 마찬가지로 진행됩니다. 즉, 보수 매트릭스에 대한 극단적인 비관주의의 위치에서 재보험 접근이 수행됩니다.

.

고려하다 Savage 최소 위험 기준 .

위험 매트릭스에 대한 극단적인 비관론의 입장에서 이전 접근 방식과 유사:

.

고려하다 비관론의 기준 - Hurwitz 낙관론 .

그것은 극단적인 비관주의나 극단적인 낙관주의에 이끌리지 않을 기회를 제공합니다.

비관의 정도는 어디입니까?

~에서 극도의 낙관론,

~에서 - 극도의 비관주의.

고려하다 라플라스의 불충분이성의 원리 .

모든 자연 상태의 확률은 동일하다고 가정합니다.

,

.

다섯 번째 섹션에 대한 결론

2명의 플레이어가 매트릭스 게임에 참여하며, 지는 플레이어가 승자에게 지불할 금액을 결정하는 역할을 하는 페이오프 함수를 페이오프 매트릭스로 표현한다. 플레이어 I은 보수 행렬 행 중 하나를 이동으로 선택하고 플레이어 II는 열 중 하나를 선택하는 데 동의했습니다. 그런 다음 이 행렬의 선택된 행과 열의 교차점에서 수치플레이어 II에서 플레이어 I에게 지불(이 값이 양수이면 플레이어 I가 실제로 이겼고 음수이면 플레이어 II가 본질적으로 이겼습니다).

보수 행렬에 안장점이 있는 경우 플레이어는 최적의 순수 전략을 갖게 됩니다. 안장점이 없는 경우 승리하기 위해 각각은 최적의 혼합 전략, 즉 최적의 확률로 수행되어야 하는 혼합 이동을 사용해야 합니다.

2×2 게임에 대한 최적의 혼합 전략을 찾는 것은 잘 알려진 공식을 사용하여 최적의 확률을 계산하여 수행됩니다. 2×n 게임의 기하학적 솔루션을 사용하여 최적의 혼합 전략의 결정은 2×2 게임에 대한 최적의 혼합 전략을 찾는 것으로 축소됩니다. m×n 게임을 풀기 위해 선형 계획법을 사용하여 최적의 혼합 전략을 찾습니다.

일부 보수 매트릭스는 단순화에 적합하며, 그 결과 유망하지 않은 움직임에 해당하는 행과 열을 제거하여 차원이 축소됩니다.

플레이어 II가 객관적인 현실에 의존하고 적대적인 갈등 착색이없는 불확실한 요소의 집합이라면 그러한 게임을 자연이있는 게임이라고하며 통계 결정 이론의 문제를 사용하여 해결합니다. 그런 다음 보수 매트릭스와 함께 위험 매트릭스가 도입되고 자연이 있는 매트릭스 게임에서 솔루션을 선택하는 문제의 두 가지 공식이 가능합니다: 이득 최대화 및 위험 최소화.

위험 조건에서 통계적 결정 이론의 문제를 해결하면 플레이어 I이 평균 값( 기대값) 보수 행렬의 라인에서 취한 보수가 최대이거나 (동일함) 위험 행렬의 라인에서 취해진 위험의 평균 값(수학적 기대치)이 최소입니다. 불확실한 상황에서 결정을 내릴 때 다음 기준이 사용됩니다. Wald의 최대 기준, Savage의 최소 위험 기준, Hurwitz의 비관-낙관 기준, Laplace의 불충분한 이성의 원칙.

자가 진단을 위한 질문

게임 이론의 기본 개념인 이동, 전략 및 보수 기능은 어떻게 정의됩니까?

행렬 게임에서 보수 함수는 어떻게 표현됩니까?

행렬 게임을 제로섬이라고 하는 이유는 무엇입니까?

매트릭스 게임을 하는 과정은 무엇입니까?

m×n 게임이라고 하는 게임은 무엇입니까?

최적의 매트릭스 게임 전략은 무엇입니까?

순수라는 매트릭스 게임에 대한 최적의 전략은 무엇입니까?

보수 매트릭스의 안장점은 무엇을 의미합니까?

혼합이라는 매트릭스 게임에 대한 최적의 전략은 무엇입니까?

플레이어의 혼합 전략은 무엇입니까?

혼합 전략을 선택한 플레이어 II가 플레이어 I에게 주는 보상은 무엇입니까?

어떤 혼합 전략을 최적이라고 합니까?

분산되지 않은 차이는 무엇을 의미합니까?

2×2 게임을 위한 최적의 혼합 전략을 찾는 데 사용되는 방법은 무엇입니까?

2×n 게임에 대한 최적의 혼합 전략을 찾는 방법은 무엇입니까?

m×n 게임에 대한 최적의 혼합 전략을 찾는 데 사용되는 방법은 무엇입니까?

매트릭스 게임을 푸는 특징은 무엇입니까?

지불 매트릭스 단순화는 무엇을 의미하며 어떤 조건에서 구현할 수 있습니까?

보수 행렬에 안장점이 있거나 없을 때 어떤 행렬 게임이 더 풀기 쉬울까요?

게임 이론의 어떤 문제가 통계적 결정 이론의 문제와 관련되어 있습니까?

보수 매트릭스는 어떻게 위험 매트릭스로 변환됩니까?

자연과의 매트릭스 게임에서 해를 선택하는 문제에 대한 두 가지 공식은 무엇입니까?

자연과의 매트릭스 게임에서 의사 결정 문제를 설정할 수 있는 두 가지 조건은 무엇입니까?

위험에 처한 통계적 의사결정 이론의 문제를 풀 때 참가자 I이 선택하는 전략은 무엇입니까?

불확실성 하에서 통계적 의사결정 이론의 문제를 풀 때 어떤 의사결정 기준을 사용할 수 있습니까?

문제 해결의 예

1. 지불 매트릭스는 판매시 기업의 이익 금액을 나타냅니다. 다른 유형확립된 수요(행)에 따라 제품(열). 다양한 유형의 제품 생산을 위한 기업의 최적 전략과 판매로 인한 최대 (평균) 수입을 결정하는 것이 필요합니다.

주어진 행렬을 로 표시하고 변수를 도입합니다. 우리는 또한 행렬(벡터)을 사용할 것입니다. 그런 다음 , 즉 .

역행렬이 계산됩니다.

값은 다음과 같습니다.

.

확률은 다음과 같이 계산됩니다.

판매로 인한 평균 수입은 다음과 같이 결정됩니다.

.

2. 회사 "Pharmatsevt"-이 지역의 의약품 및 생물 의학 제품 제조업체. 일부 의약품에 대한 수요가 최고조에 달하는 것으로 알려져 있습니다. 여름 기간(심혈관계 약물, 진통제), 가을과 봄 기간 동안 (항염제, 진해제).

1전환당 비용 단위 9 월-10 월 제품은 다음과 같습니다. 첫 번째 그룹 (심혈관 약물 및 진통제) - 20 루블; 두 번째 그룹 (항 감염성, 진해제) - 15 루블.

여러 차례 관찰한 결과 최근 몇 년회사의 마케팅 서비스는 따뜻한 날씨 조건을 고려하여 두 달 동안 3050개의 재래식 유닛을 판매할 수 있음을 발견했습니다. 단위 첫 번째 그룹의 제품과 1100 전환수 단위 두 번째 그룹의 제품; 추운 날씨 조건에서 - 1525 arb. 단위 첫 번째 그룹의 제품과 3690 전환수 단위 두 번째 그룹.

가능한 날씨 변화와 관련하여 임무는 40 루블의 판매 가격으로 판매에서 최대 수입을 제공하는 제품 생산에 대한 회사의 전략을 결정하는 것입니다. 전환수 1회 단위 첫 번째 그룹과 30p의 제품. - 두 번째 그룹.

해결책. 회사에는 두 가지 전략이 있습니다.

올해는 날씨가 따뜻할 것입니다.

날씨가 쌀쌀하겠습니다.

회사가 전략을 채택하고 날씨가 실제로 따뜻하면(자연의 전략), 제조된 제품(첫 번째 그룹의 약 3050 재래식 단위 및 두 번째 집단의 재래식 단위 1100 단위)이 완전히 실현되고 수입이 be

3050×(40-20)+1100×(30-15)=77500 r.

선선한 날씨 (자연의 전략) 조건에서 두 번째 그룹의 약물은 전체 판매되고 첫 번째 그룹은 1525 재래식 단위의 양으로 만 판매됩니다. 단위 일부 약품은 판매되지 않습니다. 수입은

1525×(40-20)+1100×(30-15)-20×()=16500 r.

유사하게, 양식이 전략을 채택하고 날씨가 실제로 춥다면 수익은

1525×(40-20)+3690×(30-15)=85850 r.

따뜻한 날씨에 수입은

1525×(40-20)+1100×(30-15)-()×15=8150 r.

회사와 날씨를 두 선수로 고려하여 보수 매트릭스를 얻습니다.

,

게임의 가격은 범위에 있습니다

보수 매트릭스에서 모든 조건에서 회사의 수입은 최소 16,500루블이지만 기상 조건이 선택한 전략과 일치하면 회사의 수입은 77,500루블이 될 수 있음을 알 수 있습니다.

게임에 대한 해결책을 찾자.

기업이 전략을 적용할 확률을 , 전략을 통해 , 로 나타내자. 게임을 그래픽으로 풀면 다음을 얻습니다. , 게임 r의 가격 동안.

의약품 생산을 위한 최적의 계획은

따라서 회사는 9월과 10월에 2379개의 재래식 장치를 생산하는 것이 편리합니다. 단위 첫 번째 그룹의 약물 및 2239.6 기존 단위. 단위 두 번째 그룹의 마약을 사용하면 어떤 날씨에도 그녀는 최소 46,986 루블의 수입을 받게됩니다.

불확실한 상황에서 회사가 혼합 전략(타 조직과의 계약)을 사용할 수 없는 경우 다음 기준을 사용하여 회사의 최적 전략을 결정합니다.

발데 기준:

Hurwitz 기준: 명확성을 위해 , 다음으로 회사의 전략에 대해 승인합니다.

전략을 위해

회사가 전략을 사용하는 것이 좋습니다.

야만인의 기준. 첫 번째 열의 최대 요소는 77500이고 두 번째 열의 최대 요소는 85850입니다.

위험 매트릭스의 요소는 다음 식에서 찾을 수 있습니다.

,

어디 , ,

위험 매트릭스는 다음과 같은 형식을 갖습니다.

,

전략 또는 를 사용하는 것이 좋습니다.

따라서 기업이 전략이나 을 적용하는 것이 좋습니다.

고려된 각 기준은 최종 결정 선택에 대해 상당히 만족스러운 것으로 간주될 수 없지만 공동 분석을 통해 특정 관리 결정을 내리는 결과를 보다 명확하게 제시할 수 있습니다.

~에 알려진 분포다양한 자연 상태의 확률에서 결정을 내리는 기준은 보수의 수학적 최대 기대치입니다.

따뜻한 날씨와 추운 날씨의 확률이 0.5와 같을 때 고려 중인 문제에 대해 알면 회사의 최적 전략은 다음과 같이 결정됩니다.

기업이 전략을 사용하는 것이 좋습니다.

독립적인 작업을 위한 작업

1. 기업은 세 가지 유형의 제품(A, B, C)을 생산하면서 수요에 따라 이윤을 얻을 수 있습니다. 수요는 차례로 네 가지 상태(I, II, III 및 IV) 중 하나를 취할 수 있습니다. 다음 매트릭스에서 요소는 -번째 제품과 -번째 수요 상태를 출시할 때 기업이 받게 될 이익을 특성화합니다.

플레이어 A의 혼합 전략 SA는 확률이 p1, p2, ..., pi, ..., pm인 순수 전략 A1, A2, ..., Am의 사용이며 확률의 합은 1입니다. : 플레이어 A의 혼합 전략은 행렬 또는 문자열로 작성됩니다. SA = (p1, p2, ..., pi, ..., pm) 마찬가지로 플레이어 B의 혼합 전략은 다음과 같이 표시됩니다. , 또는, SB = (q1, q2, ..., qi, ..., qn ), 여기서 전략 발생 확률의 합은 1입니다. 순수 전략은 혼합 전략의 특수한 경우로 간주될 수 있으며 다음으로 지정할 수 있습니다. 1이 순수 전략에 해당하는 문자열입니다. 미니맥스 원칙에 따라 게임의 최적 솔루션(또는 솔루션)이 결정됩니다. 이것은 일반적인 경우 혼합된 최적 전략 S*A , S*B이며 다음 속성을 가집니다. 플레이어 중 한 명이 준수하는 경우 그의 최적의 전략에 따라 다른 사람이 그의 전략에서 벗어나는 것은 이익이 될 수 없습니다. 최적 솔루션에 해당하는 보수를 게임의 가치 v라고 합니다. 게임의 가격은 다음과 같은 부등식을 만족합니다. ? V? ? (3.5) 어디? 그리고? - 게임의 낮은 가격과 높은 가격. 게임 이론의 다음 주요 정리는 유효합니다 - Neumann의 정리. 모든 유한 게임에는 혼합 전략 중에서 최소한 하나의 최적 솔루션이 있습니다. S*A = (p*1, p*2, ..., p*i, ..., p*m) 및 S*B = (q*1, q*2, ..., q* i, ..., q*n) - 한 쌍의 최적 전략. 확률이 0이 아닌 최적의 혼합 전략에 순수 전략이 포함되어 있으면 활성 전략이라고 합니다. 활성 전략에 대한 정리는 유효합니다. 플레이어 중 한 명이 최적의 혼합 전략을 고수하면 두 번째 플레이어가 활성 전략을 초과하지 않는 경우 보수가 변경되지 않고 게임 v의 비용과 동일하게 유지됩니다. 이 정리는 안장점이 없을 때 최적의 전략을 찾기 위한 특정 모델을 제공하므로 실용적으로 매우 중요합니다. 유한 게임의 가장 간단한 경우인 2×2 게임을 고려하십시오. 이러한 게임에 안장점이 있는 경우 최적의 솔루션은 해당 지점에 해당하는 한 쌍의 순수 전략입니다. 안장점이 없는 게임은 게임 이론의 주요 정리에 따라 최적의 솔루션이 존재하며 한 쌍의 혼합 전략 S*A = (p*1, p*2) 및 S*B = (q*에 의해 결정됩니다. 1, q*2) . 그것들을 찾기 위해 우리는 능동 전략에 대한 정리를 사용합니다. 플레이어 A가 최적의 전략 S "A를 고수한다면 그의 평균 보수활성 전략 플레이어 B가 사용하는 게임 v의 값과 같습니다. 2x2 게임의 경우 안장이 없으면 상대방의 순수 전략이 활성입니다. 플레이어 A가 이기다(플레이어 B가 진다) - 임의의 값, 수학적 기대값(평균값)이 게임의 가격입니다. 따라서 플레이어 A(최적 전략)의 평균 보수는 상대방의 첫 번째 전략과 두 번째 전략 모두에 대해 v와 같습니다. 플레이어 A가 최적의 혼합 전략을 사용하고 플레이어 B가 순수 전략 B1(이는 지불 행렬 P의 첫 번째 열에 해당)을 사용하는 경우 게임이 보수 행렬에 의해 주어집니다. 게임 가격 v: a11 p*1+ a21 p*2 = v. 두 번째 플레이어가 전략 B2를 사용하는 경우 플레이어 A는 동일한 평균 보수를 받습니다. a12 p*1+ a22 p*2= v. p * 1 + p * 2 \u003d 1을 고려하여 최적 전략 S "A와 게임 v의 가치를 결정하기 위한 방정식 시스템을 얻습니다. (3.6) 이 시스템을 풀면 최적의 전략을 얻습니다( 3.7) 및 게임의 가치 (3.8) SВ*를 찾을 때 활성 전략에 대한 정리 적용 - 플레이어 B의 최적 전략, 우리는 플레이어 A(A1 또는 A2)의 모든 순수 전략에 대해 플레이어 B의 평균 손실을 얻습니다. 는 게임 v의 가격과 같습니다. 즉, (3.9) 최적의 전략은 다음 공식에 의해 결정됩니다. (3.10)



이 소식을 먼저 읽은 사람들이 있습니다.
최신 기사를 받으려면 구독하십시오.
이메일
이름
당신은 벨을 어떻게 읽고 싶습니까?
스팸 없음