3.3 Ймовірність у статистиці

Наступні розділи не стосуватимуться різноманітних статистичних тестів, адже їх існує безліч. Варто розуміти, що не існує універсального рецепту до статистичного аналізу даних, а формулювання на кшталт “зробити якусь статистику для моїх даних” є ґрунтовно помилковим. Підходи до статистичного аналізу завжди випливають від дослідницького питання і адекватно поставлених гіпотез, а недалеким від правди є твердження, що для кожного дослідження є свій аналіз.

Критичним є розуміння понять, котрими оперує статистичний аналіз і котрі використовують всілякі статистичні тести. В наступних розділах буде описано ймовірність як підґрунтя статистичного аналізу (цей розділ), розподіли ймовірності, тестування гіпотез, поняття статистичних моделей, та використання статистики для умовиводу та передбачення.

3.3.1 Ймовірність

Теорія ймовірності може видатись інтуїтивно зрозумілою до певної міри. Центральним поняттям її є, звісно, ймовірність (probability), для розуміння котрої необхідно окреслити поняття випадкового експерименту (trial) і випадкової події (event).

Випадковий експеримент є передмовою випадкової події. Наприклад, аби випав аверс, монету необхідно підкинути. Підкидання монети є випадковим експериментом, котрий може призвести до однієї із двох можливих випадкових подій: (1) випадає аверс, або (2) випадає реверс. Якщо ж монету не підкинути, то не станеться й випадкова подія.

Приклад монети завжди є доволі зручним, адже він інтуїтивний, простий, і зрозумілий. Очевидно, випадкові експерименти можуть бути набагато складнішими, а кількість альтернативних результуючих подій може бути незліченною.

У прикладі із монетою питання полягає в тому, яка є ймовірність події (1), тобто випадання аверсу, або події (2), себто випадання реверсу. Інтуїтивною відповіддю буде “50-на-50”, але це не є правильною відповіддю, адже ми не можемо знати це непевне. Що, наприклад, якщо вага монети незбалансована? Аби знайти відповідь на це питання, найпростішим підходом буде підкинути монетку безкінечну кількість разів і порахувати частоту випадання, скажімо, аверсу. Ця частота і буде ймовірністю.

Звісно, в реальності неможливо підкинути монету безліч разів, тому таке чисельне визначення ймовірності є суто теоретичним. Однак, якщо провести експеримент багато разів, це дозволить знайти приблизне значення шуканої ймовірності. Скоріш за все, воно буде близьким до \(P(аверс) \approx 0.5\). А якщо читач має добре підґрунтя в статистиці, то навіть знайдеться тест для перевірки чесності монети: звісно, що після багатьох підкидань спостережена частота аверсу може відрізнятись від \(0.5\) і становити, скажімо, \(0.498\). Так от, різниця \(0.5 - 0.498 = 0.002\) за певного розміру вибірки буде значущою (тобто монета нечесна) або ні.

Очевидно, що ймовірність не може бути від’ємною, а найменше її значення становить \(0\). В такому випадку (\(P = 0\)), випадкова подія не станеться навіть якщо випадковий експеримент буде відтворено безкінечну кількість разів. З іншого боку, ймовірність \(1\) вказує на те, що випадкова подія станеться за кожного експерименту. Зазвичай, значення ймовірності знаходиться десь в інтервалі між цими двома екстремальними значеннями.

В багатьох випадках, не потрібно мати монету в руках аби зрозуміти ймовірності подій. Щоправда, системи таких подій часто є набагато складнішими. Наприклад, що якщо є дві монетки? Простір можливих подій тоді стає більшим, адже тепер може випасти два аверса, два реверса, або аверс і реверс. Якими є ймовірності цих подій, якщо підкидання монети є незалежним від підкидання іншої монети, і обидві монети є чесними (тобто очікувана ймовірність випадіння аверсу дорівнює \(0.5\))?

Оскільки монет є дві, існує декілька сценаріїв розвитку подій: (1) монета 1 випадає на аверс і монета 2 випадає на аверс, (2) монета 1 випадає на аверс і монета 2 випадає на реверс, (3) монета 1 випадає на реверс і монета 2 випадає на аверс, або (4) монета 1 випадає на реверс і монета 2 випадає на реверс. То якими є ймовірності трьох (аверс-аверс, реверс-реверс, аверс-реверс) випадкових подій згаданих вище?16

Ми бачимо як проста монетка може генерувати доволі складні ймовірнісні ситуації – а що ж тоді буде зі звичайними гральними кубиками? А якщо ми візьмемо до уваги щось складніше на кшталт набору кубиків до Підземелля й Драконів із їх 4-, 6-, 10-, 12-, і 20-гранними костями? В таких випадках простори ймовірності стають дедалі складнішими. І всі ці випадки є дискретними (discrete), в яких будь-яку подію можна описати неподільним одиничним значенням (з підкидання монетки може випасти або аверс, або реверс – ми маємо тільки два можливих значення), на відміну від неперевних, або континуальних (continuous) змінних (які можна описати дійсними числами).

Що таке ймовірнісний простір? Строго кажучи, ймовірнісний простір (probability space) – це формальна модель випадкового експерименту. У випадку з одним підкиданням монетки, його можна поділити на наступні елементи:

  • простір елементарних подій (\(\Omega\), sample space) – множина, яка описує всі можливі варіанти випадкової події: \(\{аверс, реверс\}\);

  • асоційована сигма-алгебра (\(\sigma\), event space) – якщо простими словами, то це така множина, яка включає в себе всі можливі підмножини \(\Omega\);

  • ймовірності подій (\(P\), probability) – визначені для елементарних подій значення ймовірностей, наприклад: \(P(аверс) = 0.5, P(реверс) = 0.5\).

Для прикладу з монеткою асоційована сигма-алгебра \(\sigma = \{\{аверс\}, \{реверс\}, \{аверс, реверс\}, \{\emptyset\}\}\), і в повному вигляді ймовірності подій складатимуть \(P(аверс) = 0.5, P(реверс) = 0.5, P({аверс, реверс}) = 0, P(\emptyset) = 0\).

Аксіоматично, ймовірність можна визначити наступним чином: для простору елементарних подій \(S\) й асоційованої сигма-алгебри множин \(\mathbb{B}\), функція ймовірності \(P\) із доменом \(\mathbb{B}\) задовільняє наступні вимоги

  1. \(P(A) \geq 0 \text{ } \forall \text{ } A \in \mathbb{B}\) (тобто ймовірність будь-якої події \(A\) в просторі елементарних подій більше або дорівнює нулю),

  2. \(P(S) = 1\) (тобто ймовірність цілого простору подій дорівнює одиниці),

  3. якщо cкінченні події \(A_1, A_2, A_3, \cdots \in \mathbb{B}\) є взаємовиключними (\(A_i \cap A_j = \emptyset \forall i \neq j\)), тоді \(P(\cup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} P(A_i)\) (тобто ймовірність всіх цих подій дорівнює сумі ймовірностей цих окремих подій).

В такому випадку, уявімо наступне: (1) \(S = \{S_1, S_2, \cdots, \S_n\}\), (2) \(\mathbb{B}\) – асоційована із \(S\) сигма-алгебра, (3) \(p_1, p_2, \cdots, p_n\) – не-негативні числа із сумою \(\sum_{i=1}^n p_i = 1\), і (4) для всякої події \(A \in \mathbb{B}\) визначимо \(P(A) = \sum_{i:S_i \in A}(p_i)\). Тоді \(P\) можна назвати ймовірнісною функцією визначеною в \(\mathbb{B}\) якщо вона відповідає вимогам аксіоматичного визначення ймовірності (див. вище). Із такого визначення випливають наступні наслідки:

  1. \(P(\emptyset) = 0\): ймовірність нульової множини (тобто відсутності події) становить нуль, якщо монетку вже підкинуто, то станеться або аверс, або реверс;
  2. \(P(A) \leq 1\): ймовірність події не може бути більшою за одиницю;
  3. \(P(A^c) = 1 - P(A) \Leftrightarrow P(A) + P(A^c) = 1 \Leftrightarrow A \cup A^c = S\): ймовірність комплементу події зворотно пов’язана із ймовірністю цієї події (якщо ймовірність викинути аверс становить \(0.3\), то ймовірність комплементу – тобто не викинути аверс – становить \(1-0.3\));
  4. \(P(B \cap A^c) = P(B) - P(B\cap A)\) (з цього моменту пояснювати вербально стає складніше, читачу варто побавитись із колами Ейлера аби уявити про що йдеться);
  5. \(P(B \cup A) = P(B) + P(A) - P(B\cap A)\);
  6. \(A \subset B\), \(P(A) \leq P(B)\);
  7. \(P(B \cap A) \geq P(B) + P(A) - 1\).

Коли йдеться про ймовірності, дуже важливим моментом є незалежність подій (independence) і пов’язані поняття. Дві події, \(A\) і \(B\), вважаються незалежними якщо \(P(A \cap B) = P(A) P(B)\). Якщо \(A \cap B = \emptyset\), тобто ці події не мають жодних спільних елементів в просторі елементарних подій, то такі події можна описати як взаємовиключні (mutually exclusive; наприклад, одне підкидання монетки). Скінченна множина подій є попарно незалежною (pairwise independence) якщо для всіх пар справджується наступне: \(P(A_i \cap A_j) = P(A_i)P(A_j)\). Якщо ж кожна подія в множині незалежна від будь-яких перетинів всіх інших подій: \(P(\cap_{j=1}^k A_{i_j}) = \prod_{j=1}^k P(A_{i_j})\), тоді такі події можна назвати взаємонезалежними (mutually independent).

3.3.2 Теорема Баєса

Уявімо дві події, \(A\) і \(B\), котрі належать до \(S\) (\(\{A, B\} \in S\)), і, скажімо, \(P(B) > 0\). Тоді ми можемо означити умовну ймовірність (conditional probability) події \(A\) за того, що подія \(B\) відбулась: \(P(A|B) = \frac{P(A \cap B)}{P(B)}\). Це доволі нескладно осягнути інтуїтивно. Скажімо, ми підкидаємо дві чесні монетки по черзі: \(B\) позначає випадіння аверса з першою монеткою, \(A\) позначає другий аверс. В цілому експерименті може статись чотири різні варіанти: аверс-аверс, аверс-реверс, реверс-аверс, і реверс-реверс. Ймовірність пари “аверс-аверс” складає \(P(A \cap B) = 1/4\). Ймовірність просто викинути реверс із першою монеткою становить \(P(B) = 1/2\). Тоді якщо ми припустимо, що перша монетка поверне аверс, ймовірність того що й друга монетка випаде на аверс становить \(P(A | B) = \frac{1/4}{1/2} = 1/2\).

Якщо ми знаємо, що \(P(A)>0\), тоді можна побачити що \(P(B|A) = \frac{P(B \cap A)}{P(A)} = \frac{P(A | B)P(B)}{P(A)}\). Отже, \(P(B|A)P(A)=P(A|B)P(B)=P(A \cap B)\). Якщо продовжувати бавитись із підстановками в цих рівняннях, то вийде що \(P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B|A) P(A)}{P(B)} = \frac{P(B|A)P(A}{P(B \cap A) + P(B \cap A^c)} = \frac{P(B|A)P(A)}{P(B|A) P(A) + P(B|A^c)P(A^c)}\), що зветься Баєсівським правилом умовних ймовірностей і призводить до теореми Баєса (Bayes theorem).

Уявімо що \(\{A_1, A_2, A_3, \cdots\}\) є поділом простору \(S\) (\(A_i \cap A_j = \emptyset \forall i \neq j\), \(\cup_{k=1}^{\infty} A_k = S\)). Уявіть будь-яку множину \(B\). Тоді

\[P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum_{k=1}^{\infty}[P(B|A_k)P(A_k)]}\]

Певною мірою, цю теорему нескладно зрозуміти інтуїтивно, але іноді може видаватись навпаки. Для простого прикладу, уявімо що ми маємо список студентів з двох різних груп. В групі \(A\) сумарно 80 студентів: 60 жінок і 20 чоловіків; в групі \(B\) – 20 студентів, десятеро жінок і десятеро чоловіків. Ви обираєте випадкову особу із цих двох груп і бачите, що це чоловік. Які ймовірності того, що цей студент походить із певної групи? Ми бачимо що ймовірність обрати чоловіка з групи \(A\) складає \(P(male|A) = 20/(60+20) = 1/4\), в той час як в групі \(B\)\(P(male|B) = 10/(20+20) = 1/2\). Але в той же час ймовірність обрати випадкову особу із групи \(A\) становить \(P(A) = 80/(80+20) = 4/5\), в той час як з групи \(B\)\(P(B) = 20/(80+20) = 1/5\), і ми маємо врахувати ці ймовірності коли оцінюємо шукану ймовірність того, що наш студент походить із групи \(A\). Так, в цій групі небагато чоловіків, але й розмір групи великий, тож випадкова особа набагато ймовірніше потрапила із групи \(A\)! Але навіть без оцінки всіх цих дрібних ймовірностей, у цілій вибірці сумарно \(30\) чоловіків: \(20\) походять із групи \(A\), \(10\) – із групи \(B\). Отже, ймовірність обрати чоловіка із групи \(A\) становитиме \(20/30\), із групи \(B\)\(10/30\). Ймовірності так само співпадають, наприклад, \(P(A|male) = \frac{P(male|A)P(A)}{P(male|A)P(A) + P(male|B)P(B)} = \frac{(20/80) \cdot (80/100)}{(20/80) \cdot (80/100) + (10/20) \cdot (20/100)} = \frac{0.2}{0.2+0.1}=2/3\).

Хоча й ця теорема не здається надто складною, вона надає цікавий погляд на процеси пізнання світу й статистичний умовивід. Одним із знаменитих прикладів є наступний уявний експеримент. Пацієнт здав кров на аналіз на якусь відносно непоширену хворобу (на неї хворіють, скажімо, \(1\%\) популяції), і, на жаль, отримав позитивний результат. Чи це означає що наш пацієнт дійсно хворий на цю хворобу? Адже тести можуть помилятися. Відповідь, звісно, залежить від конкретних чисел, але, в цілому, нашому пацієнтові рано хнюпити носа. Скажімо, наш тест має точність \(95\%\) в позитивних випадках (тобто із \(20\) хворих пацієнтів один отримає негативний тест – отже, частота хибно-негативних результатів складає \(5\%\)). Мало того, зрідка тест може помилятись і з негативними пацієнтами: наприклад, кожен десятий здоровий пацієнт отримає хибно-позитивний результат (частота хибно-позитивних результатів становить \(10\%\)). Відтак, як би ситуація погано не виглядала для нашого пацієнта, яка ситуація є більш ймовірною: (1) пацієнт належить до \(1\%\) всієї популяції і дійсно хворіє, тож тест надав істинний результат (ймовірність якого \(95\%\)), або (2) пацієнт належить до \(99\%\) популяції і є здоровим, а тест надав хибний результат (ймовірність чого \(10\%\))? Спробуйте застосувати теорему Баєса для оцінки цих постеріорних17 ймовірностей цих двох сценаріїв. (Іноді мені й самому потрібно задуматись із тим, куди у формулі підставляти котрі числа, тож, мабуть, вирішення подібних задач вимагає практики). А життєвий урок із цієї задачі наступний: якою б не видавалась ймовірність події, потрібно завжди враховувати наявне пріорне знання.

Розберемо теорему на запчастини із цим прикладом. Уявімо весь наш простір ймовірностей, який представляє велику популяцію пацієнтів (наприклад, \(10000\) людей). У ньому апріорна ймовірність того, що випадковий пацієнт здоровий, складає \(P(\text{здоровий}) = 0.99\), й, відповідно, \(P(\text{хворий}) = 0.01\). Із опису якості тесту на захворювання ми знаємо, що із сотні хворих людей п’ятеро отримають хибно-негативний результат: \(P(\text{негативний|хворий}) = 0.05 \Leftrightarrow P(\text{позитивний|хворий}) = 0.95\). Водночас, коли ми перевіряємо здорових людей із цим не надто якісним тестом, то \(P(\text{негативний|здоровий}) = 0.9 \Leftrightarrow P(\text{позитивний|здоровий}) = 0.1\). Ми можемо прикинути розподіл пацієнтів за класами в такій десятитисячній популяції:

  • \(10000 \times P(\text{здоровий}) = 10000 \times 0.99 = 9900\) здорових людей, з яких

    • \(9900 \times P(\text{позитивний|здоровий}) = 9900 \times 0.1 = 990\) отримало позитивний тест,

    • \(9900 \times P(\text{негативний|здоровий}) = 9900 \times 0.9 = 8910\) отримало негативний тест,

  • \(10000 \times P(\text{хворий}) = 10000 \times 0.01 = 100\) хворих людей, з яких

    • \(100 \times P(\text{позитивний|хворий}) = 100 \times 0.95 = 95\) отримало позитивний тест,

    • \(100 \times P(\text{негативний|хворий}) = 100 \times 0.05 = 5\) отримало негативний тест.

В цій популяції \(990 + 95 = 1080\) отримало позитивний тест, але ми явно бачимо що із людей з позитивним тестом більше здорових, аніж хворих! Отож і нашому пацієнту є над чим задуматись коли навіть із позитивним тестом він набагато ймовірніше є здоровим, аніж хворим.

Отже, яка ймовірність того, що пацієнт із позитивним тестом є хворим? Запросто, \(95/1080 \approx 0.088\), в той час ймовірність що він здоровий становить \(990/1080 \approx 0.912\). Як бачимо, набагато простіше оперувати одиницями пацієнтів, хоча із канонічним застосуванням Баєсівської формули вийде ідентичний результат, ніби пацієнти поскорочувались в рівняннях. Наприклад,

\[ \begin{aligned} P(\text{здоровий|позитивний}) = \\ \frac{[P(позитивний|здоровий)] P(здоровий)}{[P(позитивний|здоровий) P(здоровий) + P(позитивний|хворий) P(хворий)]} = \\ \frac{[0.1] \cdot 0.99}{[0.1 \cdot 0.99 + 0.95 \cdot 0.01]} = 0.099/0.1085 \approx 0.912 \end{aligned} \]

3.3.3 Правдоподібність

Іноді Баєсівське правило уявляють наступним чином:

\[\text{(постеріорна ймовірність)} = \frac{\text{[правдоподібність]} \times \text{(пріорна ймовірність)}}{\text{[свідчення]}}\] З попереднього розділу можна здогадатись що постеріорна ймовірність (posterior) – це ота шукана ймовірність події за наявного пріорного (prior) знання. В прикладі із попереднього підрозділу пріорною ймовірністю була ймовірність того, що пацієнт здоровий. Ця ймовірність відображала об’єктивну реальність незалежно від результатів тесту. Свідчення ще називають відособленою правдоподібністю (marginal likelihood18), і воно відповідає оцьому дивному значенню \(0.1085\) із попереднього прикладу – найпростіший шлях то думати про це як про якесь нормалізуюче значення яке просто треба. У відображенні того прикладу із кількостями людей же те значення відповідало \(1080\)-тьом нещасним, котрі отримали позитивний результат тесту. Але що таке правдоподібність (likelihood)?

В попередньому прикладі на питання “отримав позитивний тест, чи пора вмирать?” можна відповісти без повного вирішення через Баєсівське рівняння. В ситуації (1) можна просто перемножити \(P(\text{позитивний|здоровий})P(\text{здоровий}) = 0.1 \cdot 0.99 = 0.099\), а в (2)\(P(\text{позитивний|хворий})P(\text{хворий}) = 0.95 \cdot 0.01 = 0.0095\). Оці два результуючі значення є правдоподібностями, які відповідають певним ситуаціям. В технічному сенсі, правдоподібність є ймовірністю, але ця ймовірність має зміст лише у визначених обмежених підпросторах події, тож про правдоподібність простіше думати як про якесь безрозмірне значення яке пропорційне ймовірності якоїсь події. У цьому прикладі, \(0.099 > 0.0095\), отже, ситуація (1) майже вдесятеро більш правдоподібна за ситуацію (2). Отже, шановний пацієнте, ні, ваш результат тесту за даного контексту ще не кінець світу.

Поняття правдоподібності дуже корисне в підборі параметрів моделі. Зазвичай, в статистиці задача аналізу вибірки полягає в оцінці якогось параметру, однак на цю задачу можна дивитись і з протилежного боку: як оцінити наскільки вибірка правдоподібна за певного параметру? Наприклад, уявіть результат багаторазового (скажімо, \(n = 10\)) підкидання монетки як якийсь вектор (наприклад, \(X = \{H, T, H, T, T, T, H, H, T, T\}\), або ж якщо випадіння аверсу позначити як одиницю, то \(X = \{1, 0, 1, 0, 0, 0, 1, 1, 0, 0\}\)). Окреме випадіння аверсу є подією із розподілу Бернулі (див. наступний розділ), яке описується ймовірністю одиночної події \(p\) (у нашому випадку – яка ймовірність випадіння аверсу за одного підкидання?). Приймемо функцію розподілу ймовірності (знову ж, дивись нижче що то таке) за \(f(x) = p^x (1-p)^{1-x}\) (\(x \in X\), тобто тут ми позначаємо окреме спостереження як \(x\) і вибірку як \(X\)), тоді функція правдоподібності відповідатиме виразу

\[\mathcal{L}(p|X) = \prod \limits_{i = 1}^n p^{x_i} (1 - p)^{1-x_i}\] Очевидно, що ця функція приймає на вхід якусь фіксовану вибірку \(X\) і пробігає по всіх можливим значенням параметру \(p\). Помічаєте як змінився підхід? Параметр вибірки не виглядає як якесь фіксоване значення, а радше як рухома ціль. Наше ж завдання – це знайти таке значення \(p\), \(\hat{p}\), за якого функція правдоподібності буде мати найбільше значення. Тоді ми можемо вважати оцінку (estimate) \(\hat{p}\) такою, за якої отримати нашу вибірку \(X\) видається най-правдоподібніше. Це іноді може бути непростим завданням для вирішення рівнянь, й до того ж значення правдоподібності дуже маленькі, особливо для малих вибірок (тому що ми множимо якісь значення ймовірностей \(p \leq 1\) знову і знову). Тут можна використати один простий трюк: взяти логарифм цілої функції. Це несуттєво вплине на пошук максимального значення функції, адже приріст логарифмованої функції завжди відбувається в тому ж напрямку, що й вихідної функції. І отож, ми можемо визначити функцію лог-правдоподібності:

\[\ln \mathcal{L}(p|X) = \ln \left( \prod \limits_{i = 1}^n p^{x_i} (1 - p)^{1-x_i} \right) = \ln p \sum \limits_{i=1}^n x_i + \ln (1-p) \sum \limits_{i=1}^n (1 - x_i)\]

Аби знайти максимум цієї функції, можна спробувати знайти таке значення, за якого похідна функції лог-правдоподібності становитиме нуль (тобто відсутність приросту функції – це має бути або її максимум, або її мінімум). Наразі немає необхідності влазити в подальші деталі розрахунків19, але після прирівняння похідної до нуля можна перебудувати рівняння таким чином, аби з одного боку рівняння було лише \(p\). Це рівняння відповідатиме оцінці максимальної правдоподібності, у нашому випадку,

\[\hat{p} = \frac{1}{n} \sum \limits_{i=1}^n x_i\]

Іронічно, у випадку розподілу Бернулі оцінка максимальної правдоподібності дорівнює середньому арифметичному, тож \(\hat{p} = 0.4\) для нашої вибірки \(X = \{1, 0, 1, 0, 0, 0, 1, 1, 0, 0\}\).

Найпростіше застосування методу пошуку оцінщика (estimator) максимальної правдоподібності застосовується в подібних ситуаціях, коли існує припущення щодо функції розподілу ймовірності вибірки, який дозволяє розписати функцію правдоподібності і шукати її максимум. В таких випадках моделлю є вибірка, і ми шукаємо параметр розподілу, за якого ця вибірка є найбільш правдоподібною. В складніших ситуаціях моделлю може бути власне щось, що ми розуміємо під поняттям математичної моделі, на кшталт регресії, а параметрів моделі може бути більш ніж один – і метод максимальної правдоподібності все одно працює… принаймні до моменту поки не вдасться знайти математика, котрий зможе аналітично знайти функцію лог-правдоподібності, взяти її похідну, і так далі.

Чи є правдоподібність ймовірністю? І так, і ні, і, скоріше, ні аніж так. Правдоподібність є пропорційною до ймовірності спостерігати змінну за певного значення параметру і є функцією цього параметру. Одна із вимог аксіоматичного визначення ймовірності каже, що інтеграл функції ймовірності повинен дорівнювати одиниці; у випадку правдоподібності як функції певного параметру, інтегрування цієї функції не завжди дорівнюватиме одиниці, відтак, за визначенням правдоподібність не є ймовірністю в таких випадках.


  1. Позначимо ймовірність випадання аверсу (A) або реверсу (R) на першій монеті як \(P(C_1 = A) = P(C_1 = R) = 0.5\) і на другій монеті як \(P(C_2 = A) = P(C_2 = R) = 0.5\). Тоді \(P(A, A) = P(C_1 = A) \cdot P(C_2 = A) = 0.5 \cdot 0.5 = 0.25\), \(P(R, R) = P(C_1 = R) \cdot P(C_2 = R) = 0.5 \cdot 0.5 = 0.25\), і \(P(A, R) = P(C_1 = A) \cdot P(C_2 = R) + P(C_1 = R) \cdot P(C_2 = A) = 0.25 + 0.25 = 0.5\).↩︎

  2. Поширеними термінами в цій сфері є пріорна, або апріорна, ймовірність \(P(A)\) (prior) – така, яку можна спостерігати до оновлення нашого знання (все одно які результати тесту, ми і так знаємо скільки хворих в популяції), та постеріорна, або апостеріорна, ймовірність \(P(A|B)\) (posterior) – оновлена ймовірність події за умови нашого пріорного знання.↩︎

  3. Переклад українською суто з Вікіпедії, мені загалом не звучить.↩︎

  4. …але якщо дуже треба, то похідну можна знайти як \(\frac{d \ln \mathcal{L} (p)}{d p} = \frac{\sum_{i=1}^n x_i}{p} - \frac{\sum_{i=1}^n (1 - x_i)}{1-p}\), яку прирівнюємо до нуля і розв’язуємо для \(p\): \(\frac{\sum_{i=1}^n x_i}{\hat{p}} = \frac{\sum_{i=1}^n (1 - x_i)}{1-\hat{p}}\) \(\Rightarrow\) \(\frac{\hat{p}}{1 - p} = \frac{\sum_{i=1}^n x_i}{\sum_{i=1}^n (1 - x_i)}\) \(\Rightarrow\) \(\hat{p} = (1 - \hat{p}) \frac{\sum_{i=1}^n x_i}{n - \sum_{i=1}^n x_i}\) \(\Rightarrow\) \(\hat{p} (n - \sum_{i=1}^n x_i) = (1 - \hat{p}) \sum_{i=1}^n x_i = \sum_{i=1}^n x_i - \hat{p} \sum_{i=1}^n x_i\) \(\Rightarrow\) \(\hat{p} (n - \sum_{i=1}^n x_i) + \hat{p} \sum_{i=1}^n x_i = \sum_{i=1}^n x_i\) \(\Rightarrow\) \(n\hat{p} = \sum_{i=1}^n x_i\), \(\hat{p} = \frac{\sum_{i=1}^n x_i}{n}\). Краса та й годі!↩︎