Ошибки доказательства

Валидация — действия, которые в соответствии с GMP доказывают, что определенная методика, процесс, оборудование, исходные материалы, деятельность или система действительно приводят к ожидаемым результатам [GMP]. И очевидно, что главное слово в данном определении — это доказывать. Доказательства мы используем не только при валидации или квалификации. Доказательство присутствует в контроле качества, аудитах, расследованиях отклонений и нарушений, при разработках и различных исследованиях и, конечно, в обычной жизни.

Что такое доказательство?

В английском языке есть два понятия: proof и evidence, которые на русский зачастую переводят и понимают одинаково как “доказательство”, хотя это принципиально два разных понятия.

Proof — это то самое абсолютное доказательство, т.е. те факты и выводы на их основе, которые бесспорно приводят к однозначному правильному результату. Evidence — это скорее свидетельство, т.е. такие данные и взаимосвязи, которые могут указывать на некоторый результат. Но выводы на основании evidence никогда не могут считаться абсолютными (т.е. “истиной в конечной инстанции”), т.к. содержат неопределенность.

Доказательство вида proof — это доказательства в математике, т.к. математика единственная абсолютная наука и корректно построенные расчеты и выводы гарантируют, что результат действительно такой и никак иначе. Вероятность корректности результата, полученного на основании “пруфов”, всегда равна 100 %.

Доказательство вида evidence — это доказательства во всех остальных науках и в инженерии, которые в своей деятельности используют неопределенности и приближения. Результаты, полученные на основании evidence всегда имеют некоторую неопределенность и, соответственно, вероятность оказаться неверными.

К чему эти определения?

Т.к. здесь представители инженерии и науки, то важно четко понимать, что мы работаем исключительно со свидетельствами, которые являются всего лишь чьими-то наблюдениями в каких-то условиях и сами по себе по какой-то универсальной схеме не приводят к правильному или более и менее правдивому результату. Данные необходимо интерпретировать, т.е. построить взаимосвязи и на основании их и сделать выводы.

Данные — это массив информации, а интерпретация — дело специалиста и его компетентности.

Наш мозг со своим субъективным восприятием настолько редко правильно делает выводы из своих наблюдений, что начинаешь сомневаться: наш мозг это фича или может баг? Но зная такие особенности нашего восприятия событий, в науке веками вырабатывались различные правила, которыми необходимо руководствоваться для того, чтобы избегать логических ошибок и ошибок восприятия в обработке данных. Теперь данные правила часто называют научным подходом, который является скорее некоторой концепцией использования логических и статистических инструментов при анализе данных, чем самостоятельной дисциплиной. Сейчас многое из данной концепции мы воспринимаем как само собой разумеющимся, но в ряде случаев все равно делаем ошибки.

В данной статье мы разберем ряд, на мой взгляд, самых частых ошибок, которые встречаются в инженерии и науке. Начнем с простых логических правил (ошибок) и закончим более серьезными статистическими инструментами.

Ошибка 1. После — не значит в следствии

Название ошибки говорит само за себя: зафиксированное событие, которое по времени произошло после другого зафиксированного события, не может считаться следствием предыдущего, т.е. быть как-либо связано или вытекать как последствие от наступления предыдущего.

Логика следующая: мы не можем утверждать о причине и следствии, если не уверены в механизме взаимосвязи. Временная последовательность могла быть следствием случайности, накопленного влияния иного события, косвенным влиянием разных скрытых воздействий.

Временная последовательность очень сильно влияет на восприятие, поэтому человек подсознательно связывает эти явления.

Пример 1: улучшение состояния пациента после приема препарата не свидетельствует о эффективности препарата. Это может быть, например, эффект плацебо или пациент выздоровел сам.

Пример 2: сбой в работе оборудования после ТО, ремонта или изменения не говорит о связи данных событий.

Способы избежания ошибки: повторение испытания, контрольный эксперимент, изучение механизмов, слепые (двойные слепые) эксперименты.

Ошибка 2. Систематические ошибки отбора

Это группа ошибок, когда интерпретация производится по некорректно отобранным данным, т.е. по нерепрезентативной выборке. Особенность данных ошибок в том, что они в большинстве случаев не могут быть выявлены статистическими методами.

Самой известной является ошибка выжившего. Название ошибки идет из следующей истории:

“Во Вторую мировую войну венгерскому математику Абрахаму Вальду поручили найти решение важной задачи. Не все американские бомбардировщики возвращались на базу. А на тех, что возвращались, оставалось множество пробоин от зениток и истребителей, но распределены они были неравномерно: больше всего на фюзеляже и прочих частях, меньше в топливной системе и намного меньше — в двигателе. Значило ли это, что в пробитых местах нужно больше брони? Вальд ответил: нет, исследование как раз показывает, что самолёт, получивший пробоины в данных местах, ещё может вернуться на базу. Самолёт, которому попали в двигатель или бензобак, выходит из строя и не возвращается. Поскольку попадания от вражеского огня на самом деле (в первом приближении) распределены равномерно, укреплять надо те места, которые у вернувшихся в массе наиболее «чистые»”.

Суть ошибки выжившего в интерпретации однобоких данных, т.е. в ситуации когда присутствуют данные по одной группе событий и отсутствуют по другой. Человек пытается делать выводы по тем данным, что есть, но упускает, те данные которые отсутствуют.

Есть так называемый парадокс доступности информации, когда при помощи СМИ или иных инструментов создается иллюзия, что какое-то событие наступает чаще, чем другое. В данной ситуации может произойти смещение результатов анализа данных из-за того, что соотношение упоминаний каких-либо событии превышает их реальное значение.

Известным является также правило (но от этого нарушается оно не реже других) о том, что по отсутствующим данным нельзя судить о положительном или отрицательном течении процесса. Например, информация о каком-либо событии (негативном или положительном) просто не раскрывалась по коммерческим причинам или из-за простого отсутствия заинтересованности. Часто такая ошибка совершается при обработке обратных отзывов и “исторических данных”.

Пример 1: Некоторые примеры из прошлого:

Руководства NASA, приняло решение о разрешение на пуск шаттла «Challenger», потому что раньше прогары уплотнительных колец к аварии не приводили, т.е. по причине того, что отсутствовали те самые “исторические данные”, хотя конструктор предупреждал о присутствии риска. 28 января 1986 года на старте у шаттла развалился внешний бак из-за данных уплотнителей. 7 погибших.

Аналогичная ситуация была с шаттлом «Columbia» только теперь с поврежденным теплоизоляционным слоем обшивки (7 погибших):

«Мы наблюдали подобное явление в ходе нескольких предыдущих полётов, и не имеем абсолютно никаких поводов для беспокойства о безопасности посадки» — говорилось в письме руководителя последнего полета шаттла.

Взрыв на химическом заводе в Аппау 21 сентября 1921 года, где для дробления слежавшейся смеси сульфата и нитрата аммония (!!!) использовалась взрывчатка. До этого дня отсутствовали “исторические данные” по детонации данной смеси. Взрыв был силой около 4 килотонн в тротиловом эквиваленте, 561 погибших, более полутора тысяч получили ранения. На заводе выпускались удобрения, анилиновые красители, компоненты взрывчатки и газ фосген.

Пример 2: отсутствие положительных отзывов или иной обратной связи не говорит отсутствии удовлетворенности системой или продуктом. Аналогично отсутствие отрицательной обратной связи не говорит об удовлетворенности.

Способы избежания ошибки: тщательная проработка методик получения данных и формирования выборок. Поиск данных в разнонаправленных источниках. Исключение из практики принятия решений применения понятия частоты появления / отсутствия “исторических данных”.

Ошибка 3. Эффект техасского стрелка

Название ошибки (“texas sharpshooter fallacy”) взято из истории про техасца, который сначала стреляет по амбару, а уже потом, в месте, где появилось самое большое количество пробоин, рисует мишень, заявляя о своих, якобы, удачных попаданиях.

Суть данной ошибки в том, что для интерпретации данных берутся только те данные, которые “удобны” для специалиста и при этом игнорируются данные, которые для его целей не желательны. Эта ошибка может получиться как намеренно (при этом могут скрываться “неудобные” данные), так и ненамеренно из-за субъективного восприятия и желания получить нужный результат.

Пример: выбор из большого количества результатов испытаний только тех, по которым качество продукта можно признать удовлетворительным.

Способы избежания ошибки: шифрование образцов, прослеживаемость по процессам, проведение политики беспристрастности принятия решений специалистами.

Ошибка 4. Недостаточное количество данных (повторов)

Для избежания многих ошибок (как статистических, так и логических) в подавляющем большинстве исследований (испытаний) используют метод параллельных экспериментов. Но при этом необходимость установления количества этих повторов практически всегда остается за специалистом. И здесь может возникнуть ошибка недостаточности данных, необходимых для корректности выводов.

Повторные испытания могут использоваться для двух целей:

  • подтверждение (установление параметров) систематичности или стабильности процесса;
  • исключение грубых измерений (выбросов).

Цель подтверждения стабильности процессов — доказать, что параметры процесса вне зависимости от значения внешних влияющих факторов остаются в установленных пределах определенного распределения. В таком случае количество повторов будет зависеть от сложности процесса и количества влияющих факторов.

На мой взгляд, в самом простом случае минимальным числом повторов будет количество комбинаций влияющих факторов в различных их состояниях. То есть если мы имеем процесс с тремя значимыми влияющими факторами, имеющими два наихудших состояния (+ и -), то минимальное количество повторов будет 2^3=8 (а лучше еще в два раза больше для исключения выбросов):

А если у фактора только один наихудший случай, то противоположным состоянием будет его типичное значение (0 и +), т.к. наихудшие состояния факторов могут компенсировать влияние друг друга, а не усиливать на параметры процесса. Именно поэтому доказательство стабильности процесса на основании 1-3 повторов (даже в условиях наихудших факторов) несостоятельно.

Для целей исключения выбросов минимальное количество повторов зависит от того определено ли стандартное отклонение естественного разброса значений для данного процесса или нет.

Например, если для методики на основании валидации или метрологической аттестации было установлено стандартное отклонение повторяемости, то можно для МВИ определить максимальную разницу между двумя параллельными измерениями (предел повторяемости). Соответственно, достаточное минимальное количество будет два повтора.

Если для процесса не установлено стандартное отклонение повторяемости, то необходимо делать столько повторов, сколько рекомендовано для используемого статистического метода выявления выбросов, т.е. точно не менее трех.

Пример 1: валидация методики за один подход на трех параллельных измерениях в точке (условия промежуточной прецизионности) — это что угодно, но не валидация.

Валидация методики (для характеристик точности) подтверждает, что она вне зависимости от влияющих факторов лаборатории будет выдавать результаты с установленной неопределенностью. Для этого необходимо проверить влияние на процесс измерения, как минимум, измерения разными сотрудниками, на разном оборудовании, в разные дни и с разной периодичностью юстировки средств измерения.

Пример 2: квалификация условий хранения. Сколько дней проводить квалификацию?

Если мы имеем склад, в котором в течении дня производится влияние всех значимых факторов, т.е. склад эксплуатируется “на всю” (постоянное движение продукции внутри помещения, частые отгрузки, разный персонал и т.д.), то можно провести квалификацию за 1-2 дня. Если же склад стоит без движения сутками и в нем ничего не происходит, то для его квалификации и неделя может оказаться сомнительным сроком.

Ошибка 5. Наличие корреляции — не доказательство причинно-следственной связи

Данная ошибка схожа с ошибкой 1 (После — не значит вследствии). Лично мой самый любимый пример, который хорошо объясняет данную ошибку, это доказательство в пастафарианстве того, что пираты являются божественными созданиями. Они утверждают, что «глобальное потепление, землетрясения, ураганы и другие стихийные бедствия являются прямым следствием сокращения числа пиратов с XIX века» и приводят в доказательство соответствующую достаточно четкую линейную зависимость этого.

Суть ошибки в том, что мы не можем утверждать о взаимосвязи параметров пока четко не понимаем механизм этой связи. Раз не можем утверждать, то и использование коэффициента детерминации или пропорциональности для изучения таких “корреляций” не имеет смысла.

Пример: Пример из относительно недавних новостей: были проведены исследования (все условия и выборки корректные), в ходе которых было обнаружено, что люди, пьющие больше кофе, чем среднестатистический человек, живут в среднем на N лет больше, чем люди, не пьющие кофе или пьющие мало.

Так что? Идем пить кофе? Данное исследование абсолютно не доказывает связь количества выпитого кофе и срок жизни, т.к. исследователи не знают какой механизм влияния кофе на срок жизни. А такая “зависимость” скорее всего является косвенной, т.к. окажется, например, что действительной причиной являются меньшие физические нагрузки у группы людей, которые часто пьют кофе (например, они в большинстве будут являться офисными сотрудниками).

Способ избежания ошибки: всегда изучать механизм влияния параметров друг на друга. Раминь.

Ошибка 6. Корреляция — не доказательство линейности

Если мы все таки знаем механизм зависимости параметров, то можно применять коэффициент детерминации. Можно, но осторожно.

Суть ошибки в том, что методология расчета коэффициента корреляции / детерминации в своем подходе несет риск неверной интерпретации самого коэффициента.

Про все “подводные камни” коэффициента корреляции, про квартет Энскомба и про дополнительные инструменты проверки корреляции хорошо объяснено в переводе статьи от Антона Мымрикова.

Ошибка 7. Оценка тенденций процесса только по среднему значению

Как сказал кто-то умный: если вы оцениваете процесс по среднему значению, то примерно в половине случаев действительность хуже, чем вы ее считаете.

Суть в том, что среднее значение ничего не говорит о разбросе значений, т.е. прецизионности параметров процесса. По среднему нельзя ничего сказать о стабильности процесса. Выбросы также могут нивелироваться средним. За средним могут скрываться несоответствующие значения и другие прелести некорректной обработки данных.

Способы избежания ошибки: дополнительное использование оценок дисперсии (стандартное отклонение, размаха), откладывание всех параллельных измерений (а не одного среднего) на картах, использование диаграмм размаха, нормирование разницы максимального и минимального значения, запрет выхода единичных значений за нормативные значения и т.п.

Пример диаграммы размахов

Ошибка 8. Применение статистик нормального распределения к ненормальному

Проверка распределения на соответствие нормальному распределению является обязательным, если мы планируем использовать для интерпретации этих данных параметрические статистические инструменты, применимые только к нормальному распределению.

Пример: расчет доверительных интервалов на основании критерия Стьюдента для какого-то несимметричного распределения, далекого от нормального.

Способ избежания ошибки: всегда проверять “на нормальность” и в случае неподтверждения нормальности использовать иные критерии.

Ошибка 9. Неверное применение дисперсионного анализа

И вот у нас есть две выборки, мы хотим их сравнить (доказать равенство или статистически значимое различие) и даже подтвердили их нормальность. Мы уже почти потянулись за t-критерем Стьюдента для сравнения средних, но не тут то было.

Суть в данном случае в следующем: дисперсионный анализ говорит, что сравнивать выборки мы можем, только если оценки дисперсий в группах данных статистически равны.

Способ избежания ошибки: всегда проверять статистическое равенство оценок дисперсий.

Ошибка 10. Сравнение нескольких средних (больше 2) с одним и тем же “альфа”

При помощи статистических инструментов (например, того же критерия Стьюдента) можно сравнить более двух групп данных. Для этого сравниваются группы данных так, чтобы установилось общее тождество, т.е. если A=B, B=C, C=D, то A=B=C=D (если Вася брат Пети, а Петя брат Коли, то Вася и Коля тоже братья). Но грубой ошибкой в данном случае является то, что при этом для каждого отдельного сравнения уровень значимости (α) принимается равным, например, 0,05, а конечному тождеству после этого опять же присваивают 0,05. Но реальный уровень значимости конечного тождества ведь увеличился примерно в 3 раза?!

Примечание: уровень значимости — это вероятность ошибки первого рода, т.е. ошибки того, что средние все-таки окажутся неравными, в то время как мы признали их равными. Чем ниже уровень значимости, тем жестче критерии к принятию гипотез.

Способ избежания ошибки: введение поправки Бонферрони, когда в качестве уровня значимости применяется пересчитанное значение в зависимости от количества групп сравнения.

Ошибка 11. Неверная интерпретация понятия 2σ или предела предупреждения

Зачастую в качестве предела предупреждения при анализе тенденций используется граница на “2-сигма”, отложенная от среднего значения на картах Шухарта (ну или без карт, просто как численный критерий), т.е. на расстоянии двух стандартных отклонений, установленных на основании изучения параметров изменчивости процесса.

Что означает предел в два стандартных отклонений исходя из смысла нормального распределения? То что данный интервал включает 95 % получаемых значений. Зона же между 2σ и 3σ, т.е. интервал от предела предупреждения до предела действия, включает в себя еще практически 5 % значений (в сумме с двух сторон от среднего), что является достаточно большим значением — в среднем 1 из 20 значений при типичном течении процесса будут попадать в данный диапазон. Соответственно паниковать и назначать расследования из-за каждого измерения, попавшего за предел предупреждения просто не имеет смысла, необходимо искать тренды, т.е. в данном случае должно быть как минимум две последовательные точки за пределом предупреждения для того, чтобы назначаться какие-то действия.

Вторая ситуация обратная — когда значения не попадают за предел предупреждения, но ведут себя не так как полагается случайным величинам нормального распределения. На это зачастую не обращается внимание, т.к. в качестве норматива установлены всего лишь границы, а тренды при этом не анализируются. Например, ситуации последовательных нисходящих значений или последовательных точек, находящихся по одну сторону от среднего значения.

Способ избежания ошибки: анализировать тренды в соответствии с принятыми стандартами, делить карты на три диапазона (1σ, 2σ и 3σ), визуализировать получаемые значения мониторингов в виде графиков (карт Шухарта).

 

Всем удачного дня.

Подписывайтесь на каналы PHARM COMMUNITY:

   
Просмотров: 523
Поделитесь с коллегами:

Оставьте комментарий