«Компьютер изменил задания специально для меня». Иллюзия адаптивности неадаптивного тестирования

problembo.com
problembo.com
Александр Поддьяков
Александр Поддьяков
Эффект Лачинсов

Начну с кажущейся идиотской задачи:

Даны три сосуда объемом 26, 10 и 3 литра. Как с их помощью отмерить ровно 10 л воды?

Сколько-нибудь внимательный читатель тут же заметит, что два сосуда здесь лишние — требуемые 10 литров можно сразу отмерить сосудом в 10 л. Что тут решать? Но при определенных условиях (о них ниже) многие, не видя этого короткого способа, решают задачу намного более длинным:

26–10–3–3 = 10.

Иначе говоря, люди предлагают набрать воду в сосуд 26 л, отчерпнуть из него сосудом 10 л и затем дважды — сосудом в 3 л, тогда останется 10 л. Толково, правда? Что же это за условия, при которых люди используют длинный способ, не видя короткого?

Речь идет о батарее задач немецких психологов-супругов Лачинсов. В эксперименте участнику предлагается последовательность однотипных по условиям задач про наливание воды определенного объема с помощью трех имеющихся ведер заданного объема.

Даны три сосуда: 37 л, 21 л, 3 л. Как с их помощью отмерить ровно 10 л воды?

Первые пять задач были таковы, что их можно решить по одному алгоритму

А — В — С — С,

где А, В, С — количество воды в первом, втором и третьем сосудах соответственно.

Для задачи выше соответствующее решение таково:

37–21–3–3 = 10.

После этих пяти так называемых установочных задач даются две задачи, которые решаются не только таким длинным способом, но и более коротким — просто сложением двух последних чисел. Например:

Даны три сосуда: 74 л, 28 л, 6 л. Как с их помощью отмерить ровно 34 л воды?
(Ответ: 28 + 6; но старый способ тоже возможен:
74–28–6–6 = 34).

И одной из последних дается задача, которую я привел в начале статьи:

Даны три сосуда объемом 26, 10 и 3 литра. Как с их помощью отмерить ровно 10 л воды?

— решаемая двумя способами — стандартным, обнаруженным и заученным в ходе предыдущих проб, и коротким — просто взять сосуд в 10 л.

Как установлено в многочисленных исследованиях, есть участники, у которых в ходе решения первых пяти задач (с одним и тем же способом решения) формируется слишком сильная установка на использование этого ранее обнаруженного способа. Тогда они не видят более короткий способ, когда он возможен. Также они испытывают большие трудности при решении задачи, не поддающейся старому способу, хотя и с более простым решением (типа «19–11»). А некоторые участники не решают ее вообще (!) — настолько они зациклены на старом способе 1.

Задачи Лачинсов являются хорошим примером «антиобучающей последовательности», если использовать термин Л. Ашкинази, или своеобразного «троянского обучения». Как писал Г. А. Нижарадзе, «явления, аналогичные рассмотренному эффекту, нередко встречаются в самых различных сферах повседневной жизни. К примеру, эффект Лачинса может проявляться при изучении школьного курса математики, когда преподаватель демонстрирует определенный способ решения задач, а ученики затем упражняются в их решении» 2. Добавим: также при изучении курса физики, химии и т. д.

Адаптивное тестирование и его ожидание участником

Оставим на время старую задачу Лачинсов, известную с 1940-х годов. Обратимся к современному виду компьютерного тестирования — адаптивному тестированию в психологии, образовании и др. Основная черта адаптивного тестирования состоит в том, что новые предъявляемые испытуемому задания учитывают его ответы на уже выполненные задания и на ходу адаптируются под выявляемый уровень этого участника. Если ответил на задание теста одним образом — получи такое последующее задание, если ответил другим образом — получи другое. О многочисленных преимуществах адаптивного тестирования можно прочитать в «Большой российской энциклопедии» 3. Рост адаптивности — ключевая характеристика современных компьютерных систем проведения тестов.

При этом, зная о самой возможности адаптивного тестирования, тот или иной участник в зависимости от ряда факторов (от своих личностных особенностей и особенностей мышления, опыта прохождения компьютерных тестов, а также и просто в силу случайных привходящих обстоятельств) может строить свою субъективную картину тестирования. Он может ошибочно считать реакции компьютерной системы на свои действия адаптивными, максимально полно учитывающими действия и ответы испытуемого, или же, наоборот, неадаптивными. Возможны также градации, когда участник приписывает системе несколько меньшую или большую адаптивность, чем есть на самом деле.

Я обращусь к варианту адекватной и завышенной оценки адаптивности системы. Завышенная оценка адаптивности может вести к тому, что участник начинает видеть скрытый замысел разработчиков там, где его нет, и считать, что система реагирует и дает обратную связь на те параметры ответов, которые как-то могут свидетельствовать об участнике, на которые она на самом деле не реагирует. Такая, не всегда адекватная рефлексивная работа участника может сказываться на результатах исследования — хотя бы просто потому, что отнимает у человека ресурс и время, не говоря уже о качественных изменениях стратегий ответов.

Интересно, что предъявление теста отпечатанным на бумаге, как это было сто лет назад, такой опасности не содержало. Участнику со здоровой психикой в голову не могло прийти, что в зависимости от того, какие ответы он вписывает в верхних листах теста, тут же меняются вопросы на листах, лежащих в этой же стопке ниже, и так с каждым новым его ответом; такое было технически невозможно. Напротив, сейчас участник с нормальной психикой может вполне обоснованно полагать, что предъявляемый ему по ходу компьютерного тестирования материал как раз зависит от предшествующих действий и ответов этого участника, и что современные технологии предоставляют здесь широкие возможности.

Эксперимент на иллюзию адаптивности тестирования

Для изучения самой возможности того, что участники могут давать завышенные оценки адаптивности компьютеризованной методики, я провел эксперимент с использованием задач по типу батареи Лачинсов.

Участникам сообщалось:

Мы изучаем представления людей о тестировании и математических задачах. вам будут предложены девять арифметических задач. Ваша цель: решить их и затем высказать мнение о том, задачи какого типа (или нескольких типов) вам предъявлялись: «простушки», «ловушки», «неберушки» 4.

Затем испытуемым предлагалась серия задач. Я сделал компьютерную программу, которая генерировала задачи (и установочные, и проверяющие влияние установки) по тому же принципу, который был использован в батарее задач Лачинсов, причем генерировала в неадаптивной последовательности — предъявление участнику последующей задачи не зависело от его ответа на предыдущую. В принципе, это был очень простой генератор задач 5.

После решения всех девяти задач участникам предлагалось заполнить опросник следующего содержания.

1. Выскажите, пожалуйста, ваше мнение о том, какие задачи вам предъявлялись (строгих определений нет, отметьте то, что считаете более подходящим; можно отметить несколько типов, если вы считаете, что их было несколько):

  • «простушки»;
  • «ловушки»;
  • «неберушки»;
  • другое (что именно).

Если возможно, поясните, пожалуйста, почему вы считаете, что вам предъявлялись задачи этих типов…2. Тестирование бывает адаптивным и неадаптивным. При адаптивном тестировании предъявление последующей задачи зависит от того, как участник ответил на предыдущие задачи (новая задача зависит от предыдущих ответов). При неадаптивном тестировании последующая задача не зависит от того, как участник решал предыдущие.Как вы считаете, было ли тестирование в этом эксперименте адаптивным или же неадаптивным? (варианты ответов: «адаптивным», «неадаптивным», «затрудняюсь ответить»).Если возможно, объясните, пожалуйста, почему вы считаете, что это тестирование было адаптивным или же неадаптивным.

Наибольший интерес с точки зрения обсуждаемой темы представляли те участники, которые сочли тестирование адаптивным, т. е. таким, где каждая новая задача, трудность создается в ответ именно на его, испытуемого, ответы (хотя объективно это было не так).

В эксперименте участвовали 33 человека. Выборка не является репрезентативной, но полученные ответы могут дать качественное представление о типах возможных ответов.

Ответили, что тестирование было адаптивным, девять человек (27%). Некоторые варианты их пояснений: «Я склонна считать так, поскольку после того, как я не решила одну из задач, мне были предъявлены задания, сходные по трудности с заданием, предшествовавшим неверному ответу», «В случаях, если человек успешно справлялся с заданием, ему давали более сложную».

Ответили, что тестирование было неадаптивным, 18 человек (55%). Варианты пояснений: «При правильном решении (как я думаю) должна предъявляться более сложная задача, а к последнему заданию они упрощались», «Мне кажется, последующая задача не зависела от предыдущей, так как после сложной могла пойти легкая, хотя я знала, что решила правильно, и наоборот. В моем понимании адаптивные тесты подстраиваются под испытуемого в ходе проведения».

Два человека (6%) пометили обе опции, сочтя, что тестирование было и адаптивным, и неадаптивным (в разных аспектах).

Четыре человека (12%) выбрали опцию «затрудняюсь ответить». Варианты пояснений: «Недостаточно проб, чтобы выявить это», «Я затрудняюсь ответить, потому что сначала мне показалось, что тест неадаптивный, но потом вспомнила, что после того, как я довольно долго думала над определенной задачей, следующие пошли проще».

Итак, в обследованной выборке примерно четверть участников ошибочно сочла тестирование адаптивным, несколько больше половины участников правильно квалифицировали его как неадаптивное. Это соотношение не является репрезентативным, но полученные данные позволяют поставить задачу дальнейшего изучения причин и условий возникновения явления, которое можно назвать «иллюзией адаптивности компьютерного тестирования». Ведь далеко не всякое тестирование является адаптивным, и не всегда к нему стремятся разработчики (причины этого могут быть вполне разумными).

О возможных причинах явления: иллюзия адаптивности компьютерного тестирования, видимо, может порождаться комплексом взаимосвязанных факторов разного уровня и содержания — начиная с общих установок современного человека на «разумность» компьютерных систем и заканчивая теми или иными конкретными когнитивными ошибками, возникающими в процессе тестирования, например, по типу иллюзий причинно-следственной связи («после того, как я довольно долго думала над определенной задачей, следующие пошли проще»), при том, что причинно-следственной связи на самом деле не было.

Перспективы

В дальнейшем представляет интерес изучение следующих вопросов.

1. В каких случаях установка на адаптивность компьютерного тестирования может значимо влиять на его результаты?

2. Каково это влияние: как меняются стратегии участника и появляются ли новые стратегии, например экспериментирования с компьютерной системой, соревнования с ней и т. д.? Каков процесс и результаты деятельности участника при наличии этой иллюзии?

3. Какие личностные и когнитивные факторы (особенности) участника могут усиливать и ослаблять данную иллюзию?

4. Какие факторы «поведения» компьютерной системы могут ее усиливать и ослаблять, менять ее характер?

Представляется особо важным изучить эти вопросы в зависимости от социального контекста: в тех ситуациях экспериментов и тестов, когда трудности, с которыми сталкивается участник, интерпретируются им как дружественные, конструктивные или же, наоборот, как недружественные — например, цель организатора понимается участником как завал и отсев на компьютерном тесте. Тогда подозрительность участника значительно возрастает, он ждет подвохов разного рода (возможно, обоснованно) 6.

И заслуживает изучения противоположная иллюзия — иллюзия неадаптивности компьютерного тестирования, когда оно является адаптивным. Как она может работать и к каким результатам —положительным и отрицательным — вести?

Александр Поддьяков, докт. психол. наук


1 Подробнее см.: Коровкин С. Ю. Эффект Лачинсов.

2 Нижарадзе Г. А. О двух типах ригидности при решении интеллектуальных задач // Вопросы психологии. 1987. №  3.

3 Трухан Е. А. Адаптивное тестирование.

4 Эти термины взяты из статьи: Беляев С. А. Задачи по математике: «простушки», «ловушки» и «неберушки» // Полином. 2009. №  4. С. 99–105.

5 О перспективах будущих компьютерных генераторов задач см.: Ашкинази Л. Генератор, который заменит нас // ТрВ-Наука. 2023. № 389. с. 5.

6 О последствиях приписывания исследователю враждебных намерений в другой области — психологических и социологических исследованиях — см.: Поддьяков А. Психология: отношение участника к исследованию и исследователю // ТрВ-Наука. 2017. № 230.

Подписаться
Уведомление о
guest

108 Комментария(-ев)
Встроенные отзывы
Посмотреть все комментарии
Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад

Сегодня поэкспериментировал с GPT-4, — привожу ответы на три вопроса.   Я: поставь математическую проблему, которую никто никогда не поставит GPT-4: Создать задачу, которая точно никогда не была бы поставлена, непросто. Однако попробую придумать нечто экзотическое и необычное: Задача: Рассмотрим пространство всех возможных геометрических фигур на плоскости, ограниченных непрерывными замкнутыми кривыми. Пусть S — произвольная фигура из этого пространства, а P — её периметр. Определите, существует ли фигура S, для которой P равен числу, определяемому следующим образом: Число P должно быть равно сумме всех цифр, которые можно получить, если записать числа от 1 до n (где n — целое число) в ряд и рассматривать их как одно большое число, причем n должно быть минимальным целым числом, для которого это выполняется. Пример: Для n=13, если записать числа в ряд, получится 123456789101112131234567891011121312345678910111213. Сумма всех цифр будет равна 67. Значит, периметр P должен быть равен 67 для некоторой фигуры S. Задача состоит в том, чтобы доказать существование или несуществование такой фигуры S для какого-либо n. Я: Дай решение задачи, которая начинается словами «Нам из Гомеля тетя ящик яблок прислала…» GPT-4: Давайте внимательно разберем условия задачи: 1_ Нам из Гомеля тетя прислала ящик яблок. 2_ В ящике было 40 яблок. 3_ Я (один человек) считал яблоки, а мне помогали братья и сестры. 4_ Мы устали и отдыхали 8 раз. 5_ Каждый раз, когда мы отдыхали, каждый из нас съедал по яблоку. 6_ После того как мы съели яблоки во время отдыхов, яблок не осталось. 7_ Яблок было 40. Из этих условий следует, что: — Всего мы съели 40 яблок за 8 раз отдыха. — В каждом отдыхе все дети съедали n+1 яблок, где n — количество братьев и сестёр, а 1 — это я, который тоже съедал яблоко. Получим уравнение: 8×(n+1)=40 Решим это уравнение: n+1=40/8 n+1=5 n=4 Таким образом, общее количество детей (братьев… Подробнее »

Denny
Denny
3 месяцев(-а) назад

Я: Дай решение задачи, которая начинается словами «Нам из Гомеля тетя ящик яблок прислала…»

То есть Вы не дали ему условия задачи, а просто дали ссылку на нее. Полные условия задачи ИИ должен был знать или найти сам. Ну так он мог знать или найти решение.

Если же нет, то ему большой респект.

Alexander Poddiakov
3 месяцев(-а) назад
В ответ на:  Denny

Да, решение могло быть в интернете.
Пока нашел только короткую подводку к ответу:
«Конечно, вы сразу догадались, что раз яблок было сорок штук и каждому досталось по восемь яблок, значит всего было пять человек. Но скажите все-таки, сколько было сестер и сколько было братьев?»
http://pedagogic.ru/books/item/f00/s00/z0000017/st059.shtml

Последняя редакция 3 месяцев(-а) назад от Alexander Poddiakov
Denny
Denny
3 месяцев(-а) назад
В ответ на:  Alexander Poddiakov

Да. Я привел эту задачу просто как пример простого теста, который ты не решишь, если не понимаешь смысла текста.

Alexander Poddiakov
3 месяцев(-а) назад

Спасибо, интересно.
Мне немного странно, что Вы без комментариев приводите эту математическую задачу от GPT-4. Рассмотрим ее часть.

«Число P должно быть равно сумме всех цифр, которые можно получить, если записать числа от 1 до n (где n — целое число) в ряд и рассматривать их как одно большое число, причем n должно быть минимальным целым числом, для которого это выполняется.
Пример: Для n=13, если записать числа в ряд, получится 123456789101112131234567891011121312345678910111213. Сумма всех цифр будет равна 67».

Но можно убедиться, что сумма цифр только во фрагменте 12345678910111213 равна 55. А во всём числе (фрагмент повторен в нем 3 раза) сумма цифр равна 165, а не 67.

Почему фрагмент повторен 3 раза? Ответа нет.

«…причем n должно быть минимальным целым числом, для которого это выполняется» — выполняется что?

В общем, это то, что называется галлюцинациями от чатов GPT, бредом, следствием работы по принципу «стохастического попугая». Именно это наблюдалось в ответах от чатов у моих студентов, когда они пытались повысить оригинальность этих ответов.

Последняя редакция 3 месяцев(-а) назад от Alexander Poddiakov
Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад
В ответ на:  Alexander Poddiakov

То есть, — резюмирую ваш комментарий, — Вы бы никогда такой проблемы не поставили.
Похоже, и ваши студенты и никто другой из людей — тоже.
Следовательно, GPT-4 безупречно выполнил мою просьбу.

Alexander Poddiakov
3 месяцев(-а) назад

Остроумно, но не более того. Главное — что-нибудь ответить, когда не хватило себя на проверку арифметической суммы цифр в непрерывной записи чисел от 1 до 13. Верный ход.

Напомнило реальный сюжет, когда абитуриент выиграл суд. Он решил неправильно одну из вступительных задач. А в университетском положении об оценивании было написано что-то вроде «если абитуриент не решил задачу…». Суд согласился, что абитуриент ее решил, а правильно или неправильно — про это в положении ведь ничего не говорилось.

Для генерации произвольных задач с бредом я программку напишу безо всякого ИИ. И каждый раз они будут уникальными.

Последняя редакция 3 месяцев(-а) назад от Alexander Poddiakov
Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад
В ответ на:  Alexander Poddiakov

«Он решил неправильно одну из вступительных задач», — т.е. ответ получил правильный.
Это интересно, это предмет для дискуссии, — здесь возможны варианты.

Alexander Poddiakov
3 месяцев(-а) назад

Сдаюсь-сдаюсь, последнее слово за Вами. В риторике мне Вас не превзойти (в арифметике — обсуждаемо, мне-то сумму цифр во фрагменте 12345678910111213 как-то удалось посчитать)

Лёня
Лёня
3 месяцев(-а) назад

“Никто другой из людей — тоже”

Подобные некорректные задачи ставятся абитуриентам экзаменаторами с целью их завалить. Можно ли таких экзаменаторов считать людьми – это вопрос.

Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад

Чувство юмора в исполнении GPT-4.

Я: Придумай анекдот про первую теорему Гёделя о неполноте
GPT-4: Вот анекдот про первую теорему Гёделя о неполноте:
На вечеринке математиков к Гёделю подходит пьяный студент и спрашивает: — Господин Гёдель, скажите, а ваша теорема о неполноте означает, что я никогда не смогу доказать, что я крут? Гёдель, улыбаясь: — Не волнуйтесь, молодой человек, ваша крутость недоказуема, но это вовсе не значит, что её нет!

Лёня
Лёня
3 месяцев(-а) назад

Анекдот от ЕИ:
Гёдель: “Все люди верят. Одни верят, что Бог есть, другие верят, что Бога нет. И то, и другое недоказуемо. Будете пересчитывать?”
Деточкин: “Буду!”

В.П.
В.П.
3 месяцев(-а) назад
В ответ на:  Alexander Poddiakov

К сожалению здесь чат GPT от живых людей принципиально не отличается. Раньше мы давали студентам математикам на первом курсе контрольные с простыми задачами на логические рассуждения. Чтобы убедиться, что студенты действительно понимают определения, а не только механически научились считать пределы и повторять доказательства теорем. Конечно всегда были студенты, которые не могли придумать доказательство и ничего не писали и те кто вместо простого и ясного рассуждения пускался в сложные построения и где-то замыкал порочный логический круг. Но лет 15 назад я впервые проверял работу, в которой студентка аккуратным почерком написала просто бессмысленные тексты. То есть тексты из правильно составленных предложений русского языка, с правильными терминами и даже вполне корректные по отдельности, но не представляющие собой никакого логического рассуждения. Даже ошибки никакой нельзя было в них указать. Только сказать, что последняя фраза «таким образом утверждение доказано» никак не следует из предыдущих фраз. Потом таких ответов становилось всё больше и наконец пришёл чат GPT.

Alexander Poddiakov
3 месяцев(-а) назад
В ответ на:  В.П.

Похоже на щизофазию — расстройство, при котором речь грамматически правильна, но бессмысленна. Или хитрая тактика в расчете проскочить.

В.П.
В.П.
3 месяцев(-а) назад
В ответ на:  Alexander Poddiakov

В данном случае с медицинской точки зрения всё в порядке. Та студентка и последующие подобные студенты нормально социализированы и все положенные школьные экзамены успешно сдали, раз попали в университет. Но я не берусь судить насколько человек реально не понимает, что такое логическое доказательство, а насколько просто надеется, что внимательно проверять никто не будет. В обыденной жизни много ситуаций, когда люди давят на эмоции без какой-либо логики и это работает. Просто такие люди обычно на мехмат не поступают.

Последняя редакция 3 месяцев(-а) назад от В.П.
Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад

Дал GPT-4 исковерканную задачу.   Я: Дай решение задачи, которая выражается словами: «Нам из Бомеля фотя ащик тыблок прислала. В этом ащике тыблок было, в общем, немало. Начал тыблоки эти спозаранок считать я, помогали мне бестры, помогали мне гратья… И пока мы считали, мы ужасно устали, — мы устали, присели и по тыблочку съели. И осталось их — сколько? А осталось их столько, что пока мы считали — восемь раз отдыхали, восемь раз мы сидели и по тыблочку ели. И осталось их — сколько? Ох, осталось их столько, что, когда в этот ащик мы опять поглядели, там на дне его чистом только тружки белели… Только тружки-пеструшки, только тружки белели. Поделили мы тыблоки все без остатка. А всего-то их было — пятьдесят без десятка. Сколько было нас гратьев, сколько было бестренок?» GPT-4: Рассмотрим задачу более внимательно, разберем её по частям и запишем все условия: 1_ Всего было 40 яблок (50 без десятка — это 40). 2_Человек, который считал яблоки, съел 1 яблоко каждый раз, когда отдыхал. Всего было 8 отдыхов, значит, он съел 8 яблок. 3_ Кроме него, яблоки считали его братья и сестры. Пусть xxx — количество братьев, а yyy — количество сестер. 4_ При каждом отдыхе каждый из них съедал по яблоку. То есть каждый съел по 8 яблок (по 1 яблоку на каждый отдых). 5_ После того, как все яблоки были съедены, осталось 0 яблок. Итак, можно записать следующее уравнение, учитывающее все съеденные яблоки: (1+x+y)×8=40 Здесь 1 — это человек, который считал яблоки, x — количество братьев, y — количество сестер. Таким образом, общее количество людей, которые ели яблоки, включая человека, который считал, равно 1+x+y. Далее решаем уравнение: 8+8x+8y=40 8(1+x+y)=40 1+x+y=5 Получаем: x+y=4 Следовательно, количество братьев и сестер, вместе взятых, равно 4. Рассмотрим возможные комбинации для x и y: — Если братьев x=0, то сестер y=4 —… Подробнее »

Denny
Denny
3 месяцев(-а) назад

ИИ милостиво отнесся в Вашей «безграмотности», поскольку в ответе «правильно» говориться о яблоках, братьях и сестрах. Это не удивительно, поскольку исправление ошибок текста дается языковой модели легко. Даже просто Word исправляет большинство ошибок. Сбить ИИ с толку таким образом не удается. Он задачу «узнает». Можно проверить, предложив ему не решать задачу, а просто исправить исковерканный текст.

Однако с пониманием все равно напряг. В первом варианте дается правильный ответ, но без обоснования, почему именно 2 и 2. Во втором он явно не понимает, «помогали сестры, помогали братья» означает x>1 y>1.

Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад
В ответ на:  Denny

Вы правы, — более того, в задаче есть и другие нюансы, не замеченные GPT-4.
Например, в вопросе — Сколько было нас братьев, сколько было сестренок?
Если рассказчик мужчина, то братьев 3, сестер 2.
Если рассказчик женщина, то, то братьев 2, сестер 3.
И это ещё не все варианты.
Полагаю, очень скоро GPT-4 все такие нюансы будет учитывать.

Denny
Denny
3 месяцев(-а) назад

Тут есть еще тонкость. Насколько я понимаю,  GPT-4 «думает по-английски». То есть сначала переводит вопрос, а потом ответ обратно.

Начал яблоки эти спозаранок считать я. — I started counting these apples early in the morning.

Мужской род в русском предложении при переводе утрачивается.

Лёня
Лёня
3 месяцев(-а) назад
В ответ на:  Denny

«А И Б сидели на трубе» гугл переводит как «A and B were sitting on the pipe».

Denny
Denny
3 месяцев(-а) назад
В ответ на:  Лёня

Он считает заглавную И небольшим грехом по сравнению с отсутствующими запятыми.

Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад
В ответ на:  Denny

Уверен, и языковые нюансы для GPT очень скоро перестанут быть значимыми.
Похоже, GPT всё больше и больше понимает наши вопросы и задачи, а мы, — соответственно,- всё меньше и меньше его ответы и решения.
Это тоже интересная тема для дискуссии. 

Denny
Denny
3 месяцев(-а) назад

Если не лень, попробуйте пожалуйста задачку про яблоки с заменой «помогали мне сестры, помогал мне и брат мой». Заметит ли ИИ изменение условий известной ему задачи и его значение?

Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад
В ответ на:  Denny

Вот, пожалуйста. Я: Дай решение задачи, которая выражается словами: «Нам из Гомеля тетя ящик яблок прислала. В этом ящике яблок было, в общем, немало. Начал яблоки эти спозаранок считать я, помогали мне сестры, помогал мне и брат мой… И пока мы считали, мы ужасно устали, — мы устали, присели и по яблочку съели. И осталось их — сколько? А осталось их столько, что пока мы считали — восемь раз отдыхали, восемь раз мы сидели и по яблочку ели. И осталось их — сколько? Ох, осталось их столько, что, когда в этот ящик мы опять поглядели, там на дне его чистом только стружки белели… Только стружки-пеструшки, только стружки белели. Поделили мы яблоки все без остатка. А всего-то их было — пятьдесят без десятка. Сколько было нас братьев, сколько было сестренок?» GPT-4: Для решения задачи воспользуемся следующими шагами: 1_ Определим количество яблок. Согласно условию, всего яблок было «пятьдесят без десятка», т.е. 50−10=40 яблок. 2_ Посчитаем количество яблок, которые съели. Сначала все персонажи съели по одному яблоку, когда устали и присели, а всего таких отдыхов было 8. Таким образом, съели: 8×(n+m+1) где n — количество братьев, m — количество сестер, и 1 — сам рассказчик. 3_ Также, в конце они поделили оставшиеся яблоки без остатка, что означает, что оставшееся количество яблок делится на количество участников, т.е. n+m+1. Теперь, выразим это в уравнениях: 1_ Всего было 40 яблок. 2_ Каждое яблоко съедали при отдыхе, т.е. 8×(n+m+1) яблок съели. 3_ Все оставшиеся яблоки тоже должны быть поделены n+m+1. Таким образом, уравнение будет: 40=8×(n+m+1) Решим это уравнение: 40=8×(n+m+1) 40 = 8n + 8m + 8 40-8=8n+8m 32=8n+8m 4=n+m Таким образом, общее количество братьев и сестер составляет 4. Поскольку нам нужно количество братьев и сестер, получим n и m: Рассмотрим возможные варианты: — Если n=1 (один брат), тогда m=3 (три сестры). — Если n=2 (два брата),… Подробнее »

Denny
Denny
3 месяцев(-а) назад

Ну вот и все ясно. Он просто не понимает текст и не способен корректно извлечь из него условия задачи. Хотя однозначное решение прописано в этот раз совершенно четко. Брат всего один. Но ИИ даже не видит разницы с предыдущей формулировкой. Но хотя бы нулей не ставит, как в прошлый раз. Забавно, что во всех трех случаях ИИ дает разные ответы.

Тест Тьюринга не пройден.

А всякие сложные вопросы о сложных материях, которые подразумевают сложные и сложно интерпретируемые ответы — от лукавого.

Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Denny

Решающий вопрос — произведены ли подсчёты отдельным калькулятором. Если да, то научить ИИ извлекать из текста все возможные числовые данные — думаю, совсем несложно. Просто этим пока никто как следует не занялся. Если же он «решал» задачу всю сразу целиком, то можно ожидать, что чисто количественное возрастание его мощи также улучшит его результаты, а его ошибки станут совсем непонятны.
Расчленение задачи на удобоваримые куски — это человеческий (чтобы не сказать петербургский) метод, для ИИ, вообще говоря, не обязательный.

Denny
Denny
3 месяцев(-а) назад
В ответ на:  Alеx

Это была простейшая задача, на которой ИИ ожидаемо (для меня) сразу споткнулся. И проблема с кругом таких задач очень сложная. Дело в том, что для ИИ это просто набор символов, из которых надо извлечь нужные формальные условия задачи.

А человек представляет себе всю ситуацию целиком. Сидят братья и сестры вокруг ящика и хрумкают яблоки. Вариант с числом братьев равным нулю человеку в голову просто не придет. Человека не надо этому специально обучать! Это совершенно иной уровень восприятия.

В чем именно он состоит, никто точно не знает. Но факт в том, что человеку нет необходимости перерешать миллионы задач, чтобы разобраться в истории с тетиными яблоками. А ИИ не может. Хотя его практика по сравнению с опытом отдельно взятого школьника начальных классов огромна.

И даже если ИИ специально таким задачам обучить, это будет просто более точная симуляция. Достигнутая за счет тренировки, тренировки и еще раз тренировки. Пресловутое натаскивание на тест.

Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Denny

Нетрудно заметить, что задачка задумана с подвохом, и, вполне очевидно, ловушка поставлена именно на человека.
Из чего не следует, что ИИ совершил человеческую ошибку.

Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Alеx

Буквально на днях встретились, в совершенно разных контекстах, два примера таких ловушек, один детский («У отца Мэри пять дочерей…»), другой старинный — «Шёл Кондрат в Ленинград…». Ясно, что человек должен сделать некоторое усилие, чтобы выбраться из расставленного капкана; умение вообразить, кто куда идёт, не включается автоматически. Что же заставляет человека сделать дополнительное усилие? В случае с яблоками — неопределённость решения, когда требуется определённое; в случае котят и мышат — ощущение, что задача в стихах, а не в учебнике, не может быть на простое умножение. Итак, в дело вступает социальный интеллект, представление о чужих мотивах. Может ли ИИ развить его? Почему нет.

Последняя редакция 3 месяцев(-а) назад от Alеx
Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Alеx

Пока коммент висит, продолжу мысль. Видно, что человек, решая задачи с подвохом, последовательно подключает различные модули. Может ли делать то же ИИ? Эксперимент показал, что он это делает! То, что он решил задачу не полностью и дал разные ответы, означает, что он НЕ ЗНАЛ ответа, и решал задачу самостоятельно! Сначала он понял условие (не обратив внимания на часть информации), затем проделал выкладки, несомненно, по какому-то рецепту. Получается, ИИ — действительно интеллект, хоть пока и невысокого полёта. Добавление ноых модулей должно заметно увеличить его возможности.

Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Alеx

Интересно, почему подвис предыдущий комментарий? Должно быть, из-за слова «Ленинград», других возможных причин не вижу. Проверим.

Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Alеx

Нет, этот не виснет. Ну тогда не знаю.

Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Alеx

А, из-за слова «идиотский», конечно.

Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Alеx

Экспериментально установлено, что причина была в слове, заменённом затем на «детский»; причём экспериментальный коммент исчез полностью — должно быть, кто-то принял его на свой счёт, ну и хорошо.
Серия этих комментариев — пример модульного мышления.

Denny
Denny
3 месяцев(-а) назад
В ответ на:  Alеx

В моем понимании интеллекта это не так. Разница качественная. Дополнительное натаскивание помогает лучше проходить тесты, но не прибавляет понимания. Заучивание энциклопедии не делает человека более интеллектуальным.

Интеллект (в моем понимании) должен позволять решать задачу без натаскивания методом проб и ошибок.

«действительно интеллект, хоть пока и невысокого полёта.»

Угу. Крокодилы тоже летают. Только очень низенько. Надо подождать, и они натренируются летать повыше.

ИМХО, возможности многослойных перцептронов даже в варианте трансформеров имеют принципиальные ограничения. А GPT всего лишь generative pretrained transformer.

Тут сколько боков не вставляй, выше головы архитектуры не прыгнешь.

Последняя редакция 3 месяцев(-а) назад от Denny
Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Denny

Интересная мысль. Я почему-то считаю, что возможности перцептронов это в точности возможности естественного мозга. Действительно, если Вы об этом, когда они были придуманы, появилась теория их ограниченности, и ими перестали заниматься. Но та теория вроде как развенчана. Но не рискну утверждать ничего категорично. Тем не менее, мне представляется так, что способности решать задачи у человека не врождённые, а вырабатываются посредством специфических тренировок того, что я называю «модулями». Из общих соображений я не вижу причин, почему те же способности не могут быть развиты тренировками модулей нейросети.
Может быть, с построением моделей ситуаций это не получится, не знаю. Но всё равно возможности прогресса кажутся очень значительными. Самолёт летает не как птица, но по тому же принципу и в некоторых отношениях лучше.
Поскольку эксперимент вроде как показывает способность ИИ мыслить самостоятельно, этот крокодил, кстати родственник птицам, похоже, таки летает, хоть и низенько.

Denny
Denny
3 месяцев(-а) назад
В ответ на:  Alеx

Поскольку я не верю в божественное происхождение человеческого разума, то полагаю, что его (разума) свойства в принципе могут быть воспроизведены in silico. В некотором будущем.

Другое дело, что архитектура современных ИИ примерно соответствует самым простым элементам нейросети мозга. И их возможности ограничены.

Если к простым примерам, до для полета нужны-таки крылья или их аналог. Просто тренируя подпрыгивание, летать не получится.

Кит может надолго нырять, но всплывать придется, ибо жабр нету, и дышать под водой не может.

Современные ИИ по сравнению с мозгом — это как прыжок в сравнении с полетом и как нырок в сравнении с дыханием под водой. Вроде похоже, а не то. Не та архитектура.

Просто количественным развитием длительности прыжка и нырка качественную разницу не преодолеть. Нужна более совершенная архитектура.Которую уже можно было бы тренировать.

Поэтому птица учится летать, а крокодил — в лучшем случае подпрыгивать.

Denny
Denny
3 месяцев(-а) назад
В ответ на:  Alеx

По своей архитектуре современные ИИ более-менее соответствуют сенсомоторным реакциям организма. Только вместо мышц выход подключен к генерации слов, звуков или изображений.

Эти реакции можно довести до высокого уровня совершенства методом тренировок. Как у спортсмена или циркового артиста.

Но обдумывание вопроса, принятие решений и прочие высокие функции мозга требуют другой архитектуры.

И прежде всего такая система должны быть многопроходной.

Лёня
Лёня
3 месяцев(-а) назад
В ответ на:  Denny

«высокие функции мозга требуют другой архитектуры.»

А эта архитектура уже известна?

Denny
Denny
3 месяцев(-а) назад
В ответ на:  Лёня

Про нее кое-что известно, но пока совершенно недостаточно, чтобы понять, как это работает и тем более недостаточно, чтобы смоделировать.

Это как сверхсложный двигатель, внутрь которого не получается заглянуть. Стоит залезть внутрь, все взрывается, и мы имеем дело с кучей обломков. А что-то сгорает в ноль.

Лёня
Лёня
3 месяцев(-а) назад
В ответ на:  Denny

Ну да, нейросеть это только малая часть архитектуры, которую удалось подсмотреть, поскольку она лежит «на поверхности». Поэтому ИИ пока весьма поверхностный.

Denny
Denny
3 месяцев(-а) назад
В ответ на:  Лёня

Та часть нейросети, которую удалось подсмотреть и воспроизвести в перцептронах, очень эволюционно древняя. Перцептрон ведь от слова «перцепция», то есть восприятие. А этими системами обладают достаточно простые существа. У которых интеллекта нет и в помине. И да, эти системы подключены к внешним датчикам, которые нетрудно идентифицировать. И можно более-менее посмотреть, как сигнал куда идет и доходит до эффекторов типа мышц.

А у сложных организмов сигнал «ныряет» в мозг, и там уже не распутать. Но ясно, что никакого прямого процессинга, как в перцептронах, нет.

Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Denny

Заметим, что сенсомоторика человека столь же уникальна, как и его мозг. Одна старинная теория даже предполагала тут непосредственную взаимосвязь. Но пусть моторно-перцептронные тренировки примитивны. И в этом случае кажется разумным предположить, что путём усложнения — тренировками специальными, иерархическими и каскадными — можно достичь ещё очень многого. Нырко-полётные аналогии каждый желающий может продолжить самостоятельно. Кстати, есть ящерицы «летучие драконы».
Допустим, ИИ на перцептронах в принципе неспособен к управлению модулями (хотя я думаю, что мета-умения можно развить мета-тренировками, и даже так и происходит на самом деле). Но мы ведь строим не человека, а машину: пусть модули работают постоянно, даже когда не нужны. ИИ с постоянно работающим модулем-абстрактизатором будет решать задачи про яблоки в точности так, как Вам хочется.
Ну господь с аналогиями и наводящими соображениями. А что значит «многопроходная система»?

Denny
Denny
3 месяцев(-а) назад
В ответ на:  Alеx

А как человек обдумывает проблему? Генерирует решение, проверяет его, разбирает, как вариации в условиях должны влиять на ответ. Пробует составить визуальную картинку/схему. Генерирует набор возможных решений, перебирает варианты, сравнивает их.

Не знаю ничего уникального в человеческой сенсомоторике. Кроме контроля со стороны высших уровней.

Не дам голову на отсечение, но есть впечатление, что «модули внимания», которые разделяют перцептроны в трансформере, представляют собой прототип такого контроля. Вернее, конечную его часть. В человеческом мозге эти модули как раз и контролируются интеллектуальной частью. Это очень смутно, разумеется.

Denny
Denny
3 месяцев(-а) назад
В ответ на:  Alеx

И самое главное отличие. Человек решает задачу с яблоками без всяких специальных тренировок.

res
res
2 месяцев(-а) назад
В ответ на:  Denny

Как сказать, человека много и долго учат.

Denny
Denny
2 месяцев(-а) назад
В ответ на:  res

Да, конечно. Но человек не только тренируется, но и развивает интеллект. В результате чего может решать такие задачи, с которыми раньше не встречался. Или способен решать их после ОБЪЯСНЕНИЯ. То есть способен понять способ решения и потом применять к целому кругу задач и объяснить другому.

Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад
В ответ на:  Denny

«Вариант с числом братьев равным нулю человеку в голову просто не придет.»
А вот математику или физику-теоретику — легко. 
Похоже, они не из мира сего, — ну, то есть, человеки только с виду. ))

Denny
Denny
3 месяцев(-а) назад

Задача 1. Как вскипятить воду?

  1. Налить воду в чайник.
  2. Поставить чайник на плиту.
  3. Включить плиту.

Задача 2. Как вскипятить воду, если чайник уже наполнен?

Элементарно! Вылить воду, и задача сводится к предыдущей.

Alеx
Alеx
3 месяцев(-а) назад

Ничего не скажу насчёт физика-теоретика, а с математиком всё довольно понятно. Ибо он доверяет своим выкладкам и соответственно привык к тому, что сказанное им — чистая истина, не нуждающаяся в чьих-либо мнениях. Если вы вздумаете возражать математику, он просто не услышит. Отсюда, очевидно, и «Новая хронология».
Нелепо было бы обвинять ИИ в высокомерии, но он действительно не сомневается в своих ответах и не имеет причин их проверять, поскольку не является личностью в социуме. Отсюда черты сходства.

Владимир Аксайский
Владимир Аксайский
2 месяцев(-а) назад
В ответ на:  Alеx

По мне, нет ничего предосудительного в попытках Анатолия Фоменко разобраться с помощью математики в датировке событий в древних летописях, хрониках.
Строго говоря, претензии прежде всего должны быть к летописцам, хронистам, — к их профессиональному уровню, к научным основам их профессии, — если ведение летописей, хроник, признать профессией.
Мыслимый пример из метеорологии:
Допустим, на четырех метеостанциях в Москве с целью оптимизации горбюджета распродали оборудование и уволили метеорологов, — а вместо них наняли на конкурсной основе метеорологов-частников, взявшихся за небольшую плату нестрого ежедневно измерять температуру, давление и др… собственными приборами и записывать результаты на своем языке в собственных тетрадях.
И так продолжалось, скажем, несколько десятилетий, — со сменой нескольких поколений метеорологов-частников, — в общем, до момента, когда градоначальникам вдруг понадобилась хронологическая сводка истории метеусловий.
И тут оказалось, что все сводки разные,- по датировке, по количеству измерений, по численным значениям измерений…
Градоначальники тут же приняли коллективное решение — считать единственно правильной летопись метеостанции Михайловское, — а остальные сводки и метеостанции признать утратившими доверие и исключить из проекта горбюджета на следующий исторический срок.
А ведь могли бы обратиться за экспертной помощью в РАН — и метеорологи были бы целы, и градоначальники удовлетворены.

Владимир Аксайский
Владимир Аксайский
2 месяцев(-а) назад

Вот любопытная новостная ссылка из Yahoo на тему: «История — это наука или искусство?».
https://www.yahoo.com/entertainment/d-believe-moon-landings-were-180000599.html
Автор новости утверждает, — сегодня каждый восьмой американец считает, что высадка на Луну была инсценировкой, как и каждый одиннадцатый британец.
Мнение автора: инсценировки были и будут, и они — не самое мрачное в лунной эпопее Аполлонов.,- намного хуже, что США уже не те, какими были в 1962 г.
И приводит пример сегодняшней инсценировки с участием Скарлетт Йоханссон, — в вышедшем в этом месяце фильме «Отправь меня на Луну» она играет маркетингового гения, нанятого НАСА, чтобы снять фальшивую посадку на случай провала миссии «Аполлон-11».
FLY ME TO THE MOON — Official Trailer
https://youtu.be/lW7enw6mFxs
Когда смотрел трейлер, почему-то вспомнил оперу про подвиг Ивана Сусанина, который до сих пор вызывает жаркие споры и дискуссии, — согласно Википедии.

Denny
Denny
2 месяцев(-а) назад

Еще в 77 году вышел фильм «Козерог — 1», на тему инсценировки полета на Марс.

Denny
Denny
3 месяцев(-а) назад
В ответ на:  Alеx

В целом, у меня всегда было убеждение, что умение ловко болтать легко сочетается с полным отсутствием понимания. Но ИИ дает этому прямое экспериментальное доказательство!

Alеx
Alеx
3 месяцев(-а) назад
В ответ на:  Denny

На практике, в жизненной реальности, умение ловко болтать, встречаемое, например, у банковских служащих или председателей гаражных кооперативов, неизменно сочетается с отличным пониманием собственных интересов.

Alexander Poddiakov
3 месяцев(-а) назад

На сайте Сергея Маркова опубликована его книга
«Охота на электроовец: большая книга искусственного интеллекта»
https://markoff.science/

«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»

Сергей Марков — ученый, специалист по искусственному интеллекту и машинному обучению, автор одной из сильнейших российских шахматных программ SmarThink, основатель портала «ХХ2 Век».

Его статьи об ИИ
https://22century.ru/author/oulenspiegel

Леонид Коганов
Леонид Коганов
3 месяцев(-а) назад
В ответ на:  Alexander Poddiakov

Терминатор -3:
https://t.me/rtvimain/97500?single
Л.К.

Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад

GPT-4 в меру своих возможностей мгновенно и добросовестно удовлетворяет и бредовые запросы, если они не выходят за пределы ему дозволенного его создателями. Вот пример из космобиофизики. ))  Я: С точки зрения микробиолога уравнение Хаббла описывает расширение Вселенной как экспоненциальную фазу роста колонии галактик на двумерной граничной поверхности темной питательной среды. Рост колонии осуществляется размножением галактик путем бинарного деления. Удельная скорость роста колонии галактик равна постоянной Хаббла. Начальный радиус колонии равен радиусу галактики типа Млечный путь, с которой начался рост колонии. Наблюдаемое сейчас количество галактик порядка 10^11.  Дай численную оценку времени генерации (времени удвоения) галактик. Как будет зависеть скорость движения фронта колонии от радиуса колонии. GPT-4: Для решения задачи нам нужно численно оценить время генерации (времени удвоения) галактик и определить, как будет зависеть скорость движения фронта колонии от радиуса колонии. Численная оценка времени генерации (времени удвоения) галактик 1_ Постоянная Хаббла H0: H0 ~ 70 км/с/Мпк Для удобства переведем H0 в обратное время: H0 ~ 2.27 10^{-18} c^{-1} 2_ Время удвоения T определяется уравнением: 2 = e^{H0*T} Решим уравнение для T: ln(2) = H0*T,  T = ln(2)/H0 Подставим значение H0: T = ln(2)/{2.27*10^{-18} с ~ 3.05*10^17 с ~ 9.68* 10^9 лет. Таким образом, время удвоения колонии галактик составляет приблизительно 9.68*10^9 лет. Зависимость скорости движения фронта колонии от радиуса колонии 1_ Экспоненциальный рост на двумерной поверхности:   — Начальная галактика начинает процесс размножения путем бинарного деления.   — Площадь, занимаемая колонией галактик, будет увеличиваться как A(t) = e^{2*H0* t}, поскольку площадь растет экспоненциально с временем, удвоение плотности галактик на двумерной поверхности. 2_ Радиус колонии R(t):   — Площадь A на двумерной поверхности связана с радиусом R как A = pi*R^2.   — Если площадь увеличивается экспоненциально, то: R(t) = e^{H0*t} 3_ Скорость движения фронта v(t):   — Скорость фронта колонии v(t) — это производная радиуса по времени: v(t) = dR(t)/dt Подставим R(t) = e^{H0*t}: R(t) = R0*e^{H0*t} Тогда скорость движения фронта: v(t) = d(R0*e^{H0*t}/dt Или, если… Подробнее »

Alеx
Alеx
3 месяцев(-а) назад

Я ничего не понял:(

Владимир Аксайский
Владимир Аксайский
3 месяцев(-а) назад
В ответ на:  Alеx

Это мои игры с GPT-4o в вопросы и ответы, — с целью выяснить пределы его толерантности.
Космолог-человек просто не стал бы отвечать, — или посоветовал бы обратится к психиатру.
А GPT вполне корректно и без эмоций ответил на мои вопросы, — показав, что микробная гипотеза объясняет закон Хаббла ничуть не хуже космологической гипотезы о расширении вселенной.
И даже предсказывает интенсивное рождение галактик на периферии видимой вселенной. ))
     

Последняя редакция 3 месяцев(-а) назад от Владимир Аксайский
Леонид Коганов
Леонид Коганов
3 месяцев(-а) назад

Без комментариев:
https://dzen.ru/a/Zk3bAikpgC7Au_kq
Л.К.

Оценить: 
Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (9 оценок, среднее: 4,33 из 5)
Загрузка...