Вы не вошли.
Открыт раздел праздничных чтений Дня Чтеца 2025!
Если у вас не получается зайти на форум без ВПН, читайте по ссылке, что именно произошло
Садитесь поближе, анонцы, есть, что рассказать.
В ролях: Антибабовцы, Многодетки, Вконтач, Медуза, Russia Today, и конечно же, Холиварка.
В 2019 году проводился GSoC, Google Summer of Code, ежегодный конкурс по программированию от нашей бывшей Корпорации Добра.
Зашёл посмотреть на участников, и что я вижу:
Кросс-лингвистический анализ отношений США и России через сбор твитов и сообщений американских демократов и русских провластных консерваторов?
Звучит уже довольно тепло, лезу смотреть. Анализ Вконтакте, РТ, Медузы... подождите, что? Никакого анализа твитов американцев нет вообще (???), анализ проводился явно только русского языка, и вот что попалось мне внутри:
Перевод: Главным источником не-сексистской риторики был Холиварофорум, где я выкачала большую тему, посвящённую семейным отношениям (проблемы с родителями, близкими родственниками и т.д.). Это, также, было сделано в надежде, что даже на уровне данных будет возможна балансировка между сексистской риторикой и не-сексистской. К примеру, для модели [ИИ] нежелательно, чтобы она стала ассоциировать упоминания женщин с сексизмом (примеч. ОП: здесь имеется в виду перетренировка модели, см. сексистский ИИ). Метод для извлечения данных такой же, как и в предыдущих случаях [через Beautiful Soup, библиотеку для Питона].
То есть, иными словами, из Холиварки вытащили и распарсили всю тему с родственниками, причём распарсили так себе, и стали её считать источником анти-сексистской риторики. Сириосли? Там одни цитаты от родственников и набросы анонов и пациентов друг на друга чего стоят.
При этом, из всех остальных источников вытащили 2577 сообщений, а из Холиварки аж 21526. Ээээ, мне кажется, или тренировка моделей на сексизм - в основном презентованием сообщений с холиварки с припиской "это не сексизм" - должно выглядеть как-то иначе?
Так и есть, смотрите что мы видим дальше:
Как только тему с родственниками выкинули, точность поползла вверх, правда, слишком поздно и нормально потестировать датасет не удалось.
Из оставшегося там сообщения с форума антибабовцев, многодеток, ну вы поняли, какого сорта размеченные датасеты получились. Медузу тоже за компанию записали в источник сексистских комментариев, а почему бы и нет. Ba-dum tss!
И за это студенты получают пять тысяч долларов, ха! Чёрт, да это просто золотая жила какая-то.
А ну живо обучать ИИ вежливости на темах с пациентами!
Ссылки:
Ни хуя не понятно, но очень интересно.
Ни хуя не понятно, но очень интересно
Спасибо анон, день прожит не зря
что за хуйню я прочитал
Ахахаха это вин
Все, что я поняла, что заебаб победил-таки.
Ни хуя не понятно, но очень интересно-2.
Погоди, а цель работы была в анализе отношений США и РФ всё же? И несексистский массив текста с Холиварки им работу руинил?
Нужна была очень большая и разнообразная выборка данных. А взяли раковник с холиварки вместо нормальных высказываний.
Может это какой-то анон с холиварки так решил похалявить и на основе холиварочки и работу сделать и бабла срубить. Так потрудился, так ночами не спал выборку делал.
Что бы ты ни делал, за это всегда кто-нибудь заплатит, если правильно подать.
Спасибо за пару минут здорового смеха.
Хоть кому-то польза от того раковника
Может это какой-то анон с холиварки так решил похалявить
Да 146%. Если б я не дропнул универ, так же бы делал.
Отредактировано (2020-01-29 08:27:59)
Тема родственников вышла на международный уровень
Но почему именно тема родственников
Но почему именно тема родственников
Она большая и про реал. Думаю, поэтому.
Уже в третий раз я прочитал название темы как "Дети-сатанисты" и даже не удивился.
Re: Дата-сатанисты и холиварка: тема родственников и сексизм в ИИ
что за хуйню я прочитал
[2]
А можно мне то же самое, что употребил тот, кто это придумал?
Ходют тут всякие иностранцы с эмблемами нетсталкеров (и не только) на аватарках, а потом фигакс, и форум отпарсили для обучения ИИ, нормально, чо Ох уж эти дата-сатанисты, погромисты-рептилоиды и нетсталкеры иллюминаты.
Она большая и про реал. Думаю, поэтому.
Но в контексте "исследования" она пиздец странно смотрится.
В общем, спасибо анон-ТС, это чтиво сделало мне утро.
Вишенкой стало замечание о том, что значительная часть проблем в распознавании была из-за сарказма. Программа, как и многие аноны, не могла определить сарказм без таблички и агрилась на все подряд.
Тема родственников вышла на международный уровень
Ну хоть не транссрачи
А то ещё лесбийский тред можно было
Программа, как и многие аноны
Дело раскрыто, все аноны - русский бот
Но в контексте "исследования" она пиздец странно смотрится.
Почему? Для создания ИИ как раз нужно что-то не очень понятное для обучения.
Вишенкой стало замечание о том, что значительная часть проблем в распознавании была из-за сарказма. Программа, как и многие аноны, не могла определить сарказм без таблички и агрилась на все подряд.
Ну так. А как ещё обучать ИИ? Сначала будет агриться, потом обучится.
Ну хоть не транссрачи
А то ещё лесбийский тред можно было
Всё ещё впереди, если эти темы ещё не взяты для обучения ИИ.
Ни хуя не понятно, но очень интересно - 3
Родственники, теперь инетрнешнл!
Ахуенная тема, я всегда говорил!
Когда прочитал
Дантисты-сатанисты
но в теме какие-то геополитики, сексисты и питон.