социальные сети

Алгоритм может пресечь жестокое обращение с женщинами в Twitter.

Жестокое обращение с женщинами в Интернете, в том числе угрозы причинения вреда или сексуального насилия, распространилось на все платформы социальных сетей, но исследователи QUT разработали статистическую модель, которая поможет вытеснить это из сферы Twittersphere.

Адъюнкт-профессор Ричи Наяк, профессор Николас Сюзор и научный сотрудник доктор Мд Абул Башар из QUT разработали сложный и точный алгоритм для обнаружения этих постов в Твиттере, прорезая хриплый сброд из миллионов твитов для выявления женоненавистнического содержания.

Команда, созданная в сотрудничестве между факультетами науки и техники и права QUT, и Центром исследований цифровых медиа, собрала набор данных из 1 млн твитов, а затем уточнила их, выполнив поиск тех, которые содержат одно из трех оскорбительных ключевых слов.

Их статья — «Регуляризация LSTM-классификатора с помощью трансферного обучения для обнаружения женоненавистнических твитов с небольшим обучающим набором» — была опубликована в журнале «Knowledge and Information Systems».

«В настоящее время ответственность за сообщение о жестоком обращении лежит на пользователе. Мы надеемся, что наше решение машинного обучения может быть использовано платформами социальных сетей, чтобы автоматически идентифицировать и сообщать об этом контенте для защиты женщин и других групп пользователей в Интернете», — сказал профессор Наяк.

«Ключевой проблемой при обнаружении женоненавистнических твитов является понимание контекста твита. Сложный и шумный характер твитов усложняет задачу. Вдобавок ко всему, научить машину понимать естественный язык — один из наиболее сложных аспектов науки о данных: язык постоянно меняется и развивается, и большая часть смысла зависит от контекста и тона. Итак, мы разработали систему интеллектуального анализа текста, в которой алгоритм изучает язык по мере его продвижения, сначала развивая базовый уровень понимания, а затем дополняя это знание как специфическим для твита, так и оскорбительным языком. Мы реализовали алгоритм глубокого обучения под названием Long Short-Term Memory with Transfer Learning, что означает, что машина может оглянуться на свое предыдущее понимание терминологии и изменить модель по мере ее продвижения, изучая и развивая свое контекстное и семантическое понимание с течением времени».

Хотя система начиналась с базового словаря и строила свой словарный запас на его основе, исследовательская группа должна тщательно отслеживать контекст и намерения, чтобы алгоритм мог различать злоупотребления, сарказм и дружеское использование агрессивной терминологии.

«Возьмем, к примеру, фразу «вернуться на кухню» — без контекста структурного неравенства, буквальная интерпретация машины может не иметь женоненавистнического значения», — сказал профессор Наяк.

«Но при понимании того, что представляет собой оскорбительный или женоненавистнический язык, его можно определить как женоненавистнический твит. Отличить это, вне контекста, от женоненавистнической и оскорбительной угрозы для машины невероятно сложно.

«Обучение машины различать контекст без помощи тона и только с помощью текста было ключом к успеху этого проекта, и мы были очень счастливы, когда наш алгоритм определил «вернуться на кухню» как женоненавистнический — он продемонстрировал, что контекстное обучение работает.»

Модель исследовательской группы идентифицирует женоненавистнический контент с точностью 75%, превосходя другие методы, исследующие аналогичные аспекты языка социальных сетей.

«Другие методы, основанные на распределении слов или образцах встречаемости, выявляют оскорбительную или женоненавистническую терминологию, но наличие слова само по себе не обязательно коррелирует с намерением», — сказал профессор Наяк.

«После того, как мы довели 1 млн твитов до 5000, эти твиты были затем классифицированы как женоненавистнические или нет, в зависимости от контекста и намерений, и были введены в классификатор машинного обучения, который использовал эти помеченные образцы, чтобы начать построение своей модели классификации. К сожалению, нет недостатка в женоненавистнических данных, с которыми можно было бы работать, но маркировка данных была довольно трудоемкой.»

Профессор Наяк и его команда надеялись, что это исследование может быть преобразовано в политику на уровне платформы, согласно которой Twitter, например, удаляет любые твиты, идентифицированные алгоритмом как женоненавистнические.

«Это моделирование может быть расширено и использовано в других контекстах в будущем, например, для выявления расизма, гомофобии или жестокого обращения с людьми с ограниченными возможностями», — сказала она.

«Наша конечная цель — перенести модель на платформы социальных сетей и испытать ее на месте. Если мы сможем упростить идентификацию и удаление этого контента, это может помочь создать более безопасное онлайн-пространство для всех пользователей».

Опрос

Довольны ли Вы нашим сервисом?

Показать результаты

Загрузка ... Загрузка ...