Як лінійна алгебра розкрила в мові прихований сексизм

Ще в 2013 році кілька співробітників Google провели дослідження, в ході якого пропустили через нейронну мережу три мільйони слів з Google News. Метою було розкрити принципи проходження слів друг за другом.

Результат, виданий мережею, був складний для сприйняття, але команда Google виявила, що його можна представити як модель з використанням векторів в трехсотмерном просторі.

Виявилося, що слова зі схожими значеннями займали аналогічні частини цього векторного простору. І зв'язку між словами можуть бути відображені в рамках простої лінійної алгебри. Наприклад, «чоловік - король так само, як жінка - королева», або використовуючи загальні позначення «чоловік: король: жінка: королева». Відразу з'являються інші зв'язку, такі як «сестра: жінка: брат: чоловік» і так далі. Ці зв'язки так само відомі як «словесні відповідності».

Цей набір даних був названий Word2vec і виявився надзвичайно корисним. Багато дослідників почали його використовувати для кращого представлення різних процесів - від машинного перекладу до інтелектуального пошуку в інтернеті.

Але сьогодні Толга Болукбаси з Бостонського університету і кілька співробітників з Microsoft Research стверджують, що з цією базою даних є одна проблема: вона явно нерівноправні до жінок.

Але сьогодні Толга Болукбаси з Бостонського університету і кілька співробітників з   Microsoft   Research стверджують, що з цією базою даних є одна проблема: вона явно нерівноправні до жінок

зображення: Wikipedia

У них є безліч доказів на підтвердження своїх доводів. Все починається з подачі запиту векторному простору для пошуку відповідників. Наприклад, можна поставити питання таким чином: «Париж: Франція :: Токіо: х», і це дасть вам відповідь х = Японія.

Але запитайте базу «батько: лікар :: мати: х», і вона вам відповість х = медсестра. А запит «чоловік: програміст :: жінка: х» дає вам х = домогосподарка.

Іншими словами, словесні відповідності поводяться вкрай сексистські. Це відбувається тому, що будь-яка необ'єктивна позиція в статтях, з яких складається основний фонд даних Word2vec, буде неминуче відображена в геометрії векторного простору. Болукбаси з колегами це доводить до відчаю. «Можна було б сподіватися, що вибірка Google News буде менш схильна до статевої дискримінації, так як багато хто з її авторів є фаховими журналістами», - говорить він.

Так що ж робити? У бостонської команди є рішення. Оскільки векторне простір є математичним безліччю, воно може бути змінено стандартними математичними прийомами.

Рішення очевидно. Сексизм можна розглядати як свого роду викривлення цього векторного простору. Справді, гендерна приналежність може бути властивістю, яке може знадобитися знайти в векторному просторі. Так що вирішенням цієї проблеми є питання застосування зворотного викривлення для збереження загальної структури простору.

Така теорія. На практиці складність полягає в вимірі цього викривлення. Команда робить це шляхом пошуку векторного простору для пар слів, які створюють вектори на зразок «вона: він». Це відкриває величезний список гендерних аналогій. Наприклад: вона: він; акушерка: лікар; вишивка: столярну справу; медсестра: доктор; повія: боягуз; перукарка: цирульник; гола: з голим торсом; груди: дупа; хихикання: посмішка; няня: шофер і т.д.

Дослідники хочуть зрозуміти, чи є дані аналогії прийнятними чи ні. Для цього вони користуються послугами Mechanical Turk - створеного Amazon в 2005 році інтернет-ринку краудсорсерского праці. Вони продемонстрували десяти працівникам кожну з аналогій і запитали, здалися вони їм містять упередження. Аналогії визначаються упередженими, якщо більше половини працівників визнають їх такими.

Результат вийшов цікавим. Даний метод ясно показав явне гендерна порушення в таких парах, як акушерка: лікар; вишивка: столярну справу і медсестра: доктор, і невелике викривлення в таких парах: жіночність: мужність; жіночий монастир: чоловічий монастир; сумочка: портфель і т.д.

д

Британський вчений і співробітник Європейського космічного агентства Метт Тейлор, який піддався нападкам інтернет-користувачів через сорочки з «образливим» малюнком

Відформатувавши вичерпний перелік пар з гендерних невідповідністю, команда використовувала цю інформацію, щоб з'ясувати, як це відображено в векторному просторі і як його можна змінити, щоб виправити це викривлення. Вони називають цей процес «жорстке зворотне зміщення».

Зрештою, вони скористалися зміненим векторних простором для створення нового списку гендерних аналогій і знову попросили робочих оцінити їх. Це породило такі аналогії: вона: він; курка: півень; покоївка: дворецький; дівчата: хлопці; дочка: син і т.д.

Вони стверджують, що за результатами опитування працівників цей процес значно зменшує відхилення. «Емпіричним методом оцінки ми демонструємо, що наш алгоритм жорсткого зворотного зсуву дозволяє значно знизити як пряму, так і непряму дискримінацію за статевою ознакою, зберігаючи при цьому саме відповідність», - розповідає Болукбаси з колегами.

Кінцевим результатом є векторний простір, в якому значно знижений гендерний перекіс.

Це дуже важливо в застосуванні на практиці. Кожен перекіс в системі відповідності слів, які перебувають в Word2vec, автоматично переноситься в кожне використовує їх додаток. Одним із прикладів є використання системи для поліпшення пошуку в мережі. Якщо фраза «програміст» більш тісно пов'язана з чоловічою статтю, ніж з жіночим, то пошук терміна «резюме програміста» може ранжувати чоловіків вище, ніж жінок. «Відповідності слів не тільки відображають стереотипи, але і підсилюють їх», - кажуть в команді Болукбаси.

Очевидно, що мова наповнений безліччю прикладів статевої дискримінації, які важко виправдати. Виникає цікаве питання, в якій мірі слід використовувати даний вид векторного простору, щоб виправити це.

«Інший точкою зору на спотворення відповідно слів є те, що вони всього лише відображають упередження в суспільстві, і тому скоріше варто виправляти суспільство, ніж відповідності в системі, - говорить Болукбаси. - Проте за рахунок зменшення перекосу в сучасних комп'ютерних системах (або, принаймні, запобігання його посилення), які в великій мірі залежать від системи відповідностей, ми сподіваємося хоч трохи сприятиме зменшенню статевої дискримінації в суспільстві ».

Це здається гідною метою. Як приходить до висновку бостонская команда, «Принаймні, машинне навчання не повинно бути використано для ненавмисного посилення цих спотворень».

джерело .

Матеріали по темі:

Як «ефект QWERTY» впливає на наші словесні переваги

50% женоненависницький твітти відправляють ... жінки

Дослідження: чоловіки менше піклуються про конфіденційність в інтернеті, ніж жінки

У Facebook вирішили створити штучний інтелект, який буде створювати штучний інтелект

Знайшли друкарську помилку? Виділіть текст і натисніть Ctrl + Enter

Так що ж робити?