OpenAI собирает новый датасет из работ подрядчиков — есть риски утечки конфиденциальных данных

458
0
OpenAI собирает новый датасет из работ подрядчиков — есть риски утечки конфиденциальных данных

По информации издания Wired, компания OpenAI нашла ещё один способ пополнять набор данных для обучения своих ИИ‑систем. Как сообщают источники, компания начала собирать датасет на основе задач, которые подрядчики выполняли в рамках других проектов.

Суть инициативы в том, что OpenAI запрашивает у подрядчиков файлы с примерами реально выполненных работ. Компания принимает различные форматы — от таблиц в Excel и текстов в Word до PDF‑файлов и изображений.

Чтобы снизить риски, связанные с персональными и конфиденциальными данными, OpenAI разработала специальный инструмент для очистки файлов. С его помощью подрядчики должны удалять чувствительную информацию до того, как материалы попадут в обучающий датасет.

Тем не менее эксперты предупреждают о возможных проблемах. В разговоре с Wired профильный юрист отметил: есть вероятность, что подрядчики не смогут полностью исключить конфиденциальные данные из передаваемых файлов. Даже при использовании инструмента очистки остаётся угроза непреднамеренной утечки информации.

Предполагается, что цель этой инициативы — повысить компетенции нейросетей OpenAI в решении офисных задач. Собранный датасет призван помочь моделям лучше работать с типовыми рабочими форматами документов: точнее обрабатывать данные, осваивать распространённые шаблоны и эффективнее справляться с рутинными операциями.

На вопросы о возможных утечках данных представители OpenAI предпочитают не отвечать..

Источники:
Wired
Другие публикации по теме
ИИ‑агенты Cursor создали рабочий браузер за семь дней
ИИ‑агенты Cursor создали рабочий браузер за семь дней
Компания Cursor, разработчик ИИ‑помощника для программистов, провела масштабный эксперимент по полностью автономной разработке программного обеспечения. Главной целью стало выяснение, способны ли ИИ‑агенты, действуя сообща, с нуля создать сложный программный продукт. В качестве тестовой задачи выбрали разработку браузера — проекта, который обычно требует от человеческих команд многих месяцев или даже лет работы.
Вчера в 14:43
654
12
Форум
РКН потратит почти 2,3 миллиарда рублей с наших налогов для фильтра интернет-трафика через ИИ
РКН потратит почти 2,3 миллиарда рублей с наших налогов для фильтра интернет-трафика через ИИ
Роскомнадзор в 2025 году направит 2,27 млрд рублей на систему фильтрации трафика с помощью машинного обучения для борьбы с запрещённым контентом и VPN.
Вчера в 11:30
1116
24
Форум
OpenAI официально подтвердила, что реклама приходит в ChatGPT
OpenAI официально подтвердила, что реклама приходит в ChatGPT
Сэм Альтман долго называл рекламу "крайней мерой", предпочитая эстетически чистый интерфейс, но 16 января 2026 года OpenAI официально анонсировала запуск рекламных тестов.
17 января в 17:00
617
5
Форум