4월 24일까지 거부하지 않으면 GitHub이 개인 저장소로 AI 학습을 진행함
(news.ycombinator.com)- GitHub이 개인 저장소의 코드와 데이터를 AI 모델 학습에 활용할 계획
- 사용자는 4월 24일 이전에 명시적으로 거부(opt-out) 해야 데이터 사용을 차단할 수 있음
- 거부하지 않을 경우 비공개 프로젝트 정보가 학습 데이터에 포함될 수 있음
- 해당 정책은 GitHub Copilot 등 AI 기능 향상을 위한 데이터 수집과 연관됨
- 개발자는 개인 정보 보호 및 코드 보안을 위해 설정 확인이 필요함
GitHub의 AI 학습 데이터 정책 변경
- GitHub이 AI 모델 개선 목적으로 개인 저장소 데이터를 학습에 포함할 수 있도록 정책을 변경함
- 사용자가 별도로 거부하지 않으면 자동으로 데이터가 활용됨
- 거부는 GitHub 설정 페이지에서 직접 수행 가능함
- 학습 데이터에는 비공개 코드, 프로젝트 메타데이터, 커밋 기록 등이 포함될 가능성이 있음
- 이 조치는 Copilot 및 기타 AI 기능의 품질 향상을 위한 것으로 설명됨
개발자에게 미치는 영향
- 개인 저장소가 학습에 사용될 경우 민감한 코드나 내부 로직 노출 위험이 존재함
- 기업 및 개인 개발자는 보안 정책 검토와 opt-out 절차 수행이 필요함
- GitHub의 이번 변경은 AI 학습 데이터의 투명성과 사용자 통제권에 대한 논의로 이어질 가능성 있음
몇일전 부터 github에 계속 뜨더군요,
Important update
On April 24 we'll start using GitHub Copilot interaction data for AI model training unless you opt out. Review this update and manage your preferences in your GitHub account settings.
optout 했습니다만, 예전부터 이미 AI에 활용했지 않았나 싶습니다.
Hacker News 의견들
-
2023년부터 계속 말해왔음. 데이터베이스에 저장된 정보가 회사가 자유롭게 접근할 수 있는 형태라면, 결국 그 회사는 AI 학습용 데이터로 활용할 수 있도록 약관을 바꿀 것임. 인센티브가 너무 강해서 피할 수 없다고 생각함
- 맞는 말임. 아무리 윤리적인 회사라도 인수되면 상황이 바뀔 수 있음. 나는 SP500 기업에서 일하는데, 지금은 프로덕션 접근이 철저히 통제되어 있음. 하지만 Larry나 Zuck, Bezos 같은 사람이 회사를 사버리면 어떻게 될지 모름
- “먼저 하고 나중에 사과한다”는 게 일반적인 원칙이 될 것 같음. ToS를 바꾸지 않아도 실제로는 그렇게 할 수 있음. Amazon은 이미 거대한 사내 학습 데이터셋을 갖고 있음
- MS가 내 노트북에서 작성한 코드를 AI 학습에 쓰는 게 아닐까 걱정됨. 예전엔 음모론처럼 들렸던 리눅스 사용자들의 불신이 점점 이해되기 시작함
- 네 말이 맞음. 사람들이 그걸 너무 당연하게 여기지 못하는 게 답답함. Stallman은 항상 옳았음
- 키를 직접 소유하지 않는 한, 그건 종단 간 암호화가 아님. 헛소리를 피해야 함
-
“그렇지 않다”고 주장하며 GitHub 공식 블로그 링크를 공유함. Free, Pro, Pro+ Copilot 사용자는 opt-out하지 않으면 사용 데이터가 모델 학습에 쓰임. Business나 Pro 구독자는 학습에 포함되지 않음. Copilot을 사용하지 않으면 영향 없음. 지금 미리 opt-out하면 나중에 설정이 유지됨
- 블로그에 따르면 수집되는 데이터는 입력, 출력, 코드 컨텍스트, 주석, 파일 구조, 피드백 등임. 하지만 “참여를 원하면”이 아니라 “참여하지 않으면”으로 되어 있음. 즉, 참여 거부를 직접 해야 하는 구조라 불만임. 내 프라이버시를 지키기 위해 내가 수고해야 하는 건 부당함
- 세부 표현이 너무 모호하게 쪼개짐. Copilot이 입력과 출력, 코드 컨텍스트를 학습에 쓴다면, 결국 private repo의 코드 일부가 학습 데이터로 사용된다는 뜻임
- 제목과 답변 모두 너무 포괄적임. 4월 24일부터 Business/Pro가 아닌 사용자의 private repo가 기본적으로 학습에 포함됨. 모든 repo가 해당되는 건 아니지만, 언어 선택이 신중해야 함. “No we won’t”보다는 “완전히 정확하진 않다”가 더 적절했음
- 그래도 여전히 심각한 문제임. 코드가 LLM 학습에 들어가면 더 이상 private이 아님. “private repo”라고 써놓고 약관에 작은 글씨로 “공개될 수 있다”고 적는 건 거짓말임
- EU 법에서는 opt-out 방식이 유효한 동의로 인정되지 않음. 이걸 어떻게 처리할 계획인지 궁금함
-
이 뉴스의 제목은 오해의 소지가 있음. GitHub이 private repo 자체를 학습하는 게 아니라, Copilot 사용 중 발생하는 상호작용 데이터를 학습함. Copilot을 쓰지 않으면 영향 없음. 그래도 꺼두는 게 좋음
- 그런데 내 기여자 중 한 명이 Copilot을 쓰면 어떻게 되는지 궁금함
- 나도 그렇게 이해했지만, 입력을 학습한다면 코드 자체를 학습하지 않는다고 보장할 수 없음. 법정에서는 “입력만 학습했다”고 주장할 수도 있음
- 이런 세밀한 구분은 결국 무의미함. 지금은 그렇더라도, 나중에 몰래 바뀔 수 있음. 개발자들은 시스템을 이해했다고 생각하지만, 결국 계속 속게 됨
-
정확히 말하면, opt-out은 Copilot 학습용 설정임. 지금까지는 public repo만 opt-in이었지만, 4월 24일부터는 private repo도 기본 포함됨. Copilot을 private repo에서 쓰고 있다면, github.com/settings/copilot에서 opt-out하는 게 좋음. 30초면 됨
- 30초가 아니라 0초여야 함. 내 시간은 내 것이고, 프라이버시를 지키기 위해 시간을 써야 하는 이유가 없음
- “30초면 된다”는 말은 현실을 모름. 이런 정보를 알기 위해 매일 HN을 뒤져야 함. 결국 240시간을 써야 스위치가 있다는 걸 알게 됨
- 예전에는 opt-in이 아니었음. 그땐 사용 데이터를 학습하지 않았음. 내부적으로만 학습을 해왔고, 그 덕분에 성능 향상이 있었다고 함. 관련 내용은 이 블로그 글에 있음
- 설정이 모든 사용자에게 보이지 않음. 조직 단위로 Copilot을 관리 중이면 해당 옵션이 사라짐. 조직을 떠나면 자동으로 다시 opt-in될 수도 있음
-
팀에서 한 명이라도 opt-out하지 않으면 Copilot이 repo 전체에 접근할 수 있는지 궁금함. 팀원들의 설정 상태를 확인할 방법이 있는지도 알고 싶음
- 팀원이 코드를 복제해서 프롬프트에 붙여넣는 걸 막을 수 없는 것처럼, 이 설정도 통제 불가능함. MS 입장에서는 기본 opt-in이 훨씬 편리함
-
현재 설정은 사용자 단위로만 가능함. 조직 전체에서 일괄 비활성화할 방법이 있는지 궁금함. 한 명이라도 설정을 켜면 조직의 코드가 학습 데이터로 간주되는지 걱정됨
-
GitHub이 배너 공지를 꾸준히 띄운 건 인정함. 하지만 나도 이번 HN 글을 보기 전까지는 그걸 읽지 않았음
- 하지만 CLI로만 git을 쓰는 사람은 그 배너를 볼 수 없음
- 배너나 이메일을 읽어도 정확히 어떤 설정을 바꿔야 opt-out되는지 명시되어 있지 않음. 결국 사용자가 직접 찾아야 하고, 나중에야 제대로 설정했는지 알게 됨
- 나는 그 배너를 본 적이 없음. 어디에 표시되는지 궁금함
- 앱이 설정을 리셋하거나 잃어버리는 경우는 처음 봄
-
내 private repo는 엉망진창 코드라서 걱정할 필요 없음. 오히려 LLM이 내 코드로 학습하면 손해일 것임
- 나도 동참함. 내 쓰레기 코드로 M$ AI를 망가뜨리겠음
- LLM 오염시키기는 일종의 저항 방식으로 흥미로움
-
GitHub을 오랫동안 유료로 써온 사람 중 공지 못 본 사람들은 불쌍함
- 나도 opt-out 방식은 싫지만, 지금은 GitHub 모든 페이지에 배너 공지가 떠 있고, 이메일도 보냈음