[Cloud] 클라우드 엔지니어 관점의 엣지 AI (와 클라우드를 섞은 Apple Intelligence 사례)

Sep 7, 2024
Cloud AI

Edge AI

데이터 처리를 클라우드가 아닌 데이터 생성 지점인 엣지에서 수행하는 인공지능 기술
스마트폰, IoT 기기, 센서, 카메라와 같은 사용자 가까이에 있는 장치들
전통적인 AI 시스템: 대규모 데이터가 클라우드 서버로 전송되고 그곳에서 AI 모델이 데이터를 처리한 후 다시 장치로 결과를 돌려주는 방식
엣지 AI: 데이터 처리를 엣지 장치 자체에서 수행
특징
- 빠른 응답 시간
  - 클라우드에 데이터를 보내지 않고 장치 자체에서 처리 -> 실시간 응답
  - 예시: 자율주행 자동차 등
- 데이터 프라이버시
  - 데이터가 클라우드로 전송되지 않기 때문에 개인정보 보호 측면에서 안전
  - 예시: 개인 건강 정보, 카메라 영상 등
- 네트워크 의존성 감소
  - 네트워크 상태에 의존하지 않고 AI 모델의 작동 가능
- 비용 절감
  - 데이터 전송 비용과 클라우드 컴퓨팅 자원 감소

Apple Intelligence

지난 6월 Apple의 WWDC 2024에서 공개된 개인용 생성형 AI
대강 기능은…
- 알림 우선순위 지정 도구
- 메일, 키노드, 써드 파티 앱에서 사용할 수 있는 텍스트 재작성, 교정, 요약 도구
- 스케치, 일러스트레이션, 애니메이션을 포함한 사진 라이브러리에서 개인화된 이미지 생성 도구
- 등등… MacOS, iOS와 완전 통합되는 AI
사실상 애플 생태계 유저들한텐 지금까지 나온 AI 모델들 중 실생활에 가장 유용할 것 같음

Edge + Cloud AI

애플 인텔리전스는 엣지 AI를 사용자에게 가장 일반적이고 광범위하게 서빙할 첫 대기업일듯 하다.
온디바이스 언어 모델(OpenELM: 30억 개 파라미터 모델, 참고: GPT는 1.5조 개 매개변수)과 Private Cloud Compute(이하 PCC)에서 돌아가는 Apple Silicon 기반 더 큰 서버 기반 언어 모델(Ferret-UI 등)로 구성
사용자 요청이 너무 복잡할 경우 ChatCPT-4o로 전송할 수 있도록 허용
모든 사용자 요청에 대해 ‘오케스트레이션’을 하게 된다.
- 요청에 가장 적합한 모델을 평가하고, 온디바이스에서 처리할 수 있는 경우 해당 모델이 기본적으로 선택됨
- 그렇지 않으면 Apple Server, ChatGPT 등으로 보내짐
- 오케스트레이션 알고리즘은 비공개
고작 30억 개 파라미터는 LLM에 비해 제한된 요청을 처리할 수 있고, 그럼에도 6GB의 램을 차지한다고 하니 아직 엣지 디바이스에서는 해당 수준의 파라미터 수가 한계 (아이폰 램 크기를 보더라도)
- 그럼에도 애플은 모델의 정량화와 파인 튜닝으로 RAM 요구량을 많이 줄였다고 한다.
- 6GB -> 1.5GB
- 참고로 GPT나 Claude같은 LLM은 3TB 정도의 램이 필요하다고 함
복잡한 요청은 PCC라는 애플의 자체 프라이빗 클라우드를 활용해 처리
- PCC는 데이터의 종단 간 암호화를 통해 데이터를 보호
- 사용자 데이터는 무작위 식별자로 처리
- 심지어 애플도 해당 데이터에 접근할 수 없을 정도로 개인정보 보호에 노력을 쏟고 있음

나의 의견은…

이렇게 여러 엣지에서 오케스트레이션을 통해 요청을 규모에 맞는 모델로 처리한다는 아이디어가 너무 좋은 것 같다.
특히 기업들이 요새 자체 생성형 AI와 코파일럿을 구축하고 싶어한다던데… 어떻게 할지 힌트가 조금 된다.
생성형 AI 모델을 직접 구축하는 것은 매우 복잡하고 비용이 많이 들기 때문에 일반 대기업 정도에선 자체 개발이 사실상 힘들다.
- 엄청난 컴퓨팅 자원, 데이터가 필요하고 유지 관리도 필요하기에 거의 불가능
거대 LLM을 개발하는 기업들이 Pre-Trained 모델을 제공한다고 함
- e.g., OpenAI의 API 라이센스 모델, Anthropic, Cohere 등등
이 모델을 프라이빗 클라우드에 배포할 수 있도록 제공해주는데, 이를 통해서 인터넷 연결 없이도 AI 모델을 사용할 수 있다.
이런 식으로 코파일럿, 생산성 도구를 개발하면 민감한 데이터 보호 측면에서 문제가 해결되는 것이 아닌가?
조직에서 MLOps를 구축하는 것이 굉장히 중요해질 것 같은 느낌