[Cloud] 클라우드 엔지니어 관점의 엣지 AI (와 클라우드를 섞은 Apple Intelligence 사례)

[Cloud] 클라우드 엔지니어 관점의 엣지 AI (와 클라우드를 섞은 Apple Intelligence 사례)


Cloud AI

Edge AI

  • 데이터 처리를 클라우드가 아닌 데이터 생성 지점인 엣지에서 수행하는 인공지능 기술
  • 스마트폰, IoT 기기, 센서, 카메라와 같은 사용자 가까이에 있는 장치들
  • 전통적인 AI 시스템: 대규모 데이터가 클라우드 서버로 전송되고 그곳에서 AI 모델이 데이터를 처리한 후 다시 장치로 결과를 돌려주는 방식
  • 엣지 AI: 데이터 처리를 엣지 장치 자체에서 수행
  • 특징
    • 빠른 응답 시간
      • 클라우드에 데이터를 보내지 않고 장치 자체에서 처리 -> 실시간 응답
      • 예시: 자율주행 자동차 등
    • 데이터 프라이버시
      • 데이터가 클라우드로 전송되지 않기 때문에 개인정보 보호 측면에서 안전
      • 예시: 개인 건강 정보, 카메라 영상 등
    • 네트워크 의존성 감소
      • 네트워크 상태에 의존하지 않고 AI 모델의 작동 가능
    • 비용 절감
      • 데이터 전송 비용과 클라우드 컴퓨팅 자원 감소

Apple Intelligence

  • 지난 6월 Apple의 WWDC 2024에서 공개된 개인용 생성형 AI
  • 대강 기능은…
    • 알림 우선순위 지정 도구
    • 메일, 키노드, 써드 파티 앱에서 사용할 수 있는 텍스트 재작성, 교정, 요약 도구
    • 스케치, 일러스트레이션, 애니메이션을 포함한 사진 라이브러리에서 개인화된 이미지 생성 도구
    • 등등… MacOS, iOS와 완전 통합되는 AI
  • 사실상 애플 생태계 유저들한텐 지금까지 나온 AI 모델들 중 실생활에 가장 유용할 것 같음

Edge + Cloud AI

  • 애플 인텔리전스는 엣지 AI를 사용자에게 가장 일반적이고 광범위하게 서빙할 첫 대기업일듯 하다.
  • 온디바이스 언어 모델(OpenELM: 30억 개 파라미터 모델, 참고: GPT는 1.5조 개 매개변수)과 Private Cloud Compute(이하 PCC)에서 돌아가는 Apple Silicon 기반 더 큰 서버 기반 언어 모델(Ferret-UI 등)로 구성
  • 사용자 요청이 너무 복잡할 경우 ChatCPT-4o로 전송할 수 있도록 허용
  • 모든 사용자 요청에 대해 ‘오케스트레이션’을 하게 된다.
    • 요청에 가장 적합한 모델을 평가하고, 온디바이스에서 처리할 수 있는 경우 해당 모델이 기본적으로 선택됨
    • 그렇지 않으면 Apple Server, ChatGPT 등으로 보내짐
    • 오케스트레이션 알고리즘은 비공개
  • 고작 30억 개 파라미터는 LLM에 비해 제한된 요청을 처리할 수 있고, 그럼에도 6GB의 램을 차지한다고 하니 아직 엣지 디바이스에서는 해당 수준의 파라미터 수가 한계 (아이폰 램 크기를 보더라도)
    • 그럼에도 애플은 모델의 정량화와 파인 튜닝으로 RAM 요구량을 많이 줄였다고 한다.
    • 6GB -> 1.5GB
    • 참고로 GPT나 Claude같은 LLM은 3TB 정도의 램이 필요하다고 함
  • 복잡한 요청은 PCC라는 애플의 자체 프라이빗 클라우드를 활용해 처리
    • PCC는 데이터의 종단 간 암호화를 통해 데이터를 보호
    • 사용자 데이터는 무작위 식별자로 처리
    • 심지어 애플도 해당 데이터에 접근할 수 없을 정도로 개인정보 보호에 노력을 쏟고 있음

나의 의견은…

  • 이렇게 여러 엣지에서 오케스트레이션을 통해 요청을 규모에 맞는 모델로 처리한다는 아이디어가 너무 좋은 것 같다.
  • 특히 기업들이 요새 자체 생성형 AI와 코파일럿을 구축하고 싶어한다던데… 어떻게 할지 힌트가 조금 된다.
  • 생성형 AI 모델을 직접 구축하는 것은 매우 복잡하고 비용이 많이 들기 때문에 일반 대기업 정도에선 자체 개발이 사실상 힘들다.
    • 어엄청난 컴퓨팅 자원, 데이터가 필요하고 유지 관리도 필요하기에 거의 불가능
  • 거대 LLM을 개발하는 기업들이 Pre-Trained 모델을 제공한다고 함
    • e.g., OpenAI의 API 라이센스 모델, Anthropic, Cohere 등등
  • 이 모델을 프라이빗 클라우드에 배포할 수 있도록 제공해주는데, 이를 통해서 인터넷 연결 없이도 AI 모델을 사용할 수 있다.
  • 이런 식으로 코파일럿, 생산성 도구를 개발하면 민감한 데이터 보호 측면에서 문제가 해결되는 것이 아닌가?
  • 조직에서 MLOps를 구축하는 것이 굉장히 중요해질 것 같은 느낌
© 2024 Seungwon Bae 🇰🇷