단어 예측 엔진 LLM 알고리즘의 인스타 팔로워 이해

조회 758 | 2024-03-02 18:59
http://www.momtoday.co.kr/board/103456

2022년 11월, 챗GPT(ChatGPT)가 등장하면서 기업과 소비자가 생성형 인공 지능(AI)을 사용해 작업을 자동화하고 창의적인 아이디어를 얻을 뿐만 아니라 소프트웨어 코딩도 할 수 있다는 생각이 보편화됐다. 예를 들어 이메일 또는 채팅 스레드를 간략하게 요약하려면 오픈AI의 챗GPT, 구글의 바드(Bard)와 같은 챗봇에 요청하기만 하면 된다. 더 좋은 언변과 보기 좋은 레이아웃으로 이력서를 꾸미고 싶을 때도 AI의 도움을 받을 수 있다. 새로운 마케팅이나 캠페인을 위한 아이디어를 얻고 싶을 때 역시 생성형 AI를 찾으면 된다. 인스타 팔로워 구매 챗GPT는 챗봇 생성형 사전 학습 변환기(chatbot generative pre-trained transformer)를 의미한다. 이 챗GPT의 기반은 컴퓨터 알고리즘인 GPT 대규모 언어 모델(LLM, large language model)인데, 이 LLM이 자연어 입력을 처리하고 앞선 내용을 기반으로 다음 단어를 예측하고 또 그 다음 단어를 예측하는 방식으로 대답을 완성해 나간다. 간단히 표현하면 LLM은 다음 단어 예측 엔진(next-word prediction engine)이라고 할 수 있다. 널리 사용되는 LLM으로는 오픈AI의 GPT-3와 4 LLM 외에, 개방형 모델인 구글의 람다(LaMDA)와 팜(PaLM) LLM(바드의 기반), 허깅 페이스(Hugging Face)의 블룸(BLOOM)과 XLM-로버타(XLM-RoBERTa), 엔비디아의 니모(NeMO) LLM, XLNet, 코히어(Co:here), GLM-130B 등이 있다. 지금은 개발자가 더 낮은 비용으로 더 맞춤화된 모델을 만들 수 있는 오픈소스 LLM에 특히 관심이 쏠리고 있다. 특히 메타가 2월에 라마(LLaMA)를 내놓았는데 오픈소스 LLM을 사용하려는 개발자 사이에서 폭발적인 호응을 얻었다. 인스타 팔로워 늘리기 LLM은 방대한 양의 문서, 위키피디아 항목, 책, 인터넷 기반 리소스와 기타 자료를 사용해 학습하고, 자연어 질의에 대해 인간과 비슷한 응답을 만들어내는 AI다. 여기에 사용되는 데이터의 양은 엄청나다. 그러나 LLM의 크기는 앞으로는 더 커지는 것이 아니라 작아질 것으로 보인다. 각 업체가 특정 용도로 LLM을 맞춤화해 현재 가장 인기 있는 모델에 사용되는 방대한 규모의 데이터 집합이 필요 없는 방법을 찾고 있기 때문이다. 예를 들어 보도에 따르면 2월 초에 발표된 구글의 새로운 팜 2 LLM은 3조 6,000억 개의 토큰 또는 단어 문자열을 학습 데이터로 사용했다. 불과 1년 전에 나온 이전 모델보다 거의 5배 많은 데이터를 사용했다. 하지만 팜 2는 더 작은 규모의 부가 데이터 집합을 통해 코딩, 수학, 창의적 작문 같은 특정 작업에서 더 좋은 성과를 낸다. 인스타 팔로워 LLM은 무엇인가 LLM은 데이터 입력/출력 집합을 통해 학습되는 머신러닝 신경망이다. 많은 경우 텍스트는 레이블이 지정되지 않거나 분류되지 않고, 모델은 자가 지도 또는 준지도 학습 방법을 사용한다. LLM으로 정보가 수집되거나 콘텐츠가 입력되면 알고리즘은 다음 단어를 예측해서 출력한다. 입력은 기업의 독점 데이터일 수도 있고, 챗GPT의 경우와 같이 인터넷에서 직접 수집, 스크랩한 데이터를 쓴다. 이런 데이터로 LLM을 학습시키려면 슈퍼컴퓨터 역할을 하는 거대하고 값비싼 서버 팜이 필요하다. LLM은 매개변수에 의해 제어되며 매개변수의 수는 수백만 개에서 수십억, 수조 개에 이르기도 한다. 여기서 매개변수는 LLM이 여러 응답 중에서 출력할 응답을 결정할 때 도움이 되는 요소라고 생각하면 된다. 오픈AI의 GPT-3 LLM은 1,750억 개의 매개변수를 사용하며 최신 모델인 GPT-4는 1조 개를 사용하는 것으로 알려졌다. 예를 들어 LLM 프롬프트 창에 "오늘 점심에 내가 먹은 것은…"이라고 입력하면 LLM은 "시리얼" 또는 "밥", "스테이크 타르타르"라는 대답을 내놓을 수 있다. 100% 정확한 답은 없지만 모델이 이미 수집된 데이터를 기반으로 확률이 높은 단어를 제시한다. 기존 데이터를 근거로 할 때 "시리얼"이라는 답이 가장 맞을 확률이 높다면 LLM은 이 단어로 문장을 완성한다. 그러나 LLM은 확률 엔진이므로 가능한 대답을 일정 비율로 제시한다. 즉, 시리얼은 50%의 확률로 출력되고, "밥"은 20% 미만의 확률로 출력되고, 스테이크 타르타르는 0.005% 미만의 확률로 출력될 수 있다. 머신러닝, 자연어 처리, 딥러닝을 연구하는 MIT의 김윤 교수는 "핵심은 LLM이 이를 학습한다는 것이다. 사람과는 다르다. 충분히 큰 학습 집합을 통해 확률이 할당되는 방식이다"라고 말했다. 인스타 한국인 팔로워 그러나 "쓰레기가 들어오면 쓰레기가 나간다"는 점을 유의해야 한다. 즉, LLM이 수집한 정보가 편향되거나 불완전하거나 기타 적절치 않은 경우 LLM이 출력하는 응답도 똑같이 신뢰할 수 없고 이상하거나 심지어 모욕적일 수 있다. 응답이 정상 범위를 완전히 벗어나는 경우를 "환각(hallucination)"이라고 한다. AI를 사용해 원격으로 소프트웨어 엔지니어를 채용해주는 튜링(Turing)의 CEO 조나단 시드하스는 "환각이 발생하는 이유는 가장 기본적인 형태의 LLM에 세계에 대한 내적 상태 표현이 없기 때문이다. 즉, 사실(fact)에 대한 개념이 없다. 지금까지 본 데이터를 기반으로 다음 단어를 예측하는 통계적 추정일 뿐이다"라고 말했다. 일부 LLM은 인터넷 기반의 데이터로도 학습하므로 초기 개발자가 의도한 이상 범위까지 확장할 수 있다. 예를 들어 마이크로소프트 빙은 GPT-3를 기반으로 하지만, 검색 엔진을 쿼리해서 처음 20개 정도의 결과를 분석하기도 한다. 즉, 빙은 LLM과 인터넷을 모두 사용해서 응답을 제공한다. 시드하스는 "가령 한 프로그래밍 언어로 학습된 모델이 이전에 접한 적이 없는 다른 프로그래밍 언어의 코드를 자동으로 생성한다. 자연어도 마찬가지다. 프랑스어 학습을 하지 않았지만 프랑스어로 된 문장을 만들 수 있다. 실제로 새로운 행동이 나타나는 것 같다. 우리는 이런 신경망이 어떤 원리로 작동하는지 잘 모른다. 흥미로운 동시에 무섭기도 하다"라고 말했다. 인스타 좋아요 늘리기 LLM은 편향되는가 LLM과 그 매개변수의 또 다른 문제는 LLM 개발자, 그리고 인터넷에서 이뤄지는 자가 지도 데이터 수집에 의해 의도하지 않은 편향성이 유입될 수 있다는 점이다. 프린스턴 대학 정보기술 정책 센터의 박사과정에 있는 사야시 카푸에 따르면 챗GPT와 같은 시스템은 인터넷과 프로그래머에게서 수집한 데이터에 따라 성별 편향적인 답을 제공할 가능성이 높다. 그는 "챗GPT에서 암시적인 편향성 테스트, 즉 성별이 명시적으로 언급되지 않고 성별의 대명사에 대한 정보만 포함되는 테스트를 실시했다. 예를 들어 문장에서 "그녀"를 "그"로 바꿨다. 그랬더니 챗GPT의 오류율이 3배 줄어들었다. 이런 선천적 편향성 때문에 언어 모델을 현실에서 사용할 때 위험할 수 있다. 예를 들어 채용 과정에서 편향된 언어 모델이 사용되면 실제 성별 편향성으로 이어질 수 있다. 이런 편향성은 개발자가 의도적으로 편향되도록 모델을 프로그래밍해서 발생하는 것이 아니다. 하지만 궁극적으로 편향성을 수정할 책임은 AI 모델을 출시하고 이를 통해 이익을 얻는 개발자에게 있다"라고 말했다. 프롬프트 엔지니어링이란 오픈AI의 GPT-4와 같은 대부분의 LLM에는 방대한 양의 정보가 사전에 주입되지만 사용자에 의한 프롬프트 엔지니어링으로도 특정 산업, 나아가 기업의 목적에 맞게 모델을 학습시킬 수 있다. MIT의 김윤은 "프롬프트 엔지니어링은 원하는 것을 말하도록 하기 위해 알고리즘에 무엇을 집어넣을지를 결정하는 것이다. LLM은 텍스트 맥락 없이 말을 쏟아내는 시스템이다. 어떤 의미에서 LLM 자체가 이미 챗봇이다"라고 말했다. 인스타그램 팔로워 늘리기 프롬프트 엔지니어링은 원하는 결과를 얻기 위해 LLM을 위한 텍스트 프롬프트를 작성하고 최적화하는 과정이다. 이제 막 탄생한 새로운 분야이므로 기업은 AI 애플리케이션에서 최적의 응답을 얻기 위해 안내 책자와 프롬프트 가이드에 의존한다. 챗GPT를 위한 최고의 프롬프트 100개와 같이 프롬프트 관련 시장도 만들어지고 있다. LLM을 만들고 호스팅하는 커뮤니티 플랫폼인 허깅 페이스의 머신러닝 엔지니어인 이노 레예스는 "프롬프트 엔지니어링은 사용자에게도 중요하지만, IT 및 비즈니스 전문가 입장에서도 필수적으로 익혀야 하는 기술이다. 프롬프트 엔지니어는 비즈니스 용도에 따라 맞춤 LLM을 만드는 역할을 담당하게 된다"라고 말했다. LLM은 어떻게 더 작아지고 빨라지고 저렴해지는가 현재 LLM 기반 챗봇의 가장 보편적인 사용 형태는 "기본", 즉 텍스트 기반의 웹 채팅 인터페이스다. LLM은 구글 바드, 마이크로소프트 빙(챗GPT 기반)과 같은 검색 엔진, 그리고 자동화된 온라인 고객 지원에 사용된다. 기업은 자체 데이터 집합을 수집해 특정 비즈니스 용도에 따라 챗봇을 더 맞춤 설정할 수 있지만, 정확성 문제가 발생할 수 있다. 허깅 페이스의 창업자이자 CSO인 토마스 울프는 2월 초 MIT 컨퍼런스 현장에서 "작은 모델을 더 많은 데이터로 더 오래 학습시키면 대규모 모델이 해왔던 일을 할 수 있음을 보여주는 사례가 늘고 있다. 기본적으로 이 부분에 대한 우리의 이해도가 성숙해지고 있다고 생각한다. 첫 번째 단계에서는 일단 가동을 위해 모든 것을 시도한다. 그 다음에는 효율성을 높이고 운영 비용을 낮추기 위해 노력하는 단계다. 그동안 모두 웹 전체를 긁어오는 데 열중했지만, 이제는 양질의 데이터를 확보하는 것이 훨씬 더 중요하다"라고 말했다. 유튜브 구독자 구매 크기와 용도에 따라 다르지만 LLM을 특정 사용 사례에 맞게 학습시키는 데는 몇 백만 달러부터 많게는 1,000만 달러까지 든다. 더 작지만 양질의 데이터 집합을 활용하면 방대한 무정형 데이터 집합에 의존하는 거대 LLM과 대등하거나 오히려 더 우수한 성능을 발휘하는 것은 물론, 또한 사용자가 원하는 콘텐츠를 생성하는 데 있어 정확도도 향상된다. 학습에 들어가는 비용도 훨씬 더 적다. 마이크로소프트 AI 플랫폼 부문 부사장인 에릭 보이드는 최근 MIT 엠테크(EmTech) 컨퍼런스에서 마이크로소프트가 4년 전 오픈AI와 함께 AI 이미지 모델을 개발하기 시작했을 때의 이야기를 공개했다. 데이터 집합의 크기가 커짐에 따라 이미지 모델의 성능 향상은 오히려 정체됐다는 것이다. 반면 언어 모델의 경우 데이터 크기에 따라 성능이 함께 개선됐다. 이에 따라 오픈AI와 챗GPT의 가장 큰 재무적 후원자인 마이크로소프트는 더 큰 LLM을 구축하기 위한 인프라에 투자했다. 하지만 상황이 바뀌었다. 보이드는 "이제는 그렇게 큰 모델을 사용할 필요 없이 비슷한 성능을 얻는 방법을 연구하고 있다. 더 많은 데이터와 컴퓨팅, 학습 시간을 통해 여전히 성능을 높일 수 있지만, 그렇게 크게 만들지 않고 더 효율적으로 관리할 수 있는 방법을 찾고 있다"라고 말했다. 보이드에 따르면, 이는 매우 중요한 문제다. 컴퓨팅 등의 요소는 상당히 고가이기 때문이다. 광범위하게 LLM을 활용하려면 학습 비용과 서비스 비용을 관리할 방법을 찾아야 한다는 것이다. 예를 들어 사용자가 GPT-3에 프롬프트를 입력하면 GPT-3는 1,750억 매개변수 모두에 액세스해서 대답을 만들어낸다. 더 작은 LLM을 만드는 방법의 하나인 이른바 성긴 전문가(sparse expert) 모델은 LLM의 학습 및 계산 비용을 낮춰줄 것으로 예상된다. 보이드는 "성긴 전문가 모델은 고밀도 모델보다 정확성이 더 높은 거대 모델을 만들 수 있다"라고 말했다. 메타 플랫폼(전 페이스북) 연구원들 역시 성긴 모델이 "상대적으로 극히 일부분의 컴퓨팅만 사용해서" 챗GPT와 기타 거대 LLM과 비슷한 수준의 성능을 달성할 수 있을 것으로 본다. 메타는 2022년 10월에 발표한 연구 논문에서 "컴퓨팅 예산이 상대적으로 많지 않은 모델에서 성긴 모델은 최대 4배 더 많은 컴퓨팅이 필요한 고밀도 모델과 대등한 수준으로 작동한다"라고 주장했다. 현재 알레프 알파(Aleph Alpha), 데이터브릭스(Databricks), 픽시(Fixie), 라이트온(LightOn), 스태빌리티 AI(Stability AI), 그리고 오픈AI와 같은 기업에서 작은 모델을 내놓고 있다. 더 민첩한 이들 모델의 매개변수 수는 몇 십억 개에서 1,000억 개 수준이다. 유튜브 구독자 늘리기 여전히 만연한 개인정보 보호, 보안 문제 사이버 보안 기업 서프샤크(Surfshark)의 개인정보 보호 부문 고문인 가브리엘 캐비카이트는 많은 사용자가 LLM 기반 챗봇의 놀라운 기능에 감탄하지만 정부와 소비자는 그 안에 잠재된 개인정보 보호 문제를 간과하면 안 된다고 말했다. 예를 들어 올해 초 이탈리아는 서방 국가 중에서는 처음으로 개인정보에 대한 우려를 이유로 챗GPT의 추가 개발을 금지했다. 나중에 금지를 풀긴 했지만 이 결정은 자연어 처리 앱에서 사용자 대화 및 결제 정보와 관련된 데이터 유출이 발생한 이후에 내려졌다. 캐비카이트는 "이탈리아의 임시 금지 조치 이후 챗GPT의 일부분이 개선됐지만 여전히 고쳐야 할 부분이 많다. 책임감 있고 윤리적인 데이터 사용을 보장하고 신뢰를 촉진하고 AI 상호작용에서 사용자 개인정보를 보호하려면 이런 잠재적인 개인정보 보호 문제를 해결하는 것이 중요하다"라고 말했다. 캐비카이트는 챗GPT의 데이터 수집 관행을 분석해 잠재적인 문제점을 찾아냈다. 예를 들어 챗GPT는 모델 학습을 위해 방대한 양의 개인 데이터를 수집했지만 이런 행위의 정당한 법적 근거가 불분명했고, AI 모델을 학습시키는 데 사용된 데이터의 당사자 중 그런 사용에 대한 고지를 받지 못하거나 정확하게 고지하지 않은 경우가 있었다. 13세 미만 어린이의 사용을 막기 위한 효과적인 연령 확인 툴이 없다. 유튜브 조회수 구매 이런 문제 외에 전문가들은 LLM이 아직 해결하지 못한 기본적인 문제점을 지적한다. 예를 들어 AI가 수집하고 저장하는 데이터의 보안, 지식재산권 도용, 데이터 기밀성 등이다. 투링의 시드하스는 "병원이나 은행에서 LLM을 사용하려면 지식재산권, 보안, 기밀성 문제를 해결해야 한다. 일반 기업도 마찬가지다. LLM에 회사 데이터를 사용했는데, 그 결과로 데이터가 유출되어 결과적으로 경쟁업체가 득을 보는 상황을 원하는 기업은 없을 것이다. 이 중 몇 가지에 대해서는 좋은 엔지니어링 솔루션이 있고, 결국 해결되리라 생각한다"라고 말했다. 전 세계 여러 국가와 정부 기관 역시 AI 툴에 대처하기 위한 작업에 착수했다. 지금까지 가장 적극적인 국가는 중국이고, 그외 국가와 정부 기관도 활발하게 움직이고 있다. 방 안의 코끼리(elephant in the room)라는 속담이 있다. 누구나 알고 있는 큰 문제임에도 모두가 애써 외면하는 불편한 진실이다. 얼마 전까지만 해도 AI가 그랬다. 매우 정교하게 올바른 질문을 해야 겨우 원하는 대답을 내놓는 까다로운 코끼리였다. 하지만 생성형 AI가 등장해 모든 것을 바꿔 놓았다. 여러 가지 질문을 심지어 완전하지 않은 문장으로 입력해도 자연스럽게 대답한다. 그 결과 현재 생성형 AI는 모든 기업용 솔루션으로 빠르게 확산하고 있으며, 특히 비즈니스 인텔리전스(Business Intelligence, BI) 분야에 많은 변화를 몰고 오고 있다. 생성형 AI와 결합한 BI는 어떤 모습일까? 기업에 실제로 도움이 되려면 어떤 형태여야 할까? 기업이 BI와 AI의 결합을 통해 기대하는 것은 결국 더 정교한 인사이트다. 방대한 데이터에서 기업의 성장을 이끌 새로운 통찰을 찾길 바란다. 단, 여기에는 중요한 전제가 붙는다. 그냥 통찰이 아니라 진실에 기반한 정확한 인사이트여야 한다. 생성형 AI는 우리에게 많은 정보를 주지만 때때로 진실이 아닌 정보가 섞여 있다. 생성형 AI의 치명적인 약점으로 꼽히는 환각이다. 환각은 BI와 생성형 AI를 결합하는 것이 필요한지에 대한 본질적인 의구심을 불러일으키는 심각한 문제다. 유튜브 조회수 늘리기 BI와 AI의 본질적인 차이 이 문제의 해법을 찾는 여정은 BI와 AI가 본질적으로 다르다는 사실에서 출발해야 한다. 먼저, BI는 전통적으로 정확성을 추구해 왔다. SQL 등 다양한 연산 작업을 하지만, 같은 데이터를 입력해 같은 질문을 던지면 항상 똑같은 답변을 내놓는다. 일종의 결정론적 시스템이다. 문제는 이런 방식이 빠르게 변화하는 오늘날의 시장 상황에서 그리 스마트하지 않다는 것이다. 인간처럼 데이터를 이해하지 못하고, 인간의 언어도 알지 못하기 때문에 질문의 의도 자체를 해석하지 못한다. 생성형 AI는 다르다. 같은 질문에 대해 관련 차트와 함께 친절한 설명까지 내놓는다. 마치 질문의 의도를 파악한 듯 답변한다. 단지, 이 답변에는 거짓이 들어 있을 수 있고, 같은 질문을 해도 반복할 때마다 답변이 달라진다. 결국 생성형 AI는 확률론적 시스템이다. 확률에 기반해 거짓이 섞일 수 있는 인사이트이므로, 기업의 생사를 결정하는 중요한 의사결정에 이를 참고할 수는 없다. 결정론적 BI와 확률론적 생성형 AI의 특성을 고려하면, 차세대 BI가 지향해야 할 목표가 뚜렷해진다. BI의 정확성과 생성형 AI의 인간 같은 대화 기술을 결합해 기업이 충분히 신뢰할 수 있는 인사이트를 편리한 인터페이스로 제공하는 것이다. 차세대 애널리틱스의 조건 남은 문제는 이런 시스템을 어떻게 구현할지다. BI와 AI의 신뢰할 수 있는 결합을 위해 필요한 것은 2가지다. 무엇보다 포괄적인 데이터 레이어가 필수적이다. AI가 내놓는 답변은 기본적으로 AI에 제공하는 데이터에 종속되므로, 다양성과 신뢰성을 극대화하려면 기업 내 사일로화된 저장소를 넘나들며 유연하게 데이터에 접근할 수 있어야 한다. 데이터를 저장하는 모든 방법과 위치를 추상화해 가상의 단일 데이터처럼 만들어야 하는데, 이를 시맨틱 레이어(semantic layers)라고 한다. 시맨틱 레이어를 통해 기업 사용자는 자신에게 익숙한 BI 툴에서 일반적인 용어를 사용해 모든 데이터에 접근해 분석할 수 있다. 시맨틱 레이어가 제대로 작동하려면 BI 시스템이 특정 업체 솔루션이나 기술에 종속되지 않는 개방형 구조를 가져야 한다. 특정 업체의 독점 기술 혹은 특정 플랫폼에 구속되면 접근할 수 있는 데이터에 사각지대가 생기고, 이렇게 제한된 데이터를 기반으로 내놓은 인사이트에는 편향성(bias)이 개입할 가능성이 크다. 반면 개방형 구조의 BI 시스템에서는 다양한 관점의 여러 데이터에 쉽게 접근해 현실에 맞는 인사이트를 찾을 수 있다. 이런 개방성은 곧 선택의 자유이기도 하다. 기업은 특정 시스템 혹은 데이터에 종속되지 않으므로 멀티 벤더 전략을 통해 더 좋은 조건으로 필요한 솔루션을 구매할 수 있다. 인스타그램 팔로워 BI와 AI의 신뢰할 수 있는 결합을 위해 필요한 두 번째는 다양한 부가 기능이다. 시맨틱 레이어를 이용해 데이터를 공급한다고 해도, 사용자가 생성형 AI를 손쉽게 사용할 수 없다면 기존 BI의 반쪽짜리 AI 기능과 다를 바 없다. 기업 실무자가 쉽게 다룰 수 있는 BI가 되려면 대시보드와 리포트 같은 일반적인 BI 기능을 안정적으로 지원하는 것은 기본이다. 여기에 생성형 AI가 사람의 질문을 직관적으로 이해하고, 생성형 AI가 만든 결과를 사람이 알아보기 쉽게 만들어주는 정교한 프롬프트 엔진이 필요하다. 이처럼 BI와 AI 사이에서 가교 구실을 하는 기술을 통해 사용자는 특정 표현이나 구문에 얽매이지 않고 마치 대화를 하듯 자유롭게 질의할 수 있다. BI 분야는 지난 30여 년간 SQL 리포트부터 데스크톱 BI, 시맨틱 레이어, 웹 BI, 모바일 BI, 하이퍼 인텔리전스 등으로 진화해 왔다. 기업이 명확한 데이터를 기반으로 중요한 의사결정을 하고 시장에서 경쟁력을 유지할 수 있도록 지원해 왔다. 그리고 현재 진행 중인 차세대 BI 논의의 중심에 생성형 AI가 있다. 생성형 AI를 어떻게 도입해 활용하느냐에 따라 기업은 더 현명하게 시장의 변화에 대응할 수 있다.

이전.다음글