내 실수 경험
2024년 7월, 미국 코넬대학교(Cornell University)에서 열린 제18차 세계비교교육학회에서 ‘연구를 위한 생성 AI: 인터넷에서 연구 수행을 위한 일반 대형언어모델의 현 수준’이라는 주제의 논문을 발표했다. 주 저자는 미국 피츠버그대학의 네이싼 옹(Nathan Ong) 박사이고, 나는 공동저자로 참여했다.
내가 담당한 분야는 ‘ChatGPT의 데이터 분석력 실험’이었다. 논문 최종 발표본을 제출하기 전에 옹 박사로부터 내가 담당한 분야를 다시 한번 꼼꼼히 살펴봐달라는 연락을 받았다. 아울러 최근 ChatGPT 성능이 급속도로 좋아지고 있으니, 과거의 답과 현재의 답을 비교하는 부분도 포함해달라는 부탁을 받았다.
그의 요청에 따라 2023년 10월에 수행했던 실험에서 ChatGPT가 제시했던 답을 다시 살펴보다가 깜짝 놀랐다. 제시된 답에 심각한 오류가 있었는데 내가 간과했던 것이다. 자칫 잘못하면 커다란 실수를 할 뻔했다. 내가 했던 실험에 사용한 자료는 ‘퀴즈앤’이라는 프로그램을 이용하여 실시하고 있는 사전인출(가르치기 전에 보는 시험) 결과인 엑셀파일이다. 이 파일을 ChatGPT에 탑재하고, “첨부한 엑셀파일을 바탕으로 학생들이 답하기 어려워하는 문제들의 특성을 분석해 줘”라고 요청했다. ChatGPT가 제시한 분석을 보니 감탄사가 절로 나왔다. 나름대로 살펴보며 오류가 없다고 판단되어 이를 분석해서 제출했었다.
옹 박사의 요청으로 작년 자료를 다시 꼼꼼하게 살펴보다가 깜짝 놀랐다. ChatGPT가 정답이 ‘X’인 문항의 ‘X’ 개수를 오답 개수로 처리하고, 이를 바탕으로 해당 문항의 오답률이 높다며 그 원인을 복합적으로 분석하여 제시했음을 알게 된 것이다. 조금만 더 꼼꼼하게 살폈더라면 이러한 실수를 범하지 않았을 텐데, 왜 이러한 어처구니없는 실수를 잡아내지 못했을까? 이러한 실수를 잡아낼 수 있으려면 무엇을 어떻게 해야 할까?
생성 AI가 제시한 답변의 오류가능성
케비어와 그의 동료들(Kabir, Udo-Imeh, Kou, and Zhang, 2024)은 프로그래밍 요청에 대해 ChatGPT가 답변을 제공할 때 발생할 수 있는 잠재적인 문제점과 오류를 식별하고, 이를 개선하기 위한 방향을 제시할 목적의 연구를 수행했다. 이를 위해 517개의 프로그래밍 질문에 대해 ChatGPT가 제공한 답변의 정확성·일관성·포괄성·간결성을 평가했다. 그 결과 인공지능, 특히 ChatGPT를 활용하여 얻은 프로그래밍 요청에 대한 답변에는 52%의 잘못된 정보가 포함되어 있고, 77%는 답변이 너무 장황한 것으로 나타났다.
이 연구에서는 사용자들이 ChatGPT 답변과 인간의 답변을 어떻게 평가하는지도 조사하였다. 연구결과, 참가자들은 대체로 인간의 답변이 더 정확하고 유용하다고 평가했다. 하지만 ChatGPT 답변의 포괄성과 명확한 언어구조 때문에 ChatGPT 답변을 선호하는 사람의 비율이 35%에 이르는 것으로 나타났다. 동시에 대규모 언어학적 분석을 통해 ChatGPT의 답변이 인간의 답변과 어떻게 다른지 조사하였다.
그 결과 ChatGPT가 더 공식적이고 분석적인 언어를 사용하며, 부정적인 감정을 덜 나타내는 경향이 있는 것으로 나타났다. ChatGPT의 답변이 완벽하지 않음에도 불구하고, 많은 사용자가 즉각적인 피드백과 포괄적인 답변 때문에 널리 활용하고 있는 것으로 나타났다.
생성 AI가 제시하는 부정확한 정보를 사람들이 간과하는 이유
케비어와 동료들은 사용자가 ChatGPT의 답변을 평가할 때 잘못된 정보를 어느 정도나 간과하는지, 이유는 무엇인지도 조사했다. 연구에 따르면 사용자들이 잘못된 정보를 간과한 비율은 39.34%에 이른다. 간과하는 이유로는 ChatGPT 답변의 포괄성, 잘 구성된 언어 사용 및 인간 같은 통찰력 등을 들고 있다. 이러한 특성들로 인해 ChatGPT가 제공하는 답변이 실제로 오류를 포함하고 있음에도 불구하고, 사용자들이 그 답변을 신뢰하게 된다는 것이다.
사용자들이 생성 AI가 제공하는 답변의 오류를 인지하지 못하는 주요 이유를 좀 더 자세히 살펴보면 다음과 같다. 첫 번째 이유는 답변의 포괄성이다. ChatGPT의 답변은 필요한 정보를 광범위하게 다루고 있다. 답변의 양과 범위에 압도된 결과, 사용자들은 정보의 정확성을 꼼꼼히 따지지 않게 된다. 다음은 언어 구성의 탁월성이다.
ChatGPT가 사용하는 언어는 구성력이 뛰어나고 명확하며, 때로는 교과서적인 스타일을 사용하기 때문에 전문성과 신뢰성이 높아 보인다. 우리말로 답을 받아보면 번역투의 어색함이 있지만, 언어 구성의 탁월성은 부인하기 어렵다. 아울러 답변에는 인간적 통찰력까지 들어 있다. ChatGPT는 종종 인간적인 통찰력과 비슷하게 보이는 답변을 생성하여 기술적 내용뿐만 아니라 그 배경의 이해도 또한 높은 것처럼 느끼게 한다.
이들이 제시한 논리적이고 합리적인 이유 외에 내가 생각하는 또 다른 이유는 인간 뇌의 게으름이다. 우리 뇌는 대충 훑어보고 크게 문제가 없다고 생각하면 믿고 싶어 하는 특징을 가지고 있다. 부정적으로 표현하면 게으름이지만, 긍정적으로 표현하면 뇌의 효율성 추구 특성이다.
특히 상대의 전문성에 압도될 때는 더욱 그러하다. 영문으로 된 논문을 생성 AI에 제공한 후, 요약 혹은 특정 부분에 대한 분석을 요청하여 답을 얻었다면, 오류가 없는지 검토해 보는 것이 바른 사용법이다. 그러나 일별해 본 후에 그럴싸하면 별 의심 없이 사용하는 것이 보통이다. 하나하나 검토해야 한다면 굳이 생성 AI를 활용할 필요가 없다는 생각까지 들면서 그냥 사용하게 된다.
지금까지 경험에 비춰볼 때 요약 기능은 오류가 적은 것이 사실이다. 하지만 프로그래밍을 비롯한 고급 기능, 교수자들이 널리 쓰기 시작한 학생 보고서 평가 등의 경우에는 생성 AI가 제시한 답변을 그대로 사용하기에는 아직 위험성이 크다. 따라서 기계가 제시한 답변의 오류 가능성을 염두에 두며 꼼꼼히 살펴야 할 것이다.
하지만 사용하는 사람들이 게으른 뇌와의 싸움에서 이길 수 있을지는 회의적이다. 생성 AI를 활용하는 교수자들이 게으른 뇌와의 싸움에서 이기도록 돕는 하나의 장치는 ‘언제, 어디서, 어떤 AI에게, 어떤 명령어를 활용해 어떠한 결과를 얻었고, 그것을 어떻게 활용했는지’를 자세히 밝히도록 하는 것이다. 이렇게 하면 AI 오남용을 줄이고, 사용하더라도 더 조심하게 될 것이다.
생성 AI를 활용하는 교수자들에게 필요한 부차적 역량
위에서 제시한 여러 요인으로 인해 사용자는 ChatGPT 답변이 가지고 있을 수 있는 잠재적 오류를 간과할 가능성이 높다. 오류를 제대로 걸러내지 않은 채 기계가 제시한 답을 그대로 활용하게 되면 잘못된 정보에 기반한 결정 오류를 범하게 될 수도 있다. 이러한 문제를 해결하기 위해서는 답변의 정확성을 더 효과적으로 평가하고 검증할 수 있도록 지원하는 도구의 개발이 필요하지만, 아직은 그러한 도구가 제대로 만들어져 있지 않다. 결국은 사용자가 더 꼼꼼하게 검토하는 것이 최선이다.
향후 인터넷에는 생성 AI가 제시한 답변, 즉 오류가 일부 포함되어 있음에도 걸러지지 않은 채 소개되는 글들이 넘쳐나게 될 것이다. 생성 AI 등의 기계를 활용해 자료를 만들어 내는 사람들은 기계가 제시한 결과물을 그대로 제시하기보다는 반드시 원본과 대조하여 오류를 줄이려는 노력을 기울여야 한다. 또한 인터넷에 탑재되어 있는 글을 활용하는 사람들은 그대로 인용하기보다는 그 글이 참고하고 있다고 하는 원본을 확인하는 노력까지 기울여야 할 것이다.
교육과 연구과정에 생성 AI를 활용하는 교수자가 점차 늘고 있다. 수업준비·자료제작·연구와 학생 평가 등에서 생성 AI를 사용하는 교사가 갖춰야 할 중요한 부차적 역량의 하나는 인내력과 집요한 검토 역량이다. 기계가 제시한 답이 아무리 그럴싸해도 인내력을 가지고 집요하게 검토한 후에 사용해야 한다. 특히 시험문제 출제나 학생부 작성 등에 생성 AI를 활용할 때는 더욱 조심해야 한다.
이와 함께 생성 AI 활용자가 보이게 될 의존성·중독성의 통제 역량도 절실히 필요하다(박남기, 2024). 교사는 자신을 통제할 뿐만 아니라 학생들이 그러한 위험에 빠지지 않도록 교육해야 할 책임까지 지고 있어서 더 힘들 것으로 예상된다. 교사 대상 설문·면담과 참여 관찰을 통해 교사 자신의 활용과정에서 나타나는 문제와 극복을 위해 필요한 역량, 학생 지도과정에서 나타나는 문제와 이를 예방하기 위해 갖춰야 할 역량 등에 대해서도 연구가 진행된다면 교육자들에게 크게 보탬이 될 것이다.