데이터 양 방대하고 가짜 계정 거르는 분석 쉽지 않아
일론 머스크 테슬라 최고경영자(CEO)가 트위터 인수에 필요하다고 강조해왔던 계정 관련 데이터 접근 권한을 얻은 것으로 알려졌다.
28일(현지시간) 월스트리트저널(WSJ)에 따르면 머스크와 트위터 간 법적 대응이 오간 후 최근 몇 주 사이 트위터가 머스크에 과거 트윗 데이터와 ‘파이어호스(firehose)’ 접근을 허용했다.
파이어호스는 트위터 네트워크를 통해 매일 흐르는 실시간 트윗 스트림 데이터다. 파이어호스에 접근할 경우 이론적으로 약 5억 건에 달하는 모든 트윗에 대한 정보를 실시간으로 얻을 수 있다.
머스크는 440억 달러(55조2684억 원) 트위터 인수 거래를 두고 트위터 가짜 계정 비율을 문제 삼았다. 머스크는 트위터가 가짜 계정에 대한 충분한 정보를 제공하지 않는다며 거래에서 손을 떼겠다고 위협했다.
트위터는 가짜 계정 비율이 5%라고 밝힌 반면 머스크는 최소 20%는 될 것이라며 반박했다.
다만 머스크가 파이어호스에 접근하더라도 그가 찾고자 하는 결과를 도출하기는 어려워보인다고 전문가들은 보고 있다.
파이어호스의 정보는 워낙 방대하기 때문에 단기간에 가짜 계정 비율에 대한 추정치가 확실한지 아닌지를 판별하기가 쉽지 않다는 것이다.
스팸 또는 가짜 계정과 날씨 경보 등을 알려주는 자동화된 트윗을 구분하기 위해선 고도의 전문성도 필요하다.
파이어호스에는 특정 계정이 개인이 소유한 계정인지 확인할 수 있는 IP 주소, 전화번호 등이 포함돼있지 않은 점도 걸려
트위터가 밝힌 비율 5%는 트위터만의 가짜 계정 분석 프로토콜을 이용해 도출한 결론으로 다른 프로토콜을 이용한 추정치와 직접적인 비교가 어려울 수도 있다.
카네기멜론대의 라훌 텔랑 정보시스템학 교수는 “머스크는 한 달 안에 작업을 끝낼 수 있을 만큼 많은 데이터 분석가를 고용할 수는 있겠지만 그가 어떤 프로토콜로 분석할지에 대해선 언급하지 않았다”고 말했다.
네이선 마티아스 코넬대 커뮤니케이션학 조교수는 “가짜 또는 스팸 계정에 대한 보편적인 정의가 없기 때문에 그 부분에 대한 합의도 필요하다”며 “기업들은 보안을 위해 해당 용어에 대한 정의를 공유하지 않는다”고 설명했다.