3장 데이터 엔지니어링1 [Hadoop] 01 하둡과 에코시스템 1. 용어 정리 하둡(Hadoop): 대규모 데이터 세트를 분산 처리하기 위한 오픈 소스 프레임워크 HDFS(Hadoop Distributed File System): 대용량 데이터를 여러 노드에 분산하여 저장하는 파일 시스템 맵리듀스(MapReduce): 대규모 데이터 세트를 여러 노드에 분산시켜 처리할 수 있도록 하는 프로그래밍 모델 및 프레임워크 2. 하둡의 필요성 빅데이터가 주변에 널려 있다는 것은 좋은 소식이나, 나쁜 소식은 그것을 저장하고 분석하는 것이 매우 어렵다는 것이다. 빅데이터를 저장하고 분석하기 위해 단일 디스크를 사용하면 데이터를 읽는 데 너무 많은 시간이 소요되며, 데이터를 쓰는 것은 더 느리다. 시간을 단축하는 확실한 방법은 여러 디스크에서 동시에 데이터를 읽는 것이다. 그러나 .. 2023. 11. 15. 이전 1 다음 반응형