เปลี่ยน Raspberry Pi เก่าให้เป็นคลัสเตอร์ AI ออฟไลน์: คู่มือ Self-hosting โมเดลภาษา 2026 บนฮาร์ดแวร์รีไซเคิลเพื่อ Digital Sovereignty

ในยุคที่บริการ AI เชิงพาณิชย์กลายเป็นค่าสมัครสมาชิกรายเดือน และข้อมูลของผู้ใช้ถูกส่งขึ้นคลาวด์โดยแทบหลีกเลี่ยงไม่ได้ แนวคิดเรื่อง Self-hosting AI บน Raspberry Pi cluster จึงไม่ใช่แค่โปรเจกต์สายเมกเกอร์ที่ดูเท่ แต่เป็นก้าวสำคัญของคนที่ต้องการควบคุมข้อมูล โครงสร้างพื้นฐาน และต้นทุนของตัวเองอย่างจริงจัง บทความนี้จะพาคุณสร้างภาพรวมตั้งแต่การประเมินบอร์ด Raspberry Pi เก่าที่กองอยู่ในลิ้นชัก การออกแบบคลัสเตอร์อย่างประหยัด การติดตั้งระบบเครือข่ายและคอนเทนเนอร์ ไปจนถึงการรัน Small Language Models หรือ SLMs ยุค 2026 แบบออฟไลน์ โดยเน้นให้เหมาะกับผู้เริ่มต้นที่อยากเข้าใจทั้งมิติของเทคนิค การใช้งานจริง และแนวคิดเรื่อง digital sovereignty ไปพร้อมกัน

ทำไม Self-hosting AI บน Raspberry Pi cluster จึงน่าสนใจในปี 2026

ประเด็นสำคัญไม่ได้อยู่ที่การพยายามเอาฮาร์ดแวร์ราคาถูกไปแข่งกับดาต้าเซ็นเตอร์ระดับโลกแบบตรง ๆ แต่เป็นการตั้งคำถามใหม่ว่า งาน AI ประเภทใดที่ควรอยู่ใกล้ผู้ใช้มากที่สุด งานอย่างการสรุปเอกสารภายใน การช่วยเขียนโค้ดเบื้องต้น การค้นหาความรู้จากไฟล์ส่วนตัว หรือการประมวลผลข้อความที่อ่อนไหว เช่น ข้อมูลสุขภาพ บันทึกส่วนตัว หรือเอกสารธุรกิจขนาดเล็ก ไม่จำเป็นต้องส่งออกไปยังคลาวด์ทุกครั้ง หากเราสามารถทำ Self-hosting AI บน Raspberry Pi cluster ได้ แม้จะไม่ได้เร็วเท่า GPU ระดับสูง แต่เราได้ความเป็นส่วนตัว ความโปร่งใสในการควบคุมระบบ และต้นทุนระยะยาวที่ลดลงอย่างเห็นได้ชัด สิ่งนี้เหมาะอย่างยิ่งกับนักพัฒนา โรงเรียน ห้องทดลองชุมชน ฟาร์มอัจฉริยะในพื้นที่ชนบท หรือองค์กรขนาดเล็กที่มีงบจำกัดแต่ต้องการ autonomy ทางเทคโนโลยี

รู้จักข้อจำกัดก่อนเริ่ม: Raspberry Pi ไม่ได้เกิดมาเพื่อรัน LLM ใหญ่โดยตรง

ก่อนลงมือ เราควรซื่อสัตย์กับข้อเท็จจริงทางวิศวกรรมเสียก่อนว่า Raspberry Pi โดยเฉพาะรุ่นเก่า เช่น Pi 3 หรือ Pi 4 ที่มี RAM 2GB ถึง 4GB นั้น ไม่เหมาะกับโมเดลขนาดใหญ่ระดับหลายหมื่นล้านพารามิเตอร์แบบเต็มรูป แต่ในปี 2026 วงการ open source มีโมเดลขนาดเล็กที่ฉลาดขึ้นมาก รองรับ ARM ดีขึ้น และมีเทคนิค quantization 4-bit หรือแม้แต่ต่ำกว่านั้นที่ช่วยบีบขนาดโมเดลให้อยู่ในขอบเขตที่เป็นไปได้ การทำ Self-hosting AI บน Raspberry Pi cluster จึงต้องคิดเชิงระบบ เช่น ใช้โมเดลขนาด 1B ถึง 3B พารามิเตอร์ที่ปรับแต่งมาสำหรับงานเฉพาะ ใช้ retrieval ช่วยแทนการพึ่งโมเดลใหญ่ หรือใช้ sharded inference กระจายภาระไปหลายโหนด แทนที่จะคาดหวังให้บอร์ดเดียวทำทุกอย่าง ความเข้าใจข้อจำกัดนี้จะช่วยให้โปรเจกต์ของคุณสำเร็จและใช้งานจริงได้มากกว่าการไล่ตามตัวเลข benchmark เพียงอย่างเดียว

สำรวจอุปกรณ์: อะไรบ้างที่ต้องมีในคลัสเตอร์ AI แบบรีไซเคิล

หัวใจของโปรเจกต์นี้คือการใช้ของที่มีอยู่แล้วให้คุ้มที่สุด แต่การรีไซเคิลไม่เท่ากับการสุ่มหยิบทุกอย่างมาวางรวมกัน คุณควรเริ่มจากการสำรวจบอร์ด Raspberry Pi ที่มีอยู่ แหล่งจ่ายไฟ สตอเรจ และสวิตช์เครือข่ายให้พร้อม จากประสบการณ์ส่วนตัว ผมมองว่าคลัสเตอร์ที่ใช้งานได้จริงควรมี Pi 4 หรือ Pi 5 เป็นโหนดหลักอย่างน้อย 2 ถึง 4 ตัว ส่วน Pi 3 สามารถนำมาใช้เป็น worker สำหรับงานเบา เช่น reverse proxy, monitoring หรือ vector index ขนาดเล็ก อุปกรณ์ที่แนะนำมีดังนี้

– Raspberry Pi 4/5 จำนวน 2-6 บอร์ด
– microSD คุณภาพดี หรือ SSD ผ่าน USB 3.0
– Gigabit switch อย่างน้อย 5-8 พอร์ต
– สาย LAN คุณภาพพอใช้และความยาวเหมาะสม
– พัดลมหรือฮีตซิงก์รีไซเคิล
– รางวางบอร์ดแบบ 3D print หรือชั้น DIY
– Power supply ที่จ่ายไฟนิ่งพอสำหรับทุกบอร์ด

หากต้องการตรวจสอบสเปกเบื้องต้นบนแต่ละเครื่องหลังติดตั้ง Raspberry Pi OS หรือ Ubuntu Server สามารถใช้คำสั่งเหล่านี้ได้

uname -a lscpu free -h lsblk vcgencmd measure_temp ip a

วางสถาปัตยกรรมคลัสเตอร์: แบ่งบทบาทให้ชัดตั้งแต่วันแรก

การทำ Self-hosting AI บน Raspberry Pi cluster ให้ใช้ได้จริง ควรออกแบบบทบาทของแต่ละโหนดให้ชัด เช่น มี 1 โหนดเป็น control node สำหรับ orchestration และ API gateway, 2-4 โหนดเป็น inference workers, และอีก 1 โหนดเป็น storage หรือ observability node ถ้ามีบอร์ดจำกัด คุณอาจรวมหลายหน้าที่ไว้ในเครื่องเดียวได้ แต่ควรรู้ว่าหน้าที่ไหนสำคัญต่อ latency มากที่สุด ในงาน inference การสื่อสารระหว่างโหนดจะเป็นคอขวดได้ง่าย โดยเฉพาะถ้าใช้บอร์ดเก่าหรือ storage ช้า ดังนั้นให้เน้น topology ที่สั้น เรียบง่าย และดูแลง่ายกว่าการไล่ทำระบบซับซ้อนเกินจำเป็น ตัวอย่างผังเครือข่ายง่าย ๆ คือ ใช้ IP แบบคงที่ทุกโหนดและตั้งชื่อ host ให้จำง่าย เช่น pi-master, pi-worker-1, pi-worker-2 จากนั้นทดสอบการเชื่อมต่อด้วย SSH ให้เรียบร้อย

# ตั้ง hostname sudo hostnamectl set-hostname pi-master


# แก้ hosts file

sudo nano /etc/hosts

# เพิ่มบรรทัดตัวอย่าง

192.168.1.10 pi-master

192.168.1.11 pi-worker-1

192.168.1.12 pi-worker-2

# ทดสอบ SSH ssh pi@192.168.1.11 ssh pi@192.168.1.12

ติดตั้งระบบปฏิบัติการและเตรียมโหนดให้พร้อมสำหรับงานคอนเทนเนอร์

ผมแนะนำให้ใช้ Ubuntu Server for ARM หรือ Raspberry Pi OS Lite แล้วแต่ความคุ้นเคยของคุณ หากโฟกัสเรื่อง container ecosystem, automation และความเข้ากันได้กับเครื่องมือสมัยใหม่ Ubuntu Server มักทำงานสะดวกกว่าเล็กน้อย ขั้นตอนพื้นฐานคือแฟลช image ลง microSD หรือ SSD, เปิด SSH, อัปเดตแพ็กเกจ และตั้งค่า time sync ให้ตรงกันทุกเครื่อง จากนั้นติดตั้งแพ็กเกจที่จำเป็น เช่น curl, htop, git, jq และเครื่องมือจัดการคอนเทนเนอร์ ตัวอย่างคำสั่งบนทุกโหนดมีดังนี้

sudo apt update && sudo apt upgrade -y sudo apt install -y curl wget git htop jq net-tools ca-certificates gnupg lsb-release

# เปิด cgroup memory หากจำเป็นบนบาง image sudo sed -i 's/$/ cgroup_memory=1 cgroup_enable=memory/' /boot/firmware/cmdline.txt sudo reboot

หลังจากรีบูต ให้ตรวจสอบหน่วยความจำ พื้นที่เก็บข้อมูล และอุณหภูมิอีกครั้ง เพราะในโลกของบอร์ดรีไซเคิล ปัญหาที่เจอบ่อยไม่ใช่คำสั่งผิด แต่เป็น SD card เสื่อม ไฟตก หรือความร้อนสะสมโดยไม่รู้ตัว

ติดตั้ง Docker และสร้างพื้นฐานสำหรับ Containerized AI

เมื่อโหนดทุกตัวพร้อมแล้ว ขั้นตอนถัดไปคือทำให้ทุกเครื่องรันคอนเทนเนอร์ได้เหมือนกันทั้งหมด แม้ว่าจะมีทางเลือกอย่าง Podman หรือ k3s แต่สำหรับผู้เริ่มต้น Docker ยังเป็นจุดเริ่มที่ตรงไปตรงมาและมีเอกสารจำนวนมาก การทำ Self-hosting AI บน Raspberry Pi cluster แบบเบา ๆ ไม่จำเป็นต้องเริ่มด้วย Kubernetes เสมอไป คุณอาจใช้ Docker Compose หรือ Docker Swarm ก่อนก็ได้ ตัวอย่างการติดตั้ง Docker บน ARM มีดังนี้

curl -fsSL https://get.docker.com | sh sudo usermod -aG docker $USER newgrp docker docker version docker run --rm hello-world

ถ้าคุณต้องการ orchestration แบบง่ายเพื่อกระจาย service ข้ามหลายโหนด ให้เริ่มจาก Docker Swarm ซึ่งเรียนรู้ไวและเบากว่า Kubernetes มาก ตัวอย่างการ init swarm และ join worker มีดังนี้

# บน master docker swarm init --advertise-addr 192.168.1.10


# จะได้ token สำหรับ worker เช่น

# docker swarm join --token SWMTKN-xxx 192.168.1.10:2377
# บน worker

docker swarm join --token SWMTKN-xxx 192.168.1.10:2377

# กลับมาดูสถานะบน master docker node ls

ทำ shared storage และ model cache ให้รอบคอบ

หนึ่งในหลุมพรางของการรัน AI บนคลัสเตอร์เล็กคือการปล่อยให้แต่ละโหนดดาวน์โหลดโมเดลซ้ำเองทั้งหมด ซึ่งเปลืองพื้นที่และทำให้ deployment ช้า วิธีง่าย ๆ คือมี shared storage ผ่าน NFS สำหรับเก็บโมเดล ไฟล์ quantized และผลลัพธ์ชั่วคราว แม้ NFS จะไม่ใช่ distributed filesystem สุดหรู แต่เหมาะกับงานโฮมแล็บและชุมชนขนาดเล็กมาก ขั้นตอนฝั่ง storage node มีดังนี้

sudo apt install -y nfs-kernel-server sudo mkdir -p /srv/ai-models sudo chown -R $USER:$USER /srv/ai-models echo '/srv/ai-models 192.168.1.0/24(rw,sync,no_subtree_check)' | sudo tee -a /etc/exports sudo exportfs -ra sudo systemctl restart nfs-kernel-server

ฝั่ง worker แต่ละตัวให้ mount เข้ามาใช้งาน

sudo apt install -y nfs-common sudo mkdir -p /mnt/ai-models sudo mount 192.168.1.20:/srv/ai-models /mnt/ai-models

echo '192.168.1.20:/srv/ai-models /mnt/ai-models nfs defaults 0 0' | sudo sudo tee -a /etc/fstab

จากนั้นคุณสามารถกำหนดให้ทุก service ใช้ path กลางสำหรับ model cache ช่วยลดการใช้ storage ซ้ำซ้อนและทำให้การสลับเวอร์ชันโมเดลจัดการง่ายขึ้นมาก

เลือกโมเดลให้เหมาะ: SLM, ARM และ 4-bit quantization คือคำตอบที่สมจริง

การเลือกโมเดลคือจุดที่กำหนดความสำเร็จของทั้งระบบ ในปี 2026 มี open-source SLM จำนวนมากที่เน้นประสิทธิภาพต่อวัตต์ รองรับงานสนทนา สรุปข้อความ เขียนโค้ดสั้น ๆ และ reasoning ระดับเบื้องต้นถึงกลางได้ดีพอสมควร สำหรับคลัสเตอร์ Raspberry Pi ให้มองหาโมเดลที่มีคุณสมบัติดังนี้: ขนาดเล็กกว่า 3B parameters, มีไฟล์ GGUF หรือฟอร์แมต quantized ที่ทำงานกับ inference engine บน ARM ได้, มี community รองรับ, และมี benchmark ด้าน latency บน CPU ที่สมเหตุสมผล เครื่องมือที่ควรดูคือ llama.cpp ซึ่งมีการพัฒนาอย่างต่อเนื่องสำหรับ CPU inference และรองรับ quantization หลายรูปแบบ ดูข้อมูลได้ที่ https://github.com/ggml-org/llama.cpp ส่วนโมเดลและไฟล์ quantized สามารถสำรวจจาก Hugging Face ได้ที่ https://huggingface.co/ หลักคิดคือ อย่าเลือกโมเดลที่ใหญ่ที่สุด แต่ให้เลือกโมเดลที่เล็กพอจะตอบคำถามจริงของคุณได้อย่างต่อเนื่อง

ติดตั้ง llama.cpp บน ARM และทดสอบโมเดลแรกแบบออฟไลน์

เพื่อให้เห็นภาพชัด เราจะลองติดตั้ง inference engine ยอดนิยมอย่าง llama.cpp บนโหนดหลักหรือโหนด worker หนึ่งตัวก่อน จากนั้นจึงค่อยขยายไปหลายโหนด ขั้นตอนพื้นฐานมีดังนี้

sudo apt update sudo apt install -y git build-essential cmake

git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp cmake -B build cmake --build build --config Release -j4

เมื่อ build เสร็จ ให้ดาวน์โหลดโมเดล quantized เช่นไฟล์ .gguf ไปไว้ที่ shared storage แล้วลองรัน

mkdir -p /mnt/ai-models/models # สมมติว่าคุณคัดลอก model.gguf มาไว้แล้ว ./build/bin/llama-cli -m /mnt/ai-models/models/model.gguf -p "สรุปแนวคิด digital sovereignty แบบสั้น ๆ" -n 128 -t 4

ถ้าระบบตอบข้อความกลับมาได้ แปลว่าคุณมี local inference ขั้นพื้นฐานแล้ว จุดนี้สำคัญมาก เพราะหลายคนรีบกระโดดไปทำคลัสเตอร์เต็มรูปแบบทั้งที่ยังไม่เคยทดสอบโมเดลเดี่ยวให้เสถียรก่อน คำแนะนำของผมคือ จงทำให้ single-node stable ก่อนเสมอ แล้วค่อย scale ออก

สร้าง API สำหรับเรียกใช้งานโมเดลจากแอปอื่น

เมื่อเรามีโมเดลรันได้แล้ว ขั้นถัดไปคือทำให้มันกลายเป็นบริการที่แอปอื่นเรียกใช้งานได้ เช่น เว็บแอปภายใน แชตบอตส่วนตัว หรือระบบสรุปเอกสารออฟไลน์ llama.cpp มีโหมด server ซึ่งเหมาะมากสำหรับงานนี้ ตัวอย่างการเปิด service เบื้องต้นมีดังนี้

./build/bin/llama-server \ -m /mnt/ai-models/models/model.gguf \ -c 2048 \ -ngl 0 \ --host 0.0.0.0 \ --port 8080

จากนั้นทดสอบเรียก API ด้วย curl

curl http://192.168.1.10:8080/completion \ -H "Content-Type: application/json" \ -d '{ "prompt": "อธิบายข้อดีของ Self-hosting AI บน Raspberry Pi cluster", "n_predict": 120, "temperature": 0.7 }'

หากอยากให้รันใน Docker ก็สามารถสร้าง Dockerfile ง่าย ๆ แล้วผูก volume กับโฟลเดอร์โมเดล ตัวอย่างเช่น

FROM ubuntu:24.04 RUN apt update && apt install -y git build-essential cmake RUN git clone https://github.com/ggml-org/llama.cpp.git /opt/llama.cpp WORKDIR /opt/llama.cpp RUN cmake -B build && cmake --build build --config Release -j4 EXPOSE 8080 CMD ["/opt/llama.cpp/build/bin/llama-server","-m","/models/model.gguf","--host","0.0.0.0","--port","8080"]

ขยับจากเครื่องเดียวสู่คลัสเตอร์: แนวคิด sharded inference สำหรับ Pi หลายตัว

ส่วนที่ท้าทายที่สุดของ Self-hosting AI บน Raspberry Pi cluster คือการกระจายภาระ inference ไปหลายโหนดเพื่อหลบข้อจำกัดด้าน RAM และ CPU โดยทั่วไปคุณอาจทำได้ 2 แนวทาง แนวทางแรกคือแยกงานเป็นหลาย service เช่น โหนดหนึ่งทำ embedding, อีกโหนดทำ retrieval, อีกโหนดทำ generation ซึ่งง่ายและคุ้มค่ากว่าในทางปฏิบัติ แนวทางที่สองคือ sharded inference จริง ๆ ที่แบ่งเลเยอร์ของโมเดลข้ามหลายโหนด วิธีนี้ซับซ้อนและ latency จาก network มีผลสูง จึงเหมาะกับคนที่ต้องการทดลองเชิงวิศวกรรมมากกว่าใช้งานทั่วไป สำหรับผู้เริ่มต้น ผมแนะนำแบบ service decomposition เพราะได้ประโยชน์คล้ายคลึงกันและเสถียรกว่า เช่น ใช้ lightweight embedding model บน worker-1, vector search บน worker-2, และ language generation บน master ผ่าน pipeline เดียว

version: "3.8" services: ai-server: image: local/llama-server:latest ports: - "8080:8080" volumes: - /mnt/ai-models/models:/models deploy: placement: constraints: - node.hostname == pi-master


  embeddings:

    image: ghcr.io/example/arm-embeddings:latest

    ports:

      - "8090:8090"

    deploy:

      placement:

        constraints:

          - node.hostname == pi-worker-1

vector-db: image: qdrant/qdrant:latest ports: - "6333:6333" volumes: - /mnt/ai-models/qdrant:/qdrant/storage deploy: placement: constraints: - node.hostname == pi-worker-2

ทำ Retrieval-Augmented Generation เพื่อชดเชยพลังที่ขาดของฮาร์ดแวร์เล็ก

ถ้าถามผมว่าอะไรคือเคล็ดลับที่ทำให้ Raspberry Pi cluster ดู “ฉลาดเกินตัว” คำตอบคือ RAG หรือ Retrieval-Augmented Generation เพราะแทนที่จะหวังให้โมเดลจำทุกอย่าง เราป้อนความรู้เฉพาะโดเมนให้มันค้นก่อนตอบ เช่น เอกสารคู่มือภายใน ไฟล์ Markdown, PDF, บันทึกงานวิจัย หรือฐานความรู้ในชุมชน กระบวนการง่าย ๆ คือแปลงเอกสารเป็นข้อความ สร้าง embeddings เก็บใน vector database แล้วค้นบริบทที่เกี่ยวข้องก่อนส่ง prompt ให้โมเดลเล็ก ตัวอย่าง Python เบื้องต้นสำหรับเชื่อม API มีดังนี้

import requests


query = "สรุปขั้นตอนติดตั้งคลัสเตอร์ AI ออฟไลน์"

context = "เอกสารภายใน: ติดตั้ง Docker, mount NFS, รัน llama-server..."

prompt = f"บริบท: {context}\n\nคำถาม: {query}\n\nตอบเป็นภาษาไทยแบบเข้าใจง่าย"

res = requests.post( "http://192.168.1.10:8080/completion", headers={"Content-Type": "application/json"}, json={ "prompt": prompt, "n_predict": 200, "temperature": 0.4 } ) print(res.json())

แนวทางนี้ช่วยให้ Self-hosting AI บน Raspberry Pi cluster มีประโยชน์กับงานจริงมากขึ้น แม้โมเดลจะไม่ได้ใหญ่โต แต่คำตอบจะตรงกับความรู้ในระบบของคุณ และไม่ต้องพึ่งอินเทอร์เน็ตตลอดเวลา

มุมมองเชิงวิเคราะห์: ความฝันเรื่อง sovereignty ต้องเดินคู่กับความจริงเรื่อง performance

ในช่วงกลางของบทความ ผมอยากชวนมองเรื่องนี้อย่างตรงไปตรงมา โปรเจกต์ลักษณะนี้มีพลังเชิงสัญลักษณ์สูงมาก เพราะมันยืนยันว่าผู้ใช้ทั่วไปยังสามารถสร้างโครงสร้างพื้นฐาน AI ของตัวเองได้โดยไม่ต้องรออนุญาตจากผู้ให้บริการรายใหญ่ แต่ในเวลาเดียวกัน เราไม่ควรขายฝันเกินจริงว่า Pi cluster จะมาแทน GPU server ระดับองค์กรได้ทั้งหมด ความต่างด้าน throughput, context window ขนาดใหญ่, multi-user concurrency และงาน reasoning หนักยังเป็นข้อเท็จจริง อย่างไรก็ตาม หากเป้าหมายของคุณคือความเป็นส่วนตัว การเรียนรู้ระบบ การทดลอง edge AI หรือการสร้างเครื่องมือเฉพาะกิจสำหรับชุมชน การทำ Self-hosting AI บน Raspberry Pi cluster นั้นมีความหมายมาก มันเปลี่ยน “ของเก่าไร้ค่า” ให้กลายเป็นฐานอำนาจทางดิจิทัลขนาดย่อม และผมมองว่านี่คือการใช้งานเทคโนโลยีอย่างสร้างสรรค์กว่าการไล่ซื้อฮาร์ดแวร์ใหม่ทุกครั้งที่มีโมเดลเวอร์ชันล่าสุดออกมา

ทดสอบความเป็นออฟไลน์ ความเป็นส่วนตัว และขีดจำกัดของระบบ

เมื่อระบบเริ่มใช้งานได้แล้ว อย่าหยุดแค่คำว่า “รันผ่าน” แต่ให้ทดสอบในมิติที่สำคัญจริง ได้แก่ การทำงานโดยไม่เชื่อมอินเทอร์เน็ต การตอบคำถามจากข้อมูลอ่อนไหวภายใน และความเสถียรเมื่อโหลดเพิ่มขึ้น คุณสามารถถอดสาย WAN แล้วทดสอบ API ภายใน LAN ว่ายังตอบได้หรือไม่ รวมถึงใช้เครื่องมืออย่าง ApacheBench หรือ hey ยิงคำขอเพื่อวัด latency เบื้องต้น ตัวอย่างเช่น

sudo apt install -y apache2-utils ab -n 20 -c 2 -p payload.json -T application/json http://192.168.1.10:8080/completion

ตัวอย่างไฟล์ payload.json

{ "prompt": "วิเคราะห์ข้อดีข้อเสียของคลัสเตอร์ Raspberry Pi สำหรับ AI ออฟไลน์", "n_predict": 100, "temperature": 0.5 }

นอกจากนี้ควรเฝ้าดู CPU, memory และอุณหภูมิระหว่างรันจริงด้วย

htop watch -n 1 vcgencmd measure_temp watch -n 1 free -h

ถ้าระบบเริ่ม swap หนัก อุณหภูมิทะลุ หรือมี packet delay สูง แปลว่าคุณต้องลดขนาดโมเดล ลดจำนวน concurrent requests หรือเพิ่มระบบระบายความร้อน

ปรับแต่งเพื่อให้ใช้งานได้จริง: thermal, swap, prompt design และ caching

ความลับของระบบเล็กที่ดูนิ่งและน่าใช้ มักไม่ได้อยู่ที่การโอเวอร์คล็อก แต่อยู่ที่การปรับแต่งเล็ก ๆ จำนวนมาก เช่น ติดฮีตซิงก์ให้ทุกบอร์ด ใช้พัดลมรอบต่ำแต่ลมสม่ำเสมอ ย้ายโมเดลไปไว้บน SSD แทน microSD และเขียน prompt ให้กระชับเพื่อลดจำนวน token ที่ต้องคำนวณ หากจำเป็นอาจเพิ่ม zram หรือ swap แบบพอประมาณ แต่ไม่ควรใช้เป็นทางออกหลัก เพราะจะทำให้ระบบช้ามาก ตัวอย่างติดตั้ง zram บน Ubuntu มีดังนี้

sudo apt install -y zram-tools sudo systemctl enable zramswap sudo systemctl start zramswap swapon --show

อีกส่วนที่หลายคนมองข้ามคือ caching ระดับแอปพลิเคชัน หากคุณมีคำถามที่เกิดซ้ำบ่อย เช่น คำสั่งคู่มือ หรือการค้นหาข้อมูลภายในองค์กร การเก็บผลลัพธ์ไว้ชั่วคราวจะช่วยลดภาระ inference ได้มาก รวมถึงการจำกัด context ให้เท่าที่จำเป็น ไม่อัดเอกสารทั้งหมดเข้าไปทุกครั้ง เพราะสำหรับคลัสเตอร์ขนาดเล็ก ทุก token ที่ลดได้คือ latency ที่คุณประหยัดได้จริง

ตัวอย่าง use case ที่เหมาะกับ Self-hosting AI บน Raspberry Pi cluster

แม้จะไม่ใช่เครื่องสำหรับทุกงาน แต่มีหลาย use case ที่เหมาะมากกับแนวทางนี้ เช่น ระบบถามตอบเอกสารในโรงเรียนชนบทที่อินเทอร์เน็ตไม่เสถียร, ผู้ช่วยค้นคู่มือซ่อมเครื่องจักรในเวิร์กช็อป, ระบบสรุปรายงานภายใน SME, ผู้ช่วยเขียนสคริปต์ DevOps เบื้องต้นในห้องแล็บ, หรือโหนด AI ส่วนตัวสำหรับจัดการบันทึกความรู้และงานเขียนที่ไม่ต้องการออกนอกบ้าน หากคุณผูกมันเข้ากับ Home Assistant, Nextcloud, หรือ Gitea ก็จะยิ่งได้ ecosystem ที่เป็นเจ้าของเองมากขึ้น ลิงก์อ้างอิงเพิ่มเติมที่น่าสนใจคือ Raspberry Pi Documentation https://www.raspberrypi.com/documentation/, Docker Docs https://docs.docker.com/, และ Ubuntu Server Guide https://ubuntu.com/server/docs ซึ่งช่วยเสริมความเข้าใจในแต่ละชั้นของระบบได้ดีมาก

บทสรุป: จาก e-waste สู่โครงสร้างพื้นฐาน AI ที่คุณควบคุมได้เอง

สุดท้ายแล้ว การทำ Self-hosting AI บน Raspberry Pi cluster ไม่ได้มีคุณค่าเพียงเพราะมันประหยัดหรือดูเท่ แต่มันคือการเรียนรู้ว่าระบบอัจฉริยะสามารถถูกย่อส่วนให้กลับมาอยู่ใกล้มือเราได้อีกครั้ง คุณจะได้เข้าใจทั้งฮาร์ดแวร์ เครือข่าย คอนเทนเนอร์ การเลือกโมเดล การออกแบบ pipeline และข้อแลกเปลี่ยนระหว่าง performance กับ privacy อย่างเป็นรูปธรรม แม้คลัสเตอร์จากบอร์ดรีไซเคิลจะไม่ใช่คำตอบสำหรับทุกปัญหา แต่มันคือคำตอบที่ทรงพลังสำหรับคนที่อยากเริ่มต้นสร้างอธิปไตยทางดิจิทัลของตัวเอง หากคุณมี Raspberry Pi เก่าหลายตัว นี่อาจเป็นเวลาที่ดีที่สุดในการปลุกมันให้กลับมามีชีวิตอีกครั้ง ไม่ใช่ในฐานะของเล่น แต่มาเป็นโครงสร้างพื้นฐาน AI ออฟไลน์ที่รับใช้คุณ ชุมชน และข้อมูลของคุณเองอย่างแท้จริง