haushaltsgeräte-assistent: per ki durch die bedienungsanleitung
wir alle kennen das problem: die waschmaschine zeigt plötzlich einen rätselhaften fehlercode an oder man sucht im dicken handbuch des kühlschranks verzweifelt nach der aktivierung des urlaubsmodus. seitenlang wälzt man pdfs oder blättert durch kapitel – und verliert dabei zeit und nerven. wie schön wäre es, einfach die frage stellen zu können und direkt die antwort zu erhalten! genau hier setzt der haushaltsgeräte-assistent an: ein projekt, das bedienungsanleitungen in einen smarten chatbot verwandelt und dir in sekundenschnelle weiterhilft.
was ist der haushaltsgeräte-assistent?
der haushaltsgeräte-assistent ist ein lokal betriebener chatbot, der pdf-handbücher deiner geräte analysiert und fragen dazu in natürlicher sprache beantwortet. er läuft auf deinem eigenen rechner und kombiniert dabei bewährte komponenten: eine web-app auf basis von flask, eine vektor-datenbank (chromadb) zur schnellen textesuche sowie ein sprachmodell (llm) als antwort-generator. alle daten bleiben dabei auf deinem gerät – selbst ohne internetverbindung kannst du ihn nutzen, denn standardmäßig kommt ein lokales ki-modell zum einsatz. hast du allerdings einen openai-zugriffsschlüssel, kannst du alternativ auch die gpt-modelle von openai einbinden, um von deren leistungsfähigkeit zu profitieren. die benutzung ist denkbar einfach: software starten, webbrowser öffnen, eine oder mehrere anleitungs-dokumente hochladen – und schon kannst du per chat nach beliebigen details daraus fragen.
wichtige funktionen auf einen blick:
- upload beliebig vieler handbĂĽcher (pdf oder docx)
- automatische texterkennung (ocr) fĂĽr eingescannte dokumente
- intelligente zerlegung der texte in sinnvolle abschnitte (chunking)
- kontextbezogene suche mit berĂĽcksichtigung von synonymen
- komfortabler chat-dialog mit einer lokalen ki (ĂĽber ollama-server) im browser
- feedback-funktion zum einspeisen korrigierter antworten (für späteres fine-tuning)
- einfache dokumentverwaltung (mehrere handbücher laden/löschen nach bedarf)
wie funktionieren pdf-verarbeitung und langchain?
nach dem hochladen deiner dateien übernimmt das tool selbstständig die inhaltsaufbereitung. langchain – ein framework zum verbinden von language models mit datenquellen – spielt dabei eine zentrale rolle. zunächst werden die dokumente eingelesen und analysiert. enthält eine pdf beispielsweise nur bilder (häufig bei älteren gescannten anleitungen der fall), greift automatisch eine ocr-erkennung, um den text auszulesen. anschließend wird der text in sinnvolle einheiten zerlegt. diese chunking-strategie sorgt dafür, dass zusammenhängende inhalte beisammen bleiben und nicht mitten im satz getrennt werden. je nach inhaltstyp (lauftext, tabellen, aufzählungen usw.) passt sich die logik dynamisch an, damit jeder chunk für sich genommen verständlich bleibt. auf diese weise erhält die ki gut verdauliche häppchen an kontext, die sie bei der beantwortung nutzt, anstatt sich im unstrukturierten gesamttext zu verlieren.
das system erstellt im hintergrund auch vektor-repräsentationen (embeddings) dieser text-chunks und legt sie in einer lokalen datenbank ab (hier kommt chromadb ins spiel). warum der aufwand? so kann später eine eingehende frage semantisch mit dem inhalt der dokumente abgeglichen werden. statt nur stur nach stichworten zu suchen, findet die software auch textstellen, die sinngemäß zur frage passen. sogar unterschiedliche formulierungen werden erkannt – ein synonym-fallback stellt sicher, dass auch begriffe gefunden werden, die ähnlich zum gesuchten sind. stellt man also etwa die frage "was bedeutet fehlercode e05?", findet der assistent auch dann die richtige stelle, wenn im handbuch stattdessen von "error code e05" die rede ist.
kommen wir zum beantworten der frage: langchain übernimmt die orchestration und nutzt eine sogenannte retrieval qa chain. dabei holt das programm zunächst die relevantesten textstücke aus der vektordatenbank – also jene abschnitte, die inhaltlich am nächsten an der fragestellung sind. diese ausschnitte aus der anleitung werden dann dem sprachmodell als kontext mitgegeben. das llm (sei es ein lokales modell oder gpt-4 über openai) formuliert daraufhin in echtzeit eine antwort, die genau auf die frage zugeschnitten ist und auf den informationen aus der anleitung basiert. diese methode – retrieval augmented generation genannt – verbindet die stärken aus zwei welten: präzise information aus den vorhandenen dokumenten und die sprachgewandtheit eines modernen ki-modells. das ergebnis: du erhältst in sekundenschnelle eine hilfreiche antwort, ohne selbst im pdf suchen zu müssen.
openai oder lokale ki: zwei wege zum ziel
im hintergrund des assistenten arbeitet entweder ein cloud-basiertes gpt-modell von openai oder ein komplett lokal laufendes sprachmodell. die lokale variante nutzt ollama, einen kleinen server, der moderne open-source-llms auf deinem rechner ausführt. so bleiben alle abfragen und daten auf deiner maschine, und du vermeidest laufende kosten. allerdings braucht ein leistungsfähiges modell entsprechend ressourcen: das vorgeschlagene mixtral:8x7b
-modell erfordert zum beispiel etwa 40 gb freien arbeitsspeicher und liefert dafür bereits beeindruckend gute antworten. wenn genügend ram vorhanden ist, kann sogar ein größeres modell wie llama3:70b-instruct
(ca. 70 milliarden parameter) verwendet werden, was die antwortqualität weiter steigert – allerdings steigt dann der speicherbedarf auf mindestens ~48 gb. alternativ lassen sich auch spezialisierte modelle einsetzen, etwa deepseek:chat
, das für deutsch optimiert ist und entsprechend souverän mit deutschsprachigen texten umgeht.
die nutzung von openai lohnt sich vor allem dann, wenn dein pc keine so große ki rechnen kann oder du die bestmögliche antwortqualität suchst. mit einem gültigen api-schlüssel greift der assistent statt auf das lokale modell auf den openai-dienst (z.b. gpt-4-turbo
) zu. dadurch übernimmt das hochmoderne openai-modell die antwortgenerierung – meist mit exzellenter treffgenauigkeit, aber du solltest bedenken, dass hierbei je nach fragelänge und antwort token-kosten entstehen. zudem verlassen deine fragen (und die zum antworten herangezogenen textauszüge aus dem handbuch) deinen lokalen rechner und werden an den cloud-dienst übermittelt. datenschutzbewusste nutzer:innen werden daher eher bei der offline-variante bleiben. andererseits ist die openai-variante nützlich, wenn man schnell starten will, ohne zunächst große modelle herunterzuladen. letzten endes bietet der haushaltsgeräte-assistent bewusst beide optionen an: maximale datensouveränität mit der lokalen ki oder maximale leistungsfähigkeit mit einem online-modell – du entscheidest.
von der mĂĽhsamen suche zum dialog: vorteile im alltag
der mehrwert dieses ansatzes zeigt sich besonders in stressigen momenten. steht ein gerät still oder leuchtet eine unbekannte warnleuchte, hat man meist keine zeit oder lust, erst einmal das gesamte handbuch zu durchforsten. der haushaltsgeräte-assistent liefert hier innerhalb von augenblicken die entscheidenden informationen. anstatt beispielsweise zehn seiten bedienungsanleitung nach dem kapitel "störung" zu durchblättern, kann man einfach fragen: "was bedeutet die fehlermeldung f20 bei meiner waschmaschine?" – und erhält sofort eine erklärung samt hinweisen zur behebung. auch für alltägliche anwendungsfragen eignet sich der chat-assistent: "wie aktiviere ich den kindersicherungsmodus des backofens?" oder "welches programm spart am meisten energie?" lassen sich in natürlicher sprache stellen, und die ki fördert zügig die passenden antworten zutage. dank der kombination aus semantischer suche und sprachmodell versteht das system oft sogar unscharfe anfragen oder laienhaft beschriebene probleme und findet dennoch die relevanten stellen im text.
ein weiterer vorteil ist die dialogfähigkeit: du kannst rückfragen stellen oder weitere details erbitten, wenn dir eine antwort noch nicht ausreicht. die ki passt sich dem kontext an – ähnlich wie man es von chatbots à la chatgpt gewohnt ist. damit wird die bedienungsanleitung quasi interaktiv. gerade bei komplexen geräten oder selten genutzten funktionen entfällt so das mühsame blättern und interpretieren der fachbegriffe. stattdessen erhältst du eine leicht verständliche auskunft, zugeschnitten auf dein konkretes anliegen.
leicht anpassbar fĂĽr andere zwecke
das schöne an diesem projekt: die technik lässt sich ohne großen aufwand auf ganz andere inhalte übertragen. prinzipiell kann der gleiche ansatz – dokumente als basis + ki als beantworter – in vielen bereichen eingesetzt werden. ob technische dokumentationen, wissenschaftliche artikel, juristische texte oder interne firmendaten: indem man einfach die entsprechenden pdf- oder textdateien lädt, könnte man den assistenten leicht zweckentfremden. die vorhandene logik für chunking, vektorsuche und chat-ui bleibt gleich, nur die dateien ändern sich. selbst mehrsprachige dokumente wären denkbar, solange das verwendete llm diese sprachen beherrscht.
entwickler:innen können das open-source-projekt (mit mit-lizenz) zudem als basis nehmen, um eigene doc-bots zu bauen. die modulare architektur mit flask, langchain und chromadb erlaubt es, z.b. weitere dateiformate oder datenquellen zu integrieren. auch das feedback-system bietet potential: weil der assistent auf wunsch falsche antworten zusammen mit der korrekten referenz abspeichert, könnte man das modell später gezielt auf das eigene datenmaterial hin feinjustieren. so lernt die ki im lauf der zeit dazu und wird noch hilfreicher. insgesamt zeigt der haushaltsgeräte-assistent, wie flexibel solche lösungen heute schon sind – man muss nur kreativ werden, um sie für die eigenen bedürfnisse einzusetzen.
fazit: jetzt selbst ausprobieren
der haushaltsgeräte-assistent verbindet moderne ki-technologien mit pragmatischem nutzen im alltag. anstatt dich länger durch handbücher zu quälen, kannst du dich entspannt zurücklehnen und die antwort direkt von deiner persönlichen geräte-ki erhalten. das projekt zeigt, wie zugänglich retrieval-lösungen inzwischen geworden sind – ein laptop und ein paar bibliotheken genügen, um einen eigenen assistenten zu erstellen, der genau die informationen liefert, die man gerade braucht.
die einrichtung ist dabei gut dokumentiert und auch für interessierte mit grundlegenden pc-kenntnissen machbar. von der installation von python und den benötigten paketen bis zum download des ki-modells ist alles im github-projekt beschrieben: github.com/pprkrn/haushaltsgeraete-assistent – einfach loslegen und ausprobieren.