====== NoSQL und Big Data - KI bzw. "Automatic Decision Making - ADM" in der Datenverarbeitung====== {{ :images:the_big_data_pig.png?300 | This is also Big (Monte Baldo 2008) }} //"Data expands to fill the space available for storage."// => ([[https://en.wikipedia.org/wiki/Parkinson's_law| Parkinson's law]]) Wie entwicklet sich ein Hype wie NoSQL und KI mit der Zeit => https://www.gartner.com/en/research/methodologies/gartner-hype-cycle ==== NoSQL – Not Only SQL ==== Der Begriff NoSQL kann mehr als ein Denkansatz zur Datenverwaltung und Verarbeitung als eine spezielle Technologie definiert werden. Gemeinsam ist den verschiedenen Implementierungen auf dem Markt aber meist der Versuch, eine hohe Skalierbarkeit durch massive Parallelisierung über viele Rechnerknoten zu erreichen. Eine Einführung in das Thema => [[http://www.pipperr.de/knowhow/nosql/nosql.html|NoSQL -Not only SQL - DOAG-Regionaltreffen München am Donnerstag, 17. Februar 2011]] Siehe einführende Überlegungen unter: * http://highlyscalable.wordpress.com/2012/03/01/nosql-data-modeling-techniques/ Links zum Thema: * http://www.rittmanmead.com/blog/ === Stichwort Polyglotte Systeme === In einer vollständigen NoSQL Architektur geht der Trend dahin, für jede Aufgabe die passende Datenbank zu wählen. Damit kann sich allerdings ein erheblicher Zoo an Systemen mit unterschiedlichen Abfragesprachen entwickeln. === Die V's für NoSQL === Oft werden diese **V's** genannt als Motivation genannt: |**V**olumen | Daten in Ruhe | |**V**elocity | Daten in Bewegung | |**V**ariety | Daten in verschiedenen Formen| |**V**eracity | Daten in Zweifel | === Verteilte System implementieren=== CRDT - Conflict-Free Replicated Data Types => https://www.heise.de/developer/artikel/Verteilte-Daten-ohne-Muehe-Conflict-Free-Replicated-Data-Types-3944421.html ---- ===== KI oder besser "Automatic Decision Making" - ADM ===== Stoffsammlung zu "automatic decision making system", ADM - automatische Entscheidungsfindungssystemen Ein Einstieg * => https://www.heise.de/ct/artikel/KI-Lernangebote-fuer-Einsteiger-und-Fortgeschrittene-4537877.html * => https://www.heise.de/developer/artikel/Grundbegriffe-der-kuenstlichen-Intelligenz-5054503.html Begrifflichkeit => https://ai-glossary.org Freier Kurs => https://www.elementsofai.de/ und https://d2l.ai/ Als freie Option (Oracle Machine Learning (formerly Advanced Analytics)) in der Datenbank verfügbar, man glaubt es kaum! Oracle => https://blogs.oracle.com/machinelearning/machine-learning-in-oracle-database UND https://blogs.oracle.com/oraclespatial/spatial-now-free-with-all-editions-of-oracle-database Siehe auch => https://apex.oracle.com/database-features/ {{ :dba:oracle_machine_learning_license.jpg?400 | Oracle Machine Learning (formerly Advanced Analytics) now included in Se2 }} Links: * https://algorithmwatch.org/ * https://huggingface.co/ === Chat Bots === * https://chat.openai.com/chat === Bilder erzeugen === * https://stablediffusionweb.com/#demo === Online Modell erstellen === * https://teachablemachine.withgoogle.com/train ---- ==== Gedanken / Zitate zu Big Data==== "Daten sind nicht Nummern, sondern Diagramme von Oberflächen, Landschaften des Wissens, die eine neue Sicht auf die Welt und die Gesellschaft eröffnen: die algorithmische Vision." Matteo Pasquinelli , siehe auch [[https://www.sueddeutsche.de/digital/philosophie-die-gesellschaft-der-metadaten-1.4070474|Süeddeutsche - 31. Juli 2018- Die Gesellschaft der Metadaten ]] ---- ==== Freie Datenquellen ==== * https://en.wikipedia.org/wiki/Open_data * http://open.canada.ca/en/open-data * https://www.data.gov/ * http://data.europa.eu/euodp/en/data * https://data.worldbank.org/data-catalog/gender-statistics * https://population.un.org/wup/ Wetterdaten: * https://hjelp.yr.no/hc/en-us/sections/360000421433-Free-weather-data * https://de.windfinder.com Ortsnamen * http://www.geonames.org/2844830/rossbach.html Zugverbindungen: * https://www.chronotrains.com/ ---- ==== Die Oracle NoSQL Database - Ein Key Value Store ==== Die Oracle NoSQL Datenbank ist ein Vertreter der Key-Value Store Datenbanken. Auf Basis der soliden Berkeley DB Java Edition hat Oracle die bestehenden Replikationsmechanismen der Berkeley DB optimiert und damit eine neue Datenbank, die Oracle NoSQL entwickelt. [[nosql:oracle_nosql_database_einfuehrung|Die Oracle NoSQL Datenbank im Detail]] Veröffentlichung zu diesem Thema in der DOAG News 05-2014 (Eine Anmeldung an der DOAG Website ist allerdings erforderlich): => [[https://www.doag.org/formes/servlet/DocNavi?action=getFile&did=6352029|2014-05-News-Gunther-Pippèrr-Oracle-NoSQL---eine-Alternative-für-die-traditionelle-Datenbank.pdf]] ---- ====Redis ==== Redis ist bereits sei 2009 von Salvatore Sanfilippo und mittlerweise in der Version 3.3.5 (Dezember 2016) verfügbar. Redis ist im Prinzip ein Key Value inMemory Data Store, d.h. die ideale Komplente für die Speed Layer einer Lampda Architektur. Redis ist konsequent auf Performance ausgelegt und kann mit sehr hohen Datenraten umgehen. * [[nosql:redis_overview|Übersicht und Einsatzmöglichkeiten]] ---- ====Apache Hadoop==== Apache Hadoop ist ein Softwareprodukt für die verteilte Speicherung von Daten und ein Framework für die Verarbeitung von großer Datenmengen über das MapReduce Konzept. * [[nosql:apache_hadoop_einfuehrung|Erste Schritte mit Apache Hadoop]] ===ETL=== ETL zu Hadoop => Apache NiFi => https://nifi.apache.org/ ---- ==== IoT - Internet of Thinks ==== Durch den allgemeinen Trend zur Vernetzung und Interaktion von Dingen untereinander, fallen auch immer mehr Daten an. Das treibt auch die neuen Geschäftsmodell im BigData Markt an. ===IoT Suchmaschine=== * https://www.shodan.io/ === IoT === Electric imp => https://electricimp.com/ * [[elektronik:start_electric_imp_iot|Erste Erfahrungen mit Electric IMP]] ---- ====Time Series Analytics==== ===InfluxDB== * [[prod:grafana_windows|Erste Erfahrungen mit InfluxDB und Grafana unter Windows ]] * [[raspberry:odroid_hc1_influx_db_grafana|Odroid HC1 Monitoring Appliance mit InfluxDB und Grafana ]] * [[prod:telegraf_influx_shelly_plug|Die Daten eines Shelly Plugs über Telegraf in die InfluxDB schreiben ]] * [[prod:telegraf_influx_sma_batterie_storage_sbs|Die JSON Daten eines SMA Batterie Wechselrichters über Telegraf in die InfluxDB schreiben ]] ===Visualisierung=== * https://grafana.com/ ---- ==== Permissionless distributed database - Block Chain ==== Siehe => https://en.wikipedia.org/wiki/Block_chain_(database) Mehr: * https://www.oreilly.com/ideas/understanding-the-blockchain * https://www.blockchain-council.org/blockchain/how-is-blockchain-different-from-database/ Umsetzen mit: * https://www.hyperledger.org/projects/fabric * https://www.blockchain-council.org/blockchain/list-of-best-open-source-blockchain-platforms/ OpenBook zu BitCoin * https://d28rh4a8wq0iu5.cloudfront.net/bitcointech/readings/princeton_bitcoin_book.pdf?a=1 Implementierungen: * https://blockstack.org/ Oracle Block Chain Service * https://www.oracle.com/cloud/blockchain/index.html ---- ==== Die Lambda-Architektur - Query=f(all data) ==== * http://manning.com/marz/ * http://www.databasetube.com/database/big-data-lambda-architecture/ * http://www.soutier.de/blog/2014/02/23/lambda-architektur/ Architektur Pattern: CQRS - Command Query Responsibility Segregation: * http://msdn.microsoft.com/en-us/library/jj591573.aspx * http://martinfowler.com/bliki/CQRS.html Tee-pipe-and-filters: * http://www.fh-wedel.de/~si/seminare/ws97/Ausarbeitung/3.Krutscher/archmu1.htm * http://www.csee.wvu.edu/~ammar/CU/swarch/lecture%20slides/slides%204%20sw%20arch%20styles/supporting%20slides/SWArch-4-PipesandFilter.pdf ---- ==== Message Queues ==== Publish-Subscribe-Messaging-Systems Pulsar => http://pulsar.apache.org/ ---- ==== Daten Migration ==== Plattformübergreifende Validierung von Daten mit Googles Data Validation Siehe dazu => https://pypi.org/project/google-pso-data-validator/1.2.0/ ---- ==== Konferenzen ==== * http://www.tdwi-konferenz.de/ * http://www.data2day.de/ ---- ==== Webseiten zum Thema Big Data ==== * http://www.data-science-blog.com/ * https://analytics.club/ * https://www.datasciencecentral.com/ Oracle: * https://blogs.oracle.com/bigdata/ ---- ==== Big Data in der Cloud ==== Günstige Einsteiger Konditionen: * http://www.exasol.com/en/ Cloud Bericht => https://hub.kpmg.de/cloud-monitor-2018 ---- ==== Buchempfehlungen ==== * https://pragprog.com/book/rwdata/seven-databases-in-seven-weeks * http://www.hanser-fachbuch.de/buch/NoSQL/9783446427532