Walidacja danych i weryfikacja danych – od słownika do uczenia maszynowego

Aditya Aggarwal, Kierownik ds. zaawansowanych analiz i Arnab Bose, Chief Scientific Officer, Abzooba

dość często używamy weryfikacji danych i walidacji danych zamiennie, gdy mówimy o jakości danych. Jednak te dwa terminy są różne. W tym artykule zrozumiemy różnicę w 4 różnych kontekstach:

  1. słownikowe znaczenie weryfikacji i walidacji
  2. różnica między weryfikacją danych a walidacją ogólnie
  3. różnica między weryfikacją a walidacją z perspektywy rozwoju oprogramowania
  4. różnica między weryfikacją danych a walidacją danych z perspektywy uczenia maszynowego

słownikowe znaczenie weryfikacji i walidacji

tabela 1 wyjaśnia słownikowe znaczenie słów weryfikacja i walidacja na kilku przykładach.

Tabela 1: Słownikowe znaczenie weryfikacji i walidacji
 tabela

podsumowując, weryfikacja polega na prawdziwości i dokładności, podczas gdy Walidacja polega na wspieraniu siły punktu widzenia lub poprawności twierdzenia. Walidacja sprawdza poprawność metodologii, podczas gdy weryfikacja sprawdza dokładność wyników.

różnica między weryfikacją danych a walidacją danych ogólnie

teraz, gdy rozumiemy dosłowne znaczenie tych dwóch słów, zbadajmy różnicę między “weryfikacją danych” a “walidacją danych”.

  • weryfikacja danych: aby upewnić się, że dane są dokładne.
  • walidacja danych: aby upewnić się, że dane są poprawne.

omówmy przykłady w tabeli 2.

Tabela 2: Przykłady” weryfikacja danych “i” walidacja danych ”
 Obraz

różnica między weryfikacją a walidacją z perspektywy rozwoju oprogramowania

z perspektywy rozwoju oprogramowania,

  • weryfikacja odbywa się w celu zapewnienia, że oprogramowanie jest wysokiej jakości, dobrze zaprojektowane, solidne i wolne od błędów bez wchodzenia w jego użyteczność.
  • Walidacja odbywa się w celu zapewnienia użyteczności oprogramowania i możliwości spełnienia potrzeb klienta.

Rysunek
Rys. 1: Różnice między weryfikacją a walidacją w tworzeniu oprogramowania (źródło)

jak pokazano na Rys. 1, Dowód poprawności, analiza solidności, testy jednostkowe, test integracyjny i inne to wszystkie etapy weryfikacji, w których zadania są ukierunkowane na weryfikację specyfiki. Wyjście oprogramowania jest weryfikowane w stosunku do żądanego wyjścia. Z drugiej strony, Kontrola modelu, testowanie czarnej skrzynki, testowanie użyteczności to wszystkie etapy walidacji, w których zadania są zorientowane na zrozumienie, czy oprogramowanie spełnia wymagania i oczekiwania.

różnica między weryfikacją danych a walidacją danych z perspektywy uczenia maszynowego

rola weryfikacji danych w potoku uczenia maszynowego polega na roli strażnika. Zapewnia dokładne i aktualizowane dane w czasie. Weryfikacja danych odbywa się przede wszystkim na nowym etapie pozyskiwania danych, tj. na etapie 8 rurociągu ML, Jak pokazano na Fig. 2. Przykładami tego kroku są identyfikacja zduplikowanych rekordów i wykonanie deduplikacji oraz usunięcie niedopasowania w informacjach o kliencie w polu takim jak adres lub numer telefonu.

z drugiej strony walidacja danych (na etapie 3 potoku ML) zapewnia, że przyrostowe dane z kroku 8, które są dodawane do danych uczenia się, są dobrej jakości i podobne (z perspektywy właściwości statystycznych) do istniejących danych szkoleniowych. Obejmuje to na przykład wykrywanie anomalii danych lub wykrywanie różnic między istniejącymi danymi treningowymi a nowymi danymi, które należy dodać do danych treningowych. W przeciwnym razie wszelkie problemy z jakością danych/różnice statystyczne w danych przyrostowych mogą zostać pominięte, a błędy szkoleniowe mogą gromadzić się w czasie i pogarszać dokładność modelu. W ten sposób walidacja danych wykrywa istotne zmiany (jeśli występują) w przyrostowych danych treningowych na wczesnym etapie, co pomaga w analizie przyczyn źródłowych.

rysunek
Rys. 2: składniki potoku uczenia maszynowego

Aditya Aggarwal pełni funkcję Data Science-Practice Lead w Abzooba Inc. Z ponad 12-letnim doświadczeniem w realizacji celów biznesowych poprzez rozwiązania oparte na danych, Aditya specjalizuje się w analizie predykcyjnej, uczeniu maszynowym, Business intelligence & strategii biznesowej w wielu branżach.

Dr Arnab Bose jest dyrektorem naukowym w Abzooba, firmie zajmującej się analityką danych i adiunktem na Uniwersytecie w Chicago, gdzie uczy uczenia maszynowego i analizy predykcyjnej, operacji uczenia maszynowego, analizy szeregów czasowych i prognozowania oraz analizy zdrowia w programie Master of Science in Analytics. Jest 20-letnim doświadczonym analitykiem predykcyjnym w branży, który lubi wykorzystywać nieustrukturyzowane i ustrukturyzowane dane do prognozowania i wpływania na wyniki behawioralne w opiece zdrowotnej, handlu detalicznym, finansach i transporcie. Obecnie zajmuje się stratyfikacją ryzyka zdrowotnego i zarządzaniem przewlekłymi chorobami z wykorzystaniem uczenia maszynowego oraz wdrażaniem i monitorowaniem modeli uczenia maszynowego.

podobne:

  • MLOps – ” dlaczego jest to wymagane?”i” co to jest”?
  • mój model uczenia maszynowego się nie uczy. Co mam zrobić?
  • Obserwowalność danych, Część II: Jak zbudować własne Monitory jakości danych za pomocą SQL

Leave a Reply